このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220318となっている論文です。

PDF登録状況(公開日: 20220318)

TitleAuthorsAbstract論文公表日・翻訳日
# 都市移動性の向上 : 人工知能と新しい技術を使って供給と需要を結びつける

Improving Urban Mobility: using artificial intelligence and new technologies to connect supply and demand ( http://arxiv.org/abs/2204.03570v1 )

ライセンス: Link先を確認
Ana L. C. Bazzan(参考訳) 我々の社会におけるモビリティの需要が増大するにつれて、都市モビリティを中心とした様々な問題が、この惑星の都市住民を悩ませている。 例えば、効率的な(しかしストレスが少ない)方法でAからBへ進むにはどうすればよいのか? これらの疑問や懸念は新型コロナウイルス(covid-19)パンデミックの間でさえ変化せず、それとは対照的に、公共交通機関を避けている人々は自動車交通の増加にのみ寄与している。 インテリジェントトランスポートシステム(ITS)は,情報通信技術をどのように活用するかを交通問題に適用するかを検討することを目的としている。 これは、インフラストラクチャ(例えば、道路、信号機など)の監視と管理を意味する可能性がある。 しかし、現在、ITSは需要管理も対象としている。 このパノラマでは、人工知能が重要な役割を担い、特にコンピュータビジョン、コネクテッドおよび自律走行車の使用、エージェントベースのシミュレーションなど、機械学習の進歩において重要である。 本研究では,本グループが開発したいくつかの作品について,供給側(ITS作品に共通する)だけでなく,需要側,そして新たな視点において,両者の統合を包括的に論じる。

As the demand for mobility in our society seems to increase, the various issues centered on urban mobility are among those that worry most city inhabitants in this planet. For instance, how to go from A to B in an efficient (but also less stressful) way? These questions and concerns have not changed even during the covid-19 pandemic; on the contrary, as the current stand, people who are avoiding public transportation are only contributing to an increase in the vehicular traffic. The are of intelligent transportation systems (ITS) aims at investigating how to employ information and communication technologies to problems related to transportation. This may mean monitoring and managing the infrastructure (e.g., traffic roads, traffic signals, etc.). However, currently, ITS is also targeting the management of demand. In this panorama, artificial intelligence plays an important role, especially with the advances in machine learning that translates in the use of computational vision, connected and autonomous vehicles, agent-based simulation, among others. In the present work, a survey of several works developed by our group are discussed in a holistic perspective, i.e., they cover not only the supply side (as commonly found in ITS works), but also the demand side, and, in an novel perspective, the integration of both.
翻訳日:2022-04-10 11:10:56 公開日:2022-03-18
# (参考訳) deepad: アルツハイマー病進行のロバストなディープラーニングモデルによる実世界臨床応用 [全文訳有]

DeepAD: A Robust Deep Learning Model of Alzheimer's Disease Progression for Real-World Clinical Applications ( http://arxiv.org/abs/2203.09096v2 )

ライセンス: CC0 1.0
Claudia Iriondo, Evan Casey, Mohsen Hejrati, Somaye Hashemifar(参考訳) 患者の将来の軌跡を予測する能力は、アルツハイマー病(AD)のような複雑な疾患の治療薬の開発に向けた重要なステップである。 しかし、病気の進行を予測するために開発されたほとんどの機械学習アプローチは、単一タスクモデルまたは単一モダリティモデルであり、高次元画像を用いたマルチタスク学習を含む設定では直接適用できない。 さらに、これらのアプローチのほとんどは単一のデータセット(すなわちコホート)で訓練されており、他のコホートには一般化できない。 本稿では,複数コホートからの経時的臨床・神経画像データを分析し,AD進行を予測するためのマルチモーダル・マルチタスク深層学習モデルを提案する。 提案モデルでは,3次元畳み込みニューラルネットワークの高次元MRI特徴と臨床および人口統計情報を含む他のデータモダリティを統合し,患者の将来の軌跡を予測する。 本モデルでは,研究固有の画像バイアス,特に研究間領域シフトを緩和するために,敵対的損失を用いる。 さらに,シャープネス・アウェア・最小化(SAM)最適化手法を適用し,モデル一般化をさらに改善した。 提案モデルでは, 実験結果の評価と検証のために, 各種データセット上で実験を行った。 私たちの結果は 1)我々のモデルはベースラインモデルよりも大幅に改善され、 2) 3次元畳み込みニューラルネットワークから抽出したニューロイメージング特徴を用いたモデルは,MRI由来の容積特徴に適用した場合に,同じモデルより優れている。

The ability to predict the future trajectory of a patient is a key step toward the development of therapeutics for complex diseases such as Alzheimer's disease (AD). However, most machine learning approaches developed for prediction of disease progression are either single-task or single-modality models, which can not be directly adopted to our setting involving multi-task learning with high dimensional images. Moreover, most of those approaches are trained on a single dataset (i.e. cohort), which can not be generalized to other cohorts. We propose a novel multimodal multi-task deep learning model to predict AD progression by analyzing longitudinal clinical and neuroimaging data from multiple cohorts. Our proposed model integrates high dimensional MRI features from a 3D convolutional neural network with other data modalities, including clinical and demographic information, to predict the future trajectory of patients. Our model employs an adversarial loss to alleviate the study-specific imaging bias, in particular the inter-study domain shifts. In addition, a Sharpness-Aware Minimization (SAM) optimization technique is applied to further improve model generalization. The proposed model is trained and tested on various datasets in order to evaluate and validate the results. Our results showed that 1) our model yields significant improvement over the baseline models, and 2) models using extracted neuroimaging features from 3D convolutional neural network outperform the same models when applied to MRI-derived volumetric features.
翻訳日:2022-03-27 07:52:37 公開日:2022-03-18
# (参考訳) 脳ネットワーク解析のための深層強化学習誘導グラフニューラルネットワーク [全文訳有]

Deep Reinforcement Learning Guided Graph Neural Networks for Brain Network Analysis ( http://arxiv.org/abs/2203.10093v1 )

ライセンス: CC BY 4.0
Xusheng Zhao, Jia Wu, Hao Peng, Amin Beheshti, Jessica Monaghan, David McAlpine, Heivet Hernandez-Perez, Mark Dras, Qiong Dai, Yangyang Li, Philip S. Yu, Lifang He(参考訳) 拡散テンソルイメージング(DTI)や機能的磁気共鳴イメージング(fMRI)のような現代の神経イメージング技術は、人間の脳を脳ネットワークやコネクトームとしてモデル化することができる。 脳ネットワークの構造情報と階層的パターンの取得は、脳機能や疾患状態を理解する上で不可欠である。 近年,グラフニューラルネットワーク(GNN)の有望なネットワーク表現学習能力は,脳ネットワーク解析のための多くのGNNベースの手法を提案している。 具体的には、機能集約と大域プールを用いて、脳ネットワークインスタンスを下流脳ネットワーク分析タスクに使用する意味のある低次元表現に変換する。 しかし、既存のGNNベースの手法は、異なる被験者の脳ネットワークが様々なアグリゲーションの繰り返しを必要とすることを無視し、すべての脳ネットワークを学習するために、GNNを一定の数のレイヤーで使用することが多い。 したがって、脳ネットワーク分析を促進するためのGNNの可能性をいかに完全にリリースするかは、いまだに自明ではない。 そこで本研究では,各脳ネットワークに最適なGNNアーキテクチャを探索する新しい脳ネットワーク表現フレームワークBN-GNNを提案する。 具体的には、BN-GNNは、特定の脳ネットワークに必要な機能集約(GNN層数で表される)の最適な数を自動的に決定するために、メタ政治を訓練するために深層強化学習(DRL)を使用している。 8つの実世界の脳ネットワークデータセットに対する大規模な実験により、提案したBN-GNNは、異なる脳ネットワーク分析タスクにおける従来のGNNの性能を改善することが示された。

Modern neuroimaging techniques, such as diffusion tensor imaging (DTI) and functional magnetic resonance imaging (fMRI), enable us to model the human brain as a brain network or connectome. Capturing brain networks' structural information and hierarchical patterns is essential for understanding brain functions and disease states. Recently, the promising network representation learning capability of graph neural networks (GNNs) has prompted many GNN-based methods for brain network analysis to be proposed. Specifically, these methods apply feature aggregation and global pooling to convert brain network instances into meaningful low-dimensional representations used for downstream brain network analysis tasks. However, existing GNN-based methods often neglect that brain networks of different subjects may require various aggregation iterations and use GNN with a fixed number of layers to learn all brain networks. Therefore, how to fully release the potential of GNNs to promote brain network analysis is still non-trivial. To solve this problem, we propose a novel brain network representation framework, namely BN-GNN, which searches for the optimal GNN architecture for each brain network. Concretely, BN-GNN employs deep reinforcement learning (DRL) to train a meta-policy to automatically determine the optimal number of feature aggregations (reflected in the number of GNN layers) required for a given brain network. Extensive experiments on eight real-world brain network datasets demonstrate that our proposed BN-GNN improves the performance of traditional GNNs on different brain network analysis tasks.
翻訳日:2022-03-27 06:43:52 公開日:2022-03-18
# (参考訳) SOLIS:ディープニューラルネットワークを用いた自律溶解度スクリーニング [全文訳有]

SOLIS: Autonomous Solubility Screening using Deep Neural Networks ( http://arxiv.org/abs/2203.10970v1 )

ライセンス: CC BY 4.0
Gabriella Pizzuto, Jacopo de Berardinis, Louis Longley, Hatem Fakhruldeen, and Andrew I. Cooper(参考訳) 物質発見の加速は、特に医薬品やクリーンエネルギー生産において、社会と産業に大きな影響を及ぼす。 多くの実験機器はある程度の自動化があり、継続的な実行と高いスループットを促進する。 しかし,試料調製は手作業で行われていることが一般的である。 これにより、研究者は繰り返しタスクにかなりの時間を費やし、エラーが発生し、統計的に関連のあるデータの生成を禁止できる。 結晶化実験は多くの化学分野において、精製とポリモルフィックスクリーニング実験の両方で一般的である。 最初の段階は、しばしば分子の溶解度スクリーン、すなわち分子化合物が特定の溶媒に溶解したかどうかを理解することである。 これは通常、時間がかかり、集中的に働きます。 さらに、分子の溶解度限界の正確な知識は必要とせず、各溶媒の溶解度閾値を単純に測定するだけで十分である。これに対処するために、人間の化学者が溶液に固体が完全に溶解したかどうかを視覚的に評価する方法に着想を得た新しいカスケード深層モデルを提案する。 本稿では,画像分割と畳み込みニューラルネットワークを用いた画像分類のための最先端手法を活用した,第1次完全自律溶解度スクリーニングフレームワークを設計,開発,評価し,まず,異なる分子と溶媒からなるデータセットを作成し,実世界化学実験室で収集する。 次に,7自由度ロボットマニピュレータに装着したアイ・イン・ハンドカメラを用いて記録したデータについて評価を行い,様々なセットアップで99.13%の精度が得られることを示した。

Accelerating material discovery has tremendous societal and industrial impact, particularly for pharmaceuticals and clean energy production. Many experimental instruments have some degree of automation, facilitating continuous running and higher throughput. However, it is common that sample preparation is still carried out manually. This can result in researchers spending a significant amount of their time on repetitive tasks, which introduces errors and can prohibit production of statistically relevant data. Crystallisation experiments are common in many chemical fields, both for purification and in polymorph screening experiments. The initial step often involves a solubility screen of the molecule; that is, understanding whether molecular compounds have dissolved in a particular solvent. This usually can be time consuming and work intensive. Moreover, accurate knowledge of the precise solubility limit of the molecule is often not required, and simply measuring a threshold of solubility in each solvent would be sufficient.To address this, we propose a novel cascaded deep model that is inspired by how a human chemist would visually assess a sample to determine whether the solid has completely dissolved in the solution. In this paper, we design, develop, and evaluate the first fully autonomous solubility screening framework, which leverages state-of-the-art methods for image segmentation and convolutional neural networks for image classification.To realise that, we first create a dataset comprising different molecules and solvents, which is collected in a real-world chemistry laboratory. We then evaluated our method on the data recorded through an eye-in-hand camera mounted on a seven degree-of-freedom robotic manipulator, and show that our model can achieve 99.13% test accuracy across various setups.
翻訳日:2022-03-27 06:14:23 公開日:2022-03-18
# (参考訳) パーキンソン病の鑑別診断における筆跡の多様性の寄与 [全文訳有]

Contribution of Different Handwriting Modalities to Differential Diagnosis of Parkinson's Disease ( http://arxiv.org/abs/2203.11269v1 )

ライセンス: CC BY 4.0
Peter Drot\'ar, Ji\v{r}\'i Mekyska, Zden\v{e}k Sm\'ekal, Irena Rektorov\'a, Lucia Masarov\'a, Marcos Faundez-Zanuy(参考訳) 本稿では,パーキンソン病の診断における筆跡形態の違いの寄与について検討した。 タブレット表面に作用する表面の運動, 空気中の運動, 圧力を分析した。 特に空気中の運動や圧力に基づく特徴は、過去の研究ではほとんど考慮されていない。 パーキンソン病 (PD) の診断に関係した情報も, 空気圧や空気中の運動にも有意であることを示す。 従来のキネマティック・時空間的特徴に加えて,手書き信号のエントロピーと経験的モード分解に基づく新たな特徴群を提案する。 以上の結果から, pd分類のroc曲線 (auc) 下の89%領域における分類性能を提供するpdのバイオマーカーとして, 手書きが利用可能であることが示唆された。

In this paper, we evaluate the contribution of different handwriting modalities to the diagnosis of Parkinson's disease. We analyse on-surface movement, in-air movement and pressure exerted on the tablet surface. Especially in-air movement and pressure-based features have been rarely taken into account in previous studies. We show that pressure and in-air movement also possess information that is relevant for the diagnosis of Parkinson's Disease (PD) from handwriting. In addition to the conventional kinematic and spatio-temporal features, we present a group of the novel features based on entropy and empirical mode decomposition of the handwriting signal. The presented results indicate that handwriting can be used as biomarker for PD providing classification performance around 89% area under the ROC curve (AUC) for PD classification.
翻訳日:2022-03-27 06:02:11 公開日:2022-03-18
# インシシットフィードバックによるパーソナライズされたアイテム・ツー・アイテムレコメンデーションメトリクスの学習

Learning Personalized Item-to-Item Recommendation Metric via Implicit Feedback ( http://arxiv.org/abs/2203.12598v1 )

ライセンス: Link先を確認
Trong Nghia Hoang, Anoop Deoras, Tong Zhao, Jin Li, George Karypis(参考訳) 本稿では,暗黙のフィードバックによるメトリクス学習の新しい視点から,レコメンデーションシステムにおける項目間推薦問題について検討する。 我々は,アイテムの内部内容とユーザとのインタラクションの双方を捉えた,個人化可能なディープメトリックモデルを開発し,検討する。 そのようなモデルを学ぶには2つの重要な課題があります。 まず、ほとんどの計量学習法の仮定から逸脱する明示的な類似性アノテーションは存在しない。 第二に、これらのアプローチは、アイテムがしばしば複数のメタデータソースによって表現され、異なるユーザーがそれらのソースの異なる組み合わせを使用して独自の類似性の概念を形成するという事実を無視している。 これらの課題に対処するため,確率モデルのカーネルパラメータとして組み込んだ新しい計量表現を開発した。 これは、ユーザが対話したアイテム間の相関を表現するのに役立ち、新しいアイテムとのユーザのインタラクションを予測するのに使うことができる。 提案手法は,類似アイテムが同一ユーザから類似したインタラクションを誘導する直感に基づくもので,暗黙的なフィードバック信号の予測にメトリックパラメータ化モデルを適用することで,各ユーザに適したメトリックを見つけるための間接的ガイドとなる。 この目的のために,提案手法が理論レンズからどのように有効であるか,いつ有効かも分析する。 その経験的効果は、いくつかの実世界のデータセットにも示されている。

This paper studies the item-to-item recommendation problem in recommender systems from a new perspective of metric learning via implicit feedback. We develop and investigate a personalizable deep metric model that captures both the internal contents of items and how they were interacted with by users. There are two key challenges in learning such model. First, there is no explicit similarity annotation, which deviates from the assumption of most metric learning methods. Second, these approaches ignore the fact that items are often represented by multiple sources of meta data and different users use different combinations of these sources to form their own notion of similarity. To address these challenges, we develop a new metric representation embedded as kernel parameters of a probabilistic model. This helps express the correlation between items that a user has interacted with, which can be used to predict user interaction with new items. Our approach hinges on the intuition that similar items induce similar interactions from the same user, thus fitting a metric-parameterized model to predict an implicit feedback signal could indirectly guide it towards finding the most suitable metric for each user. To this end, we also analyze how and when the proposed method is effective from a theoretical lens. Its empirical effectiveness is also demonstrated on several real-world datasets.
翻訳日:2022-03-27 05:08:19 公開日:2022-03-18
# (参考訳) Align Transformer:医療報告作成のための視覚領域と疾患タグの階層的アライメント [全文訳有]

AlignTransformer: Hierarchical Alignment of Visual Regions and Disease Tags for Medical Report Generation ( http://arxiv.org/abs/2203.10095v1 )

ライセンス: CC BY 4.0
Di You, Fenglin Liu, Shen Ge, Xiaoxia Xie, Jing Zhang, Xian Wu(参考訳) 近年,医療画像の長い記述文を自動生成することを目的とした医療レポート生成が研究の関心を集めている。 一般的な画像キャプションタスクとは異なり、データ駆動ニューラルモデルでは、医療レポート生成がより難しい。 これは主に原因である 1)本質的なデータバイアス:正常な視覚領域が異常な視覚領域のデータセットを支配し、 2) 非常に長い配列である。 上記の2つの問題を緩和するために、Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。 1)AHAモジュールは、まず入力画像から疾患タグを予測し、次に、視覚領域と疾患タグを階層的に整列させることで、多彩な視覚特徴を学習する。 取得した病原性視覚特徴は、入力画像の異常領域をよりよく表現し、データのバイアス問題を緩和することができる。 2)MGTモジュールは多機能化とTransformerフレームワークを効果的に利用し,長い医療報告を生成する。 パブリックIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。 さらに,プロの放射線技師による人的評価は,我々のアプローチの有効性をさらに証明している。

Recently, medical report generation, which aims to automatically generate a long and coherent descriptive paragraph of a given medical image, has received growing research interests. Different from the general image captioning tasks, medical report generation is more challenging for data-driven neural models. This is mainly due to 1) the serious data bias: the normal visual regions dominate the dataset over the abnormal visual regions, and 2) the very long sequence. To alleviate above two problems, we propose an AlignTransformer framework, which includes the Align Hierarchical Attention (AHA) and the Multi-Grained Transformer (MGT) modules: 1) AHA module first predicts the disease tags from the input image and then learns the multi-grained visual features by hierarchically aligning the visual regions and disease tags. The acquired disease-grounded visual features can better represent the abnormal regions of the input image, which could alleviate data bias problem; 2) MGT module effectively uses the multi-grained features and Transformer framework to generate the long medical report. The experiments on the public IU-Xray and MIMIC-CXR datasets show that the AlignTransformer can achieve results competitive with state-of-the-art methods on the two datasets. Moreover, the human evaluation conducted by professional radiologists further proves the effectiveness of our approach.
翻訳日:2022-03-27 05:07:28 公開日:2022-03-18
# (参考訳) 視覚音声の質を推定する知覚モデルに向けて [全文訳有]

Towards a Perceptual Model for Estimating the Quality of Visual Speech ( http://arxiv.org/abs/2203.10117v1 )

ライセンス: CC BY 4.0
Zakaria Aldeneh, Masha Fedzechkina, Skyler Seto, Katherine Metcalf, Miguel Sarabia, Nicholas Apostoloff, Barry-John Theobald(参考訳) 音声から自然なキャラクタアニメーションを駆動するためには,現実的な唇の動きを生成することが重要である。 これまでの研究では、音声から唇の動きを生成するためのモデルの最適化と評価に使用される伝統的な指標は、アニメーションの品質に対する主観的な意見のよい指標ではないことが示されている。 しかし、アニメーションの品質を評価するために反復的な主観的研究を行うことは時間がかかり、複製が困難である。 本研究では,摂動唇運動と唇運動品質の主観的評価との関係について考察する。 具体的には, 唇運動系列の調音度を調整し, この調整が唇運動の知覚的品質にどう影響するかをユーザスタディで調査する。 そして、ユーザから収集したスコアを使ってモデルをトレーニングし、アニメーションシーケンスの主観的品質を自動的に予測します。 以上の結果から, ユーザは, 知覚的品質の面では, 若干の過剰発話で唇運動をスコア付けし, (2) 過発話は知覚的唇運動の質に対して, 過剰発話の効果と比較してより有害な効果を示し, (3) 所定の唇運動系列に対する主観的知覚スコアを, 誤差率の低さで自動的に推定できることがわかった。

Generating realistic lip motions to simulate speech production is key for driving natural character animations from audio. Previous research has shown that traditional metrics used to optimize and assess models for generating lip motions from speech are not a good indicator of subjective opinion of animation quality. Yet, running repetitive subjective studies for assessing the quality of animations can be time-consuming and difficult to replicate. In this work, we seek to understand the relationship between perturbed lip motion and subjective opinion of lip motion quality. Specifically, we adjust the degree of articulation for lip motion sequences and run a user-study to examine how this adjustment impacts the perceived quality of lip motion. We then train a model using the scores collected from our user-study to automatically predict the subjective quality of an animated sequence. Our results show that (1) users score lip motions with slight over-articulation the highest in terms of perceptual quality; (2) under-articulation had a more detrimental effect on perceived quality of lip motion compared to the effect of over-articulation; and (3) we can automatically estimate the subjective perceptual score for a given lip motion sequences with low error rates.
翻訳日:2022-03-27 04:54:04 公開日:2022-03-18
# (参考訳) 物議を醸す政治イベントのイベントコリファレンス解決 [全文訳有]

Event Coreference Resolution for Contentious Politics Events ( http://arxiv.org/abs/2203.10123v1 )

ライセンス: CC BY 4.0
Ali H\"urriyeto\u{g}lu, Osman Mutlu, Fatih Beyhan, F{\i}rat Duru\c{s}an, Ali Safaya, Reyyan Yeniterzi, Erdem Y\"or\"uk(参考訳) 複数のソース、言語、国からランダムに抽出されたサンプルに基づいて、イベントコリファレンス解決のためのデータセットを提案する。 イベント情報収集に関する初期の奨学金は、イベントコリファレンス解決の貢献を定量化していない。 代表的な多言語コーパスを作成し分析し,最先端イベントコリファレンス解決手法の性能と貢献度を測定した。 イベントのほぼ半数は、他のイベントの言及と同一のドキュメントで言及されており、これは誤ったイベント情報や部分的なイベント情報を取得するのが避けられないことを発見した。 我々は、イベント参照の解決がこの状況を改善するのに役立つことを示した。 私たちの貢献は、これまで見過ごされ、あるいは研究が難しい課題に光を当てています。 今後のイベント情報収集研究は,本報告で提示した結果に基づいて設計することができる。 この研究のリポジトリはhttps://github.com/e merging-welfare/ECR4 -Contentious-Politic sにある。

We propose a dataset for event coreference resolution, which is based on random samples drawn from multiple sources, languages, and countries. Early scholarship on event information collection has not quantified the contribution of event coreference resolution. We prepared and analyzed a representative multilingual corpus and measured the performance and contribution of the state-of-the-art event coreference resolution approaches. We found that almost half of the event mentions in documents co-occur with other event mentions and this makes it inevitable to obtain erroneous or partial event information. We showed that event coreference resolution could help improving this situation. Our contribution sheds light on a challenge that has been overlooked or hard to study to date. Future event information collection studies can be designed based on the results we present in this report. The repository for this study is on https://github.com/e merging-welfare/ECR4 -Contentious-Politic s.
翻訳日:2022-03-27 04:42:23 公開日:2022-03-18
# (参考訳) 事実アブレーションによる事実接地コンテンツ転送の探索 [全文訳有]

Probing Factually Grounded Content Transfer with Factual Ablation ( http://arxiv.org/abs/2203.10133v1 )

ライセンス: CC BY 4.0
Peter West, Chris Quirk, Michel Galley, Yejin Choi(参考訳) 最近の成功にもかかわらず、大きなニューラルモデルは、しばしば事実的に誤ったテキストを生成する。 これは、事実性に関する標準的な自動評価が欠如していることであり、もし測定できなければ、意味のある改善はできない。地平線生成は、事実情報の信頼性のある外部文書(接地)にモデルを描画し、事実性の課題を単純化する。また、事実性の測定も単純化され、すべての事実ではなく、根拠に一致するかどうかをテストする。 しかし、事実整合性のための標準的な自動計量がなければ、事実基底生成は未解決の問題である。 本研究は, コンテンツ転送におけるこの問題を, ファウンディングの情報を用いて, 世代がプロンプトを延長する問題である。 特に、この領域では、事実的一貫性を自動的に測定するために事実的アブレーションの概念を導入することができる。 実際には、2つの接地文書でモデルを提示してこれを測定し、モデルがより事実的に関連のある文書を使用することを推奨する。 これを測るために2つの評価セットを貢献する。 新たな評価を応用して,強いベースラインよりも優れた新しい手法を提案する。

Despite recent success, large neural models often generate factually incorrect text. Compounding this is the lack of a standard automatic evaluation for factuality--it cannot be meaningfully improved if it cannot be measured. Grounded generation promises a path to solving both of these problems: models draw on a reliable external document (grounding) for factual information, simplifying the challenge of factuality. Measuring factuality is also simplified--to factual consistency, testing whether the generation agrees with the grounding, rather than all facts. Yet, without a standard automatic metric for factual consistency, factually grounded generation remains an open problem. We study this problem for content transfer, in which generations extend a prompt, using information from factual grounding. Particularly, this domain allows us to introduce the notion of factual ablation for automatically measuring factual consistency: this captures the intuition that the model should be less likely to produce an output given a less relevant grounding document. In practice, we measure this by presenting a model with two grounding documents, and the model should prefer to use the more factually relevant one. We contribute two evaluation sets to measure this. Applying our new evaluation, we propose multiple novel methods improving over strong baselines.
翻訳日:2022-03-27 04:26:14 公開日:2022-03-18
# (参考訳) デバイス上での推論のための圧縮埋め込み学習 [全文訳有]

Learning Compressed Embeddings for On-Device Inference ( http://arxiv.org/abs/2203.10135v1 )

ライセンス: CC BY 4.0
Niketan Pansare, Jay Katukuri, Aditya Arora, Frank Cipollone, Riyaaz Shaik, Noyan Tokgozoglu, Chandru Venkataraman(参考訳) ディープラーニングでは、埋め込みは単語、アプリ、映画といったカテゴリーの実体を表現するために広く使われている。 埋め込み層は各エンティティをユニークなベクトルにマッピングし、レイヤのメモリ要求はエンティティの数に比例する。 レコメンデーションドメインでは、与えられたカテゴリは数十万のエンティティを持ち、その埋め込み層はギガバイトのメモリを消費することができる。 これらのネットワークの規模は、リソース制約のある環境でのデプロイを困難にしている。 本稿では,各エンティティを独自の埋め込みにマッピングしながら,埋め込みテーブルのサイズを小さくする新しい手法を提案する。 完全な埋め込みテーブルを維持する代わりに、2つの別々の埋め込みテーブルを使用して、各エンティティの埋め込みを「オンザフライ」に構築します。 最初のテーブルはハッシュを使って複数のエンティティに埋め込みを強制する。 第2のテーブルは、エンティティ毎に1つのトレーニング可能な重みを含み、モデルが同じ埋め込みを共有するエンティティを区別できるようにする。 これら2つのテーブルは共同でトレーニングされるため、ネットワークはエンティティごとにユニークな埋め込みを学習することができ、非圧縮埋め込みテーブルを持つモデルと同様の識別能力を維持することができる。 このアプローチをMEmCom(Multi-Embeddi ng Compression)と呼ぶ。 分類とランキングを含む複数の問題クラスに対する最先端モデル圧縮手法との比較を行った。 4つの人気のあるレコメンダシステムデータセットにおいて、memcom は ndcg の相対的損失を 4% としつつ、我々のレコメンデーションモデルの入力埋め込みサイズを 16x, 4x, 12x, 40x に圧縮した。 MEmComは最先端技術よりも優れており、それぞれの圧縮比でnDCGの16%、6%、10%、8%の相対損失を達成した。 さらに、MEmCom は nDCG で1% の相対損失しかたらさず、何百万ものユーザのゲームとのインタラクションを持つデータセット上で RankNet ランキングモデルを 32 倍圧縮することができる。

In deep learning, embeddings are widely used to represent categorical entities such as words, apps, and movies. An embedding layer maps each entity to a unique vector, causing the layer's memory requirement to be proportional to the number of entities. In the recommendation domain, a given category can have hundreds of thousands of entities, and its embedding layer can take gigabytes of memory. The scale of these networks makes them difficult to deploy in resource constrained environments. In this paper, we propose a novel approach for reducing the size of an embedding table while still mapping each entity to its own unique embedding. Rather than maintaining the full embedding table, we construct each entity's embedding "on the fly" using two separate embedding tables. The first table employs hashing to force multiple entities to share an embedding. The second table contains one trainable weight per entity, allowing the model to distinguish between entities sharing the same embedding. Since these two tables are trained jointly, the network is able to learn a unique embedding per entity, helping it maintain a discriminative capability similar to a model with an uncompressed embedding table. We call this approach MEmCom (Multi-Embedding Compression). We compare with state-of-the-art model compression techniques for multiple problem classes including classification and ranking. On four popular recommender system datasets, MEmCom had a 4% relative loss in nDCG while compressing the input embedding sizes of our recommendation models by 16x, 4x, 12x, and 40x. MEmCom outperforms the state-of-the-art techniques, which achieved 16%, 6%, 10%, and 8% relative loss in nDCG at the respective compression ratios. Additionally, MEmCom is able to compress the RankNet ranking model by 32x on a dataset with millions of users' interactions with games while incurring only a 1% relative loss in nDCG.
翻訳日:2022-03-27 04:07:20 公開日:2022-03-18
# (参考訳) クロスサイロFederated Medical Image Segmentationの一般化ギャップの閉鎖 [全文訳有]

Closing the Generalization Gap of Cross-silo Federated Medical Image Segmentation ( http://arxiv.org/abs/2203.10144v1 )

ライセンス: CC BY 4.0
An Xu, Wenqi Li, Pengfei Guo, Dong Yang, Holger Roth, Ali Hatamizadeh, Can Zhao, Daguang Xu, Heng Huang, and Ziyue Xu(参考訳) クロスサイロ・フェデレーション・ラーニング(FL)は、データ不足、データプライバシ、トレーニング効率の重大な問題を解決することができるため、近年、深層学習による医用画像解析において多くの注目を集めている。 しかし、FLからトレーニングされたモデルと集中的なトレーニングからトレーニングされたモデルの間には、一般化のギャップがある。 この重要な問題は、参加するクライアント内のローカルデータの非iidデータ分散が原因で、クライアントドリフトとしてよく知られています。 本研究では,クライアントドリフト問題を回避するための新たなトレーニングフレームワークfeedsmを提案するとともに,医療画像分割タスクの集中型トレーニングと比較して,一般化ギャップを解消することに成功した。 また,新たにパーソナライズされたFL目標の定式化と,提案するフレームワークであるFedSMにおいて,SoftPullの解法を提案する。 非凸滑らかな対象関数を最適化するための収束を保証するために、厳密な理論解析を行う。 深層flを用いた実世界医用画像分割実験は,提案手法の動機と効果を検証する。

Cross-silo federated learning (FL) has attracted much attention in medical imaging analysis with deep learning in recent years as it can resolve the critical issues of insufficient data, data privacy, and training efficiency. However, there can be a generalization gap between the model trained from FL and the one from centralized training. This important issue comes from the non-iid data distribution of the local data in the participating clients and is well-known as client drift. In this work, we propose a novel training framework FedSM to avoid the client drift issue and successfully close the generalization gap compared with the centralized training for medical image segmentation tasks for the first time. We also propose a novel personalized FL objective formulation and a new method SoftPull to solve it in our proposed framework FedSM. We conduct rigorous theoretical analysis to guarantee its convergence for optimizing the non-convex smooth objective function. Real-world medical image segmentation experiments using deep FL validate the motivations and effectiveness of our proposed method.
翻訳日:2022-03-27 03:42:55 公開日:2022-03-18
# (参考訳) 月次複数ステップ先予測のための伝達学習を用いたディープラーニングモデルの性能 [全文訳有]

Performance of Deep Learning models with transfer learning for multiple-step-ahead forecasts in monthly time series ( http://arxiv.org/abs/2203.11196v1 )

ライセンス: CC BY 4.0
Mart\'in Sol\'is and Luis-Alexander Calvo-Valverde (Tecnol\'ogico de Costa Rica)(参考訳) ディープラーニングと転送学習モデルは時系列予測を生成するために使用されているが、そのパフォーマンス予測が月次時系列でより明らかであることを示す証拠は少ない。 本研究の目的は,Deep Learningモデルと転送学習を比較し,月次予測に使用する他の従来手法とを比較し,時系列の予測を生成するためのDeep Learning and Transfer Learningの適合性に関する3つの疑問に答えることである。 実験にはM4とM3のタイムシリーズが使用された。 以上の結果から,TN,LSTM,CNNに基づく移動学習モデルが従来の手法の性能予測を上回る傾向が示唆された。 一方、目標時系列を直接訓練したTCNとLSTMは、いくつかの予測地平線に対する従来の手法と類似または優れた性能を得た。

Deep Learning and transfer learning models are being used to generate time series forecasts; however, there is scarce evidence about their performance prediction that it is more evident for monthly time series. The purpose of this paper is to compare Deep Learning models with transfer learning and without transfer learning and other traditional methods used for monthly forecasts to answer three questions about the suitability of Deep Learning and Transfer Learning to generate predictions of time series. Time series of M4 and M3 competitions were used for the experiments. The results suggest that deep learning models based on TCN, LSTM, and CNN with transfer learning tend to surpass the performance prediction of other traditional methods. On the other hand, TCN and LSTM, trained directly on the target time series, got similar or better performance than traditional methods for some forecast horizons.
翻訳日:2022-03-27 03:06:18 公開日:2022-03-18
# (参考訳) 特徴、ロジット、勾配を用いた知識蒸留について [全文訳有]

A Closer Look at Knowledge Distillation with Features, Logits, and Gradients ( http://arxiv.org/abs/2203.10163v1 )

ライセンス: CC BY-SA 4.0
Yen-Chang Hsu, James Smith, Yilin Shen, Zsolt Kira, Hongxia Jin(参考訳) 知識蒸留(KD)は、学習した知識をあるニューラルネットワークモデルから別のニューラルネットワークモデルに転送するための重要な戦略である。 この戦略のために多くの方法が開発されている。 ほとんどのメソッドは、より効率的な知識伝達方法を設計するが、特徴、ロジット、勾配といった知識ソースの影響を比較することにはあまり注意が払われていない。 本研究は,従来のkl-divergence基準を異なる知識源で近似することにより,モデル圧縮とインクリメンタル学習において系統的比較が可能な,一連の知識蒸留戦略を動機付ける新たな視点を提供する。 分析の結果,ロジットは一般的により効率的な知識源であり,モデル設計には十分な特徴次元を持つことが不可欠であることが示唆された。

Knowledge distillation (KD) is a substantial strategy for transferring learned knowledge from one neural network model to another. A vast number of methods have been developed for this strategy. While most method designs a more efficient way to facilitate knowledge transfer, less attention has been put on comparing the effect of knowledge sources such as features, logits, and gradients. This work provides a new perspective to motivate a set of knowledge distillation strategies by approximating the classical KL-divergence criteria with different knowledge sources, making a systematic comparison possible in model compression and incremental learning. Our analysis indicates that logits are generally a more efficient knowledge source and suggests that having sufficient feature dimensions is crucial for the model design, providing a practical guideline for effective KD-based transfer learning.
翻訳日:2022-03-27 02:54:54 公開日:2022-03-18
# (参考訳) プライバシ保護による強化学習 [全文訳有]

Privacy-Preserving Reinforcement Learning Beyond Expectation ( http://arxiv.org/abs/2203.10165v1 )

ライセンス: CC BY 4.0
Arezoo Rajabi, Bhaskar Ramasubramanian, Abdullah Al Maruf, Radha Poovendran(参考訳) 自動運転車のような機械学習アルゴリズムを備えたサイバーおよびサイバー物理システムは、環境を人間と共有する。 このような環境では、システム(またはエージェント)の振る舞いを1人以上のユーザの好みに合わせることが重要である。 エージェントが未知の環境で行動を学ぶ必要がある場合を考える。 私たちの目標は、人間の2つの特徴を捉えることです。 一 リスクを評価し定量化する傾向及び 二 決定を外部の当事者から隠蔽し続けたいという願望 前者に対する強化学習(rl)問題の目的に累積的予測理論(cpt)を取り入れる。 後者では、差分プライバシーを使用します。 我々は,プライバシ保存方式でCPTに基づく目的を最大化するためのポリシーを学習可能なアルゴリズムを設計し,報酬が十分近い場合には,アルゴリズムが学習した価値関数のプライバシを保証する。 これは各ステップでガウス過程機構を用いて校正ノイズを加えることで達成される。 経験的評価を通じて,プライバシ利用のトレードオフを強調し,rlエージェントが,同じ環境において同一のユーザと協調する動作を,プライバシ保護の方法で学習できることを実証する。

Cyber and cyber-physical systems equipped with machine learning algorithms such as autonomous cars share environments with humans. In such a setting, it is important to align system (or agent) behaviors with the preferences of one or more human users. We consider the case when an agent has to learn behaviors in an unknown environment. Our goal is to capture two defining characteristics of humans: i) a tendency to assess and quantify risk, and ii) a desire to keep decision making hidden from external parties. We incorporate cumulative prospect theory (CPT) into the objective of a reinforcement learning (RL) problem for the former. For the latter, we use differential privacy. We design an algorithm to enable an RL agent to learn policies to maximize a CPT-based objective in a privacy-preserving manner and establish guarantees on the privacy of value functions learned by the algorithm when rewards are sufficiently close. This is accomplished through adding a calibrated noise using a Gaussian process mechanism at each step. Through empirical evaluations, we highlight a privacy-utility tradeoff and demonstrate that the RL agent is able to learn behaviors that are aligned with that of a human user in the same environment in a privacy-preserving manner
翻訳日:2022-03-27 02:40:01 公開日:2022-03-18
# (参考訳) ジンバルカメラを用いた無人精密ドローン着陸のための4月タグとなぜコードフィデューシャルシステムの評価 [全文訳有]

Evaluation of April Tag and WhyCode Fiducial Systems for Autonomous Precision Drone Landing with a Gimbal-Mounted Camera ( http://arxiv.org/abs/2203.10180v1 )

ライセンス: CC BY 4.0
Joshua Springer, Marcel Kyas(参考訳) フィデューシャルマーカーは、ドローンが着陸パッドに対して位置を判断し、正確な着陸を行うための計算的に安価な方法を提供する。 しかし、この分野の既存の作業のほとんどは、多くのドローンで見られるジンバル搭載のカメラを使わない固定された下向きカメラを使用している。 このような厳格なシステムは検出されたマーカーを容易に追跡することはできず、理想的でない状況(例えば風向ガスト)でマーカーを見失う可能性がある。 本論文は、ジンバル搭載単眼カメラによるドローン着陸のための4月タグとWhyCodeフィデューシャルシステムについて、ドローンシステムが時間とともにマーカーを追跡できることの利点として評価する。 しかし、カメラの向きが変化するので、単眼分裂系では信頼できないマーカーの向きを知る必要がある。 さらに、システムは高速でなければならない。 本稿では, whycode の向きの曖昧さを緩和する2つの手法と, april tag のランタイム検出率を増加させる1つの手法を提案する。 マーカー配向の曖昧さと検出率の観点から,2つのデフォルトシステムに対して3つのシステムを評価する。 我々はraspberry pi 4上でrosフレームワークのマーカー検出率をテストし,その性能についてシステム評価を行った。 最初のWhyCode変種は、検出率を著しく下げることで、方向の曖昧さを著しく低減します。 第2の WhyCode 変種は、デフォルトの WhyCode システムとはかなり異なる方向の曖昧さを示すものではなく、複数マーカーの WhyCode バンドルアレンジメントに関して追加機能を提供する。 4月のTagバージョンでは、Raspberry Pi 4のパフォーマンスが向上していない。

Fiducial markers provide a computationally cheap way for drones to determine their location with respect to a landing pad and execute precision landings. However, most existing work in this field uses a fixed, downward facing camera that does not leverage the common gimbal-mounted camera setup found on many drones. Such rigid systems cannot easily track detected markers, and may lose sight of the markers in non-ideal conditions (e.g. wind gusts). This paper evaluates April Tag and WhyCode fiducial systems for drone landing with a gimbal-mounted, monocular camera, with the advantage that the drone system can track the marker over time. However, since the orientation of the camera changes, we must know the orientation of the marker, which is unreliable in monocular fiducial systems. Additionally, the system must be fast. We propose 2 methods for mitigating the orientation ambiguity of WhyCode, and 1 method for increasing the runtime detection rate of April Tag. We evaluate our 3 systems against 2 default systems in terms of marker orientation ambiguity, and detection rate. We test rates of marker detection in a ROS framework on a Raspberry Pi 4, and we rank the systems in terms of their performance. Our first WhyCode variant significantly reduces orientation ambiguity with an insignificant reduction in detection rate. Our second WhyCode variant does not show significantly different orientation ambiguity from the default WhyCode system, but does provide additional functionality in terms of multi-marker WhyCode bundle arrangements. Our April Tag variant does not show performance improvements on a Raspberry Pi 4.
翻訳日:2022-03-27 02:19:49 公開日:2022-03-18
# (参考訳) ネガティブな内ループ学習率は普遍的な特徴を学ぶ [全文訳有]

Negative Inner-Loop Learning Rates Learn Universal Features ( http://arxiv.org/abs/2203.10185v1 )

ライセンス: CC0 1.0
Tom Starshak(参考訳) Model Agnostic Meta-Learning (MAML) は2つの最適化ループで構成されている。外ループはタスク間で共有されるモデルパラメータのメタ初期化を学習する。 MAMLの変種であるMeta-SGDは、同じ2つのループ構造を用いるが、適応ステップの学習率も学習する。 Meta-SGDの学習速度が機能の再利用に与える影響についてはほとんど注目されていない。 本稿では,メタSGDにおける学習速度がタスクごとの特徴表現に与える影響について検討する。 メタsgdの学習率はしばしば負の値を含む。 適応フェーズの間、これらの負の学習速度は、タスク固有の特徴からタスクに依存しない特徴へと特徴を遠ざける。 我々はMini-Imagenetデータセットでいくつかの実験を行った。 MAMLとMeta-SGDの2つのニューラルネットワークがトレーニングされた。 両方のモデルの特徴は以下の通りである: 線形分類層を除去し、このエンコーダを通してラベル付きおよびラベルなしのサンプルをパスし、隣人に応じてラベルなしのサンプルを分類する。 このプロセスが実行された。 1) 訓練後,及びメタ初期化パラメータの使用 2 適応後、その課題について検証し、及び 3) 適応後, 異なるタスクで検証した。 MAML訓練モデルは適応されたタスクで改善されたが、他のタスクではパフォーマンスが悪くなった。 メタSGDの訓練モデルは逆で、適応されたタスクではパフォーマンスが悪く、他のタスクでは改善された。 これはメタSGDの負の学習速度が、単にタスク固有の特徴に適応するのではなく、タスクに依存しない特徴を学習させるという仮説を裏付けるものである。

Model Agnostic Meta-Learning (MAML) consists of two optimization loops: the outer loop learns a meta-initialization of model parameters that is shared across tasks, and the inner loop task-specific adaptation step. A variant of MAML, Meta-SGD, uses the same two loop structure, but also learns the learning-rate for the adaptation step. Little attention has been paid to how the learned learning-rate of Meta-SGD affects feature reuse. In this paper, we study the effect that a learned learning-rate has on the per-task feature representations in Meta-SGD. The learned learning-rate of Meta-SGD often contains negative values. During the adaptation phase, these negative learning rates push features away from task-specific features and towards task-agnostic features. We performed several experiments on the Mini-Imagenet dataset. Two neural networks were trained, one with MAML, and one with Meta-SGD. The feature quality for both models was tested as follows: strip away the linear classification layer, pass labeled and unlabeled samples through this encoder, classify the unlabeled samples according to their nearest neighbor. This process was performed: 1) after training and using the meta-initialization parameters; 2) after adaptation, and validated on that task; and 3) after adaptation, and validated on a different task. The MAML trained model improved on the task it was adapted to, but had worse performance on other tasks. The Meta-SGD trained model was the opposite; it had worse performance on the task it was adapted to, but improved on other tasks. This confirms the hypothesis that Meta-SGD's negative learning rates cause the model to learn task-agnostic features rather than simply adapt to task specific features.
翻訳日:2022-03-27 02:09:07 公開日:2022-03-18
# (参考訳) 非凸潜在変数モデルのための2時間確率EMアルゴリズムのクラス

A Class of Two-Timescale Stochastic EM Algorithms for Nonconvex Latent Variable Models ( http://arxiv.org/abs/2203.10186v1 )

ライセンス: CC BY 4.0
Belhal Karimi and Ping Li(参考訳) 期待最大化(em)アルゴリズムは、潜在変数モデルを学ぶための一般的な選択である。 EMの変数は当初導入され、インクリメンタルアップデートを使用して大規模なデータセットにスケールし、Monte Carlo (MC)近似を使用して、ほとんどの非凸モデルに対する遅延データの難解な条件予測を回避した。 本稿では,2段階の確率的更新アプローチに基づく2段階EM法と呼ばれる手法の一般クラスを提案し,潜在変数モデルに必須な非凸最適化課題に取り組む。 インクリメンタルな更新のためのインデックスサンプリングとMC近似という2つのノイズ源に基づいて,手法の各段階の分散低減効果を誘導することにより,二重ダイナミクスの選択を動機付ける。 非凸目的関数に対する有限時間および大域収束境界を確立する。 また,画像解析のための変形テンプレートや薬物動態の非線形モデルなどの様々なモデルに対する数値的応用について考察した。

The Expectation-Maximiza tion (EM) algorithm is a popular choice for learning latent variable models. Variants of the EM have been initially introduced, using incremental updates to scale to large datasets, and using Monte Carlo (MC) approximations to bypass the intractable conditional expectation of the latent data for most nonconvex models. In this paper, we propose a general class of methods called Two-Timescale EM Methods based on a two-stage approach of stochastic updates to tackle an essential nonconvex optimization task for latent variable models. We motivate the choice of a double dynamic by invoking the variance reduction virtue of each stage of the method on both sources of noise: the index sampling for the incremental update and the MC approximation. We establish finite-time and global convergence bounds for nonconvex objective functions. Numerical applications on various models such as deformable template for image analysis or nonlinear models for pharmacokinetics are also presented to illustrate our findings.
翻訳日:2022-03-27 02:02:42 公開日:2022-03-18
# (参考訳) 有界群損失による正当な連合学習 [全文訳有]

Provably Fair Federated Learning via Bounded Group Loss ( http://arxiv.org/abs/2203.10190v1 )

ライセンス: CC BY 4.0
Shengyuan Hu, Zhiwei Steven Wu, Virginia Smith(参考訳) 連合学習では、様々な保護されたグループ(例えば、性別、人種)にわたる公正な予測は多くのアプリケーションにとって重要な制約である。 残念なことに、グループフェアフェデレーション学習の先行研究には、形式的な収束や公平性の保証が欠けている。 本研究は,共通学習目的に容易に適用可能なBGL(Bounded Group Loss)の概念に基づく,連合学習におけるグループフェアネスの新たな定義を提供する。 我々の定義に基づき、実証的リスクとグローバルフェアネス制約を最適化するスケーラブルなアルゴリズムを提案し、共通フェアネスとフェデレーション付き学習ベンチマークで評価する。 得られた方法と分析は、公正な連合学習モデルのトレーニングのための形式的理論的保証を提供することを最初に認識した方法です。

In federated learning, fair prediction across various protected groups (e.g., gender, race) is an important constraint for many applications. Unfortunately, prior work studying group fair federated learning lacks formal convergence or fairness guarantees. Our work provides a new definition for group fairness in federated learning based on the notion of Bounded Group Loss (BGL), which can be easily applied to common federated learning objectives. Based on our definition, we propose a scalable algorithm that optimizes the empirical risk and global fairness constraints, which we evaluate across common fairness and federated learning benchmarks. Our resulting method and analysis are the first we are aware of to provide formal theoretical guarantees for training a fair federated learning model.
翻訳日:2022-03-27 02:01:23 公開日:2022-03-18
# (参考訳) 空中画像における物体検出のためのyolov4の解析と適応 [全文訳有]

Analysis and Adaptation of YOLOv4 for Object Detection in Aerial Images ( http://arxiv.org/abs/2203.10194v1 )

ライセンス: CC BY 4.0
Aryaman Singh Samyal, Akshatha K R, Soham Hans, Karunakar A K, Satish Shenoy B(参考訳) 近年、様々なコンピュータビジョンタスクのための無人航空機(UAV)の配備が急速に増加し、より効果的で価値のあるものにするための多くの機会の道を開いた。 空中画像における物体検出は、外観、ポーズ、スケールの違いにより困難である。 限られたメモリと計算能力を持つ自律飛行システムは、リアルタイムアプリケーションのための精度と計算効率のよい検出アルゴリズムを必要とする。 本研究は,空中画像中の物体とその位置を高精度かつ推論速度で予測するための,YOLOv4フレームワークの適応性を示す。 我々は移動学習を利用して、VisDrone DET空中物体検出データセット上でモデルを高速に収束させた。 トレーニングされたモデルでは平均的な平均精度(mAP)が45.64%となり、推論速度はTesla K80 GPUで8.7 FPSに達した。 ネットワーク解像度の変動が性能に与える影響を実験的に評価し,評価を行った。 いくつかの現代の空中物体検出器との比較研究により、ヨロフ4はより優れた性能を示し、航空プラットフォームに組み込むのに最適な検出アルゴリズムを示唆した。

The recent and rapid growth in Unmanned Aerial Vehicles (UAVs) deployment for various computer vision tasks has paved the path for numerous opportunities to make them more effective and valuable. Object detection in aerial images is challenging due to variations in appearance, pose, and scale. Autonomous aerial flight systems with their inherited limited memory and computational power demand accurate and computationally efficient detection algorithms for real-time applications. Our work shows the adaptation of the popular YOLOv4 framework for predicting the objects and their locations in aerial images with high accuracy and inference speed. We utilized transfer learning for faster convergence of the model on the VisDrone DET aerial object detection dataset. The trained model resulted in a mean average precision (mAP) of 45.64% with an inference speed reaching 8.7 FPS on the Tesla K80 GPU and was highly accurate in detecting truncated and occluded objects. We experimentally evaluated the impact of varying network resolution sizes and training epochs on the performance. A comparative study with several contemporary aerial object detectors proved that YOLOv4 performed better, implying a more suitable detection algorithm to incorporate on aerial platforms.
翻訳日:2022-03-27 01:47:31 公開日:2022-03-18
# 固有震動に適用したアルキメデススパイラル解析のためのエントロピーに基づく特徴の選択

Selection of entropy based features for the analysis of the Archimedes' spiral applied to essential tremor ( http://arxiv.org/abs/2203.10094v1 )

ライセンス: Link先を確認
Karmele L\'opez-De-Ipi\~na, Alberto Bergareche, Patricia De La Riva, Jordi Sole-Casals, Marcos Faundez-Zanuy, Jose Felix Marti-Masso, Mikel Iturrate, Blanca Beitia, Pilar Calvo, Enric Sesa-Nogueras, Josep Roure, Itziar Gurrutxaga and Joseba Garcia-Melero(参考訳) 生体医学システムは、複数の空間的および時間的スケールにわたって作用し、内部に線形および非線形情報を持つ生体信号を生成する相互作用機構によって制御される。 この意味では、エントロピーはシステムの障害、時系列の情報の欠如、信号の不規則性に関する有用な指標となるかもしれない。 本態性震動(ET)は最も一般的な運動障害であり、パーキンソン病の20倍の頻度であり、これらの疾患の50-70%は発病源と推定されている。 アルキメデス・スパイラル・ドローイングは、臨床診断に最も使用される標準検査の一つである。 本研究は, 図面や筆跡から非線形バイオマーカーを選択することを目的として, バイオドノシア健康研究所における本態性振戦の診断のための広範囲にわたる横断研究の一環である。 いくつかのエントロピーアルゴリズムは非線形フェールを生成するために用いられる。 自動分析システムは、いくつかの機械学習パラダイムで構成されている。

Biomedical systems are regulated by interacting mechanisms that operate across multiple spatial and temporal scales and produce biosignals with linear and non-linear information inside. In this sense entropy could provide a useful measure about disorder in the system, lack of information in time-series and/or irregularity of the signals. Essential tremor (ET) is the most common movement disorder, being 20 times more common than Parkinson's disease, and 50-70% of this disease cases are estimated to be genetic in origin. Archimedes spiral drawing is one of the most used standard tests for clinical diagnosis. This work, on selection of nonlinear biomarkers from drawings and handwriting, is part of a wide-ranging cross study for the diagnosis of essential tremor in BioDonostia Health Institute. Several entropy algorithms are used to generate nonlinear feayures. The automatic analysis system consists of several Machine Learning paradigms.
翻訳日:2022-03-22 19:28:48 公開日:2022-03-18
# オープン実験環境における能動的学習:深層学習における予測可能性に基づく適切な情報チャネルの選択

Active learning in open experimental environments: selecting the right information channel(s) based on predictability in deep kernel learning ( http://arxiv.org/abs/2203.10181v1 )

ライセンス: Link先を確認
Maxim Ziatdinov, Yongtao Liu, Sergei V. Kalinin(参考訳) アクティブな学習手法は、画像、材料合成、計算における自動実験ワークフローにおいて、急速に重要な要素になりつつある。 多くの実験シナリオの特徴的な特徴は、測定システムの固有のモダリティと、外部環境とノイズ信号の両方を含む複数の情報チャネルの存在である。 実験研究における重要な課題の1つは、これらのチャネルのどれが関心の行動を予測するかを確立することである。 本稿では, 深層カーネル学習を用いて, アクティブな実験環境下でのモーダリティ選択による構造・プロパティ関係(顕微鏡)の最適予測チャネルの発見について検討する。 さらに, この手法は, 自動合成や分子系の定量的構造活性相関の発見において, 類似の能動的学習タスクに直接適用可能であることを示す。

Active learning methods are rapidly becoming the integral component of automated experiment workflows in imaging, materials synthesis, and computation. The distinctive aspect of many experimental scenarios is the presence of multiple information channels, including both the intrinsic modalities of the measurement system and the exogenous environment and noise signals. One of the key tasks in experimental studies is hence establishing which of these channels is predictive of the behaviors of interest. Here we explore the problem of discovery of the optimal predictive channel for structure-property relationships (in microscopy) using deep kernel learning for modality selection in an active experiment setting. We further pose that this approach can be directly applicable to similar active learning tasks in automated synthesis and the discovery of quantitative structure-activity relations in molecular systems.
翻訳日:2022-03-22 19:27:14 公開日:2022-03-18
# 物理深層学習のための半逆勾配

Half-Inverse Gradients for Physical Deep Learning ( http://arxiv.org/abs/2203.10131v1 )

ライセンス: Link先を確認
Patrick Schnell, Philipp Holl, Nils Thuerey(参考訳) 深層学習における最近の研究は、異なる物理シミュレータをトレーニングプロセスに統合することで、結果の質が大幅に向上することを示した。 この組み合わせは、教師付きニューラルネットワークトレーニングよりも複雑な最適化タスクを表しているが、通常、損失関数を最小限にするために同じ勾配ベースのオプティマイザが使用される。 しかし,統合物理ソルバは,スケールの大きさや方向の操作が多くの物理過程に固有の性質であるため,勾配流に大きな影響を与える。 その結果、勾配流はしばしば高度に不均衡であり、既存の勾配に基づく最適化が不十分な環境を生み出す。 本研究では,物理およびニューラルネットワークの最適化特性を分析し,この現象に支障を来さない新しい手法を導出する。 本手法はヤコビアンの半帰納法を基礎とし,古典ネットワークと物理最適化器の原理を組み合わせることで最適化課題を解決する。 現状のニューラルネットワークオプティマイザと比較して,本手法はより高速に収束し,非線形発振器,シュレーディンガー方程式,ポアソン問題を含む3つの複雑な学習問題に対してより良い解が得られる。

Recent works in deep learning have shown that integrating differentiable physics simulators into the training process can greatly improve the quality of results. Although this combination represents a more complex optimization task than supervised neural network training, the same gradient-based optimizers are typically employed to minimize the loss function. However, the integrated physics solvers have a profound effect on the gradient flow as manipulating scales in magnitude and direction is an inherent property of many physical processes. Consequently, the gradient flow is often highly unbalanced and creates an environment in which existing gradient-based optimizers perform poorly. In this work, we analyze the characteristics of both physical and neural network optimizations to derive a new method that does not suffer from this phenomenon. Our method is based on a half-inversion of the Jacobian and combines principles of both classical network and physics optimizers to solve the combined optimization task. Compared to state-of-the-art neural network optimizers, our method converges more quickly and yields better solutions, which we demonstrate on three complex learning problems involving nonlinear oscillators, the Schroedinger equation and the Poisson problem.
翻訳日:2022-03-22 18:47:33 公開日:2022-03-18
# ゼロインフレーション学習者モデルを用いたニューロディバージェント学生集団の等価能力推定

Equitable Ability Estimation in Neurodivergent Student Populations with Zero-Inflated Learner Models ( http://arxiv.org/abs/2203.10170v1 )

ライセンス: Link先を確認
Niall Twomey, Sarah McMullan, Anat Elhalal, Rafael Poyiadzi, Luis Vaquero(参考訳) 現在、教育データマイニングコミュニティには、ニューロディバージェント(ND)学習者のための公平な能力推定に必要な多くのツールが欠けている。 一方、ほとんどの学習者モデルは、コンファウンディングコンテキストが説明責任を持つことができない(例えば、失読症やテキスト重度評価など)ため、nd能力の過小評価に影響を受けやすく、他方では、ndコンテキストにおけるモデルやデータバイアスの評価に適している既存のデータセットは、ほとんど(もしあるとしても)ない。 本稿では,ゼロインフレーション学習者モデルを用いたND学生の文脈(配送型と応答型)と評価の関係をモデル化する。 このアプローチは、いくつかの期待されたND行動特性のシミュレーションを促進し、生成されたデータセットから全ての学生グループに公平な能力推定を提供し、解釈可能性の信頼性を高め、場合によってはND学生にとっての学習機会の数を2倍にすることができる。 我々のアプローチは実験のベースラインを一貫して上回り、他の学習者モデリングフレームワークにも適用できます。

At present, the educational data mining community lacks many tools needed for ensuring equitable ability estimation for Neurodivergent (ND) learners. On one hand, most learner models are susceptible to under-estimating ND ability since confounding contexts cannot be held accountable (e.g. consider dyslexia and text-heavy assessments), and on the other, few (if any) existing datasets are suited for appraising model and data bias in ND contexts. In this paper we attempt to model the relationships between context (delivery and response types) and performance of ND students with zero-inflated learner models. This approach facilitates simulation of several expected ND behavioural traits, provides equitable ability estimates across all student groups from generated datasets, increases interpretability confidence, and can double the number of learning opportunities for ND students in some cases. Our approach consistently out-performs baselines in our experiments and can also be applied to many other learner modelling frameworks
翻訳日:2022-03-22 18:47:14 公開日:2022-03-18
# ディープラーニングを用いた準周期強制ロジスティックマップにおけるカオス的アトラクタの予測

Prediction of chaotic attractors in quasiperiodically forced logistic map using deep learning ( http://arxiv.org/abs/2203.11151v1 )

ライセンス: Link先を確認
J. Meiyazhagan and M. Senthilvelan(参考訳) 我々は,よく知られたディープラーニングフレームワークであるlong short-term memoryを用いて,準周期的強制ロジスティックマップの2つのカオスダイナミクスを予測した。 2つのデータセットを生成し、トレーニングプロセスで1つ、テストプロセスで1つを使用します。 予測値はRoot Mean Square Errorと呼ばれるメトリクスを用いて評価され、散乱プロットを用いて視覚化される。 長期短期記憶モデルのロバスト性は、モデルの層内の単位数を用いて評価される。 また,検討対象システムの多段階予測を行う。 本研究では, 長期記憶モデルが3段階までのカオス的アトラクタの予測に有効であることを示す。

We forecast two different chaotic dynamics of the quasiperiodically forced logistic map using the well-known deep learning framework Long Short-Term Memory. We generate two data sets and use one in the training process and the other in the testing process. The predicted values are evaluated using the metric called Root Mean Square Error and visualized using the scatter plots. The robustness of the Long Short-Term Memory model is evaluated using the number of units in the layers of the model. We also make multi-step forecasting of the considered system. We show that the considered Long Short-Term Memory model performs well in predicting chaotic attractors upto three steps.
翻訳日:2022-03-22 18:39:24 公開日:2022-03-18
# 深層学習に基づく映像圧縮・分類システムに対する敵意攻撃

Adversarial Attacks on Deep Learning-based Video Compression and Classification Systems ( http://arxiv.org/abs/2203.10183v1 )

ライセンス: Link先を確認
Jung-Woo Chang, Mojan Javaheripi, Seira Hidano, Farinaz Koushanfar(参考訳) ビデオ圧縮は、ビデオストリーミングと分類システムを実現し、所定の帯域幅予算において、エンドユーザー品質(QoE)を最大化する上で重要な役割を果たす。 本稿では,深層学習に基づくビデオ圧縮と下流分類システムに対する敵対的攻撃に対する最初の体系的研究を行う。 本稿では,(1)ネットワーク帯域幅の増大,(2)エンドユーザの映像品質の低下,という2つの目標を達成するために,ビデオ圧縮モデルのレート・歪み(R-D)関係を操作できる適応的敵攻撃を提案する。 さらに、ダウンストリームビデオ分類サービスに対して、標的および未目標攻撃のための新しい目的を考案する。 最後に,映像圧縮と分類システムをリアルタイムに破壊する入力不変摂動を設計する。 従来提案されていたビデオ分類攻撃とは違って,我々の対人摂動は圧縮に耐える最初の攻撃である。 我々は,様々な防御に対する攻撃の弾力性,すなわち,敵意の訓練,映像のデノージング,jpeg圧縮を実証的に示す。 各種ビデオデータセットの広範な実験結果から,本攻撃の有効性を実証した。 我々のビデオ品質と帯域幅攻撃は、最大5.4dBのピーク信号対雑音比と、標準ビデオ圧縮データセットの最大2.4倍のビットレートを低下させ、下流分類器での攻撃成功率を90%以上達成した。

Video compression plays a crucial role in enabling video streaming and classification systems and maximizing the end-user quality of experience (QoE) at a given bandwidth budget. In this paper, we conduct the first systematic study for adversarial attacks on deep learning based video compression and downstream classification systems. We propose an adaptive adversarial attack that can manipulate the Rate-Distortion (R-D) relationship of a video compression model to achieve two adversarial goals: (1) increasing the network bandwidth or (2) degrading the video quality for end-users. We further devise novel objectives for targeted and untargeted attacks to a downstream video classification service. Finally, we design an input-invariant perturbation that universally disrupts video compression and classification systems in real time. Unlike previously proposed attacks on video classification, our adversarial perturbations are the first to withstand compression. We empirically show the resilience of our attacks against various defenses, i.e., adversarial training, video denoising, and JPEG compression. Our extensive experimental results on various video datasets demonstrate the effectiveness of our attacks. Our video quality and bandwidth attacks deteriorate peak signal-to-noise ratio by up to 5.4dB and the bit-rate by up to 2.4 times on the standard video compression datasets while achieving over 90% attack success rate on a downstream classifier.
翻訳日:2022-03-22 18:03:42 公開日:2022-03-18
# SiMCa:容量制約によるシンクホーンマトリックスの分解

SiMCa: Sinkhorn Matrix Factorization with Capacity Constraints ( http://arxiv.org/abs/2203.10107v1 )

ライセンス: Link先を確認
Eric Daoud, Luca Ganassali, Antoine Baker, Marc Lelarge(参考訳) 非常に幅広い問題のために、この10年間にリコメンデーションアルゴリズムがますます使われてきた。 これらのアルゴリズムのほとんどは、アイテムやユーザの高次元埋め込みから得られるユーザ-item親和性スコアに基づいて構築されている。 より複雑なシナリオでは、幾何学的制約や容量的制約があるため、埋め込みに基づく予測は不十分であり、アルゴリズムの設計においていくつかの追加機能を考慮する必要がある。 本研究では,ユーザとアイテムの親和性が潜在空間への埋め込みと,その基礎となるユークリッド空間(例えば,$\mathbb{r}^2$)における地理的距離の両方とアイテム容量の制約の両方に基づいて設定されている場合のレコメンデーション問題について検討する。 このフレームワークは、例えばヘルスケアにおいて、現実のアプリケーションによって動機づけられている:そのタスクは、その場所、病理、および病院の容量に基づいて、患者に病院を推奨することである。 これらのアプリケーションでは、ユーザとアイテムには何らかの非対称性がある。アイテムは静的なポイント、埋め込み、キャパシティ、割り当てを制限する場所と見なされる。 ユークリッド空間における最適配置, ユーザ埋め込み, アイテムの容量, それらの位置を観察すると, 潜在空間におけるアイテム埋め込みを復元することを目的としており, 将来的な割り当てを予測するために, この推定値を利用することができる。 本稿では, 最適輸送ステップを付加した行列因数分解に基づくアルゴリズム(SiMCa)を提案し, 観測データからユーザ・イテム親和性をモデル化し, 項目埋め込みを学習する。 そこで,本研究では,合成データを用いた病院推薦のアプローチの結果を解説し,考察する。

For a very broad range of problems, recommendation algorithms have been increasingly used over the past decade. In most of these algorithms, the predictions are built upon user-item affinity scores which are obtained from high-dimensional embeddings of items and users. In more complex scenarios, with geometrical or capacity constraints, prediction based on embeddings may not be sufficient and some additional features should be considered in the design of the algorithm. In this work, we study the recommendation problem in the setting where affinities between users and items are based both on their embeddings in a latent space and on their geographical distance in their underlying euclidean space (e.g., $\mathbb{R}^2$), together with item capacity constraints. This framework is motivated by some real-world applications, for instance in healthcare: the task is to recommend hospitals to patients based on their location, pathology, and hospital capacities. In these applications, there is somewhat of an asymmetry between users and items: items are viewed as static points, their embeddings, capacities and locations constraining the allocation. Upon the observation of an optimal allocation, user embeddings, items capacities, and their positions in their underlying euclidean space, our aim is to recover item embeddings in the latent space; doing so, we are then able to use this estimate e.g. in order to predict future allocations. We propose an algorithm (SiMCa) based on matrix factorization enhanced with optimal transport steps to model user-item affinities and learn item embeddings from observed data. We then illustrate and discuss the results of such an approach for hospital recommendation on synthetic data.
翻訳日:2022-03-22 17:20:18 公開日:2022-03-18
# マルチアームバンディットによる近似関数評価

Approximate Function Evaluation via Multi-Armed Bandits ( http://arxiv.org/abs/2203.10124v1 )

ライセンス: Link先を確認
Tavor Z. Baharav, Gary Cheng, Mert Pilanci, David Tse(参考訳) 未知の点 $\boldsymbol{\mu} \in \mathbb{R}^n$ において、既知の滑らかな関数 $f$ の値を推定する問題について検討する。 より大きな方向微分を持つ関数の方向に対応する$\boldsymbol{\mu}$のより頻繁な成分のサンプリングは、よりサンプル効率が高い。 しかし、$\boldsymbol{\mu}$は未知であるため、最適なサンプリング周波数も未知である。 我々は各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-\delta$は$\epsilon$の正確な推定値である$f(\boldsymbol{\mu})$を返す。 我々はヘテロスケダスティックノイズに適応するアルゴリズムを一般化し、$f$が線形である場合に漸近的最適性を証明する。 数値実験で理論結果を相関させ,適応性による劇的な向上を示す。

We study the problem of estimating the value of a known smooth function $f$ at an unknown point $\boldsymbol{\mu} \in \mathbb{R}^n$, where each component $\mu_i$ can be sampled via a noisy oracle. Sampling more frequently components of $\boldsymbol{\mu}$ corresponding to directions of the function with larger directional derivatives is more sample-efficient. However, as $\boldsymbol{\mu}$ is unknown, the optimal sampling frequencies are also unknown. We design an instance-adaptive algorithm that learns to sample according to the importance of each coordinate, and with probability at least $1-\delta$ returns an $\epsilon$ accurate estimate of $f(\boldsymbol{\mu})$. We generalize our algorithm to adapt to heteroskedastic noise, and prove asymptotic optimality when $f$ is linear. We corroborate our theoretical results with numerical experiments, showing the dramatic gains afforded by adaptivity.
翻訳日:2022-03-22 17:19:48 公開日:2022-03-18
# オフポリティ・テンポラル・ディファレンス法における重要サンプリング配置

Importance Sampling Placement in Off-Policy Temporal-Difference Methods ( http://arxiv.org/abs/2203.10172v1 )

ライセンス: Link先を確認
Eric Graves and Sina Ghiassian(参考訳) 多くのオフ・ポリシー強化学習アルゴリズムを現実世界の問題に適用する上での中心的な課題は、重要度サンプリングによってもたらされる分散である。 政治以外の学習では、エージェントは実行されているものとは異なるポリシーを学ぶ。 差分重要度サンプリング比はよく用いられるが,アルゴリズムのばらつきを増大させ,学習率を低下させることができる。 ばらつきを減らすために重要サンプリングのバリエーションがいくつか提案されており、決定重要サンプリングが最も人気がある。 しかし、文献におけるほとんどの非政治アルゴリズムの更新ルールは、決定単位の重要度を微妙にサンプリングすることから離れ、TDターゲットだけでなくTDエラー全体を修正している。 本稿では,このわずかな変化をtd目標の制御変数として解釈し,分散を低減し,性能を向上させる方法を示す。 幅広いアルゴリズムの実験では、この微妙な修正により性能が向上した。

A central challenge to applying many off-policy reinforcement learning algorithms to real world problems is the variance introduced by importance sampling. In off-policy learning, the agent learns about a different policy than the one being executed. To account for the difference importance sampling ratios are often used, but can increase variance in the algorithms and reduce the rate of learning. Several variations of importance sampling have been proposed to reduce variance, with per-decision importance sampling being the most popular. However, the update rules for most off-policy algorithms in the literature depart from per-decision importance sampling in a subtle way; they correct the entire TD error instead of just the TD target. In this work, we show how this slight change can be interpreted as a control variate for the TD target, reducing variance and improving performance. Experiments over a wide range of algorithms show this subtle modification results in improved performance.
翻訳日:2022-03-22 17:19:27 公開日:2022-03-18
# 最適依存グラフ検出によるヒューリスティックなプロセス探索法の改善

Improving Heuristic-based Process Discovery Methods by Detecting Optimal Dependency Graphs ( http://arxiv.org/abs/2203.10145v1 )

ライセンス: Link先を確認
Maryam Tavakoli-Zaniani, Mohammad Reza Gholamian and S. Alireza Hashemi Golpayegani(参考訳) ヒューリスティックな手法は、プロセス発見領域で最も一般的な方法の一つである。 この方法のカテゴリは2つの主要なステップから構成されます。 1)依存性グラフの発見 2) 依存グラフの分割/結合パターンを決定する。 ヒューリスティックな手法の現在の依存グラフ探索技術は、依存度に応じてグラフアークの初期セットを選択し、いくつかの基準に関するセットを変更する。 これにより、最適でない弧の集合を選択することができる。 また、この修正は希少な振る舞いをモデル化し、その結果、低精度で非単純なプロセスモデルが得られる。 したがって、最適なアーク集合の選択による依存グラフの構築は、グラフの品質を向上させる可能性が高い。 そこで本論文では,依存測度に関するグラフ弧の最適集合を決定する新しい整数線形計画モデルを提案する。 同時に、提案手法では、既存のメソッドが完全に処理できない問題、すなわちループが存在する場合でも、すべてのタスクが初期タスクから最終タスクまでのパスにあることを保証できる。 このアプローチは、適切な制約を導入することで、ドメインの知識を利用することも可能にします。 結果を評価するために,プロセスモデルの評価手法を2つ修正し,依存性グラフの品質を計測できるようにした。 評価結果によると,提案手法の出力は,適合性,精度,特に簡易性の観点から,最も顕著な依存性グラフ探索手法の出力よりも優れている。

Heuristic-based methods are among the most popular methods in the process discovery area. This category of methods is composed of two main steps: 1) discovering a dependency graph 2) determining the split/join patterns of the dependency graph. The current dependency graph discovery techniques of heuristic-based methods select the initial set of graph arcs according to dependency measures and then modify the set regarding some criteria. This can lead to selecting the non-optimal set of arcs. Also, the modifications can result in modeling rare behaviors and, consequently, low precision and non-simple process models. Thus, constructing dependency graphs through selecting the optimal set of arcs has a high potential for improving graphs quality. Hence, this paper proposes a new integer linear programming model that determines the optimal set of graph arcs regarding dependency measures. Simultaneously, the proposed method can eliminate some other issues that the existing methods cannot handle completely; i.e., even in the presence of loops, it guarantees that all tasks are on a path from the initial to the final tasks. This approach also allows utilizing domain knowledge by introducing appropriate constraints, which can be a practical advantage in real-world problems. To assess the results, we modified two existing methods of evaluating process models to make them capable of measuring the quality of dependency graphs. According to assessments, the outputs of the proposed method are superior to the outputs of the most prominent dependency graph discovery methods in terms of fitness, precision, and especially simplicity.
翻訳日:2022-03-22 16:16:44 公開日:2022-03-18
# 移動可能なオブジェクトを発見する

Discovering Objects that Can Move ( http://arxiv.org/abs/2203.10159v1 )

ライセンス: Link先を確認
Zhipeng Bao, Pavel Tokmakov, Allan Jabri, Yu-Xiong Wang, Adrien Gaidon, Martial Hebert(参考訳) 本稿では,手動ラベルを使わずに対象を背景から分離する物体発見問題について検討する。 既存のアプローチでは、色、テクスチャ、位置といった外観の手がかりを使ってピクセルをオブジェクトのような領域にグループ化する。 しかし、外観だけに頼ることで、これらの手法はバラバラなシーンで背景からオブジェクトを分離することができない。 これは、オブジェクトの定義が本質的に曖昧でコンテキスト依存であるため、基本的な制限である。 この曖昧さを解決するために、私たちは動的オブジェクト -- 世界で独立して動くエンティティ -- に焦点を当てることを選びます。 次に、最近の自動エンコーダベースのフレームワークを、おもちゃの合成画像から複雑な現実世界のシーンへ拡張する。 この目的のために,そのアーキテクチャを単純化し,一般的な動き分割アルゴリズムからの弱い学習信号により,結果のモデルを補強する。 我々の実験は、移動するオブジェクトの小さなサブセットのみをキャプチャするにもかかわらず、この信号は動的オブジェクトの移動インスタンスと静的インスタンスの両方をセグメント化するのに十分であることを示した。 提案モデルでは,道路走行シナリオを用いた新たに収集した写真リアルな合成データセットにスケールする。 さらに,本データセットの真理セグメンテーションとフローアノテーションを活用し,徹底的なアブレーションと評価を行う。 最後に,実世界のkittiベンチマークを用いた実験により,提案手法が,動きの手がかりに乗じることで,ヒューリスティックと学習に基づく手法を上回っていることを示した。

This paper studies the problem of object discovery -- separating objects from the background without manual labels. Existing approaches utilize appearance cues, such as color, texture, and location, to group pixels into object-like regions. However, by relying on appearance alone, these methods fail to separate objects from the background in cluttered scenes. This is a fundamental limitation since the definition of an object is inherently ambiguous and context-dependent. To resolve this ambiguity, we choose to focus on dynamic objects -- entities that can move independently in the world. We then scale the recent auto-encoder based frameworks for unsupervised object discovery from toy synthetic images to complex real-world scenes. To this end, we simplify their architecture, and augment the resulting model with a weak learning signal from general motion segmentation algorithms. Our experiments demonstrate that, despite only capturing a small subset of the objects that move, this signal is enough to generalize to segment both moving and static instances of dynamic objects. We show that our model scales to a newly collected, photo-realistic synthetic dataset with street driving scenarios. Additionally, we leverage ground truth segmentation and flow annotations in this dataset for thorough ablation and evaluation. Finally, our experiments on the real-world KITTI benchmark demonstrate that the proposed approach outperforms both heuristic- and learning-based methods by capitalizing on motion cues.
翻訳日:2022-03-22 16:16:14 公開日:2022-03-18
# Conditional-Flow NeRF:信頼性不確実性量子化による高精度3次元モデリング

Conditional-Flow NeRF: Accurate 3D Modelling with Reliable Uncertainty Quantification ( http://arxiv.org/abs/2203.10192v1 )

ライセンス: Link先を確認
Jianxiong Shen and Antonio Agudo and Francesc Moreno-Noguer and Adria Ruiz(参考訳) ニューラルラジアンス場(NeRF)に基づく現在の手法の限界は、学習されたシーンの外観や幾何学に関する不確実性を定量化できないことである。 この情報は、医療診断や自動運転といった実際のアプリケーションにおいて最重要であり、潜在的に破滅的な障害を減らすためには、モデル出力に対する信頼度を意思決定プロセスに含めなければならない。 この文脈では、不確実な定量化をNeRFベースのアプローチに組み込むための新しい確率的フレームワークである Conditional-Flow NeRF (CF-NeRF) を導入する。 この目的のために,本手法は,モデル化シーンに関連する不確かさを定量化するために用いられる,可能なすべての放射場モデリング上の分布を学習する。 放射界分布に対する強い制約を課す従来のアプローチとは対照的に、CF-NeRFは遅延変数モデリングと条件正規化フローを結合することにより、柔軟で完全なデータ駆動型で学習する。 この戦略により、モデル表現性を保ちながら確実な不確実性推定が得られる。 nerfにおける不確実性定量化のために提案された先行手法と比較して,提案手法は予測誤差を著しく低減し,より信頼性の高い不確実性値が得られることを示す。

A critical limitation of current methods based on Neural Radiance Fields (NeRF) is that they are unable to quantify the uncertainty associated with the learned appearance and geometry of the scene. This information is paramount in real applications such as medical diagnosis or autonomous driving where, to reduce potentially catastrophic failures, the confidence on the model outputs must be included into the decision-making process. In this context, we introduce Conditional-Flow NeRF (CF-NeRF), a novel probabilistic framework to incorporate uncertainty quantification into NeRF-based approaches. For this purpose, our method learns a distribution over all possible radiance fields modelling which is used to quantify the uncertainty associated with the modelled scene. In contrast to previous approaches enforcing strong constraints over the radiance field distribution, CF-NeRF learns it in a flexible and fully data-driven manner by coupling Latent Variable Modelling and Conditional Normalizing Flows. This strategy allows to obtain reliable uncertainty estimation while preserving model expressivity. Compared to previous state-of-the-art methods proposed for uncertainty quantification in NeRF, our experiments show that the proposed method achieves significantly lower prediction errors and more reliable uncertainty values for synthetic novel view and depth-map estimation.
翻訳日:2022-03-22 16:15:52 公開日:2022-03-18
# 深層強化学習による無限ホライゾンリーチ回避ゼロサムゲーム

Infinite-Horizon Reach-Avoid Zero-Sum Games via Deep Reinforcement Learning ( http://arxiv.org/abs/2203.10142v1 )

ライセンス: Link先を確認
Jingqi Li, Donggun Lee, Somayeh Sojoudi, Claire J. Tomlin(参考訳) 本稿では, 無限ホリゾン到達回避ゼロサムゲーム問題を考える。この問題では, 最大到達回避集合と呼ばれる状態空間内の集合を探索することを目的としている。 本稿では, 値関数が非負であると評価された状態の集合である超零レベル集合がリーチアビド集合を復元する, ベルマンバックアップを用いた新しい値関数を設計することでこの問題に対処する。 そこで本研究では,提案手法が,与えられた制約を満たすように制御可能な状態群,後方到達可能集合,あるいは与えられた対象集合に向かって駆動可能な状態群を計算できることを示す。 最後に,深層強化学習手法である保守的q-learningを拡張し,高次元問題における次元問題の呪いを緩和し,学習値関数の超ゼロレベル集合が到達回避集合の(保存的)近似となるような値関数を学習することを提案する。 提案手法は,ニューラルネットワーク近似を用いても到達回避集合と最適制御ポリシーを確実に学習できることが示唆された。

In this paper, we consider the infinite-horizon reach-avoid zero-sum game problem, where the goal is to find a set in the state space, referred to as the reach-avoid set, such that the system starting at a state therein could be controlled to reach a given target set without violating constraints under the worst-case disturbance. We address this problem by designing a new value function with a contracting Bellman backup, where the super-zero level set, i.e., the set of states where the value function is evaluated to be non-negative, recovers the reach-avoid set. Building upon this, we prove that the proposed method can be adapted to compute the viability kernel, or the set of states which could be controlled to satisfy given constraints, and the backward reachable set, or the set of states that could be driven towards a given target set. Finally, we propose to alleviate the curse of dimensionality issue in high-dimensional problems by extending Conservative Q-Learning, a deep reinforcement learning technique, to learn a value function such that the super-zero level set of the learned value function serves as a (conservative) approximation to the reach-avoid set. Our theoretical and empirical results suggest that the proposed method could learn reliably the reach-avoid set and the optimal control policy even with neural network approximation.
翻訳日:2022-03-22 16:03:42 公開日:2022-03-18
# ログ解析のためのアクティブメタリーナー

Active Meta-Learner for Log Analysis ( http://arxiv.org/abs/2203.10960v1 )

ライセンス: Link先を確認
Jonathan Pan(参考訳) ログの分析は、システムとサイバーレジリエンスを強化するために、サイバー調査、デジタル法医学、および障害検出のために行われる重要な活動である。 しかし、ログ分析の実行は複雑な作業である。 ログの生成方法と使用するログエントリのフォーマットについて、広範な知識が必要です。 また、正常または良質なログエントリからの異常なログエントリの特定には、広範な知識や専門知識が必要です。 これは、異常なエントリの形式が、既知の内部または外部攻撃の形式や、存在する可能性のある様々な破壊形式によって制限されている場合、特に複雑である。 このようなディスラプションの新しい、あるいは回避的な形式を定義するのは難しい。 ログ分析の課題は、ログエントリのボリュームによってさらに複雑になる。 このようなログデータが利用可能であっても、そのようなログエントリのラベル付けは大きな作業になるでしょう。 そこで本研究では,新たなDeep Learningモデルでこれらの課題に対処し,利用可能な入力や修正を段階的に学習し,改善する。 このようなモデル構成の実践的応用は、異常を見つけたり、偽陽性を無視したりする新しいパターンを学習または組み込んだログ分析やレビューを容易にする。

The analysis of logs is a vital activity undertaken for cyber investigation, digital forensics and fault detection to enhance system and cyber resilience. However, performing log analysis is a complex task. It requires extensive knowledge of how the logs are generated and the format of the log entries used. Also, it requires extensive knowledge or expertise in the identifying anomalous log entries from normal or benign log entries. This is especially complex when the forms of anomalous entries are constrained by what are the known forms of internal or external attacks techniques or the varied forms of disruptions that may exists. New or evasive forms of such disruptions are difficult to define. The challenge of log analysis is further complicated by the volume of log entries. Even with the availability of such log data, labelling such log entries would be a massive undertaking. Hence this research seeks to address these challenges with its novel Deep Learning model that learns and improves itself progressively with inputs or corrections provided when available. The practical application of such model construct facilitates log analysis or review with abilities to learn or incorporate new patterns to spot anomalies or ignore false positives.
翻訳日:2022-03-22 15:15:30 公開日:2022-03-18
# 概念に基づく敵攻撃:人間や分類器をトリックする

Concept-based Adversarial Attacks: Tricking Humans and Classifiers Alike ( http://arxiv.org/abs/2203.10166v1 )

ライセンス: Link先を確認
Johannes Schneider and Giovanni Apruzzese(参考訳) 意味論的概念をコードする上層層のアクティベーションを変更することで,敵対的なサンプルを生成することを提案する。 原試料はターゲット試料に向かって移動し、原試料を再構成するために修正された活性化を用いて逆試料を得る。 人間は、元のサンプルと反対のサンプルの違いに気づくかもしれない(そしておそらくは)。 攻撃者が提供する制約によっては、敵のサンプルは微妙な違いを示したり、他のクラスの"偽"のサンプルのように見える。 我々のアプローチとゴールは、人間には認識できない単一のピクセルの摂動に関わる一般的な攻撃とは対照的である。 我々のアプローチは、例えば、人間と機械の両方が意思決定に関与しているような入力の多段階的な処理に関係している。 我々の評価はディープニューラルネットワークに焦点を当てている。 また,ネットワーク間における攻撃例の伝達可能性を示す。

We propose to generate adversarial samples by modifying activations of upper layers encoding semantically meaningful concepts. The original sample is shifted towards a target sample, yielding an adversarial sample, by using the modified activations to reconstruct the original sample. A human might (and possibly should) notice differences between the original and the adversarial sample. Depending on the attacker-provided constraints, an adversarial sample can exhibit subtle differences or appear like a "forged" sample from another class. Our approach and goal are in stark contrast to common attacks involving perturbations of single pixels that are not recognizable by humans. Our approach is relevant in, e.g., multi-stage processing of inputs, where both humans and machines are involved in decision-making because invisible perturbations will not fool a human. Our evaluation focuses on deep neural networks. We also show the transferability of our adversarial examples among networks.
翻訳日:2022-03-22 15:13:32 公開日:2022-03-18
# モード間の知識共有に基づく自転車共有需要予測:グラフに基づくディープラーニングアプローチ

Bike Sharing Demand Prediction based on Knowledge Sharing across Modes: A Graph-based Deep Learning Approach ( http://arxiv.org/abs/2203.10961v1 )

ライセンス: Link先を確認
Yuebing Liang, Guan Huang, Zhan Zhao(参考訳) 自転車のシェアリングは都市交通システムで人気が高まっている。 正確な需要予測は、タイムリーに再バランスし、サービスの効率を確保するための鍵です。 既存の自転車シェアリング需要予測モデルは、基本的には自転車シェアリングをクローズドシステムとして、異なる輸送モード間の相互作用を無視するものである。 これは、自転車シェアリングが他のモード(公共交通機関など)を補完するためにしばしば使用されるため、特に重要である。 近年の取り組みにもかかわらず、異種空間単位を持つ複数のモードから時空間情報を活用できる手法は存在しない。 本研究では,多変量履歴データを入力として,自転車シェアリング需要予測(b-mrgnn)のためのグラフベースのディープラーニング手法を提案する。 モード間の空間的依存関係は、複数のモーダルグラフとモーダルグラフで符号化される。 マルチリレーショナルグラフニューラルネットワーク(mrgnn)は、自転車シェアリングステーション、地下鉄駅、ライドシェアリングゾーンなどのモード間の空間単位間の相関をキャプチャするために導入された。 ニューヨーク市の自転車共有, 地下鉄およびライドシェアリングデータを用いて大規模な実験を行い, 提案手法の既存手法と比較して優れた性能を示した。

Bike sharing is an increasingly popular part of urban transportation systems. Accurate demand prediction is the key to support timely re-balancing and ensure service efficiency. Most existing models of bike-sharing demand prediction are solely based on its own historical demand variation, essentially regarding bike sharing as a closed system and neglecting the interaction between different transport modes. This is particularly important because bike sharing is often used to complement travel through other modes (e.g., public transit). Despite some recent efforts, there is no existing method capable of leveraging spatiotemporal information from multiple modes with heterogeneous spatial units. To address this research gap, this study proposes a graph-based deep learning approach for bike sharing demand prediction (B-MRGNN) with multimodal historical data as input. The spatial dependencies across modes are encoded with multiple intra- and inter-modal graphs. A multi-relational graph neural network (MRGNN) is introduced to capture correlations between spatial units across modes, such as bike sharing stations, subway stations, or ride-hailing zones. Extensive experiments are conducted using real-world bike sharing, subway and ride-hailing data from New York City, and the results demonstrate the superior performance of our proposed approach compared to existing methods.
翻訳日:2022-03-22 15:05:55 公開日:2022-03-18
# ViewFormer: トランスフォーマーを用いた少数の画像からのNeRFのないニューラルレンダリング

ViewFormer: NeRF-free Neural Rendering from Few Images Using Transformers ( http://arxiv.org/abs/2203.10157v1 )

ライセンス: Link先を確認
Jon\'a\v{s} Kulh\'anek and Erik Derner and Torsten Sattler and Robert Babu\v{s}ka(参考訳) 新しいビュー合成は長年の問題である。 本研究では,シーンやオブジェクトをまばらにカバーする,いくつかのコンテキストビューしか与えられていない問題の変種について考察する。 目標は、学習の優先順位を必要とするシーンで、新しい視点を予測することである。 この技術の現状はNeural Radiance Fields(NeRF)に基づいており、印象的な結果を得る一方で、各画像のディープニューラルネットワークを介して何千もの3Dポイントサンプルを評価する必要があるため、長いトレーニング時間に悩まされている。 ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。 我々のモデルは、コードブックとトランスフォーマーモデルからなる2段階アーキテクチャを使用する。 コードブックは個々の画像を小さな潜在空間に埋め込むのに使われ、変換器はこのよりコンパクトな空間でビュー合成タスクを解く。 モデルを効率的にトレーニングするために、ニューラルネットワークのレンダリングだけでなく、カメラのポーズ推定にも、同じモデルを使用できる新しい分岐注意機構を導入しました。 実世界のシーンにおける実験結果から,提案手法はNeRF法と競合するが,3次元の推論は行わず,訓練の高速化が期待できる。

Novel view synthesis is a long-standing problem. In this work, we consider a variant of the problem where we are given only a few context views sparsely covering a scene or an object. The goal is to predict novel viewpoints in the scene, which requires learning priors. The current state of the art is based on Neural Radiance Fields (NeRFs), and while achieving impressive results, the methods suffer from long training times as they require evaluating thousands of 3D point samples via a deep neural network for each image. We propose a 2D-only method that maps multiple context views and a query pose to a new image in a single pass of a neural network. Our model uses a two-stage architecture consisting of a codebook and a transformer model. The codebook is used to embed individual images into a smaller latent space, and the transformer solves the view synthesis task in this more compact space. To train our model efficiently, we introduce a novel branching attention mechanism that allows us to use the same model not only for neural rendering but also for camera pose estimation. Experimental results on real-world scenes show that our approach is competitive compared to NeRF-based methods while not reasoning in 3D, and it is faster to train.
翻訳日:2022-03-22 15:02:53 公開日:2022-03-18
# 低リソース環境における胎児超音波のAIシステム

AI system for fetal ultrasound in low-resource settings ( http://arxiv.org/abs/2203.10139v1 )

ライセンス: Link先を確認
Ryan G. Gomes, Bellington Vwalika, Chace Lee, Angelica Willis, Marcin Sieniek, Joan T. Price, Christina Chen, Margaret P. Kasaro, James A. Taylor, Elizabeth M. Stringer, Scott Mayer McKinney, Ntazana Sindano, George E. Dahl, William Goodnight III, Justin Gilmer, Benjamin H. Chi, Charles Lau, Terry Spitz, T Saensuksopa, Kris Liu, Jonny Wong, Rory Pilgrim, Akib Uddin, Greg Corrado, Lily Peng, Katherine Chou, Daniel Tse, Jeffrey S. A. Stringer, Shravya Shetty(参考訳) 母系医療の進歩にもかかわらず、低中間所得国では母系と周産期の死亡率が高い。 胎児超音波は産科医療の重要な要素であるが、十分な訓練を受けた医療従事者の不足は採用を制限している。 妊娠年齢(GA)と胎児の誤表現を推定するために,初歩的な"盲検"超音波ビデオを用いた人工知能(AI)システムを開発した。 我々はさらに、低リソース設定で遭遇する可能性のある障害にも対処した。 リアルタイムのAIフィードバックによる簡易なスイーププロトコルをスイープ品質に適用し、オンデバイスAI統合による低コスト超音波デバイスを用いた最小限の訓練を受けた初心者超音波オペレーターに対するモデル性能の一般化を実証した。 GAモデルは, 標準胎児バイオメトリ推定値に劣らず, 2回のスイープしか得られず, 胎児奇形モデルは操作者や装置間で高いAUC-ROCを有していた。 われわれのAIモデルは、低リソース環境下で軽量に訓練された超音波オペレーターの能力向上を支援する可能性がある。

Despite considerable progress in maternal healthcare, maternal and perinatal deaths remain high in low-to-middle income countries. Fetal ultrasound is an important component of antenatal care, but shortage of adequately trained healthcare workers has limited its adoption. We developed and validated an artificial intelligence (AI) system that uses novice-acquired "blind sweep" ultrasound videos to estimate gestational age (GA) and fetal malpresentation. We further addressed obstacles that may be encountered in low-resourced settings. Using a simplified sweep protocol with real-time AI feedback on sweep quality, we have demonstrated the generalization of model performance to minimally trained novice ultrasound operators using low cost ultrasound devices with on-device AI integration. The GA model was non-inferior to standard fetal biometry estimates with as few as two sweeps, and the fetal malpresentation model had high AUC-ROCs across operators and devices. Our AI models have the potential to assist in upleveling the capabilities of lightly trained ultrasound operators in low resource settings.
翻訳日:2022-03-22 13:39:16 公開日:2022-03-18
# (参考訳) 野生動物におけるドメイン適応ハンドキーポイントとピクセル局在

Domain Adaptive Hand Keypoint and Pixel Localization in the Wild ( http://arxiv.org/abs/2203.08344v2 )

ライセンス: CC BY 4.0
Takehiko Ohkawa, Yu-Jhe Li, Qichen Fu, Ryosuke Furuta, Kris M. Kitani and Yoichi Sato(参考訳) 異なる条件(例えば屋内)で撮影されるラベル付き画像しか持たない場合、新しい撮像条件(例えば屋外)下で手指のキーポイントの後退や画素レベルのハンドマスクのセグメンテーションの性能を向上させることを目的としている。 実世界では,両タスクを訓練したモデルが様々な撮像条件下で動作することが重要である。 しかし、既存のラベル付きハンドデータセットでカバーされているバリエーションは限られている。 したがって、ラベル付き画像(ソース)で訓練されたモデルを、未表示の画像(ターゲット)に未表示の撮像条件で適応させる必要がある。 どちらの課題も自己学習型ドメイン適応法(すなわちラベルなしの目標画像からの学習)が開発されているが、対象画像の予測が騒がしい場合、その訓練は性能を低下させる可能性がある。 これを避けるために、自己学習中のノイズ予測に低重要性(自信)重みを割り当てることが重要である。 本稿では,2つの予測の発散を利用して,両タスクの目標画像の信頼度を推定する。 これらの予測は2つの別々のネットワークから与えられ、その分岐はノイズの予測を特定するのに役立つ。 提案する信頼度推定を自己学習に組み込むために,2つのネットワーク(教師)が自己学習のためのネットワーク(学生)に監督を提供し,教師が知識蒸留によって生徒から学習する教師教育枠組みを提案する。 本実験は,照明,物体の把握,背景,カメラ視点の調整において,最先端の手法よりも優れていることを示す。 本手法は,最新の逆適応法と比較して,HO3Dのマルチタスクスコアを4%改善する。 また, ego4d, egocentric videoにおいて, 屋外の撮像条件の急激な変化を検証した。

We aim to improve the performance of regressing hand keypoints and segmenting pixel-level hand masks under new imaging conditions (e.g., outdoors) when we only have labeled images taken under very different conditions (e.g., indoors). In the real world, it is important that the model trained for both tasks works under various imaging conditions. However, their variation covered by existing labeled hand datasets is limited. Thus, it is necessary to adapt the model trained on the labeled images (source) to unlabeled images (target) with unseen imaging conditions. While self-training domain adaptation methods (i.e., learning from the unlabeled target images in a self-supervised manner) have been developed for both tasks, their training may degrade performance when the predictions on the target images are noisy. To avoid this, it is crucial to assign a low importance (confidence) weight to the noisy predictions during self-training. In this paper, we propose to utilize the divergence of two predictions to estimate the confidence of the target image for both tasks. These predictions are given from two separate networks, and their divergence helps identify the noisy predictions. To integrate our proposed confidence estimation into self-training, we propose a teacher-student framework where the two networks (teachers) provide supervision to a network (student) for self-training, and the teachers are learned from the student by knowledge distillation. Our experiments show its superiority over state-of-the-art methods in adaptation settings with different lighting, grasping objects, backgrounds, and camera viewpoints. Our method improves by 4% the multi-task score on HO3D compared to the latest adversarial adaptation method. We also validate our method on Ego4D, egocentric videos with rapid changes in imaging conditions outdoors.
翻訳日:2022-03-22 11:28:33 公開日:2022-03-18
# (参考訳) ホログラフィック画像のニューラルネットワーク処理

Neural network processing of holographic images ( http://arxiv.org/abs/2203.08898v2 )

ライセンス: CC BY 4.0
John S. Schreck, Gabrielle Gantos, Matthew Hayman, Aaron Bansemer, David John Gagne(参考訳) 空飛ぶ雲粒子イメージ装置であるHOLODECは、一定量の雲のホログラフィック画像をキャプチャして、水滴や氷結晶のような雲粒子の種類と大きさを特徴付ける。 雲粒子の特徴は、位置、直径、形状である。 本稿では,ニューラルセグメンテーションモデル,GPU,計算並列化を利用したホログラム処理アルゴリズムHolodecMLを提案する。 ホロデックMLは、装置のモデルに基づいて合成ホログラムを用いて訓練され、再構成された画像の中で見られる粒子の周りのマスクを予測する。 これらのマスクから、検出された粒子の位置と大きさを3次元で特徴づけることができる。 実ホログラムの処理を成功させるためには、トレーニングで使用される合成画像に一連の画像破壊変換とノイズを適用する必要がある。 この評価では、ホロデックMLは標準処理法と同等の位置とサイズの推定性能を有していたが、数千個のHOLODEC画像に対して、粒子検出を20倍近く改善した。 しかし、この改良は、訓練中に模擬画像上で画像破損が発生した場合にのみ発生し、実際のプローブにおける非理想条件を模倣する。 トレーニングされたモデルは、トレーニングデータセットにそのようなオブジェクトが存在しないにもかかわらず、ホロデック画像内のアーティファクトやその他の不純物を粒子と区別することを学び、標準処理方法はアーティファクトから粒子を分離するのに苦労した。 HOLODEC検出器の非理想的側面をパラメータ化する手段としてノイズを利用したトレーニング手法の新規性は、理論モデルが実世界の操作を完全に記述できない他の領域に適用でき、教師付き学習に必要な正確な真理データも実世界の観測では得られない。

HOLODEC, an airborne cloud particle imager, captures holographic images of a fixed volume of cloud to characterize the types and sizes of cloud particles, such as water droplets and ice crystals. Cloud particle properties include position, diameter, and shape. We present a hologram processing algorithm, HolodecML, that utilizes a neural segmentation model, GPUs, and computational parallelization. HolodecML is trained using synthetically generated holograms based on a model of the instrument, and predicts masks around particles found within reconstructed images. From these masks, the position and size of the detected particles can be characterized in three dimensions. In order to successfully process real holograms, we find we must apply a series of image corrupting transformations and noise to the synthetic images used in training. In this evaluation, HolodecML had comparable position and size estimation performance to the standard processing method, but improved particle detection by nearly 20\% on several thousand manually labeled HOLODEC images. However, the improvement only occurred when image corruption was performed on the simulated images during training, thereby mimicking non-ideal conditions in the actual probe. The trained model also learned to differentiate artifacts and other impurities in the HOLODEC images from the particles, even though no such objects were present in the training data set, while the standard processing method struggled to separate particles from artifacts. The novelty of the training approach, which leveraged noise as a means for parameterizing non-ideal aspects of the HOLODEC detector, could be applied in other domains where the theoretical model is incapable of fully describing the real-world operation of the instrument and accurate truth data required for supervised learning cannot be obtained from real-world observations.
翻訳日:2022-03-22 11:27:23 公開日:2022-03-18
# (参考訳) 消費者グレードウェアラブルデバイスに応用した主観非依存応力検出モデルの改良 [全文訳有]

An Improved Subject-Independent Stress Detection Model Applied to Consumer-grade Wearable Devices ( http://arxiv.org/abs/2203.09663v1 )

ライセンス: CC BY 4.0
Van-Tu Ninh and Manh-Duy Nguyen and Sin\'ead Smyth and Minh-Triet Tran and Graham Healy and Binh T. Nguyen and Cathal Gurrin(参考訳) ストレスは、身体的および心理的な影響が人間の日常のパフォーマンスに広範囲に及ぼす複雑な問題である。 特に、急性ストレス検出は文脈理解において重要な応用となっている。 ストレス検出モデルのトレーニングには2つの一般的なアプローチがある。 個人依存型トレーニング手法は, ストレス検出モデル構築の最も正確な手法であることが証明されているが, 個人依存型モデルの方が実用的でコスト効率のよい手法であり, エンドユーザのトレーニングデータを必要とせずに, コンシューマグレードのウェアラブルデバイスにストレスレベル検出・管理システムを展開できる。 本稿では,負荷非依存型ストレス検出モデルの性能向上を目的として,電気活動(EDA),血液容積パルス(BVP),皮膚温度(ST)といったマルチモーダルなコンテキストセンシング源から抽出した統計的特徴を用いた,シンプルなニューラルネットワークアーキテクチャを用いたストレス関連バイオ信号処理パイプラインを提案する。 提案するモデルアーキテクチャを用いて,各信号源からの計測値を用いた応力検出モデルと,複数のセンサ源の融合を用いた1つのモデルを比較した。 WESADデータセットの大規模な実験により,提案モデルは従来の手法よりも優れており,標準偏差を低く保ちながら,最先端モデルと比較して1.63%高い平均精度のスコアが得られた。 また,複数のセンサからの機能を組み合わせることで,個別に1つのセンサソースを使用するよりも正確な予測ができることを示した。

Stress is a complex issue with wide-ranging physical and psychological impacts on human daily performance. Specifically, acute stress detection is becoming a valuable application in contextual human understanding. Two common approaches to training a stress detection model are subject-dependent and subject-independent training methods. Although subject-dependent training methods have proven to be the most accurate approach to build stress detection models, subject-independent models are a more practical and cost-efficient method, as they allow for the deployment of stress level detection and management systems in consumer-grade wearable devices without requiring training data for the end-user. To improve the performance of subject-independent stress detection models, in this paper, we introduce a stress-related bio-signal processing pipeline with a simple neural network architecture using statistical features extracted from multimodal contextual sensing sources including Electrodermal Activity (EDA), Blood Volume Pulse (BVP), and Skin Temperature (ST) captured from a consumer-grade wearable device. Using our proposed model architecture, we compare the accuracy between stress detection models that use measures from each individual signal source, and one model employing the fusion of multiple sensor sources. Extensive experiments on the publicly available WESAD dataset demonstrate that our proposed model outperforms conventional methods as well as providing 1.63% higher mean accuracy score compared to the state-of-the-art model while maintaining a low standard deviation. Our experiments also show that combining features from multiple sources produce more accurate predictions than using only one sensor source individually.
翻訳日:2022-03-22 05:16:16 公開日:2022-03-18
# (参考訳) 空間トラノドミクス解析における新しい人工知能応用 [全文訳有]

Emerging Artificial Intelligence Applications in Spatial Transcriptomics Analysis ( http://arxiv.org/abs/2203.09664v1 )

ライセンス: CC BY-SA 4.0
Yijun Li, Stefan Stanojevic, Lana X. Garmire(参考訳) 空間転写学(ST)は近年大きく進歩している。 このような進歩は、STデータ分析の独特な課題に対処する新しい計算手法が緊急に必要となる。 多くの人工知能(AI)手法が、様々な機械学習およびディープラーニング技術を利用して計算ST分析を行っている。 このレビューは、ST分析の現在のAIメソッドに関する包括的で最新の調査を提供する。

Spatial transcriptomics (ST) has advanced significantly in the last few years. Such advancement comes with the urgent need for novel computational methods to handle the unique challenges of ST data analysis. Many artificial intelligence (AI) methods have been developed to utilize various machine learning and deep learning techniques for computational ST analysis. This review provides a comprehensive and up-to-date survey of current AI methods for ST analysis.
翻訳日:2022-03-22 05:04:06 公開日:2022-03-18
# (参考訳) 消費者級ウェアラブルデバイスにおけるストレス検出モデルの性能解析 [全文訳有]

Analysing the Performance of Stress Detection Models on Consumer-Grade Wearable Devices ( http://arxiv.org/abs/2203.09669v1 )

ライセンス: CC BY 4.0
Van-Tu Ninh and Sin\'ead Smyth and Minh-Triet Tran and Cathal Gurrin(参考訳) ストレスレベルを特定することは、メンタルヘルス分析やアノテーションシステムのラベルに有用なデータを提供することができる。 データ収集コストの高い心拍変動を用いたストレス検出モデルの研究が数多く行われているが、消費者級ウェアラブルデバイスからの低分解能電極活動(eda)信号を使用してストレスパターンを識別する可能性についての研究が不足している。 本稿では,ストレス関連生体信号を用いたストレス検出モデルの訓練における一般的な2つのアプローチである,ユーザ依存型とユーザ非依存型のストレス検出能力に関する統計的解析を行う。 本研究では,ユーザ依存モデルが統計的にストレス検出に正確であることを示す。 低分解能または高分解能の電磁活動(EDA)信号で訓練されたモデルの応力と非ストレス条件を識別する能力を評価するために、平衡精度(BA)測定値が用いられる。 実験の結果,(比較的低コストの)低分解能EDA信号を用いたモデルのトレーニングは,高分解能EDA信号と比較して,モデルの応力検出精度に大きく影響しないことがわかった。 本研究は,個人的ストレスレベルの洞察と分析をユーザに提供するために,個人的低分解能EDA信号に基づいて訓練されたユーザ依存ストレス検出モデルを付加する可能性を示す。

Identifying stress levels can provide valuable data for mental health analytics as well as labels for annotation systems. Although much research has been conducted into stress detection models using heart rate variability at a higher cost of data collection, there is a lack of research on the potential of using low-resolution Electrodermal Activity (EDA) signals from consumer-grade wearable devices to identify stress patterns. In this paper, we concentrate on performing statistical analyses on the stress detection capability of two popular approaches of training stress detection models with stress-related biometric signals: user-dependent and user-independent models. Our research manages to show that user-dependent models are statistically more accurate for stress detection. In terms of effectiveness assessment, the balanced accuracy (BA) metric is employed to evaluate the capability of distinguishing stress and non-stress conditions of the models trained on either low-resolution or high-resolution Electrodermal Activity (EDA) signals. The results from the experiment show that training the model with (comparatively low-cost) low-resolution EDA signal does not affect the stress detection accuracy of the model significantly compared to using a high-resolution EDA signal. Our research results demonstrate the potential of attaching the user-dependent stress detection model trained on personal low-resolution EDA signal recorded to collect data in daily life to provide users with personal stress level insight and analysis.
翻訳日:2022-03-22 04:53:48 公開日:2022-03-18
# (参考訳) マルチサーバエッジコンピューティングにおけるブロックチェーンによるフェデレート学習のためのレイテンシ最適化 [全文訳有]

Latency Optimization for Blockchain-Empowered Federated Learning in Multi-Server Edge Computing ( http://arxiv.org/abs/2203.09670v1 )

ライセンス: CC BY 4.0
Dinh C. Nguyen, Seyyedali Hosseinalipour, David J. Love, Pubudu N. Pathirana, Christopher G. Brinton(参考訳) 本稿では,マルチサーバエッジコンピューティングにおけるブロックチェーンベースフェデレーション学習(bfl)のための新しいレイテンシ最適化問題について検討する。 このシステムモデルでは、分散モバイルデバイス(mds)は一連のエッジサーバ(ess)と通信し、機械学習(ml)モデルのトレーニングとブロックマイニングの両方を同時に処理する。 資源制約されたMDのMLモデルトレーニングを支援するため,MDが関連するESにデータを送信できるオフロード戦略を開発した。 次に、ピアツーピア(P2P)ベースのブロックチェーン通信によるグローバルMLモデルを構築するためのコンセンサス機構に基づいて、エッジ層に新たな分散MLモデル集約ソリューションを提案する。 次に、データオフロード決定、mdsの送信電力、mdsのデータオフロードのためのチャネル帯域割り当て、mdsの計算割り当て、ハッシュパワー割り当てを共同で考慮し、システムのレイテンシを最小化するための最適化として遅延対応bflを定式化する。 離散オフロードと連続アロケーション変数の混合作用空間に対処するために,パラメータ化アドバンストアクタ評論家(A2C)アルゴリズムの全体設計による新しい深層強化学習手法を提案する。 さらに,提案するbflシステムの収束特性を,集約遅延,ミニバッチサイズ,p2p通信ラウンド数の観点から理論的に特徴づける。 その後の数値評価では,モデル学習効率,収束率,システム遅延の観点から既存手法よりも優れた性能を示す。

In this paper, we study a new latency optimization problem for Blockchain-based federated learning (BFL) in multi-server edge computing. In this system model, distributed mobile devices (MDs) communicate with a set of edge servers (ESs) to handle both machine learning (ML) model training and block mining simultaneously. To assist the ML model training for resource-constrained MDs, we develop an offloading strategy that enables MDs to transmit their data to one of the associated ESs. We then propose a new decentralized ML model aggregation solution at the edge layer based on a consensus mechanism to build a global ML model via peer-to-peer (P2P)-based Blockchain communications. We then formulate latency-aware BFL as an optimization aiming to minimize the system latency via joint consideration of the data offloading decisions, MDs' transmit power, channel bandwidth allocation for MDs' data offloading, MDs' computational allocation, and hash power allocation. To address the mixed action space of discrete offloading and continuous allocation variables, we propose a novel deep reinforcement learning scheme with a holistic design of a parameterized advantage actor critic (A2C) algorithm. Additionally, we theoretically characterize the convergence properties of the proposed BFL system in terms of the aggregation delay, mini-batch size, and number of P2P communication rounds. Our subsequent numerical evaluation demonstrates the superior performance of our proposed scheme over existing approaches in terms of model training efficiency, convergence rate, and system latency.
翻訳日:2022-03-22 04:41:27 公開日:2022-03-18
# (参考訳) 深部構造方程式モデルを用いたマルチモーダル因果推論 [全文訳有]

Multi-Modal Causal Inference with Deep Structural Equation Models ( http://arxiv.org/abs/2203.09672v1 )

ライセンス: CC BY 4.0
Shachi Deshpande, Volodymyr Kuleshov (Department of Computer Science, Cornell Tech)(参考訳) 共同設立者の影響を考慮に入れることは因果推論の中心的な課題の1つだ。 構造化されていないマルチモーダルデータ(画像、時系列、テキスト)は、様々なタイプの共同設立者に関する貴重な情報を含んでいるが、ほとんどの既存手法では使われていない。 本稿では,この非構造化データを因果推論内で活用して,説明できないかもしれない新たな共同創設者を補正する手法の開発を目指す。 このタスクを形式化し,マルチモーダル非構造化データをプロキシ変数として扱う深部構造方程式に基づくアルゴリズムを提案する。 我々は、ゲノム学や医療のタスクにおいて、非構造化データを様々な共起源の修正に利用し、因果推論にはこれまで使われていなかった大量のデータの使用を可能にすることを実証的に実証する。

Accounting for the effects of confounders is one of the central challenges in causal inference. Unstructured multi-modal data (images, time series, text) contains valuable information about diverse types of confounders, yet it is typically left unused by most existing methods. This paper seeks to develop techniques that leverage this unstructured data within causal inference to correct for additional confounders that may otherwise not be accounted for. We formalize this task and we propose algorithms based on deep structural equations that treat multi-modal unstructured data as proxy variables. We empirically demonstrate on tasks in genomics and healthcare that unstructured data can be used to correct for diverse sources of confounding, potentially enabling the use of large amounts of data that were previously not used in causal inference.
翻訳日:2022-03-22 02:52:51 公開日:2022-03-18
# (参考訳) ヘイトスピーチ、検閲、言論の自由:redditの方針変更

Hate speech, Censorship, and Freedom of Speech: The Changing Policies of Reddit ( http://arxiv.org/abs/2203.09673v1 )

ライセンス: CC BY-SA 4.0
Elissa Nakajima Wickham, Emily \"Ohman(参考訳) 本稿では,ソーシャルメディアプラットフォームRedditにおけるコンテンツポリシーとユーザ態度の転換について検討する。 私たちは、redditコンテンツポリシーのアップデートに関する管理者(モデレーター)による5つの投稿から、一般的なredditユーザーからのコメントに焦点を当てます。 5つとも、Redditに投稿されるコンテンツの性質や、これらのポリシーに違反しているコンテンツに対する措置について懸念している。 redditユーザーの一般的な会話がコンテンツの制限にどう変化したのか、そしてその後、特定のグループに対する暴力を誘発するヘイトスピーチやスピーチの制限について調査するために、トピックモデリングを使用します。 本研究は,同時代の社会の混乱と新たに成立した法律・規則に関連付けられる内容とユーザの態度の両方に明確な変化があることを示し,ヘイトスピーチのモデレーションに関するより広範な議論に寄与することを示す。

This paper examines the shift in focus on content policies and user attitudes on the social media platform Reddit. We do this by focusing on comments from general Reddit users from five posts made by admins (moderators) on updates to Reddit Content Policy. All five concern the nature of what kind of content is allowed to be posted on Reddit, and which measures will be taken against content that violates these policies. We use topic modeling to probe how the general discourse for Redditors has changed around limitations on content, and later, limitations on hate speech, or speech that incites violence against a particular group. We show that there is a clear shift in both the contents and the user attitudes that can be linked to contemporary societal upheaval as well as newly passed laws and regulations, and contribute to the wider discussion on hate speech moderation.
翻訳日:2022-03-22 02:35:34 公開日:2022-03-18
# (参考訳) Googles Colaboratoryにおける深層学習による土壌のセグメンテーションとX線CT画像の撮影

A workflow for segmenting soil and plant X-ray CT images with deep learning in Googles Colaboratory ( http://arxiv.org/abs/2203.09674v1 )

ライセンス: CC BY 4.0
Devin A. Rippner, Pranav Raja, J. Mason Earles, Alexander Buchko, Mina Momayyezi, Fiona Duong, Dilworth Parkinson, Elizabeth Forrestel, Ken Shackel, and Andrew J. McElrone(参考訳) X線マイクロ計算トモグラフィー(X線マイクロCT)は、ミクロンスケールで植物や土壌で発生する特性や過程のキャラクタリゼーションを可能にしている。 この高度な技術が広く使われているにもかかわらず、ハードウェアとソフトウェアの両方の大きな制限は、画像処理とデータ解析のスピードと精度を制限している。 最近の機械学習の進歩、特に畳み込みニューラルネットワークのイメージ解析への応用により、画像データの迅速かつ正確なセグメンテーションが可能になる。 しかし、環境や農業に関係のある画像の分析に畳み込みニューラルネットワークを適用することは依然として課題である。 具体的には、これらのAI/MLツールを開発するコンピュータ科学者とエンジニアと、農業研究における潜在的エンドユーザーとの間には、これらのツールを自分たちの仕事に適用する方法がわからない可能性がある。 さらに、ディープラーニングモデルのトレーニングと適用に必要なコンピューティングリソースは、従来の計算システムよりも、コンピュータゲームシステムやグラフィックデザイン作業に共通している。 これらの課題を克服するため,我々は,google colaboratory web アプリケーションにおける低コストリソースを用いた畳み込みニューラルネットワークを x-ray microct 画像に適用するモジュールワークフローを開発した。 ここでは, クルミの葉, アーモンドの花芽, 土壌集合体のサンプルスキャンを用いて, 最適な結果を得るために, パラメーターをどのように最適化できるかを示す。 この枠組みは,植物・土壌科学における新たな深層学習技術の導入と活用を加速するものと期待している。

X-ray micro-computed tomography (X-ray microCT) has enabled the characterization of the properties and processes that take place in plants and soils at the micron scale. Despite the widespread use of this advanced technique, major limitations in both hardware and software limit the speed and accuracy of image processing and data analysis. Recent advances in machine learning, specifically the application of convolutional neural networks to image analysis, have enabled rapid and accurate segmentation of image data. Yet, challenges remain in applying convolutional neural networks to the analysis of environmentally and agriculturally relevant images. Specifically, there is a disconnect between the computer scientists and engineers, who build these AI/ML tools, and the potential end users in agricultural research, who may be unsure of how to apply these tools in their work. Additionally, the computing resources required for training and applying deep learning models are unique, more common to computer gaming systems or graphics design work, than to traditional computational systems. To navigate these challenges, we developed a modular workflow for applying convolutional neural networks to X-ray microCT images, using low-cost resources in Googles Colaboratory web application. Here we present the results of the workflow, illustrating how parameters can be optimized to achieve best results using example scans from walnut leaves, almond flower buds, and a soil aggregate. We expect that this framework will accelerate the adoption and use of emerging deep learning techniques within the plant and soil sciences.
翻訳日:2022-03-22 02:34:41 公開日:2022-03-18
# (参考訳) 手話生成のためのモデリング強化:計算的アプローチ [全文訳有]

Modeling Intensification for Sign Language Generation: A Computational Approach ( http://arxiv.org/abs/2203.09679v1 )

ライセンス: CC BY 4.0
Mert \.Inan, Yang Zhong, Sabit Hassan, Lorna Quandt, Malihe Alikhani(参考訳) エンドツーエンドの手話生成モデルは手話の韻律を正確に表現していない。 時間的および空間的なバリエーションの欠如は、人間のインタプリタを混乱させる品質の低いプレゼンテーションにつながる。 本稿では,データ駆動方式の強化をモデル化することで,生成した手話の韻律を改善することを目的とする。 我々は,手話の言語学に基礎を置く異なる戦略を提示する。 我々はまず,ドイツの手話データセットであるベンチマークPHOENIX-14Tのサブセットに,異なるレベルの強調を加えて注釈を付ける。 次に教師付きインテンシティタグを使用して、注釈付きデータセットを拡張し、残りの部分のラベルを取得します。 この拡張データセットは、手話生成のための最先端のトランスフォーマーモデルをトレーニングするために使用される。 自動メトリクスで評価すると、強化モデリングの取り組みがより良い結果をもたらすことがわかった。 また,人間の評価は,モデルを用いて生成した動画の好みが高いことを示している。

End-to-end sign language generation models do not accurately represent the prosody in sign language. A lack of temporal and spatial variations leads to poor-quality generated presentations that confuse human interpreters. In this paper, we aim to improve the prosody in generated sign languages by modeling intensification in a data-driven manner. We present different strategies grounded in linguistics of sign language that inform how intensity modifiers can be represented in gloss annotations. To employ our strategies, we first annotate a subset of the benchmark PHOENIX-14T, a German Sign Language dataset, with different levels of intensification. We then use a supervised intensity tagger to extend the annotated dataset and obtain labels for the remaining portion of it. This enhanced dataset is then used to train state-of-the-art transformer models for sign language generation. We find that our efforts in intensification modeling yield better results when evaluated with automatic metrics. Human evaluation also indicates a higher preference of the videos generated using our model.
翻訳日:2022-03-22 02:33:34 公開日:2022-03-18
# (参考訳) a$^3$t:音声合成・編集のためのアライメント対応音響・テキスト事前学習 [全文訳有]

A$^3$T: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing ( http://arxiv.org/abs/2203.09690v1 )

ライセンス: CC BY 4.0
He Bai, Renjie Zheng, Junkun Chen, Xintong Li, Mingbo Ma, Liang Huang(参考訳) 近年,音声認識や音声分類,音声からテキストへの翻訳など,多くの音声関連タスクが改善されている。 しかしながら、上記のタスクはすべて音声理解の方向にあるが、逆方向の音声合成では、高品質な音声を生成するという困難な性質から、表現学習の可能性はまだ実現されていない。 そこで,本稿では,学習中にテキスト入力と音響テキストアライメントを用いてマスキング音響信号を再構成するアライメント認識音響テキストプリトレーニング(a$^3$t)という枠組みを提案する。 このように、事前学習されたモデルは、音声編集や未認識話者ttsに直接適用可能な、高品質な再構成されたスペクトログラムを生成することができる。 実験により、A$^3$Tは、音声編集におけるSOTAモデルよりも優れ、外部話者検証モデルなしでマルチスピーカ音声合成を改善する。

Recently, speech representation learning has improved many speech-related tasks such as speech recognition, speech classification, and speech-to-text translation. However, all the above tasks are in the direction of speech understanding, but for the inverse direction, speech synthesis, the potential of representation learning is yet to be realized, due to the challenging nature of generating high-quality speech. To address this problem, we propose our framework, Alignment-Aware Acoustic-Text Pretraining (A$^3$T), which reconstructs masked acoustic signals with text input and acoustic-text alignment during training. In this way, the pretrained model can generate high quality of reconstructed spectrogram, which can be applied to the speech editing and unseen speaker TTS directly. Experiments show A$^3$T outperforms SOTA models on speech editing, and improves multi-speaker speech synthesis without the external speaker verification model.
翻訳日:2022-03-22 02:17:14 公開日:2022-03-18
# (参考訳) 生成主成分分析

Generative Principal Component Analysis ( http://arxiv.org/abs/2203.09693v1 )

ライセンス: CC BY 4.0
Zhaoqiang Liu, Jiulong Liu, Subhroshekhar Ghosh, Jun Han, Jonathan Scarlett(参考訳) 本稿では, 主成分分析の問題を生成的モデリングの仮定で検討し, スパイク行列の回復や位相検索など, 注目すべき特別な場合を包含する観測行列の一般モデルを適用した。 鍵となる仮定は、基礎となる信号は、$k$次元の入力を持つ$L$-Lipschitz連続生成モデルの範囲に近いことである。 2次推定器を提案し、$m$がサンプル数であるとき、次数$\sqrt {\frac{k\log L}{m}}$の統計率を楽しむことを示す。 また、近似マッチングアルゴリズム非依存の下限を提供する。 さらに,各イテレーション中に計算されたデータを生成モデルの範囲に投影する古典的パワー手法の変種を提案する。 適切な条件下では、この手法は指数関数的に高速に収束し、上記の統計速度を達成する。 我々は,スパイク行列と位相探索モデルのための様々な画像データセットの実験を行い,この手法の性能向上を,スパース主成分分析のために考案された古典的パワー法と切り離されたパワー法に説明する。

In this paper, we study the problem of principal component analysis with generative modeling assumptions, adopting a general model for the observed matrix that encompasses notable special cases, including spiked matrix recovery and phase retrieval. The key assumption is that the underlying signal lies near the range of an $L$-Lipschitz continuous generative model with bounded $k$-dimensional inputs. We propose a quadratic estimator, and show that it enjoys a statistical rate of order $\sqrt{\frac{k\log L}{m}}$, where $m$ is the number of samples. We also provide a near-matching algorithm-independen t lower bound. Moreover, we provide a variant of the classic power method, which projects the calculated data onto the range of the generative model during each iteration. We show that under suitable conditions, this method converges exponentially fast to a point achieving the above-mentioned statistical rate. We perform experiments on various image datasets for spiked matrix and phase retrieval models, and illustrate performance gains of our method to the classic power method and the truncated power method devised for sparse principal component analysis.
翻訳日:2022-03-22 01:45:37 公開日:2022-03-18
# (参考訳) マルチモーダル学習による数発音声クローンの改良 [全文訳有]

Improve few-shot voice cloning using multi-modal learning ( http://arxiv.org/abs/2203.09708v1 )

ライセンス: CC BY 4.0
Haitong Zhang, Yue Lin(参考訳) 近年,音声のクローン化が著しい進歩を遂げている。 しかし、少数ショット音声クローンのほとんどのモデルはシングルモーダルであり、複数モーダル音声クローンが検討されている。 本稿では,マルチモーダル学習を用いて音声クローン性能を向上させることを提案する。 教師なし音声表現の最近の研究に触発され,教師なし音声表現モジュールでTacotron2を拡張したマルチモーダルシステムを構築した。 提案システムは,2つの音声合成シナリオ,すなわち,音声変換(VC)と音声合成(TTS)で評価する。 実験の結果, 提案するマルチモーダル学習は, 単モーダルシステムに比べて, 音声のクローン性能が有意に向上することが示された。

Recently, few-shot voice cloning has achieved a significant improvement. However, most models for few-shot voice cloning are single-modal, and multi-modal few-shot voice cloning has been understudied. In this paper, we propose to use multi-modal learning to improve the few-shot voice cloning performance. Inspired by the recent works on unsupervised speech representation, the proposed multi-modal system is built by extending Tacotron2 with an unsupervised speech representation module. We evaluate our proposed system in two few-shot voice cloning scenarios, namely few-shot text-to-speech(TTS) and voice conversion(VC). Experimental results demonstrate that the proposed multi-modal learning can significantly improve the few-shot voice cloning performance over their counterpart single-modal systems.
翻訳日:2022-03-22 01:44:28 公開日:2022-03-18
# (参考訳) DEAM: AMRを用いた意味操作を用いた対話コヒーレンス評価 [全文訳有]

DEAM: Dialogue Coherence Evaluation using AMR-based Semantic Manipulations ( http://arxiv.org/abs/2203.09711v1 )

ライセンス: CC BY 4.0
Sarik Ghazarian, Nuan Wen, Aram Galstyan, Nanyun Peng(参考訳) ハイパーパラメータチューニングとモデルの比較を容易にするため,オープンドメイン対話システムの迅速な開発には,自動評価指標が不可欠である。 最近提案されたトレーニング可能な会話レベルのメトリクスは、奨励的な結果を示しているが、メトリクスの品質はトレーニングデータの品質に大きく依存している。 先行研究は主にヒューリスティックなテキストレベルの操作(例えば、発話シャッフル)を利用して、一貫性のない会話(否定的な例)をコヒーレントな対話(肯定的な例)からブートストラップする。 このようなアプローチは、高度な対話モデルと人間の相互作用において生じる不整合を適切に反映するには不十分である。 この問題を解決するために,抽象的意味表現(AMR)に依存した対話コヒーレンス評価尺度DEAMを提案し,非一貫性(負)データ生成に意味レベルの操作を適用する。 AMRは自然に、コア参照の不整合、無関係、矛盾、エンゲージメントの減少といった様々な種類の不整合源をセマンティックレベルで注入しやすくすることで、より自然な不整合サンプルをもたらす。 実験の結果,DeAMは,複数のダイアログデータセットの基準手法と比較して,人間の判断との相関性が高いことがわかった。 また,DAMはベースライン操作によって生成されるコヒーレントな対話と非コヒーレントな対話を区別できるが,これらのベースラインモデルはDAMが生成する非コヒーレントな例を検出できないことを示す。 本研究は,自然負例生成のためのamrに基づく意味的操作の可能性を示す。

Automatic evaluation metrics are essential for the rapid development of open-domain dialogue systems as they facilitate hyper-parameter tuning and comparison between models. Although recently proposed trainable conversation-level metrics have shown encouraging results, the quality of the metrics is strongly dependent on the quality of training data. Prior works mainly resort to heuristic text-level manipulations (e.g. utterances shuffling) to bootstrap incoherent conversations (negative examples) from coherent dialogues (positive examples). Such approaches are insufficient to appropriately reflect the incoherence that occurs in interactions between advanced dialogue models and humans. To tackle this problem, we propose DEAM, a Dialogue coherence Evaluation metric that relies on Abstract Meaning Representation (AMR) to apply semantic-level Manipulations for incoherent (negative) data generation. AMRs naturally facilitate the injection of various types of incoherence sources, such as coreference inconsistency, irrelevancy, contradictions, and decrease engagement, at the semantic level, thus resulting in more natural incoherent samples. Our experiments show that DEAM achieves higher correlations with human judgments compared to baseline methods on several dialog datasets by significant margins. We also show that DEAM can distinguish between coherent and incoherent dialogues generated by baseline manipulations, whereas those baseline models cannot detect incoherent examples generated by DEAM. Our results demonstrate the potential of AMR-based semantic manipulations for natural negative example generation.
翻訳日:2022-03-22 01:32:06 公開日:2022-03-18
# (参考訳) 圧縮分類のための決定論的ブリッジ回帰

Deterministic Bridge Regression for Compressive Classification ( http://arxiv.org/abs/2203.09721v1 )

ライセンス: CC BY 4.0
Kar-Ann Toh and Giuseppe Molteni and Zhiping Lin(参考訳) コンパクト表現によるパターン分類は、機械知能の重要な構成要素である。 本研究では, 圧縮分類のための解析的橋梁解を提案する。 この提案は、近似された$\ell_p$-norm を用いたペナルティ化された誤り定式化の解決に基づいている。 この解は過決定系の原始形式と過決定系の双対形式である。 一次形式は, 大規模データサンプルの低次元問題には適しているが, 二重形式は高次元問題には適しているが, 少数のデータサンプルには適している。 この解は、複数の分類出力の問題にも拡張されている。 シミュレーションおよび実世界のデータに基づく数値的研究により,提案手法の有効性が検証された。

Pattern classification with compact representation is an important component in machine intelligence. In this work, an analytic bridge solution is proposed for compressive classification. The proposal has been based upon solving a penalized error formulation utilizing an approximated $\ell_p$-norm. The solution comes in a primal form for over-determined systems and in a dual form for under-determined systems. While the primal form is suitable for problems of low dimension with large data samples, the dual form is suitable for problems of high dimension but with a small number of data samples. The solution has also been extended for problems with multiple classification outputs. Numerical studies based on simulated and real-world data validated the effectiveness of the proposed solution.
翻訳日:2022-03-22 01:06:24 公開日:2022-03-18
# (参考訳) 自己教師型MRI再構成のための最適化プロセスの再考 [全文訳有]

Rethinking the optimization process for self-supervised model-driven MRI reconstruction ( http://arxiv.org/abs/2203.09724v1 )

ライセンス: CC BY 4.0
Weijian Huang, Cheng Li, Wenxin Fan, Yongjin Zhou, Qiegen Liu, Hairong Zheng and Shanshan Wang(参考訳) アンダーサンプル計測による高画質画像の復元はMRIの高速化に不可欠である。 近年,深層学習に基づくmri再構成法が開発されている。 期待できる性能にもかかわらず、これらの手法は完全なサンプルデータを必要とし、その取得はリソース集約的で時間を要する。 自己教師あり学習は、完全なサンプルデータセットへの依存を緩和するための有望な解決策として登場した。 しかし,既存の自己監督手法では,非サンプルデータポイントに強制される制約が不十分なため,再構成誤差に悩まされ,モデル駆動型深層学習再構成における反復的画像再構成プロセスとともにエラーの蓄積が生じた。 これらの課題に対処するために、自己教師付きモデル駆動MR再構成最適化のためのK空間適応戦略であるK2Calibrateを提案する。 学習した測定を反復的に校正することにより、K2Calibrateは統計的に依存するノイズによるネットワークの復元劣化を低減することができる。 オープンソースのデータセットFastMRIで大規模な実験が行われ、K2Calibrateは5つの最先端手法よりも優れた結果が得られる。 提案したK2Calibrateはプラグアンドプレイであり,異なるモデル駆動型ディープラーニング再構成手法と容易に統合できる。

Recovering high-quality images from undersampled measurements is critical for accelerated MRI reconstruction. Recently, various supervised deep learning-based MRI reconstruction methods have been developed. Despite the achieved promising performances, these methods require fully sampled reference data, the acquisition of which is resource-intensive and time-consuming. Self-supervised learning has emerged as a promising solution to alleviate the reliance on fully sampled datasets. However, existing self-supervised methods suffer from reconstruction errors due to the insufficient constraint enforced on the non-sampled data points and the error accumulation happened alongside the iterative image reconstruction process for model-driven deep learning reconstrutions. To address these challenges, we propose K2Calibrate, a K-space adaptation strategy for self-supervised model-driven MR reconstruction optimization. By iteratively calibrating the learned measurements, K2Calibrate can reduce the network's reconstruction deterioration caused by statistically dependent noise. Extensive experiments have been conducted on the open-source dataset FastMRI, and K2Calibrate achieves better results than five state-of-the-art methods. The proposed K2Calibrate is plug-and-play and can be easily integrated with different model-driven deep learning reconstruction methods.
翻訳日:2022-03-22 01:03:40 公開日:2022-03-18
# (参考訳) realy: 3次元顔再建の評価を再考する

REALY: Rethinking the Evaluation of 3D Face Reconstruction ( http://arxiv.org/abs/2203.09729v1 )

ライセンス: CC BY 4.0
Zenghao Chai, Haoxian Zhang, Jing Ren, Di Kang, Zhengzhuo Xu, Xuefei Zhe, Chun Yuan, Linchao Bao(参考訳) 3次元顔の再構成結果の評価は、通常、推定された3次元モデルと地上トラススキャンとの剛性形状アライメントに依存する。 2つの形状を異なる基準点で整列させることが評価結果に大きく影響することを観察した。 これにより3次元顔再建法を正確に診断・改善することが困難となる。 本稿では,高精度な顔キーポイント,高品質な領域マスク,トポロジ一貫性メッシュを備えた100の顔スキャンからなる新しいベンチマークREALYによる評価手法を提案する。 提案手法は, 形状誤差の計算において, より正確で双方向な対応性を実現する。 細粒度, 地域別評価の結果から, 最先端の3次元顔再構成法の性能を詳細に把握できた。 例えば、単一画像に基づく再構成法の実験では、decaが鼻領域で最高の性能を示し、ganfitが頬領域でより優れた性能を示す。 さらに、新しい高品質な3DMMベースであるHIFI3D++は、複数の3D顔データセットの整列と再分類のためにREALYを構築したのと同じ手順を用いてさらに導出される。 realy、hifi3d++、そして新しい評価パイプラインをhttps://realy3dface. comでリリースします。

The evaluation of 3D face reconstruction results typically relies on a rigid shape alignment between the estimated 3D model and the ground-truth scan. We observe that aligning two shapes with different reference points can largely affect the evaluation results. This poses difficulties for precisely diagnosing and improving a 3D face reconstruction method. In this paper, we propose a novel evaluation approach with a new benchmark REALY, consists of 100 globally aligned face scans with accurate facial keypoints, high-quality region masks, and topology-consistent meshes. Our approach performs region-wise shape alignment and leads to more accurate, bidirectional correspondences during computing the shape errors. The fine-grained, region-wise evaluation results provide us detailed understandings about the performance of state-of-the-art 3D face reconstruction methods. For example, our experiments on single-image based reconstruction methods reveal that DECA performs the best on nose regions, while GANFit performs better on cheek regions. Besides, a new and high-quality 3DMM basis, HIFI3D++, is further derived using the same procedure as we construct REALY to align and retopologize several 3D face datasets. We will release REALY, HIFI3D++, and our new evaluation pipeline at https://realy3dface. com.
翻訳日:2022-03-22 00:54:28 公開日:2022-03-18
# (参考訳) 多視点グラフ学習による時系列写真選択 [全文訳有]

Series Photo Selection via Multi-view Graph Learning ( http://arxiv.org/abs/2203.09736v1 )

ライセンス: CC BY 4.0
Jin Huang, Lu Zhang, Yongshun Gong, Jian Zhang, Xiushan Nie, Yilong Yin(参考訳) シリーズ写真選択(SPS)は、画像美学の品質評価の重要な分野であり、ほぼ同一の写真から最高の写真を見つけることに焦点を当てている。 大きな進歩が見られたが、既存のSPSアプローチのほとんどはオリジナルの画像から特徴を抽出することのみに集中しており、例えば、彩度レベル、色ヒストグラム、画像の深度といった複数のビューが、微妙な美的変化をうまく反映するのに役立つことを無視している。 マルチビューを考慮したグラフニューラルネットワークを用いて,マルチビュー特徴間の関係を構築する。 さらに、複数のビューをアダプティブウェイトなセルフアテンションモジュールで集約し、各ビューの重要性を検証する。 最後に、ほぼ同一の写真から最適なものを選択するために、シアムズネットワークが提案されている。 実験の結果,本モデルは競争手法と比較して最も高い成功率を達成した。

Series photo selection (SPS) is an important branch of the image aesthetics quality assessment, which focuses on finding the best one from a series of nearly identical photos. While a great progress has been observed, most of the existing SPS approaches concentrate solely on extracting features from the original image, neglecting that multiple views, e.g, saturation level, color histogram and depth of field of the image, will be of benefit to successfully reflecting the subtle aesthetic changes. Taken multi-view into consideration, we leverage a graph neural network to construct the relationships between multi-view features. Besides, multiple views are aggregated with an adaptive-weight self-attention module to verify the significance of each view. Finally, a siamese network is proposed to select the best one from a series of nearly identical photos. Experimental results demonstrate that our model accomplish the highest success rates compared with competitive methods.
翻訳日:2022-03-22 00:52:47 公開日:2022-03-18
# (参考訳) 単眼深度推定のための相互蒸留による半教師付き学習 [全文訳有]

Semi-Supervised Learning with Mutual Distillation for Monocular Depth Estimation ( http://arxiv.org/abs/2203.09737v1 )

ライセンス: CC BY 4.0
Jongbeom Baek, Gyeongnyeon Kim, and Seungryong Kim(参考訳) 単眼深度推定のための半教師付き学習フレームワークを提案する。 従来の半教師付き学習法と比較して,各損失に対して2つのネットワーク分岐を構築し,相互蒸留損失関数を介して互いに蒸留することにより,損失関数の相補的優位性を実現する。 また,各ブランチに異なるデータ拡張を適用することにより,ロバスト性が向上することを示す。 我々は,最新の手法に対するフレームワークの有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。

We propose a semi-supervised learning framework for monocular depth estimation. Compared to existing semi-supervised learning methods, which inherit limitations of both sparse supervised and unsupervised loss functions, we achieve the complementary advantages of both loss functions, by building two separate network branches for each loss and distilling each other through the mutual distillation loss function. We also present to apply different data augmentation to each branch, which improves the robustness. We conduct experiments to demonstrate the effectiveness of our framework over the latest methods and provide extensive ablation studies.
翻訳日:2022-03-22 00:41:25 公開日:2022-03-18
# (参考訳) GRS:教師なし文の単純化における生成と修正の併用 [全文訳有]

GRS: Combining Generation and Revision in Unsupervised Sentence Simplification ( http://arxiv.org/abs/2203.09742v1 )

ライセンス: CC BY 4.0
Mohammad Dehghan, Dhruv Kumar, Lukasz Golab(参考訳) テキスト生成とテキストリビジョンを組み合わせた文単純化のための教師なしアプローチである GRS を提案する。 まず、明示的な編集操作を用いて入力文を書き換える反復的なフレームワークから始め、新しい編集操作としてパラフレーズを追加する。 パラフレージングは複雑な編集操作をキャプチャし、明示的な編集操作を反復的に使用することで、制御可能性と解釈可能性を提供します。 本稿では,Newsela および ASSET データセットの既存の手法と比較して,これらの GRS の利点を示す。

We propose GRS: an unsupervised approach to sentence simplification that combines text generation and text revision. We start with an iterative framework in which an input sentence is revised using explicit edit operations, and add paraphrasing as a new edit operation. This allows us to combine the advantages of generative and revision-based approaches: paraphrasing captures complex edit operations, and the use of explicit edit operations in an iterative manner provides controllability and interpretability. We demonstrate these advantages of GRS compared to existing methods on the Newsela and ASSET datasets.
翻訳日:2022-03-22 00:24:35 公開日:2022-03-18
# (参考訳) オンデマンドおよびその場カスタマイズのための効率的な分割混合フェデレーション学習 [全文訳有]

Efficient Split-Mix Federated Learning for On-Demand and In-Situ Customization ( http://arxiv.org/abs/2203.09747v1 )

ライセンス: CC BY 4.0
Junyuan Hong, Haotao Wang, Zhangyang Wang, Jiayu Zhou(参考訳) フェデレーション学習(fl)は、複数の参加者が生のデータを共有することなく学習を協調できる分散学習フレームワークを提供する。 多くの実践的なFLシナリオでは、参加者は異なるサイズのモデルやロバスト性のレベルを素早くロードする必要があるハードウェアと推論のダイナミクスの相違により異種資源を持つ。 ヘテロジニティとダイナミクスは、既存のFLアプローチに重大な課題を課し、FLの適用性を大幅に制限する。 本稿では,モデルサイズとロバスト性をその場でカスタマイズできる,異種参加者のための新しい分割混合fl戦略を提案する。 具体的には、異なるサイズとロバストなレベルのベースサブネットワークの集合を学習することでカスタマイズを実現し、その後、推論要求に従ってオンデマンドに集約する。 この分割混合戦略は、通信、ストレージ、推論において高い効率でカスタマイズを実現する。 大規模な実験により,本手法は既存の異種構造FL法よりもその場でのカスタマイズが優れていることが示された。 コードはhttps://github.com/i llidanlab/splitmix.c om/。

Federated learning (FL) provides a distributed learning framework for multiple participants to collaborate learning without sharing raw data. In many practical FL scenarios, participants have heterogeneous resources due to disparities in hardware and inference dynamics that require quickly loading models of different sizes and levels of robustness. The heterogeneity and dynamics together impose significant challenges to existing FL approaches and thus greatly limit FL's applicability. In this paper, we propose a novel Split-Mix FL strategy for heterogeneous participants that, once training is done, provides in-situ customization of model sizes and robustness. Specifically, we achieve customization by learning a set of base sub-networks of different sizes and robustness levels, which are later aggregated on-demand according to inference requirements. This split-mix strategy achieves customization with high efficiency in communication, storage, and inference. Extensive experiments demonstrate that our method provides better in-situ customization than the existing heterogeneous-archit ecture FL methods. Codes and pre-trained models are available: https://github.com/i llidanlab/SplitMix.
翻訳日:2022-03-22 00:07:25 公開日:2022-03-18
# (参考訳) Prototypeal Verbalizer for Prompt-based Few-shot Tuning [全文訳有]

Prototypical Verbalizer for Prompt-based Few-shot Tuning ( http://arxiv.org/abs/2203.09770v1 )

ライセンス: CC BY 4.0
Ganqu Cui, Shengding Hu, Ning Ding, Longtao Huang, Zhiyuan Liu(参考訳) プレトレーニング言語モデル(PLM)のプロンプトに基づくチューニングは、その効果を数発の学習で示している。 通常、プロンプトベースのチューニングは入力テキストをクローズ質問にラップする。 予測を行うために、モデルは出力された単語をラベルに、手動で設計または自動構築される動詞化器を介してマッピングする。 しかし,本論文では,学習データから直接構築される原型動詞(ProtoVerb)について,ドメイン固有の事前知識と人的努力に大きく依存する一方で,適切なラベル語を自動的に見つけることは依然として困難である。 具体的には、protoverbはコントラスト学習によってプロトタイプベクトルを動詞化子として学習する。 このように、プロトタイプはトレーニングインスタンスを要約し、リッチなクラスレベルのセマンティクスを囲むことができる。 トピック分類とエンティティ型付けの両タスクについて実験を行い、特にトレーニングデータが極めて少ない場合、ProtoVerbが現在の自動動詞処理器を著しく上回っていることを示す。 さらに驚くべきことに、ProtoVerbは、未チューニングのPLMでもプロンプトベースのチューニングを一貫して強化し、PLMを利用するエレガントな非チューニング方法を示している。 私たちのコードはhttps://github.com/t hunlp/OpenPrompt.com で有効です。

Prompt-based tuning for pre-trained language models (PLMs) has shown its effectiveness in few-shot learning. Typically, prompt-based tuning wraps the input text into a cloze question. To make predictions, the model maps the output words to labels via a verbalizer, which is either manually designed or automatically built. However, manual verbalizers heavily depend on domain-specific prior knowledge and human efforts, while finding appropriate label words automatically still remains challenging.In this work, we propose the prototypical verbalizer (ProtoVerb) which is built directly from training data. Specifically, ProtoVerb learns prototype vectors as verbalizers by contrastive learning. In this way, the prototypes summarize training instances and are able to enclose rich class-level semantics. We conduct experiments on both topic classification and entity typing tasks, and the results demonstrate that ProtoVerb significantly outperforms current automatic verbalizers, especially when training data is extremely scarce. More surprisingly, ProtoVerb consistently boosts prompt-based tuning even on untuned PLMs, indicating an elegant non-tuning way to utilize PLMs. Our codes are avaliable at https://github.com/t hunlp/OpenPrompt.
翻訳日:2022-03-21 23:44:57 公開日:2022-03-18
# (参考訳) 非バイアスシーングラフ生成のための階層型ハイブリッド・アテンションとグループ協調学習

Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2203.09811v1 )

ライセンス: CC BY 4.0
Xingning Dong, Tian Gan, Xuemeng Song, Jianlong Wu, Yuan Cheng, Liqiang Nie(参考訳) Scene Graph Generationは、通常エンコーダ-デコーダパイプラインに従っており、まず与えられた画像内の視覚的コンテンツをエンコードし、それからコンパクトな要約グラフに解析することを目的としている。 既存のSGGアプローチは一般的に、視覚と言語の間のモダリティの融合が不十分であることを無視するだけでなく、偏りのある関係予測のために情報的な述語を提供しない。 そこで本稿では,まず,モダリティ間相互作用とモダリティ間相互作用が促進され,エンコーダとして機能する,新しい階層型ハイブリッド・アテンションネットワークを提案する。 次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。 特に、1つの分類器の認識能力が極めて不均衡なデータセットに向けて制限されているという観測に基づいて、まず、異なるクラスのサブセットを識別する専門的な分類器のグループを配置し、それらを2つの側面から協調的に最適化し、偏りのないsggを促進する。 VGデータセットとGQAデータセットで実施された実験では、偏りのない測定値に新たな最先端技術を確立するだけでなく、2つのベースラインと比較してほぼ2倍の性能を示した。

Scene Graph Generation, which generally follows a regular encoder-decoder pipeline, aims to first encode the visual contents within the given image and then parse them into a compact summary graph. Existing SGG approaches generally not only neglect the insufficient modality fusion between vision and language, but also fail to provide informative predicates due to the biased relationship predictions, leading SGG far from practical. Towards this end, in this paper, we first present a novel Stacked Hybrid-Attention network, which facilitates the intra-modal refinement as well as the inter-modal interaction, to serve as the encoder. We then devise an innovative Group Collaborative Learning strategy to optimize the decoder. Particularly, based upon the observation that the recognition capability of one classifier is limited towards an extremely unbalanced dataset, we first deploy a group of classifiers that are expert in distinguishing different subsets of classes, and then cooperatively optimize them from two aspects to promote the unbiased SGG. Experiments conducted on VG and GQA datasets demonstrate that, we not only establish a new state-of-the-art in the unbiased metric, but also nearly double the performance compared with two baselines.
翻訳日:2022-03-21 23:29:54 公開日:2022-03-18
# (参考訳) ロバートかロベルタか? ニューラルテキスト生成器を用いたオンラインオーサシップ属性モデルの騙し [全文訳有]

Are You Robert or RoBERTa? Deceiving Online Authorship Attribution Models Using Neural Text Generators ( http://arxiv.org/abs/2203.09813v1 )

ライセンス: CC BY 4.0
Keenan Jones, Jason R. C. Nurse, Shujun Li(参考訳) 近年,gpt-2,grover,xlmなど,事前学習された強力な自然言語モデルの開発が進んでいる。 これらのモデルは、質問応答、コンテンツ要約、テキスト生成など、さまざまなNLPタスクに対する最先端の機能を示している。 これに加えて、オンライン著者帰属(AA)に焦点を当てた研究が数多く行われている。 つまり、オンラインテキストの著者を特定するためにモデルを使用すること。 本稿では, 自然言語モデルによる説得力のあるテキスト生成のパワーを考慮し, オンラインAAモデルを認識可能なテキスト生成の程度について検討する。 ブログデータとTwitterデータの両方を用いて、GPT-2言語モデルを用いて、既存のオンラインユーザー投稿を用いてテキストを生成する。 次に、これらAIベースのテキストジェネレータが、典型的AAモデルを欺くことができる程度に、著者スタイルを模倣できるかどうかを検討する。 そこから、現在のAIベースのテキストジェネレータは、著者の模倣を成功させることができ、両方のデータセットでこれを実現する能力を示す。 本研究は,AA手法を騙すのに十分な著者スタイルを模倣できるオリジナルのオンライン投稿を生成するために,強力な自然言語モデルの現在能力を強調し,スパム検出や法医学的調査などの実世界の応用において,AAの役割が提案されていることを示唆する重要な発見である。

Recently, there has been a rise in the development of powerful pre-trained natural language models, including GPT-2, Grover, and XLM. These models have shown state-of-the-art capabilities towards a variety of different NLP tasks, including question answering, content summarisation, and text generation. Alongside this, there have been many studies focused on online authorship attribution (AA). That is, the use of models to identify the authors of online texts. Given the power of natural language models in generating convincing texts, this paper examines the degree to which these language models can generate texts capable of deceiving online AA models. Experimenting with both blog and Twitter data, we utilise GPT-2 language models to generate texts using the existing posts of online users. We then examine whether these AI-based text generators are capable of mimicking authorial style to such a degree that they can deceive typical AA models. From this, we find that current AI-based text generators are able to successfully mimic authorship, showing capabilities towards this on both datasets. Our findings, in turn, highlight the current capacity of powerful natural language models to generate original online posts capable of mimicking authorial style sufficiently to deceive popular AA methods; a key finding given the proposed role of AA in real world applications such as spam-detection and forensic investigation.
翻訳日:2022-03-21 23:28:50 公開日:2022-03-18
# (参考訳) クロスモーダル・パーセプティオンスト:顔の幾何学は音声から切り離せるか? [全文訳有]

Cross-Modal Perceptionist: Can Face Geometry be Gleaned from Voices? ( http://arxiv.org/abs/2203.09824v1 )

ライセンス: CC BY 4.0
Cho-Ying Wu, Chin-Cheng Hsu, Ulrich Neumann(参考訳) この研究は、人間の知覚に根ざした疑問を提起している: 顔の形状は人の声から読み取れるか? この疑問を研究する以前の研究は、画像合成の発展を取り入れ、相関関係を示すために音声を顔画像に変換するだけだが、画像領域に取り組むには、顔のテクスチャ、髪型、背景など、音声が暗示できない属性を予測することが避けられない。 代わりに、3D顔の再構築能力について検討し、より生理学的に基礎を成す幾何学のみに集中する。 我々は,教師付き学習と教師なし学習の両方の下で,分析フレームワークであるクロスモーダル認知論を提案する。 まず、Voxcelebを拡張し、ペア音声とフェイスメッシュを含むデータセットVoxceleb-3Dを構築し、教師付き学習を可能にする。 第2に, 知識蒸留機構を用いて, 3次元顔スキャンの限界条件下で, 対声と3次元顔データを用いずに, 顔形状を音声から読み取ることができるか検討する。 コア質問を4つの部分に分けて,コア質問への応答として視覚的および数値的分析を行う。 今回の発見は、音声と顔の構造の相関性に関する生理学や神経科学の知見と一致する。 この研究は、将来の人間中心のクロスモーダル学習と説明可能な基礎を提供する。 プロジェクトページ: https://choyingw.git hub.io/works/voice2m esh/index.html

This work digs into a root question in human perception: can face geometry be gleaned from one's voices? Previous works that study this question only adopt developments in image synthesis and convert voices into face images to show correlations, but working on the image domain unavoidably involves predicting attributes that voices cannot hint, including facial textures, hairstyles, and backgrounds. We instead investigate the ability to reconstruct 3D faces to concentrate on only geometry, which is much more physiologically grounded. We propose our analysis framework, Cross-Modal Perceptionist, under both supervised and unsupervised learning. First, we construct a dataset, Voxceleb-3D, which extends Voxceleb and includes paired voices and face meshes, making supervised learning possible. Second, we use a knowledge distillation mechanism to study whether face geometry can still be gleaned from voices without paired voices and 3D face data under limited availability of 3D face scans. We break down the core question into four parts and perform visual and numerical analyses as responses to the core question. Our findings echo those in physiology and neuroscience about the correlation between voices and facial structures. The work provides future human-centric cross-modal learning with explainable foundations. See our project page: https://choyingw.git hub.io/works/Voice2M esh/index.html
翻訳日:2022-03-21 23:11:11 公開日:2022-03-18
# (参考訳) 自己教師付き音声認識のための代表サブセット選択に向けて [全文訳有]

Towards Representative Subset Selection for Self-Supervised Speech Recognition ( http://arxiv.org/abs/2203.09829v1 )

ライセンス: CC BY 4.0
Abdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza(参考訳) 自己教師付き音声認識モデルは、自動音声認識(asr)のための高忠実度表現を学習するために、かなりのラベル付きトレーニングデータを必要とする。 学習データの最適部分集合をASRのための微調整自己教師型音声モデルに同定する作業を検討する。 我々は,学習の難しいサンプルを抽出する能動的学習戦略が,微調整型自己教師型AIRのランダムなサブセット選択よりも優れているという驚くべき観察を行う。 次に、自己教師付きASRにおけるサブセット選択を改善するためのCOWERAGEアルゴリズムを提案する。 wav2vec 2.0モデルとtimitデータセットの広範な実験により、カウラージュの有効性が示され、アクティブな学習方法よりも最大27%の絶対werが改善されている。 また,WERの学習と音韻表紙の関連性を報告し,本アルゴリズムが音韻学的に多様であることを示す。

Self-supervised speech recognition models require considerable labeled training data for learning high-fidelity representations for Automatic Speech Recognition (ASR), which hinders their application to low-resource languages. We consider the task of identifying an optimal subset of training data to fine-tune self-supervised speech models for ASR. We make a surprising observation that active learning strategies for sampling harder-to-learn examples do not perform better than random subset selection for fine-tuning self-supervised ASR. We then present the COWERAGE algorithm for better subset selection in self-supervised ASR which is based on our finding that ensuring the coverage of examples based on training WER in the early training epochs leads to better generalization performance. Extensive experiments on the wav2vec 2.0 model and TIMIT dataset show the effectiveness of COWERAGE, with up to 27% absolute WER improvement over active learning methods. We also report the connection between training WER and the phonemic cover and demonstrate that our algorithm ensures inclusion of phonemically diverse examples.
翻訳日:2022-03-21 22:50:57 公開日:2022-03-18
# (参考訳) データ制限6次元物体ポーズ推定のための視点フローアグリゲーション [全文訳有]

Perspective Flow Aggregation for Data-Limited 6D Object Pose Estimation ( http://arxiv.org/abs/2203.09836v1 )

ライセンス: CC BY 4.0
Yinlin Hu, Pascal Fua, Mathieu Salzmann(参考訳) 最近の6Dオブジェクトのポーズ推定手法は、教師なしのオブジェクトを含む多くの実際の訓練画像を必要とする。 残念なことに、宇宙や水中の深層などのアプリケーションでは、実際の画像を取得することは事実上不可能である。 本稿では,合成画像のみを訓練するか,あるいは任意にいくつかの実画像を用いて訓練できる手法を提案する。 第1のネットワークから得られる粗いポーズ推定を仮定し、第2のネットワークを用いて粗いポーズと実画像で描画された画像との間にある密な2次元対応フィールドを予測し、必要なポーズ補正を推定する。 このアプローチは、最先端の手法よりも合成画像と実画像のドメインシフトに対する感度が低い。 使用しない場合のトレーニングに注釈付き実画像が必要となるメソッドと同等に動作し、数十実画像を使用する場合を大幅に上回る。

Most recent 6D object pose estimation methods, including unsupervised ones, require many real training images. Unfortunately, for some applications, such as those in space or deep under water, acquiring real images, even unannotated, is virtually impossible. In this paper, we propose a method that can be trained solely on synthetic images, or optionally using a few additional real ones. Given a rough pose estimate obtained from a first network, it uses a second network to predict a dense 2D correspondence field between the image rendered using the rough pose and the real image and infers the required pose correction. This approach is much less sensitive to the domain shift between synthetic and real images than state-of-the-art methods. It performs on par with methods that require annotated real images for training when not using any, and outperforms them considerably when using as few as twenty real images.
翻訳日:2022-03-21 22:33:46 公開日:2022-03-18
# (参考訳) ロケーションフリーカモフラージュ生成ネットワーク [全文訳有]

Location-Free Camouflage Generation Network ( http://arxiv.org/abs/2203.09845v1 )

ライセンス: CC BY 4.0
Yangyang Li, Wei Zhai, Yang Cao, Zheng-jun Zha(参考訳) カモフラージュ(camouflage)は、視覚現象の一種で、前景の物体を背景画像に隠して、人間の目に簡単に見えないようにする。 従来の作業は通常、反復最適化プロセスによって実装されている。 しかし これらの手法は 1) 任意の構造を有する前景及び背景を用いた迷彩画像の効率的な生成 2) 複数の外観の地域(植生と山々の合流点など)への前景オブジェクトの迷彩化は,実用的利用を制限している。 そこで本稿では,前景と背景画像の高レベル特徴を融合し,一つの推論によって結果を生成する,位置自由カモフラージュ生成ネットワーク(lcg-net)を提案する。 具体的には, 位置整列構造融合 (PSF) モジュールを, 前景と背景の点間構造的類似性に基づいて構造的特徴融合を誘導し, 局所的な外観的特徴をポイントバイポイントで導入する。 必要な特徴を維持するため,パイプラインでは新たな没入損失が採用され,背景パッチの出現損失を利用して,複数の外観を持つ領域において,隠れたオブジェクトが連続して自然に見えるようにする。 実験により,本手法は単一外観領域における最先端技術と同程度に良好であり,完全に見えない可能性が低いが,多外観領域における最先端技術の品質をはるかに上回っていることが示された。 さらに,本手法は従来の手法よりも数百倍高速である。 提案手法の独特な利点から, カモフラージュ生成のための下流アプリケーションを提供し, その可能性を示す。 関連するコードとデータセットはhttps://github.com/T ale17/LCG-Netで公開される。

Camouflage is a common visual phenomenon, which refers to hiding the foreground objects into the background images, making them briefly invisible to the human eye. Previous work has typically been implemented by an iterative optimization process. However, these methods struggle in 1) efficiently generating camouflage images using foreground and background with arbitrary structure; 2) camouflaging foreground objects to regions with multiple appearances (e.g. the junction of the vegetation and the mountains), which limit their practical application. To address these problems, this paper proposes a novel Location-free Camouflage Generation Network (LCG-Net) that fuse high-level features of foreground and background image, and generate result by one inference. Specifically, a Position-aligned Structure Fusion (PSF) module is devised to guide structure feature fusion based on the point-to-point structure similarity of foreground and background, and introduce local appearance features point-by-point. To retain the necessary identifiable features, a new immerse loss is adopted under our pipeline, while a background patch appearance loss is utilized to ensure that the hidden objects look continuous and natural at regions with multiple appearances. Experiments show that our method has results as satisfactory as state-of-the-art in the single-appearance regions and are less likely to be completely invisible, but far exceed the quality of the state-of-the-art in the multi-appearance regions. Moreover, our method is hundreds of times faster than previous methods. Benefitting from the unique advantages of our method, we provide some downstream applications for camouflage generation, which show its potential. The related code and dataset will be released at https://github.com/T ale17/LCG-Net.
翻訳日:2022-03-21 22:19:42 公開日:2022-03-18
# (参考訳) ミススキャリブレーションによる意思決定 [全文訳有]

Decision-Making under Miscalibration ( http://arxiv.org/abs/2203.09852v1 )

ライセンス: CC BY 4.0
Guy N. Rothblum and Gal Yona(参考訳) MLベースの予測は、個人について連続的な決定を伝えるために使用される。 下流のバイナリ分類決定(医療処置の実施など)に予測(心臓発作のリスクなど)を用いるには、どうすればよいのか? リスク推定が完全に校正されると、その答えはよく理解される: 分類問題のコスト構造は、最適な治療閾値$j^{\star}$を誘導する。 しかし実際には、ある程度のミスキャリブレーションは避けられず、基本的な疑問が浮かび上がっている。 我々は、自然な(分配のない)ソリューションの概念を定式化する:$\alpha$の誤校正を前提に、すべての$\alpha$-miscalibrat ed予測子に対する最悪の後悔を最小限に抑えるしきい値$j$を使うことを提案する。 予測校正誤差と最大校正誤差の両方を用いて誤校正が測定された場合の$j$に対する閉形式式は、$j^{\star}$(完全校正条件下での最適しきい値)と実際に異なることを示す。 実データに関する理論的知見を検証し,j$を用いた意思決定が臨床的有用性を改善する自然な事例があることを実証した。

ML-based predictions are used to inform consequential decisions about individuals. How should we use predictions (e.g., risk of heart attack) to inform downstream binary classification decisions (e.g., undergoing a medical procedure)? When the risk estimates are perfectly calibrated, the answer is well understood: a classification problem's cost structure induces an optimal treatment threshold $j^{\star}$. In practice, however, some amount of miscalibration is unavoidable, raising a fundamental question: how should one use potentially miscalibrated predictions to inform binary decisions? We formalize a natural (distribution-free) solution concept: given anticipated miscalibration of $\alpha$, we propose using the threshold $j$ that minimizes the worst-case regret over all $\alpha$-miscalibrat ed predictors, where the regret is the difference in clinical utility between using the threshold in question and using the optimal threshold in hindsight. We provide closed form expressions for $j$ when miscalibration is measured using both expected and maximum calibration error, which reveal that it indeed differs from $j^{\star}$ (the optimal threshold under perfect calibration). We validate our theoretical findings on real data, demonstrating that there are natural cases in which making decisions using $j$ improves the clinical utility.
翻訳日:2022-03-21 21:52:52 公開日:2022-03-18
# (参考訳) 歌唱の音響的分析による低運動障害の同定 [全文訳有]

Identification of Hypokinetic Dysarthria Using Acoustic Analysis of Poem Recitation ( http://arxiv.org/abs/2203.09880v1 )

ライセンス: CC BY 4.0
Jan Mucha, Zoltan Galaz, Jiri Mekyska, Tomas Kiska, Vojtech Zvoncak, Zdenek Smekal, Ilona Eliasova, Martina Mrackova, Milena Kostalova, Irena Rektorova, Marcos Faundez-Zanuy and Jesus B. Alonso-Hernandez(参考訳) パーキンソン病(PD)患者の90%以上が低運動性変形性関節症(HD)を患っている。 本研究では,特殊な詩朗読課題から抽出された不正確な構音,韻律,言語質の低下を定量化する従来の音声特徴のパワーを分析し,構音・健康な音声を判別した。 152人(健常者53人, PD患者99人)を対象に調査を行った。 話者の音声特徴と臨床像との間にはわずかに強い相関が認められた。 不定分類解析では, 62.63% (不正確な調音), 61.62% (dysprosody), 71.72% (speech dysfluency), 59.60% (speech quality degradation) の感度が得られた。 多変量分類解析により分類性能が向上した。 HDにおける不正確な調音と音質劣化を示す2つの特徴のみを用いた83.42%の感度が得られた。 我々は,選択した音声特徴の有望な可能性,特にPDにおけるHDの定量化と同定に詩朗読課題を用いたことを示した。

Up to 90 % of patients with Parkinson's disease (PD) suffer from hypokinetic dysarthria (HD). In this work, we analysed the power of conventional speech features quantifying imprecise articulation, dysprosody, speech dysfluency and speech quality deterioration extracted from a specialized poem recitation task to discriminate dysarthric and healthy speech. For this purpose, 152 speakers (53 healthy speakers, 99 PD patients) were examined. Only mildly strong correlation between speech features and clinical status of the speakers was observed. In the case of univariate classification analysis, sensitivity of 62.63% (imprecise articulation), 61.62% (dysprosody), 71.72% (speech dysfluency) and 59.60% (speech quality deterioration) was achieved. Multivariate classification analysis improved the classification performance. Sensitivity of 83.42% using only two features describing imprecise articulation and speech quality deterioration in HD was achieved. We showed the promising potential of the selected speech features and especially the use of poem recitation task to quantify and identify HD in PD.
翻訳日:2022-03-21 21:11:17 公開日:2022-03-18
# (参考訳) codedvtr: 幾何学的ガイダンスを備えたコードブックベースのスパースボクセルトランスフォーマー [全文訳有]

CodedVTR: Codebook-based Sparse Voxel Transformer with Geometric Guidance ( http://arxiv.org/abs/2203.09887v1 )

ライセンス: CC BY-SA 4.0
Tianchen Zhao, Niansong Zhang, Xuefei Ning, He Wang, Li Yi, Yu Wang(参考訳) トランスフォーマーは多くの2次元視覚タスクで畳み込みニューラルネットワークを上回ることで多くの注目を集めている。 しかし、それらは一般化の問題で知られており、大規模な事前訓練と高度な訓練技術に依存している。 3Dタスクに適用する場合、不規則なデータ構造と限られたデータスケールは、トランスフォーマーの応用が困難になる。 我々は,3次元スパースボクセル変換器のデータ効率と一般化能力を向上させるCodedVTR(Codebook-ba sed Voxel TRansformer)を提案する。 本稿では,学習可能なコードブックにおける「プロトタイプ」の組み合わせで表される部分空間に注意空間を投影するコードブックベースの注意力を提案する。 注意学習を規則化し、一般化を改善する。 一方,幾何学的情報(幾何学的パターン,密度)を用いて注意学習を支援する幾何学的自己注意を提案する。 CodedVTRは既存のスパース畳み込み方式に組み込むことができ、屋内および屋外の3次元セマンティックセグメンテーションタスクに一貫した性能改善をもたらす

Transformers have gained much attention by outperforming convolutional neural networks in many 2D vision tasks. However, they are known to have generalization problems and rely on massive-scale pre-training and sophisticated training techniques. When applying to 3D tasks, the irregular data structure and limited data scale add to the difficulty of transformer's application. We propose CodedVTR (Codebook-based Voxel TRansformer), which improves data efficiency and generalization ability for 3D sparse voxel transformers. On the one hand, we propose the codebook-based attention that projects an attention space into its subspace represented by the combination of "prototypes" in a learnable codebook. It regularizes attention learning and improves generalization. On the other hand, we propose geometry-aware self-attention that utilizes geometric information (geometric pattern, density) to guide attention learning. CodedVTR could be embedded into existing sparse convolution-based methods, and bring consistent performance improvements for indoor and outdoor 3D semantic segmentation tasks
翻訳日:2022-03-21 21:00:44 公開日:2022-03-18
# (参考訳) スペクトル埋め込み接続によるハイパーグラフモデリング:ハイパーグラフカット、重み付きカーネル$k$-means、ヒートカーネル [全文訳有]

Hypergraph Modeling via Spectral Embedding Connection: Hypergraph Cut, Weighted Kernel $k$-means, and Heat Kernel ( http://arxiv.org/abs/2203.09888v1 )

ライセンス: CC BY 4.0
Shota Saito(参考訳) スペクトル埋め込みによるクラスタリングのためのハイパーグラフに実数値データをモデル化するためのマルチウェイ類似性の理論的枠組みを提案する。 グラフカットに基づくスペクトルクラスタリングでは、カーネル関数を用いたペアワイズ類似性をモデル化することにより、実数値データをグラフにモデル化することが一般的である。 これは、カーネル関数がグラフカットと理論的に結びついているためである。 多方向の類似性が対の類似性よりも適している問題に対して、グラフの一般化である超グラフとしてモデル化するのは自然である。 しかしながら、ハイパーグラフカットはよく研究されているが、マルチウェイ類似性をモデル化するためのハイパーグラフカットベースのフレームワークはまだ確立されていない。 本稿では,カーネル関数の理論的基礎を利用してマルチウェイ類似性を定式化する。 我々は、重み付きカーネル$k$-meansと熱カーネルの両方を一般化し、私たちの定式化とハイパーグラフカットの理論的関係を2つの方法で示す。 また,スペクトルクラスタリングのための高速アルゴリズムを提案する。 本アルゴリズムは既存のグラフや他のヒューリスティックモデリング手法よりも優れた性能を示す。

We propose a theoretical framework of multi-way similarity to model real-valued data into hypergraphs for clustering via spectral embedding. For graph cut based spectral clustering, it is common to model real-valued data into graph by modeling pairwise similarities using kernel function. This is because the kernel function has a theoretical connection to the graph cut. For problems where using multi-way similarities are more suitable than pairwise ones, it is natural to model as a hypergraph, which is generalization of a graph. However, although the hypergraph cut is well-studied, there is not yet established a hypergraph cut based framework to model multi-way similarity. In this paper, we formulate multi-way similarities by exploiting the theoretical foundation of kernel function. We show a theoretical connection between our formulation and hypergraph cut in two ways, generalizing both weighted kernel $k$-means and the heat kernel, by which we justify our formulation. We also provide a fast algorithm for spectral clustering. Our algorithm empirically shows better performance than existing graph and other heuristic modeling methods.
翻訳日:2022-03-21 20:45:24 公開日:2022-03-18
# (参考訳) 遠心画像からの学習時間グラウンドリング [全文訳有]

Learning Affordance Grounding from Exocentric Images ( http://arxiv.org/abs/2203.09905v1 )

ライセンス: CC BY 4.0
Hongchen Luo, Wei Zhai, Jing Zhang, Yang Cao, Dacheng Tao(参考訳) Affordance Groundingは、オブジェクト内のアクション可能性領域(すなわち、ローカライズ)をグラウンド化するタスクであり、インタラクティブなアベイランスの多様性によってオブジェクト部品との明示的なリンクを確立するという課題に直面している。 人間は、様々な異種中心の相互作用を、インタラクティブな多様性の影響に対抗するために、不変な異種中心の余裕に変換する能力を持っている。 そこで本稿では, エージェントの能力を高めるために, 対人中心のインタラクションと自我中心のオブジェクトイメージを付与し, 対象物の空想知識を学習し, 空想ラベルのみを監督として, 自我中心のイメージに転送するタスクを提案する。 この目的のために,外心的相互作用からアフォーアンス特有の特徴を抽出し,アフォーアンス相関を保ちながらアフォーアンス領域の認識を高めるクロスビュー知識伝達フレームワークを考案する。 具体的には、指数中心画像における相互作用習慣から生じるクラス内差を最小化することにより、特定の手がかりを抽出するために、Affordance Invariance Miningモジュールが考案された。 さらに、予測結果の相関行列を2つのビュー間で整列させることにより、価格を知覚し、ローカライズするために、Affordance Co-relation Preserving戦略を示す。 特に、36のアプライアンスカテゴリから20万以上の画像を集めラベル付けすることにより、agd20kというアプライアンスグラウンドデータセットを構築する。 実験の結果,本手法は客観的指標と視覚品質の点で代表モデルを上回ることがわかった。 コード:github.com/lhc1224/ Cross-View-AG

Affordance grounding, a task to ground (i.e., localize) action possibility region in objects, which faces the challenge of establishing an explicit link with object parts due to the diversity of interactive affordance. Human has the ability that transform the various exocentric interactions to invariant egocentric affordance so as to counter the impact of interactive diversity. To empower an agent with such ability, this paper proposes a task of affordance grounding from exocentric view, i.e., given exocentric human-object interaction and egocentric object images, learning the affordance knowledge of the object and transferring it to the egocentric image using only the affordance label as supervision. To this end, we devise a cross-view knowledge transfer framework that extracts affordance-specific features from exocentric interactions and enhances the perception of affordance regions by preserving affordance correlation. Specifically, an Affordance Invariance Mining module is devised to extract specific clues by minimizing the intra-class differences originated from interaction habits in exocentric images. Besides, an Affordance Co-relation Preserving strategy is presented to perceive and localize affordance by aligning the co-relation matrix of predicted results between the two views. Particularly, an affordance grounding dataset named AGD20K is constructed by collecting and labeling over 20K images from 36 affordance categories. Experimental results demonstrate that our method outperforms the representative models in terms of objective metrics and visual quality. Code: github.com/lhc1224/C ross-View-AG.
翻訳日:2022-03-21 20:12:45 公開日:2022-03-18
# (参考訳) 畳み込みニューラルネットワークを用いた暗黒エネルギー探査における過渡度同定 [全文訳有]

Identifying Transients in the Dark Energy Survey using Convolutional Neural Networks ( http://arxiv.org/abs/2203.09908v1 )

ライセンス: CC BY 4.0
Venkitesh Ayyar, Robert Knop Jr., Autumn Awbrey, Alexis Anderson and Peter Nugent(参考訳) 直接人間の介入なしに画像差によって新しい過渡現象を発見する能力は、観測天文学において重要な課題である。 このような画像分類問題に対して,畳み込みニューラルネットワーク(cnns)などの機械学習技術が注目に値する成功を収めている。 本稿では,宇宙論におけるia型超新星の活用に重点を置いた,dark energy survey supernova program(des-sn)の既存のデータセットに対するcnnを用いた画像の自動過渡的同定の結果について述べる。 cnnのアーキテクチャ探索を行うことで、アーティファクトから非アーティファクト(超新星、変光星、agnなど)を効率的に選択するネットワーク(画像欠陥、誤算など)を識別し、特徴同定の手間を省くことなく、ランダムフォレストで行った以前の作業の効率性を達成する。 cnnは誤ラベル画像のサブセットを特定するのにも役立ちます。 このサブセットで画像のラベリングを実行すると、CNNによる分類は以前の結果よりもはるかに優れている。

The ability to discover new transients via image differencing without direct human intervention is an important task in observational astronomy. For these kind of image classification problems, machine Learning techniques such as Convolutional Neural Networks (CNNs) have shown remarkable success. In this work, we present the results of an automated transient identification on images with CNNs for an extant dataset from the Dark Energy Survey Supernova program (DES-SN), whose main focus was on using Type Ia supernovae for cosmology. By performing an architecture search of CNNs, we identify networks that efficiently select non-artifacts (e.g. supernovae, variable stars, AGN, etc.) from artifacts (image defects, mis-subtractions, etc.), achieving the efficiency of previous work performed with random Forests, without the need to expend any effort in feature identification. The CNNs also help us identify a subset of mislabeled images. Performing a relabeling of the images in this subset, the resulting classification with CNNs is significantly better than previous results.
翻訳日:2022-03-21 19:58:15 公開日:2022-03-18
# (参考訳) ロバスト文書復号と認識のためのフーリエ文書復元

Fourier Document Restoration for Robust Document Dewarping and Recognition ( http://arxiv.org/abs/2203.09910v1 )

ライセンス: CC0 1.0
Chuhui Xue, Zichen Tian, Fangneng Zhan, Shijian Lu, Song Bai(参考訳) 最先端の文書変形技術は、不規則な歪みや奥行きのばらつきのある文書を扱う際にエラーを起こしやすい文書の3次元情報を予測することを学ぶ。 本稿では,異なる歪みを持つ文書を復元し,信頼性と簡便な方法で文書認識を改善する,フーリエ文書復元ネットワークであるfdrnetを提案する。 fdrnet はフーリエ空間の高周波成分に焦点をあて、ほとんどの構造情報をキャプチャするが、外観の劣化はほとんどない。 柔軟性のある薄板スプライン変換によって文書を変形させ、トレーニングで変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。 これらの特徴により、FDRNetは少量のラベル付きトレーニング画像から学習することができ、学習されたモデルは複雑な幾何学的歪みで文書をデワープし、復元されたテキストを正確に認識することができる。 文書復元研究を容易にするために,幾何および光度歪みの異なる1万以上のカメラ文書からなるベンチマークデータセットを作成する。 大規模な実験により、FDRNetはデワープタスクとテキスト認識タスクの両方で最先端の技術をはるかに上回っていることがわかった。 加えて、FDRNetは少量の単にラベル付けされたトレーニングデータを必要とし、デプロイが容易である。

State-of-the-art document dewarping techniques learn to predict 3-dimensional information of documents which are prone to errors while dealing with documents with irregular distortions or large variations in depth. This paper presents FDRNet, a Fourier Document Restoration Network that can restore documents with different distortions and improve document recognition in a reliable and simpler manner. FDRNet focuses on high-frequency components in the Fourier space that capture most structural information but are largely free of degradation in appearance. It dewarps documents by a flexible Thin-Plate Spline transformation which can handle various deformations effectively without requiring deformation annotations in training. These features allow FDRNet to learn from a small amount of simply labeled training images, and the learned model can dewarp documents with complex geometric distortion and recognize the restored texts accurately. To facilitate document restoration research, we create a benchmark dataset consisting of over one thousand camera documents with different types of geometric and photometric distortion. Extensive experiments show that FDRNet outperforms the state-of-the-art by large margins on both dewarping and text recognition tasks. In addition, FDRNet requires a small amount of simply labeled training data and is easy to deploy.
翻訳日:2022-03-21 19:48:14 公開日:2022-03-18
# (参考訳) 構成空間における効率的なロボット運動計画のためのSONN型の比較 [全文訳有]

Comparing SONN Types for Efficient Robot Motion Planning in the Configuration Space ( http://arxiv.org/abs/2203.09914v1 )

ライセンス: CC BY 4.0
Lea Steffen, Tobias Weyer, Katharina Glueck, Stefan Ulbrich, Arne Roennau, R\"udiger Dillmann(参考訳) 構成空間(c空間)における動き計画では、滑らかな軌道などの利点が引き起こされる。 自由度(DOF)が増加するにつれて、より複雑になる。 これは、探索空間の次元と DOF との直接的な関係によるものである。 自己組織化ニューラルネットワーク(SONN)とその有名な候補である自己組織化マップ(Self-Organizing Map)は,[29]に示すように,その基盤となるトポロジを保ちながら,C空間削減に有用なツールであることが証明されている。 本研究では,従来の研究を新たなモデルで拡張し,人間の運動データからロボットの運動学へアプローチする。 評価には、[29]と3つのSONNアーキテクチャの最高のパフォーマンスモデルが含まれており、この前の作業の連続性を表している。 異なるSONNモデルで計画された生成軌道は、ロボットシミュレーションでうまくテストされた。

Motion planning in the configuration space (C-space) induces benefits, such as smooth trajectories. It becomes more complex as the degrees of freedom (DOF) increase. This is due to the direct relation between the dimensionality of the search space and the DOF. Self-organizing neural networks (SONN) and their famous candidate, the Self-Organizing Map, have been proven to be useful tools for C-space reduction while preserving its underlying topology, as presented in [29]. In this work, we extend our previous study with additional models and adapt the approach from human motion data towards robots' kinematics. The evaluation includes the best performant models from [29] and three additional SONN architectures, representing the consequent continuation of this previous work. Generated Trajectories, planned with the different SONN models, were successfully tested in a robot simulation.
翻訳日:2022-03-21 19:47:14 公開日:2022-03-18
# (参考訳) 多数投票法によるフェイクニュース検出 [全文訳有]

Fake News Detection Using Majority Voting Technique ( http://arxiv.org/abs/2203.09936v1 )

ライセンス: CC BY 4.0
Dharmaraj R. Patil(参考訳) Webやソーシャルネットワークのプラットフォームが進化するにつれて、情報の拡散が非常に容易になる。 人々はこれまで以上に多くの情報を創造し、共有しています。 フェイクニュースの検出は、利用可能な情報の構造化されていない性質のため、重要かつ困難な作業である。 近年、研究者は偽ニュース検出の問題に対処するための重要な解決策を提供しているが、その性質上、まだ多くの未解決問題が存在する。 本稿では,偽ニュース記事を検出するための多数決手法を提案する。 我々は偽ニュースと実ニュースの異なるテキスト特性を利用してきた。 20,800件のニュース記事のうち10,387件が本物、10,413件がバイナリ0,1とラベル付けされた偽ニュースである。 提案手法の評価には,決定木,ロジスティック回帰,XGBoost,ランダムフォレスト,エクストラツリー,AdaBoost,SVM,SGD,ネイブベイズなどの機械学習分類器を用いた。 以上の分類器を用いて,多数決手法を用いた複数モデル偽ニュース検出システムを構築し,より正確な結果を得た。 実験の結果,提案手法の精度は96.38%,精度96%,リコール96%,f1測定値96%であった。 評価の結果, 個別の学習手法と比較して, 主要投票手法がより受け入れられる結果を得たことが確認された。

Due to the evolution of the Web and social network platforms it becomes very easy to disseminate the information. Peoples are creating and sharing more information than ever before, which may be misleading, misinformation or fake information. Fake news detection is a crucial and challenging task due to the unstructured nature of the available information. In the recent years, researchers have provided significant solutions to tackle with the problem of fake news detection, but due to its nature there are still many open issues. In this paper, we have proposed majority voting approach to detect fake news articles. We have used different textual properties of fake and real news. We have used publicly available fake news dataset, comprising of 20,800 news articles among which 10,387 are real and 10,413 are fake news labeled as binary 0 and 1. For the evaluation of our approach, we have used commonly used machine learning classifiers like, Decision Tree, Logistic Regression, XGBoost, Random Forest, Extra Trees, AdaBoost, SVM, SGD and Naive Bayes. Using the aforementioned classifiers, we built a multi-model fake news detection system using Majority Voting technique to achieve the more accurate results. The experimental results show that, our proposed approach achieved accuracy of 96.38%, precision of 96%, recall of 96% and F1-measure of 96%. The evaluation confirms that, Majority Voting technique achieved more acceptable results as compare to individual learning technique.
翻訳日:2022-03-21 19:35:56 公開日:2022-03-18
# (参考訳) MCMCによる敵攻撃からの変分オートエンコーダの回避 [全文訳有]

Defending Variational Autoencoders from Adversarial Attacks with MCMC ( http://arxiv.org/abs/2203.09940v1 )

ライセンス: CC BY 4.0
Anna Kuzina, Max Welling, Jakub M. Tomczak(参考訳) 変分オートエンコーダ(VAE)は、様々な領域で使用される深部生成モデルである。 VAEは複雑なオブジェクトを生成し、意味のある潜在表現を提供することができる。 以前の研究が示すように、視覚的にわずかに修正された入力に対する予期せぬ潜在表現と再構成を生成するために、VAEを簡単に騙すことができる。 本稿では,敵対的攻撃構築のための目的関数をいくつか検討し,モデルのロバスト性を評価する指標を提案し,攻撃の効果を緩和するための解決策を提案する。 本手法は,マルコフ連鎖モンテカルロ(mcmc)手法を推論ステップに応用し,理論解析により動機づけられている。 したがって、トレーニング中に追加コストを組み込まないか、非攻撃的な入力の性能を低下させません。 我々は,様々なデータセット (MNIST, Fashion MNIST, Color MNIST, CelebA) とVAE構成 (\beta$-VAE, NVAE, TC-VAE) にアプローチを検証し,敵攻撃に対するモデルロバスト性を一貫して改善していることを示す。

Variational autoencoders (VAEs) are deep generative models used in various domains. VAEs can generate complex objects and provide meaningful latent representations, which can be further used in downstream tasks such as classification. As previous work has shown, one can easily fool VAEs to produce unexpected latent representations and reconstructions for a visually slightly modified input. Here, we examine several objective functions for adversarial attacks construction, suggest metrics assess the model robustness, and propose a solution to alleviate the effect of an attack. Our method utilizes the Markov Chain Monte Carlo (MCMC) technique in the inference step and is motivated by our theoretical analysis. Thus, we do not incorporate any additional costs during training or we do not decrease the performance on non-attacked inputs. We validate our approach on a variety of datasets (MNIST, Fashion MNIST, Color MNIST, CelebA) and VAE configurations ($\beta$-VAE, NVAE, TC-VAE) and show that it consistently improves the model robustness to adversarial attacks.
翻訳日:2022-03-21 19:25:40 公開日:2022-03-18
# (参考訳) 多階層的医療対話状態追跡へのプロンプトに基づく生成的アプローチ [全文訳有]

Prompt-based Generative Approach towards Multi-Hierarchical Medical Dialogue State Tracking ( http://arxiv.org/abs/2203.09946v1 )

ライセンス: CC BY 4.0
Jun Liu, Tong Ruan, Haofen Wang, Huanhuan Zhang(参考訳) 医療対話システムは患者に優れた利便性を提供する有望なアプリケーションである。 下流タスクの機械可読構造に発話を解釈する医療対話システムにおける対話状態追跡(dst)モジュールは,特に困難である。 第一に、国家は身体部分の症状や重度の疾患といった複合的な実体を表現できなければならず、決定支援のための十分な情報を提供する必要がある。 第二に、発話中のこれらの名前付き実体は不連続であり、文や話者に散在する可能性がある。 これはまた、ほとんどの方法に不可欠な大きなコーパスに注釈をつけることも困難である。 したがって、まず多階層状態構造を定義する。 医用対話データセットを中国語で注釈し,公開する。 私たちの知る限りでは、これまで公開されていないものはありません。 次に,トップダウンアプローチを用いて,複数階層のスロット値を生成するプロンプトベースの生成手法を提案する。 ダイアログスタイルのプロンプトを補足して、大きなラベルのないダイアログコーパスを使用して、データの不足問題を緩和する。 実験の結果,提案手法は他のdst法よりも優れており,データが少ないシナリオでは有効であった。

The medical dialogue system is a promising application that can provide great convenience for patients. The dialogue state tracking (DST) module in the medical dialogue system which interprets utterances into the machine-readable structure for downstream tasks is particularly challenging. Firstly, the states need to be able to represent compound entities such as symptoms with their body part or diseases with degrees of severity to provide enough information for decision support. Secondly, these named entities in the utterance might be discontinuous and scattered across sentences and speakers. These also make it difficult to annotate a large corpus which is essential for most methods. Therefore, we first define a multi-hierarchical state structure. We annotate and publish a medical dialogue dataset in Chinese. To the best of our knowledge, there are no publicly available ones before. Then we propose a Prompt-based Generative Approach which can generate slot values with multi-hierarchies incrementally using a top-down approach. A dialogue style prompt is also supplemented to utilize the large unlabeled dialogue corpus to alleviate the data scarcity problem. The experiments show that our approach outperforms other DST methods and is rather effective in the scenario with little data.
翻訳日:2022-03-21 18:42:15 公開日:2022-03-18
# (参考訳) SS-SAM : 深いニューラルネットワークを効果的に訓練するための確率的スケジューリング型シャープネス認識最小化 [全文訳有]

SS-SAM : Stochastic Scheduled Sharpness-Aware Minimization for Efficiently Training Deep Neural Networks ( http://arxiv.org/abs/2203.09962v1 )

ライセンス: CC BY 4.0
Yang Zhao, Hao Zhang and Xiuyuan Hu(参考訳) 最適化器をフラットミニマに収束させることで、シャープネス認識最小化(sam)はモデル一般化を改善する力を示した。 しかし、SAMは1つのパラメータの更新のために2つの前向きのプロパゲーションを実行する必要がある。 本稿では,Stochastic Scheduled SAM (SS-SAM) と呼ばれる新しい,効率的なトレーニング手法を提案する。 具体的には、SS-SAMでは、オプティマイザを事前定義されたスケジューリング関数で配置し、各更新ステップでランダムトライアルを行い、SGD最適化やSAM最適化をランダムに選択する。 このようにして、伝播対の総数を大幅に減らすことができる。 そこで本研究では,4種類のスケジューリング関数を実験的に検討し,それぞれがモデル性能に与える影響と計算効率を実証する。 適切なスケジューリング関数では、SAMトレーニングスキームのみを用いて訓練されたモデルと比較して、計算コストをはるかに低くして、同等またはさらに優れた性能を達成するよう訓練できることを示す。

By driving optimizers to converge to flat minima, sharpness-aware minimization (SAM) has shown the power to improve the model generalization. However, SAM requires to perform two forward-backward propagations for one parameter update, which largely burdens the practical computation. In this paper, we propose a novel and efficient training scheme, called Stochastic Scheduled SAM (SS-SAM). Specifically, in SS-SAM, the optimizer is arranged by a predefined scheduling function to perform a random trial at each update step, which would randomly select to perform the SGD optimization or the SAM optimization. In this way, the overall count of propagation pair could be largely reduced. Then, we empirically investigate four typical types of scheduling functions, and demonstrates the computational efficiency and their impact on model performance respectively. We show that with proper scheduling functions, models could be trained to achieve comparable or even better performance with much lower computation cost compared to models trained with only SAM training scheme.
翻訳日:2022-03-21 18:31:37 公開日:2022-03-18
# (参考訳) SynthStrip:どんな脳画像でもスクリッピングできる [全文訳有]

SynthStrip: Skull-Stripping for Any Brain Image ( http://arxiv.org/abs/2203.09974v1 )

ライセンス: CC BY 4.0
Andrew Hoopes, Jocelyn S. Mora, Adrian V. Dalca, Bruce Fischl, Malte Hoffmann(参考訳) 磁気共鳴画像(MRI)データからの非脳信号の除去は頭蓋骨ストリッピングと呼ばれ、多くの神経画像解析ストリームの不可欠な構成要素である。 その豊富さにもかかわらず、一般的な古典的な頭蓋骨切断法は、通常、特定の取得特性を持つ画像、すなわち、研究環境では一般的なT1強調(T1w)MRIコントラストに適合する。 その結果、既存のツールは、診療所で一般的なFSE(Fast spin-echo)MRIで取得した厚いスライスのスタックなど、他の画像タイプに適応しにくい傾向にある。 近年、学習に基づく脳抽出のアプローチが注目されているが、これらの手法は訓練中の画像タイプにのみ有効であるため、同様の負担に直面している。 プロトコルのランドスケープを横断する堅牢な頭蓋骨切断を実現するために,学習ベースの迅速な脳抽出ツールであるSynthStripを紹介した。 解剖学的セグメンテーションを活用して、解剖学、強度分布、および医療画像の現実的な範囲をはるかに超えた人工的なトレーニングデータセットを生成することで、SynthStripは、さまざまな実際の脳画像への一般化を成功させることを学び、ターゲットのコントラストによるトレーニングデータの必要性を取り除く。 本稿では,synthstripが新生児から成人まで多種多様な画像取得と解決に有効であることを示す。 一般的な頭蓋骨採取ベースラインよりも精度が大幅に向上しています。 当社のメソッドとラベル付き評価データは、https://w3id.org/syn thstripで入手できます。

The removal of non-brain signal from magnetic resonance imaging (MRI) data, known as skull-stripping, is an integral component of many neuroimage analysis streams. Despite their abundance, popular classical skull-stripping methods are usually tailored to images with specific acquisition properties, namely near-isotropic resolution and T1-weighted (T1w) MRI contrast, which are prevalent in research settings. As a result, existing tools tend to adapt poorly to other image types, such as stacks of thick slices acquired with fast spin-echo (FSE) MRI that are common in the clinic. While learning-based approaches for brain extraction have gained traction in recent years, these methods face a similar burden, as they are only effective for image types seen during the training procedure. To achieve robust skull-stripping across a landscape of protocols, we introduce SynthStrip, a rapid, learning-based brain-extraction tool. By leveraging anatomical segmentations to generate an entirely synthetic training dataset with anatomies, intensity distributions, and artifacts that far exceed the realistic range of medical images, SynthStrip learns to successfully generalize to a variety of real acquired brain images, removing the need for training data with target contrasts. We demonstrate the efficacy of SynthStrip for a diverse set of image acquisitions and resolutions across subject populations, ranging from newborn to adult. We show substantial improvements in accuracy over popular skull-stripping baselines - all with a single trained model. Our method and labeled evaluation data are available at https://w3id.org/syn thstrip.
翻訳日:2022-03-21 18:17:44 公開日:2022-03-18
# (参考訳) WOODS: 時系列タスクにおける配布外一般化のベンチマーク

WOODS: Benchmarks for Out-of-Distribution Generalization in Time Series Tasks ( http://arxiv.org/abs/2203.09978v1 )

ライセンス: CC BY 4.0
Jean-Christophe Gagnon-Audet, Kartik Ahuja, Mohammad-Javad Darvishi-Bayazi, Guillaume Dumas, Irina Rish(参考訳) 機械学習モデルは、分散シフトの下でよく一般化できないことが多い。 これらの失敗を理解し克服することは、アウト・オブ・ディストリビューション(OOD)の一般化の研究分野に繋がった。 静的コンピュータビジョンタスクでは広く研究されているが、時系列タスクではOODの一般化が過小評価されている。 このギャップに光を当てるために、WOODS: ビデオ、脳記録、センサー信号など、さまざまなデータモダリティをカバーする8つの挑戦的なオープンソース時系列ベンチマークを紹介します。 時系列タスクのための既存のOOD一般化アルゴリズムを改訂し、体系的なフレームワークを用いて評価する。 実験の結果,我々のデータセットにおける経験的リスク最小化とOOD一般化アルゴリズムの改善の余地が大きく,時系列タスクによる新たな課題が強調された。 コードとドキュメントはhttps://woods-benchm arks.github.ioで入手できる。

Machine learning models often fail to generalize well under distributional shifts. Understanding and overcoming these failures have led to a research field of Out-of-Distribution (OOD) generalization. Despite being extensively studied for static computer vision tasks, OOD generalization has been underexplored for time series tasks. To shine light on this gap, we present WOODS: eight challenging open-source time series benchmarks covering a diverse range of data modalities, such as videos, brain recordings, and sensor signals. We revise the existing OOD generalization algorithms for time series tasks and evaluate them using our systematic framework. Our experiments show a large room for improvement for empirical risk minimization and OOD generalization algorithms on our datasets, thus underscoring the new challenges posed by time series tasks. Code and documentation are available at https://woods-benchm arks.github.io .
翻訳日:2022-03-21 17:47:06 公開日:2022-03-18
# (参考訳) オートエンコーダを用いた合成DNAの画像保存 [全文訳有]

Image Storage on Synthetic DNA Using Autoencoders ( http://arxiv.org/abs/2203.09981v1 )

ライセンス: CC BY 4.0
Xavier Pic and Marc Antonini(参考訳) 過去数年間、データストレージの需要は増加傾向にあり、特に"コールド"データ(かなりアクセスされたデータ)は、データストレージの代替システムの研究を動機付けてきた。 生化学的特徴から、合成DNA分子は、この新しいタイプの貯蔵の真剣な候補とみなされている。 本稿では,DNAデータ記憶に適応した畳み込みオートエンコーダを用いた画像圧縮手法について述べる。 ここで提示されたモデルアーキテクチャは、画像を効率よく圧縮し、それを第四次コードにエンコードし、最終的に合成DNA分子に格納するように設計されている。 この研究は、圧縮モデルがDNAにデータを格納する際に発生する問題、すなわちDNAの書き込み、保存、読み取りがエラーを起こしやすいプロセスに適合させることも目標としている。 この種の圧縮オートエンコーダの主な特徴は、トレーニング中に使用するノイズモデルにより、我々の量子化と、エラーの置換に対する堅牢性である。

Over the past years, the ever-growing trend on data storage demand, more specifically for "cold" data (rarely accessed data), has motivated research for alternative systems of data storage. Because of its biochemical characteristics, synthetic DNA molecules are now considered as serious candidates for this new kind of storage. This paper presents some results on lossy image compression methods based on convolutional autoencoders adapted to DNA data storage. The model architectures presented here have been designed to efficiently compress images, encode them into a quaternary code, and finally store them into synthetic DNA molecules. This work also aims at making the compression models better fit the problematics that we encounter when storing data into DNA, namely the fact that the DNA writing, storing and reading methods are error prone processes. The main take away of this kind of compressive autoencoder is our quantization and the robustness to substitution errors thanks to the noise model that we use during training.
翻訳日:2022-03-21 17:46:05 公開日:2022-03-18
# (参考訳) CrossAligner & Co:タスク指向の自然言語理解のためのゼロショット転送手法 [全文訳有]

CrossAligner & Co: Zero-Shot Transfer Methods for Task-Oriented Cross-lingual Natural Language Understanding ( http://arxiv.org/abs/2203.09982v1 )

ライセンス: CC BY 4.0
Milan Gritta, Ruoyu Hu and Ignacio Iacobacci(参考訳) タスク指向のパーソナルアシスタントは、人々が自然言語を使って多数のデバイスやサービスと対話できるようにする。 より多くのユーザにニューラルネットワークシステムを提供することの課題のひとつは、少数の言語を除いて、トレーニングデータの欠如にある。 ゼロショット法は、低リソース言語への変換を目的として、英語などの高リソース言語でタスク知識を取得することでこの問題を解決する。 そこで本研究では,非並列データからの学習アライメントに基づいた,ゼロショット言語間移動のための多種多様な効果的な手法であるCrossAlignerを紹介する。 本研究では,9言語,15のテストセット,3つのベンチマーク多言語データセットで評価されたSOTA(State-of-the-ar t)スコアを超え,各手法と重み付けされた組み合わせの定量的分析を行う。 最適手法の詳細な定性的誤り解析により、我々の微調整言語モデルが、予想よりも優れたタスク知識をゼロショット転送できることが示される。

Task-oriented personal assistants enable people to interact with a host of devices and services using natural language. One of the challenges of making neural dialogue systems available to more users is the lack of training data for all but a few languages. Zero-shot methods try to solve this issue by acquiring task knowledge in a high-resource language such as English with the aim of transferring it to the low-resource language(s). To this end, we introduce CrossAligner, the principal method of a variety of effective approaches for zero-shot cross-lingual transfer based on learning alignment from unlabelled parallel data. We present a quantitative analysis of individual methods as well as their weighted combinations, several of which exceed state-of-the-art (SOTA) scores as evaluated across nine languages, fifteen test sets and three benchmark multilingual datasets. A detailed qualitative error analysis of the best methods shows that our fine-tuned language models can zero-shot transfer the task knowledge better than anticipated.
翻訳日:2022-03-21 17:39:15 公開日:2022-03-18
# (参考訳) 高混合ハイパースペクトル画像の拡散と体積最大化に基づくクラスタリング [全文訳有]

Diffusion and Volume Maximization-Based Clustering of Highly Mixed Hyperspectral Images ( http://arxiv.org/abs/2203.09992v1 )

ライセンス: CC BY 4.0
Sam L. Polk, Kangning Cui, Robert J. Plemmons, and James M. Murphy(参考訳) シーンやオブジェクトのハイパースペクトル画像はリッチなデータソースであり、各ピクセルに100以上の反射率のスペクトル帯域を符号化することが多い。 非常に高次元であるにもかかわらず、これらの画像は通常、材料識別に利用される潜在低次元構造を符号化する。 しかし、スペクトル分解能と空間分解能の間に固有のトレードオフがあるため、多くの超スペクトル画像が粗い空間スケールで生成され、単一の画素は複数の材料を含む空間領域に対応できる。 本稿では,教師なし物体識別のための\emph{diffusion and volume maximization-based image clustering} (\emph{d-vic})アルゴリズムを紹介する。 d-vicは、他の高密度高純度画素から拡散距離(データ依存距離メートル法)の遠方のハイパースペクトル画像の高密度高純度画素であるクラスタモードを配置し、これらの点が基礎となる物質構造を例示するために、これらのピクセルに固有のラベルを割り当てる。 非モード画素は、既にラベル付けされている高密度および純度近傍の拡散距離に基づいてラベル付けされる。 ピクセル純度をモーダルおよび非モーダルラベリングに直接組み込むことで、d-vicは単一の物質を含む空間領域に対応するピクセルを増量し、より解釈可能なクラスタリングをもたらす。 D-VICは、様々なハイパースペクトル画像に対する広範な数値実験において、ベースラインと同等の最先端の手法より優れており、これらのデータの物質識別やクラスタリングに適していることを示している。

Hyperspectral images of a scene or object are a rich data source, often encoding a hundred or more spectral bands of reflectance at each pixel. Despite being very high-dimensional, these images typically encode latent low-dimensional structure that can be exploited for material discrimination. However, due to an inherent trade-off between spectral and spatial resolution, many hyperspectral images are generated at a coarse spatial scale, and single pixels may correspond to spatial regions containing multiple materials. This article introduces the \emph{Diffusion and Volume maximization-based Image Clustering} (\emph{D-VIC}) algorithm for unsupervised material discrimination. D-VIC locates cluster modes -- high-density, high-purity pixels in the hyperspectral image that are far in diffusion distance (a data-dependent distance metric) from other high-density, high-purity pixels -- and assigns these pixels unique labels, as these points are meant to exemplify underlying material structure. Non-modal pixels are labeled according to their diffusion distance nearest neighbor of higher density and purity that is already labeled. By directly incorporating pixel purity into its modal and non-modal labeling, D-VIC upweights pixels that correspond to a spatial region containing just a single material, yielding more interpretable clusterings. D-VIC is shown to outperform baseline and comparable state-of-the-art methods in extensive numerical experiments on a range of hyperspectral images, implying that it is well-equipped for material discrimination and clustering of these data.
翻訳日:2022-03-21 17:18:25 公開日:2022-03-18
# (参考訳) 血管抽出におけるtop-hat変換の応用 [全文訳有]

Application of Top-hat Transformation for Enhanced Blood Vessel Extraction ( http://arxiv.org/abs/2203.10005v1 )

ライセンス: CC BY 4.0
Tithi Parna Das, Sheetal Praharaj, Sarita Swain, Sumanshu Agarwal, and Kundan Kumar(参考訳) 医療分野では、網膜基底画像から血管を抽出し、血管疾患の臨床的治療を行うコンピュータ支援診断システムが提案されている。 コンピュータ生成法を用いて基底画像からの正確な血管抽出は、臨床医がこれらの疾患に罹患した患者のタイムリーかつ正確な報告を作成するのに役立つ。 本稿では,B-COSFIREフィルタとトップハットを用いた前処理手法を統合し,背景からの血管画素のより正確な分離を実現する。 事前処理段階におけるトップハット変換の使用は,fovea,exudate,haemo rrhagesなどの構造の存在下で血管を抽出するアルゴリズムの有効性を高める。 さらに、偽陽性を減少させるために、後処理段階において、微小な血管画素のクラスターを除去する。 さらに,本アルゴリズムは,文献で報告されている様々な現代アルゴリズムに比べ,より効率的であることが判明した。

In the medical domain, different computer-aided diagnosis systems have been proposed to extract blood vessels from retinal fundus images for the clinical treatment of vascular diseases. Accurate extraction of blood vessels from the fundus images using a computer-generated method can help the clinician to produce timely and accurate reports for the patient suffering from these diseases. In this article, we integrate top-hat based preprocessing approach with fine-tuned B-COSFIRE filter to achieve more accurate segregation of blood vessel pixels from the background. The use of top-hat transformation in the preprocessing stage enhances the efficacy of the algorithm to extract blood vessels in presence of structures like fovea, exudates, haemorrhages, etc. Furthermore, to reduce the false positives, small clusters of blood vessel pixels are removed in the postprocessing stage. Further, we find that the proposed algorithm is more efficient as compared to various modern algorithms reported in the literature.
翻訳日:2022-03-21 16:50:33 公開日:2022-03-18
# (参考訳) 機械学習とディープラーニングによる脳波データ分析:ベンチマーク [全文訳有]

Analyzing EEG Data with Machine and Deep Learning: A Benchmark ( http://arxiv.org/abs/2203.10009v1 )

ライセンス: CC BY-SA 4.0
Danilo Avola, Marco Cascio, Luigi Cinque, Alessio Fagioli, Gian Luca Foresti, Marco Raoul Marini, Daniele Pannone(参考訳) 現在、機械学習とディープラーニングの技術は、経済学から生物学まで様々な分野で広く使われている。 一般的に、これらのテクニックは、よく知られたモデルとアーキテクチャを利用可能なデータに適応させようとするか、カスタムアーキテクチャを設計するかの2つの方法で使用できる。 どちらのケースでも、研究プロセスのスピードアップには、特定の問題やデータタイプに最適なモデルの種類を知ることが有用である。 本稿では,脳波信号解析に注目し,文献で初めて,脳波信号分類のための機械学習とディープラーニングのベンチマークを提案する。 実験では、多層パーセプトロン、畳み込みニューラルネットワーク、長期記憶、ゲートリカレントユニットの4つの最も広範なモデルを使用し、脳波分類モデルを開発するための出発点として、どれがよいかを強調した。

Nowadays, machine and deep learning techniques are widely used in different areas, ranging from economics to biology. In general, these techniques can be used in two ways: trying to adapt well-known models and architectures to the available data, or designing custom architectures. In both cases, to speed up the research process, it is useful to know which type of models work best for a specific problem and/or data type. By focusing on EEG signal analysis, and for the first time in literature, in this paper a benchmark of machine and deep learning for EEG signal classification is proposed. For our experiments we used the four most widespread models, i.e., multilayer perceptron, convolutional neural network, long short-term memory, and gated recurrent unit, highlighting which one can be a good starting point for developing EEG classification models.
翻訳日:2022-03-21 16:42:26 公開日:2022-03-18
# (参考訳) 計画と知識統合による産業用ロボットタスクのスキルベース多目的強化学習 [全文訳有]

Skill-based Multi-objective Reinforcement Learning of Industrial Robot Tasks with Planning and Knowledge Integration ( http://arxiv.org/abs/2203.10033v1 )

ライセンス: CC BY-SA 4.0
Matthias Mayr, Faseeh Ahmad, Konstantinos Chatzilygeroudis, Luigi Nardi, Volker Krueger(参考訳) バッチサイズが小さい現代的な産業環境では、新しいタスクのためにロボットシステムをセットアップするのは簡単である。 スキルの使用のような戦略は存在するが、力やトルクを扱う場合、これらのシステムはしばしば不足する。 本稿では,タスクレベルの計画とシナリオ固有のパラメータの学習を組み合わせたスキルベースシステムを提案する。 1) 利用者は計画言語PDDLでタスクゴールを提供し、(2) 計画(つまり、一連のスキル)が生成され、そのスキルの学習可能なパラメータが自動的に識別される。 オペレータは学習プロセスに対して(3)報酬関数とハイパーパラメータを選択する。 方法論の2つの側面が重要です (a)学習は、シンボリックプランニングをサポートし、学習の事前を提供するための知識フレームワークと密に統合される。 (b)多目的最適化を用いた。 これは安全性やタスクパフォーマンスといった重要なパフォーマンス指標(kpi)のバランスを取るのに役立つ。 我々は多目的ベイズ最適化アプローチを採用し、シミュレーションで完全に学習する。 2つの異なる接触豊富なタスクのスキルパラメータを学習することで、アプローチの有効性と汎用性を実証する。 実際の7自由度kuka-iiwaマニピュレータ上での実行を成功させ,人間のロボット操作者による手動パラメータ化を上回った。

In modern industrial settings with small batch sizes it should be easy to set up a robot system for a new task. Strategies exist, e.g. the use of skills, but when it comes to handling forces and torques, these systems often fall short. We introduce an approach that provides a combination of task-level planning with targeted learning of scenario-specific parameters for skill-based systems. We propose the following pipeline: (1) the user provides a task goal in the planning language PDDL, (2) a plan (i.e., a sequence of skills) is generated and the learnable parameters of the skills are automatically identified. An operator then chooses (3) reward functions and hyperparameters for the learning process. Two aspects of our methodology are critical: (a) learning is tightly integrated with a knowledge framework to support symbolic planning and to provide priors for learning, (b) using multi-objective optimization. This can help to balance key performance indicators (KPIs) such as safety and task performance since they can often affect each other. We adopt a multi-objective Bayesian optimization approach and learn entirely in simulation. We demonstrate the efficacy and versatility of our approach by learning skill parameters for two different contact-rich tasks. We show their successful execution on a real 7-DOF KUKA-iiwa manipulator and outperform the manual parameterization by human robot operators.
翻訳日:2022-03-21 16:33:31 公開日:2022-03-18
# カラー画像正規化のためのElasticaモデル

Elastica Models for Color Image Regularization ( http://arxiv.org/abs/2203.09995v1 )

ライセンス: Link先を確認
Hao Liu, Xue-Cheng Tai, Ron Kimmel, Roland Glowinski(参考訳) 色を規則化する古典的なアプローチの1つは、それらを5次元空間-彩色空間に埋め込まれた2次元の表面として振る舞うことである。 この場合、自然な正則化項が画像表面積として現れる。 色座標を空間的に支配するものとして選択することで、画像空間座標は3次元色空間における画像表面多様体のパラメタ化と考えることができる。 画像多様体の面積を最小化することは、3次元色空間における画像面のベルトラミ流や平均曲率流につながるが、画像面の弾性を最小化するとさらに興味深い正規化が得られる。 近年,画像多様体の表面積と弾性率の両方を最小化するカラー弾性モデルが提案されている。 本稿では,色弾性を改良し,カラー画像の正則化のための2つの新しいモデルを提案する。 修正された尺度は、カラー弾性モデル、オイラー弾性モデル、グレーレベル画像の総変動モデルとの関係によって動機づけられている。 従来の色弾性モデルと比較して、新しいモデルはカラー画像へのオイラーの弾性モデルの直接拡張である。 提案したモデルは非線形で最小化が難しい。 この難しさを克服するために2つの演算子分割法を提案する。 具体的には、新しいベクトル値と行列値の変数を導入することで非線形性を分離する。 そして、最小化問題を演算子分割により時間差分される初期値問題に変換する。 各サブプロブレムは、分裂した後、閉じた溶液を持つか、効率的に解ける。 提案モデルの有効性と利点を総合実験により実証した。 画像表面の弾性を一般的な代替品と比較して正則化項として組み込むことの利点を実証的に検証する。

One classical approach to regularize color is to tream them as two dimensional surfaces embedded in a five dimensional spatial-chromatic space. In this case, a natural regularization term arises as the image surface area. Choosing the chromatic coordinates as dominating over the spatial ones, the image spatial coordinates could be thought of as a paramterization of the image surface manifold in a three dimensional color space. Minimizing the area of the image manifold leads to the Beltrami flow or mean curvature flow of the image surface in the 3D color space, while minimizing the elastica of the image surface yields an additional interesting regularization. Recently, the authors proposed a color elastica model, which minimizes both the surface area and elastica of the image manifold. In this paper, we propose to modify the color elastica and introduce two new models for color image regularization. The revised measures are motivated by the relations between the color elastica model, Euler's elastica model and the total variation model for gray level images. Compared to our previous color elastica model, the new models are direct extensions of Euler's elastica model to color images. The proposed models are nonlinear and challenging to minimize. To overcome this difficulty, two operator-splitting methods are suggested. Specifically, nonlinearities are decoupled by introducing new vector- and matrix-valued variables. Then, the minimization problems are converted to solving initial value problems which are time-discretized by operator splitting. Each subproblem, after splitting either, has a closed-form solution or can be solved efficiently. The effectiveness and advantages of the proposed models are demonstrated by comprehensive experiments. The benefits of incorporating the elastica of the image surface as regularization terms compared to common alternatives are empirically validated.
翻訳日:2022-03-21 16:12:59 公開日:2022-03-18
# スマート医療システムにおけるプライバシー保護のための連合学習--包括的調査

Federated Learning for Privacy Preservation in Smart Healthcare Systems: A Comprehensive Survey ( http://arxiv.org/abs/2203.09702v1 )

ライセンス: Link先を確認
Mansoor Ali, Faisal Naeem, Muhammad Tariq, and Geroges Kaddoum(参考訳) 電子デバイスと通信インフラの最近の進歩は、従来の医療システムをIoMTデバイスを使用してスマートヘルスケアシステムに革命をもたらした。 しかし、人工知能(AI)の集中的なトレーニングアプローチにより、モバイルおよびウェアラブルIoMTデバイスの使用は、病院とエンドユーザの間で通信された情報に関してプライバシー上の懸念を提起する。 IoMTデバイスによって伝達される情報は極めて機密であり、敵に暴露することができる。 この点において、フェデレーションAIパラダイムであるフェデレーション学習(FL)は、参加者の機密データにアクセスせずに、IoMTのプライバシー保護のための新たな機会を開いた。 さらにFLは、トレーニング中にのみグラデーションを共有するため、エンドユーザにプライバシを提供する。 FLのこれらの特性について、本論文では、IoMTにおけるプライバシー関連問題について述べる。 その後,プライバシ保護のためのiomtネットワークにおけるflの役割を述べるとともに,drl(deep reinforcement learning),デジタルツイン,gans(generative adversarial network)を組み込んだ,プライバシの脅威検出のための高度なflアーキテクチャを紹介する。 その後、スマートヘルスケアシステムにおけるFLの実践的可能性を示す。 最終的には、将来のスマートヘルスケアシステムで使用できるFLのオープンな研究課題を提供することで、この調査を締めくくります。

Recent advances in electronic devices and communication infrastructure have revolutionized the traditional healthcare system into a smart healthcare system by using IoMT devices. However, due to the centralized training approach of artificial intelligence (AI), the use of mobile and wearable IoMT devices raises privacy concerns with respect to the information that has been communicated between hospitals and end users. The information conveyed by the IoMT devices is highly confidential and can be exposed to adversaries. In this regard, federated learning (FL), a distributive AI paradigm has opened up new opportunities for privacy-preservation in IoMT without accessing the confidential data of the participants. Further, FL provides privacy to end users as only gradients are shared during training. For these specific properties of FL, in this paper we present privacy related issues in IoMT. Afterwards, we present the role of FL in IoMT networks for privacy preservation and introduce some advanced FL architectures incorporating deep reinforcement learning (DRL), digital twin, and generative adversarial networks (GANs) for detecting privacy threats. Subsequently, we present some practical opportunities of FL in smart healthcare systems. At the end, we conclude this survey by providing open research challenges for FL that can be used in future smart healthcare systems
翻訳日:2022-03-21 16:12:35 公開日:2022-03-18
# 学習安定化型ディープダイナミクスモデル

Learning Stabilizable Deep Dynamics Models ( http://arxiv.org/abs/2203.09710v1 )

ライセンス: Link先を確認
Kenji Kashima, Ryota Yoshiuchi, Yu Kawano(参考訳) ニューラルネットワークがダイナミクスのモデル化に使用される場合、ダイナミクスの安定性などの特性は一般的に保証されない。 対照的に、ニューラルネットワークを用いてグローバル指数安定性を保証する自律システムのダイナミクスを学ぶための最近の方法がある。 本稿では,入力-アフィン制御系のダイナミクスを学習する新しい手法を提案する。 重要な特徴は、安定化制御器と学習モデルの制御リアプノフ関数も得られることである。 さらに,ハミルトン-ヤコビ不等式の解法にも適用可能である。 提案手法の有用性を数値実験により検証した。

When neural networks are used to model dynamics, properties such as stability of the dynamics are generally not guaranteed. In contrast, there is a recent method for learning the dynamics of autonomous systems that guarantees global exponential stability using neural networks. In this paper, we propose a new method for learning the dynamics of input-affine control systems. An important feature is that a stabilizing controller and control Lyapunov function of the learned model are obtained as well. Moreover, the proposed method can also be applied to solving Hamilton-Jacobi inequalities. The usefulness of the proposed method is examined through numerical examples.
翻訳日:2022-03-21 16:12:14 公開日:2022-03-18
# 畳み込み干渉キャンセルネットワークを用いたai駆動ユニバーサルアンチジャミングソリューションに向けて

Towards an AI-Driven Universal Anti-Jamming Solution with Convolutional Interference Cancellation Network ( http://arxiv.org/abs/2203.09717v1 )

ライセンス: Link先を確認
Hai N. Nguyen, Guevara Noubir(参考訳) 無線リンクは重要なサービスを提供するためにますます使われるようになっているが、意図的な干渉(jamming)はそうしたサービスにとって非常に深刻な脅威である。 本稿では,コミュニケーションリンクの特異性に依存しない汎用的アンチ・ジャミング・ビルディングブロックの設計と評価に関心を持ち,既存の技術と組み合わせることができる。 このようなブロックは、明示的なプローブ、観測、訓練シーケンス、チャネル推定、あるいは送信機の協調を必要としないと信じている。 これらの要件を満たすために,我々は機械学習の進歩と,ニューラルアクセラレーションとソフトウェア定義無線の約束に依拠するアプローチを提案する。 本稿では,複数の課題を特定し,対処し,畳み込みニューラルネットワークアーキテクチャとマルチアンテナシステムのモデルを構築し,干渉の存在や干渉放出数,各フェーズを推定する。 この情報は、干渉信号をキャンセルするアルゴリズムに連続的に入力される。 我々は,2アンテナプロトタイプシステムを開発し,ソフトウェア定義無線プラットフォームを用いた各種環境設定と変調方式におけるジャミングキャンセル手法の評価を行った。 提案手法を応用した受信ノードは,99%以上の精度でジャムを検出でき,ジャム電力が正規信号よりも2桁近い18dBである場合でも,リンク変調の修正を必要とせず,ビット誤り率(BER)を10−6$に抑えることができることを示した。 非敵対的な環境では、衝突の検出や緩和といった他の利点がある。

Wireless links are increasingly used to deliver critical services, while intentional interference (jamming) remains a very serious threat to such services. In this paper, we are concerned with the design and evaluation of a universal anti-jamming building block, that is agnostic to the specifics of the communication link and can therefore be combined with existing technologies. We believe that such a block should not require explicit probes, sounding, training sequences, channel estimation, or even the cooperation of the transmitter. To meet these requirements, we propose an approach that relies on advances in Machine Learning, and the promises of neural accelerators and software defined radios. We identify and address multiple challenges, resulting in a convolutional neural network architecture and models for a multi-antenna system to infer the existence of interference, the number of interfering emissions and their respective phases. This information is continuously fed into an algorithm that cancels the interfering signal. We develop a two-antenna prototype system and evaluate our jamming cancellation approach in various environment settings and modulation schemes using Software Defined Radio platforms. We demonstrate that the receiving node equipped with our approach can detect a jammer with over 99% of accuracy and achieve a Bit Error Rate (BER) as low as $10^{-6}$ even when the jammer power is nearly two orders of magnitude (18 dB) higher than the legitimate signal, and without requiring modifications to the link modulation. In non-adversarial settings, our approach can have other advantages such as detecting and mitigating collisions.
翻訳日:2022-03-21 16:12:07 公開日:2022-03-18
# 遅延埋め込み空間における潜在行列モデルを用いた音響インペインティングのソフトスムース

Soft Smoothness for Audio Inpainting Using a Latent Matrix Model in Delay-embedded Space ( http://arxiv.org/abs/2203.09746v1 )

ライセンス: Link先を確認
Tatsuya Yokota(参考訳) 本稿では,平滑な時系列信号の再構成手法を提案する。 この研究の重要な概念は、信号空間におけるモデルを考えるのではなく、遅延埋め込み空間を考えることである。 言い換えると、時系列信号を行列の逆遅延埋め込みの出力として間接的に表現し、行列を制約する。 逆遅延埋め込みのモデルに基づいて、行列をスムーズな係数ベクトルでランク1に制限することを提案する。 提案モデルは畳み込みモデルと2次変動(QV)正則化と密接に関連している。 特に,提案手法はQV正則化の一般化として特徴付けられる。 また,提案手法がqv正則化よりもソフトな平滑性を提供することを示す。 音響インペインティングとデクリッピングの実験を行い、既存の補間法やスパースモデリングと比較してその利点を示す。

Here, we propose a new reconstruction method of smooth time-series signals. A key concept of this study is not considering the model in signal space, but in delay-embedded space. In other words, we indirectly represent a time-series signal as an output of inverse delay-embedding of a matrix, and the matrix is constrained. Based on the model under inverse delay-embedding, we propose to constrain the matrix to be rank-1 with smooth factor vectors. The proposed model is closely related to the convolutional model, and quadratic variation (QV) regularization. Especially, the proposed method can be characterized as a generalization of QV regularization. In addition, we show that the proposed method provides the softer smoothness than QV regularization. Experiments of audio inpainting and declipping are conducted to show its advantages in comparison with several existing interpolation methods and sparse modeling.
翻訳日:2022-03-21 16:11:41 公開日:2022-03-18
# 話者埋め込み認識型ニューラルダイアリゼーション:会議シナリオにおけるオーバーラップ音声ダイアリゼーションのための新しい枠組み

Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario ( http://arxiv.org/abs/2203.09767v1 )

ライセンス: Link先を確認
Zhihao Du, Shiliang Zhang, Siqi Zheng, Zhijie Yan(参考訳) 本稿では,重複音声ダイアリゼーションを単一ラベル予測問題として再編成し,先行研究において常にマルチラベル分類課題として扱われる。 具体的には、各フレームの複数のラベルは、異なる話者の可能な組み合わせを表すパワーセットを持つ単一のラベルにエンコードされる。 この定式化を通じて,話者埋め込み型ニューラルダイアリゼーション(SEND)システムを提案する。 SENDでは、音声特徴と話者埋め込みの類似性に応じて、音声エンコーダ、話者エンコーダ、類似度スコア、後処理ネットワークを最適化し、パワーセットされたラベルを予測する。 実験の結果,本手法は変分ベイズ型隠れマルコフモデルに基づくクラスタリングアルゴリズム (vbx) を有意に上回っている。 また,提案手法は,tsvad(target-speake r voice activity detection)と比較して2つの利点がある。 まず、SENDは実際のミーティングシナリオで低いダイアリゼーションエラー率を達成することができる。 第2に、トレーニングデータが重複率が高い場合、SENDの学習プロセスはSVADよりも安定である。

In this paper, we reformulate overlapped speech diarization as a single-label prediction problem, which is always treated as a multi-label classification task in previous studies. Specifically, the multiple labels of each frame are encoded into a single label with the power set, which represents the possible combinations of different speakers. Through this formulation, we propose the speaker embedding-aware neural diarization (SEND) system. In SEND, the speech encoder, speaker encoder, similarity scores, and post-processing network are optimized to predict the power set encoded labels according to the similarities between speech features and speaker embeddings. Experimental results show that our method significantly outperforms the variational Bayesian hidden Markov model-based clustering algorithm (VBx). Besides, the proposed method has two benefits compared with the target-speaker voice activity detection (TSVAD). First, SEND can achieve lower diarization error rates in the real meeting scenario. Second, when the training data has a high overlap ratio, the learning process of SEND is more stable than TSVAD.
翻訳日:2022-03-21 16:11:26 公開日:2022-03-18
# 低音の存在下での分権学習

Dencentralized learning in the presence of low-rank noise ( http://arxiv.org/abs/2203.09810v1 )

ライセンス: Link先を確認
Roula Nassif, Virginia Bordignon, Stefan Vlaski, Ali H. Sayed(参考訳) ネットワーク内のエージェントが収集した観測は、観測ノイズや干渉のために信頼性が低い。 本稿では,ネットワークが監視するフィールド(グラフ信号)が低次元部分空間に存在し,通常のフルランクノイズに加えて低ランクノイズが存在することを前提として,各ノードがローカル計算と隣接ノードとのインタラクションのみに依存することにより,自己観測の信頼性を向上させる分散アルゴリズムを提案する。 斜め射影は、部分空間に対して斜めな方向に沿って低ランク部分空間に測定を投影するために用いられるが、結果として得られる解は分布しない。 集中型解から,観測の全体集合を反復的かつ分散的に信号部分空間に斜めに投影するアルゴリズムを提案する。 次に,ネットワーク上の分散学習と適応問題を扱うために,斜め投影フレームワークを拡張する方法を示す。

Observations collected by agents in a network may be unreliable due to observation noise or interference. This paper proposes a distributed algorithm that allows each node to improve the reliability of its own observation by relying solely on local computations and interactions with immediate neighbors, assuming that the field (graph signal) monitored by the network lies in a low-dimensional subspace and that a low-rank noise is present in addition to the usual full-rank noise. While oblique projections can be used to project measurements onto a low-rank subspace along a direction that is oblique to the subspace, the resulting solution is not distributed. Starting from the centralized solution, we propose an algorithm that performs the oblique projection of the overall set of observations onto the signal subspace in an iterative and distributed manner. We then show how the oblique projection framework can be extended to handle distributed learning and adaptation problems over networks.
翻訳日:2022-03-21 16:09:31 公開日:2022-03-18
# 任意又は制限された切換線形系の同定の有限サンプル解析

Finite-sample analysis of identification of switched linear systems with arbitrary or restricted switching ( http://arxiv.org/abs/2203.09862v1 )

ライセンス: Link先を確認
Shengling Shi, Othmane Mazhar, Bart De Schutter(参考訳) 本研究の目的は、状態と切替信号を測定する際に、切替線形システムの最小二乗推定誤差に対して、データ非依存有限サンプル誤差を導出することである。 線形系同定のための既存の有限サンプル境界は検討中の問題に拡張されるが、誤差境界の必須項であるスイッチトシステムのグラミアンは、測定されたスイッチング信号に依存する。 したがって、スイッチングが任意である場合や平均ドウェル時間制約を受ける場合、グラミアンスペクトル上のデータ非依存境界がグローバルに漸近的かつ限界的に安定なスイッチングシステムのために開発される。 グラミアンスペクトル上の境界と線形系同定から拡張された予備誤差境界を組み合わせることで、切替された系のLS推定に対する誤差境界が導かれる。

This work aims to derive a data-independent finite-sample error bound for the least-squares (LS) estimation error of switched linear systems when the state and the switching signal are measured. While the existing finite-sample bounds for linear system identification extend to the problem under consideration, the Gramian of the switched system, an essential term in the error bound, depends on the measured switching signal. Therefore, data-independent bounds on the spectrum of the Gramian are developed for globally asymptotically and marginally stable switched systems when the switching is arbitrary or subject to an average dwell time constraint. Combining the bounds on the spectrum of the Gramian and the preliminary error bound extended from linear system identification leads to the error bound for the LS estimate of the switched system.
翻訳日:2022-03-21 16:09:14 公開日:2022-03-18
# 多音素音の転写とマルチピッチ推定のための軽量楽器非依存モデル

A Lightweight Instrument-Agnostic Model for Polyphonic Note Transcription and Multipitch Estimation ( http://arxiv.org/abs/2203.09893v1 )

ライセンス: Link先を確認
Rachel M. Bittner, Juan Jos\'e Bosch, David Rubinstein, Gabriel Meseguer-Brocal, Sebastian Ewert(参考訳) AMT(Automatic Music Transcription)は、幅広いアプリケーションで利用可能な重要な技術として認識されている。 タスクの複雑さを考えると、機器固有のシステムのような特定の設定に焦点を当てたシステムでは、最も良い結果が報告されている。 同様に、フレーム単位の$f_0$値のみを推定し、ハードノートイベント検出を無視する場合に高い精度が得られる。 精度が高いにもかかわらず、そのような特殊なシステムは現実世界には展開できないことが多い。 ストレージとネットワークの制約は複数の特別なモデルの使用を禁止し、メモリと実行時の制約は複雑さを制限する。 本稿では,多音素出力をサポートし,様々な楽器(ボーカルを含む)に一般化した,楽器転写のための軽量ニューラルネットワークを提案する。 本モデルでは,フレーム毎のオンセット,マルチピッチ,ノートのアクティベーションを共同で予測し,このマルチアウトプット構造がフレームレベルの音符精度を向上させることを実験的に示す。 その単純さにもかかわらず、ベンチマークの結果、システムの評価値は同等のベースラインよりもかなり優れており、フレームレベルの精度は特殊なamtシステムよりもわずかに低いことがわかった。 この作業により、コミュニティは低リソースで機器に依存しないATTシステムをさらに調査していきたいと考えています。

Automatic Music Transcription (AMT) has been recognized as a key enabling technology with a wide range of applications. Given the task's complexity, best results have typically been reported for systems focusing on specific settings, e.g. instrument-specific systems tend to yield improved results over instrument-agnostic methods. Similarly, higher accuracy can be obtained when only estimating frame-wise $f_0$ values and neglecting the harder note event detection. Despite their high accuracy, such specialized systems often cannot be deployed in the real-world. Storage and network constraints prohibit the use of multiple specialized models, while memory and run-time constraints limit their complexity. In this paper, we propose a lightweight neural network for musical instrument transcription, which supports polyphonic outputs and generalizes to a wide variety of instruments (including vocals). Our model is trained to jointly predict frame-wise onsets, multipitch and note activations, and we experimentally show that this multi-output structure improves the resulting frame-level note accuracy. Despite its simplicity, benchmark results show our system's note estimation to be substantially better than a comparable baseline, and its frame-level accuracy to be only marginally below those of specialized state-of-the-art AMT systems. With this work we hope to encourage the community to further investigate low-resource, instrument-agnostic AMT systems.
翻訳日:2022-03-21 16:09:00 公開日:2022-03-18
# ランダム化最適化のための分散スケッチ:厳密な特性, 濃度, および下界

Distributed Sketching for Randomized Optimization: Exact Characterization, Concentration and Lower Bounds ( http://arxiv.org/abs/2203.09755v1 )

ライセンス: Link先を確認
Burak Bartan, Mert Pilanci(参考訳) ヘシアンの形成が計算的に困難であり,通信が重要なボトルネックとなる問題に対する分散最適化手法を検討する。 ランダム化されたスケッチを利用して、問題の次元を減らし、プライバシを保ち、非同期分散システムにおけるストラグラーレジリエンスを改善します。 我々は,古典的スケッチ法に対する新しい近似保証を導き,誤差の上下境界となる厳密な集中結果を確立する。 次に,分散スケッチのパラメータ平均化の精度に解析を拡張した。 さらに,ヘシアンのスケッチを用いた正規化問題に対して,ランダム化二階最適化のための偏りのないパラメータ平均化手法を開発した。 既存の研究は推定器のバイアスを考慮に入れておらず、非常に並列な計算に限定している。 スケッチされたニュートン方向のバイアスを最小化する正規化パラメータとステップサイズに対する閉形式式を提供する。 さらに,サーバレスクラウドコンピューティングプラットフォームにおける大規模実験を通じて,理論的な知見の意義を実証する。

We consider distributed optimization methods for problems where forming the Hessian is computationally challenging and communication is a significant bottleneck. We leverage randomized sketches for reducing the problem dimensions as well as preserving privacy and improving straggler resilience in asynchronous distributed systems. We derive novel approximation guarantees for classical sketching methods and establish tight concentration results that serve as both upper and lower bounds on the error. We then extend our analysis to the accuracy of parameter averaging for distributed sketches. Furthermore, we develop unbiased parameter averaging methods for randomized second order optimization for regularized problems that employ sketching of the Hessian. Existing works do not take the bias of the estimators into consideration, which limits their application to massively parallel computation. We provide closed-form formulas for regularization parameters and step sizes that provably minimize the bias for sketched Newton directions. Additionally, we demonstrate the implications of our theoretical findings via large scale experiments on a serverless cloud computing platform.
翻訳日:2022-03-21 16:08:35 公開日:2022-03-18
# (参考訳) 政策不確実性下におけるマルチエージェント強化学習のためのリスクセンシティブベイズゲーム [全文訳有]

Risk-Sensitive Bayesian Games for Multi-Agent Reinforcement Learning under Policy Uncertainty ( http://arxiv.org/abs/2203.10045v1 )

ライセンス: CC BY 4.0
Hannes Eriksson, Debabrota Basu, Mina Alibeigi, Christos Dimitrakakis(参考訳) 不完全な情報を持つ確率ゲームでは、プレイヤー自身と他のプレイヤーのタイプについての知識の欠如、すなわちユーティリティ機能とポリシー空間、そして異なるプレイヤーの相互作用の固有の確率性によって不確実性が引き起こされる。 既存の文献では、確率ゲームにおけるリスクは、遷移と行動の変動によって引き起こされる固有の不確実性の観点から研究されている。 この作業では、代わりに \textit{uncertainty over types} に関連するリスクに焦点を当てます。 我々は,他のエージェントが定常ポリシーを固定したマルチエージェント強化学習フレームワークと対比し,他のエージェントの適応ポリシーの不確実性によるリスク感受性の検討を行った。 本稿では,リスクニュートラルな確率ゲーム(IBR, Fictitious Play (FP) や,デュアルアセント(DAPG)を用いた汎用多目的勾配アプローチなどのリスクニュートラルなアルゴリズムを提案する。 実験により,リスク感受性DAPGは,社会福祉ゲームと一般確率ゲームの両方において,競合するアルゴリズムよりも優れた性能を示した。

In stochastic games with incomplete information, the uncertainty is evoked by the lack of knowledge about a player's own and the other players' types, i.e. the utility function and the policy space, and also the inherent stochasticity of different players' interactions. In existing literature, the risk in stochastic games has been studied in terms of the inherent uncertainty evoked by the variability of transitions and actions. In this work, we instead focus on the risk associated with the \textit{uncertainty over types}. We contrast this with the multi-agent reinforcement learning framework where the other agents have fixed stationary policies and investigate risk-sensitiveness due to the uncertainty about the other agents' adaptive policies. We propose risk-sensitive versions of existing algorithms proposed for risk-neutral stochastic games, such as Iterated Best Response (IBR), Fictitious Play (FP) and a general multi-objective gradient approach using dual ascent (DAPG). Our experimental analysis shows that risk-sensitive DAPG performs better than competing algorithms for both social welfare and general-sum stochastic games.
翻訳日:2022-03-21 16:07:14 公開日:2022-03-18
# 偏弱胸部x線分類における疑似バイアスバランス学習

Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification ( http://arxiv.org/abs/2203.09860v1 )

ライセンス: Link先を確認
Luyang Luo, Dunyuan Xu, Hao Chen, Tien-Tsin Wong, and Pheng-Ann Heng(参考訳) ディープラーニングモデルは、データセットバイアスのようなショートカットから学ぶために頻繁に報告された。 深層学習は、現代医療システムにおいてますます重要な役割を担っているため、医療データにおけるショートカット学習と闘い、バイアスのない信頼に値するモデルを開発することは非常に必要である。 本稿では,バイアスラベルを正確に知ることなく,バイアストレーニングデータから胸部x線診断モデルを開発する問題点について検討する。 まず、バイアス分布の不均衡がショートカット学習を引き起こす主要な理由の1つであり、意図した特徴よりも学習しやすい場合、データセットバイアスがモデルによって好まれる、という観察から始める。 そこで本研究では, 一般化されたクロスエントロピー損失を用いて, サンプル毎のバイアスラベルをキャプチャし, 予測し, 擬似バイアスラベルとバイアスバランスソフトマックス関数を用いてデバイアスモデルを訓練するアルゴリズムであるpseudo bias-balanced learningを提案する。 私たちの知る限りでは、偏りの属性を明確にラベル付けすることなく、医療画像のデータセットバイアスに対処する先駆者です。 種々のデータセットバイアスのある胸部X線データセットを複数構築し,提案手法が他の最先端手法よりも一貫した改善を達成できることを実証した。

Deep learning models were frequently reported to learn from shortcuts like dataset biases. As deep learning is playing an increasingly important role in the modern healthcare system, it is of great need to combat shortcut learning in medical data as well as develop unbiased and trustworthy models. In this paper, we study the problem of developing debiased chest X-ray diagnosis models from the biased training data without knowing exactly the bias labels. We start with the observations that the imbalance of bias distribution is one of the key reasons causing shortcut learning, and the dataset biases are preferred by the model if they were easier to be learned than the intended features. Based on these observations, we propose a novel algorithm, pseudo bias-balanced learning, which first captures and predicts per-sample bias labels via generalized cross entropy loss and then trains a debiased model using pseudo bias labels and bias-balanced softmax function. To our best knowledge, we are pioneered in tackling dataset biases in medical images without explicit labeling on the bias attributes. We constructed several chest X-ray datasets with various dataset bias situations and demonstrated with extensive experiments that our proposed method achieved consistent improvements over other state-of-the-art approaches.
翻訳日:2022-03-21 15:57:27 公開日:2022-03-18
# 深部生成前処理を用いた非線形イメージングモデルのベイズインバージョン

Bayesian Inversion for Nonlinear Imaging Models using Deep Generative Priors ( http://arxiv.org/abs/2203.10078v1 )

ライセンス: Link先を確認
Pakshal Bohra, Thanh-an Pham, Jonathan Dong, Michael Unser(参考訳) 現代のイメージングシステムのほとんどは、取得した測定値から興味のイメージを推測する計算再構成パイプラインを含んでいる。 ベイジアン・リコンストラクション・フレームワークは、このような逆問題を解くために、画像システムのモデルと画像に対する事前知識に依存する後方分布のキャラクタリゼーションに依存している。 ここで,事前分布の選択は,高品質な推定を得る上で重要である。 本研究では,事前分布を表現するために深層生成モデルを用いる。 本稿では,フォワードモデルがニューラルネットワークのような構造を持つ非線形逆問題に対する後続サンプリング手法を提案する。 このクラスには既存のイメージモダリティがほとんど含まれている。 本稿では,定量的な画像復元を適切に扱うために,拡張生成モデルの概念を導入する。 本稿では,2つの非線形画像モダリティ-位相検索と光回折トモグラフィーに応用することで,この枠組みの利点を述べる。

Most modern imaging systems involve a computational reconstruction pipeline to infer the image of interest from acquired measurements. The Bayesian reconstruction framework relies on the characterization of the posterior distribution, which depends on a model of the imaging system and prior knowledge on the image, for solving such inverse problems. Here, the choice of the prior distribution is critical for obtaining high-quality estimates. In this work, we use deep generative models to represent the prior distribution. We develop a posterior sampling scheme for the class of nonlinear inverse problems where the forward model has a neural-network-like structure. This class includes most existing imaging modalities. We introduce the notion of augmented generative models in order to suitably handle quantitative image recovery. We illustrate the advantages of our framework by applying it to two nonlinear imaging modalities-phase retrieval and optical diffraction tomography.
翻訳日:2022-03-21 15:57:03 公開日:2022-03-18
# バイアスドフィードバックを用いたリニアバンディットにおける不公平性の価格

The price of unfairness in linear bandits with biased feedback ( http://arxiv.org/abs/2203.09784v1 )

ライセンス: Link先を確認
Solenne Gaucher (LMO, CELESTE), Alexandra Carpentier, Christophe Giraud (LMO, CELESTE)(参考訳) 人工知能は、より高い利害関係を持つ幅広い意思決定シナリオでますます使われています。 同時に、最近の研究は、これらのアルゴリズムは危険に偏りがあり、不公平な決定につながるのを避けるために結果を修正する必要があることを強調している。 本稿では,線形バンディットフィードバックを用いた逐次意思決定の問題について検討する。 各ラウンドで、プレイヤーは共変量と敏感な属性によって記述されたアクションを選択する。 彼女は選択した行動の共変量に対応する報酬を受け取るが、バイアスが敏感な属性に依存するこの報酬に対する偏りのある評価を観察するのみである。 この問題に対処するため、Fair Phased Eliminationアルゴリズムを設計する。 c は数値定数であり、$\kappa$ * 1/3 * log(t) 1/3 t 2/3 はバイアス推定の難しさを特徴付ける明示的な幾何学定数である。 最悪の場合の後悔は、偏りのないフィードバックの下で得られたdT 1/2 log(T)後悔率よりも高い。 このレートはすべてのインスタンスで改善できないことが示されている:我々は、いくつかのアクションセットに対して最悪の場合の後悔の限界を低くし、この割合がサブロガリスミックな要因に密接であることを示す。 また、後悔点上のギャップ依存上界を求め、ある問題事例に対して一致する下界を確立する。 興味深いことに、ギャップ依存率によって、問題はバイアスのないものほど難しくない非自明なインスタンスの存在が明らかになる。

Artificial intelligence is increasingly used in a wide range of decision making scenarios with higher and higher stakes. At the same time, recent work has highlighted that these algorithms can be dangerously biased, and that their results often need to be corrected to avoid leading to unfair decisions. In this paper, we study the problem of sequential decision making with biased linear bandit feedback. At each round, a player selects an action described by a covariate and by a sensitive attribute. She receives a reward corresponding to the covariates of the action that she has chosen, but only observe a biased evaluation of this reward, where the bias depends on the sensitive attribute. To tackle this problem, we design a Fair Phased Elimination algorithm. We establish an upper bound on its worst-case regret, showing that it is smaller than C$\kappa$ 1/3 * log(T) 1/3 T 2/3 , where C is a numerical constant and $\kappa$ * an explicit geometrical constant characterizing the difficulty of bias estimation. The worst case regret is higher than the dT 1/2 log(T) regret rate obtained under unbiased feedback. We show that this rate cannot be improved for all instances : we obtain lower bounds on the worst-case regret for some sets of actions showing that this rate is tight up to a sub-logarithmic factor. We also obtain gap-dependent upper bounds on the regret, and establish matching lower bounds for some problem instance. Interestingly, the gap-dependent rates reveal the existence of non-trivial instances where the problem is no more difficult than its unbiased counterpart.
翻訳日:2022-03-21 15:56:13 公開日:2022-03-18
# ロバストネス向上のための自己組立対人訓練

Self-Ensemble Adversarial Training for Improved Robustness ( http://arxiv.org/abs/2203.09678v1 )

ライセンス: Link先を確認
Hongjun Wang and Yisen Wang(参考訳) マシンインテリジェンスによってもたらされる現実世界のアプリケーションにおける多くのブレークスルーのため、ディープニューラルネットワーク(dnn)は重要なアプリケーションで広く使われている。 しかし、DNNの予測は、DNNのさらなる展開を阻害し、重大なセキュリティやプライバシーに影響を及ぼす恐れのある、知覚不能な敵の摂動によって容易に操作される。 攻撃的なサンプルをトレーニングデータプールに組み込むことで、攻撃的なトレーニングは、あらゆる種類の防御方法の中で、さまざまな攻撃に対する最強の原則戦略となる。 最近の研究は主に新しい損失関数や正規化器の開発に重点を置いており、重み空間の特異な最適点を見つけようとしている。 しかし、いずれも標準的な逆行訓練、特に訓練の探索軌跡の状態から得られる分類器のポテンシャルを利用できない。 本研究では,トレーニングプロセスを通じてモデルの重み状態に着目し,履歴モデルの重み付けによってロバストな分類器を得るための,単純で強力な \emph{self-ensemble adversarial training} (seat) 法を考案する。 このことは、いくつかのよく知られた敵攻撃に対する標的モデルの堅牢性を大幅に向上させる。 また,異なる対向訓練モデルからの予測の集合と重み付けモデルからの予測の関係を議論するとともに,提案手法が個々のモデルと異なる分類器からの予測の集合よりもスムーズな損失景観と堅牢性を提供するという理論的および実証的な証拠を提供する。 さらに,自己アンサンブルモデルに対する一般的な設定における微妙ながら致命的な問題を分析し,後期における重み付け手法の劣化を引き起こす。

Due to numerous breakthroughs in real-world applications brought by machine intelligence, deep neural networks (DNNs) are widely employed in critical applications. However, predictions of DNNs are easily manipulated with imperceptible adversarial perturbations, which impedes the further deployment of DNNs and may result in profound security and privacy implications. By incorporating adversarial samples into the training data pool, adversarial training is the strongest principled strategy against various adversarial attacks among all sorts of defense methods. Recent works mainly focus on developing new loss functions or regularizers, attempting to find the unique optimal point in the weight space. But none of them taps the potentials of classifiers obtained from standard adversarial training, especially states on the searching trajectory of training. In this work, we are dedicated to the weight states of models through the training process and devise a simple but powerful \emph{Self-Ensemble Adversarial Training} (SEAT) method for yielding a robust classifier by averaging weights of history models. This considerably improves the robustness of the target model against several well known adversarial attacks, even merely utilizing the naive cross-entropy loss to supervise. We also discuss the relationship between the ensemble of predictions from different adversarially trained models and the prediction of weight-ensembled models, as well as provide theoretical and empirical evidence that the proposed self-ensemble method provides a smoother loss landscape and better robustness than both individual models and the ensemble of predictions from different classifiers. We further analyze a subtle but fatal issue in the general settings for the self-ensemble model, which causes the deterioration of the weight-ensembled method in the late phases.
翻訳日:2022-03-21 15:53:51 公開日:2022-03-18
# 変形:実用的で普遍的な深層ビームフォーミングシステム

DEFORM: A Practical, Universal Deep Beamforming System ( http://arxiv.org/abs/2203.09727v1 )

ライセンス: Link先を確認
Hai N. Nguyen, Guevara Noubir(参考訳) 我々は,ユニバーサル受信機ビームフォーミング技術の導入,設計,評価を行う。 我々のアプローチとシステムDEFORM, ディープラーニング(DL)ベースのRXビームフォーミングは, 伝送信号の特徴(変調や帯域幅など)に依存しないマルチアンテナRF受信機において, 顕著な利得を達成する。 複数のアンテナからのコヒーレントRF信号を組み合わせることで、受信素子数に比例するビームフォーミングゲインが得られることはよく知られている。 しかし実際には、この手法はリンク固有であり、受信機に送信するためにかなりの通信オーバーヘッドを必要とする明示的なチャネル推定技術に大きく依存している。 デフォルムはこの課題に対処し、畳み込みニューラルネットワークを利用して、特にアンテナ要素に対する相対位相のチャネル特性を推定する。 無線信号の複雑なサンプルのユニークな特徴、例えば、2ドルのあいまいな位相の不連続性やリンクビット誤り率の高感度に対処するために特別に設計されている。 チャネル予測はその後、受信した信号の最適な組み合わせを達成するために最大比結合アルゴリズムで使用される。 固定された基礎的なRF設定でトレーニングしながら、DeFORM DLモデルが普遍的であることを示し、2つのアンテナ受信機に対して最大3dBのSNRゲインを達成し、変調、帯域幅、チャネルの様々な設定を実証する広範囲な実験を行った。 DEFORMの普遍性は、LoRa(Chirp Spread Spectrum modulation)とZigBee信号のジョイントビームフォーミングにより示され、従来のAmplifyおよびForward(LoRa PLRを23倍、ZigBee PDRを8倍)に比べてパケット損失/配送率を大幅に改善した。

We introduce, design, and evaluate a set of universal receiver beamforming techniques. Our approach and system DEFORM, a Deep Learning (DL) based RX beamforming achieves significant gain for multi antenna RF receivers while being agnostic to the transmitted signal features (e.g., modulation or bandwidth). It is well known that combining coherent RF signals from multiple antennas results in a beamforming gain proportional to the number of receiving elements. However in practice, this approach heavily relies on explicit channel estimation techniques, which are link specific and require significant communication overhead to be transmitted to the receiver. DEFORM addresses this challenge by leveraging Convolutional Neural Network to estimate the channel characteristics in particular the relative phase to antenna elements. It is specifically designed to address the unique features of wireless signals complex samples, such as the ambiguous $2\pi$ phase discontinuity and the high sensitivity of the link Bit Error Rate. The channel prediction is subsequently used in the Maximum Ratio Combining algorithm to achieve an optimal combination of the received signals. While being trained on a fixed, basic RF settings, we show that DEFORM DL model is universal, achieving up to 3 dB of SNR gain for a two antenna receiver in extensive experiments demonstrating various settings of modulations, bandwidths, and channels. The universality of DEFORM is demonstrated through joint beamforming relaying of LoRa (Chirp Spread Spectrum modulation) and ZigBee signals, achieving significant improvements to Packet Loss/Delivery Rates relatively to conventional Amplify and Forward (LoRa PLR reduced by 23 times and ZigBee PDR increased by 8 times).
翻訳日:2022-03-21 15:53:20 公開日:2022-03-18
# 物理インフォームド深層学習による構成モデルの解析と発見

Constitutive model characterization and discovery using physics-informed deep learning ( http://arxiv.org/abs/2203.09789v1 )

ライセンス: Link先を確認
Ehsan Haghighat, Sahar Abouali, Reza Vaziri(参考訳) 古典的には、材料の機械的応答は構成モデルによって記述され、しばしば制約付き常微分方程式の形で記述される。 これらのモデルは非常に限られたパラメータを持つが、実験で観察される複雑な応答を再現するのに非常に効率的である。 さらに、離散化された形式では、それらは計算的に非常に効率的であり、しばしば単純な代数的関係をもたらすため、大規模な明示的および暗黙的有限要素モデルで広く使われている。 しかし、特に複合材料のような複雑な構造を持つ材料に対して、新しい構成モデルを定式化するのは難しい。 構成モデルにおける最近のトレンドは、複雑なニューラルネットワークアーキテクチャを利用して、構成モデルがまだ存在しない複雑な材料応答を構築する。 非常に正確だが、2つの欠陥に苦しむ。 まず、それらは補間モデルであり、しばしば補間が不十分である。 第二に、複雑なアーキテクチャと多くのパラメータのため、大規模な有限要素モデルの中で構成モデルとして使用するには非効率である。 本研究では,構成モデルの特徴付けと発見のための物理形学習機に基づく新しい手法を提案する。 データ駆動構成モデルとは異なり、総損失関数の正規化項として弾塑性理論の基礎を活用し、理論的にも健全なパラメトリック構成モデルを見つける。 提案フレームワークは,von misesファミリから異なるデータセットを記述する基盤となる構成モデルを効率的に識別できることを実証する。

Classically, the mechanical response of materials is described through constitutive models, often in the form of constrained ordinary differential equations. These models have a very limited number of parameters, yet, they are extremely efficient in reproducing complex responses observed in experiments. Additionally, in their discretized form, they are computationally very efficient, often resulting in a simple algebraic relation, and therefore they have been extensively used within large-scale explicit and implicit finite element models. However, it is very challenging to formulate new constitutive models, particularly for materials with complex microstructures such as composites. A recent trend in constitutive modeling leverages complex neural network architectures to construct complex material responses where a constitutive model does not yet exist. Whilst very accurate, they suffer from two deficiencies. First, they are interpolation models and often do poorly in extrapolation. Second, due to their complex architecture and numerous parameters, they are inefficient to be used as a constitutive model within a large-scale finite element model. In this study, we propose a novel approach based on the physics-informed learning machines for the characterization and discovery of constitutive models. Unlike data-driven constitutive models, we leverage foundations of elastoplasticity theory as regularization terms in the total loss function to find parametric constitutive models that are also theoretically sound. We demonstrate that our proposed framework can efficiently identify the underlying constitutive model describing different datasets from the von Mises family.
翻訳日:2022-03-21 15:52:47 公開日:2022-03-18
# AdIoTack:IoTネットワーク上の敵ボリューム攻撃に対する決定木アンサンブル推論モデルの定量化と精錬

AdIoTack: Quantifying and Refining Resilience of Decision Tree Ensemble Inference Models against Adversarial Volumetric Attacks on IoT Networks ( http://arxiv.org/abs/2203.09792v1 )

ライセンス: Link先を確認
Arman Pashamokhtari and Gustavo Batista and Hassan Habibi Gharakheili(参考訳) 機械学習ベースの技術は、サイバーインテリジェンスに成功している。 しかし、ネットワークデバイス上の脅威を検出する能力を損なうなど、洗練されたデータ駆動の敵の攻撃の標的になりつつある。 本稿では,敵攻撃に対する意思決定ツリーの脆弱性を強調するシステムであるAdIoTackを紹介し,IoTネットワーク監視のためにトレーニングされたモデルのレジリエンスを定量化し,洗練するのに役立つ。 最悪のシナリオのモデルを評価するために、adiotackはホワイトボックスの逆学習を実行して、決定木アンサンブルモデルがフラグを付けることができないボリューム攻撃を成功させる。 私たちの最初の貢献は、トレーニングされた決定木アンサンブルモデルと、被害者クラスを入力として意図したネットワークベースの攻撃のプロファイルを取るホワイトボックスアルゴリズムを開発することです。 そして、インデントされた攻撃パケット(15%未満のオーバーヘッド)の上に特定のパケットを指定するレシピを自動的に生成し、共に気づかない推論モデルをバイパスする。 生成された攻撃インスタンスがIPネットワーク上で起動可能であり、そのボリュームへの影響に有効であることを保証する。 第2のコントリビューションは、接続されたデバイスのネットワーク挙動を積極的に監視し、被害者のIoTデバイスに代わって敵のトラフィックを注入し、意図した攻撃を成功させる方法である。 第3のコントリビューションプロトタイプはAdIoTackで,トレーニングされた推論モデルによって監視される,少数の実際のIoTデバイスで構成されるテストベッド上での有効性を検証するものです。 モデルがIoTデバイスに対する非敵ボリューム攻撃を検知し、多くの敵攻撃を欠いていることを実証する。 第4の貢献は、訓練された決定木アンサンブルモデルにパッチを適用するための体系的な方法を開発し、敵のボリューム攻撃に対する弾力性を改善する。

Machine Learning-based techniques have shown success in cyber intelligence. However, they are increasingly becoming targets of sophisticated data-driven adversarial attacks resulting in misprediction, eroding their ability to detect threats on network devices. In this paper, we present AdIoTack, a system that highlights vulnerabilities of decision trees against adversarial attacks, helping cybersecurity teams quantify and refine the resilience of their trained models for monitoring IoT networks. To assess the model for the worst-case scenario, AdIoTack performs white-box adversarial learning to launch successful volumetric attacks that decision tree ensemble models cannot flag. Our first contribution is to develop a white-box algorithm that takes a trained decision tree ensemble model and the profile of an intended network-based attack on a victim class as inputs. It then automatically generates recipes that specify certain packets on top of the indented attack packets (less than 15% overhead) that together can bypass the inference model unnoticed. We ensure that the generated attack instances are feasible for launching on IP networks and effective in their volumetric impact. Our second contribution develops a method to monitor the network behavior of connected devices actively, inject adversarial traffic (when feasible) on behalf of a victim IoT device, and successfully launch the intended attack. Our third contribution prototypes AdIoTack and validates its efficacy on a testbed consisting of a handful of real IoT devices monitored by a trained inference model. We demonstrate how the model detects all non-adversarial volumetric attacks on IoT devices while missing many adversarial ones. The fourth contribution develops systematic methods for applying patches to trained decision tree ensemble models, improving their resilience against adversarial volumetric attacks.
翻訳日:2022-03-21 15:52:26 公開日:2022-03-18
# 双対グラフ埋め込みによるベイズ低ランク行列完備化:事前解析とチューニングフリー推論

Bayesian Low-rank Matrix Completion with Dual-graph Embedding: Prior Analysis and Tuning-free Inference ( http://arxiv.org/abs/2203.10044v1 )

ライセンス: Link先を確認
Yangge Chen, Lei Cheng, Yik-Chung Wu(参考訳) 近年,2重グラフ正規化レンズによる低ランク行列補完に基づく教師なし学習への関心が復活し,レコメンデーションシステム,ジェノタイプインプテーション,イメージインパインティングといった多分野機械学習タスクの性能が大幅に向上した。 デュアルグラフの正規化は成功の大きな部分を占めているが、計算コストのかかるハイパーパラメータチューニングは通常、関与する。 このような欠点を回避し、完成性能を向上させるために、双対グラフ正則化に関連するハイパーパラメータを自動的に学習する新しいベイズ学習アルゴリズムを提案すると同時に、行列完備の低ランク性を保証する。 特に、行列の低ランク化を促進し、二重グラフ情報を同時に符号化する新しい先行設計が考案され、これはシングルグラフよりも難しい。 提案した事前条件と可能性関数の非自明な共役性を探索し、効率的なアルゴリズムを変分推論の枠組みの下で導出する。 合成および実世界のデータセットを用いた大規模な実験は、様々なデータ解析タスクのための学習アルゴリズムの最先端性能を示す。

Recently, there is a revival of interest in low-rank matrix completion-based unsupervised learning through the lens of dual-graph regularization, which has significantly improved the performance of multidisciplinary machine learning tasks such as recommendation systems, genotype imputation and image inpainting. While the dual-graph regularization contributes a major part of the success, computational costly hyper-parameter tunning is usually involved. To circumvent such a drawback and improve the completion performance, we propose a novel Bayesian learning algorithm that automatically learns the hyper-parameters associated with dual-graph regularization, and at the same time, guarantees the low-rankness of matrix completion. Notably, a novel prior is devised to promote the low-rankness of the matrix and encode the dual-graph information simultaneously, which is more challenging than the single-graph counterpart. A nontrivial conditional conjugacy between the proposed priors and likelihood function is then explored such that an efficient algorithm is derived under variational inference framework. Extensive experiments using synthetic and real-world datasets demonstrate the state-of-the-art performance of the proposed learning algorithm for various data analysis tasks.
翻訳日:2022-03-21 15:51:58 公開日:2022-03-18
# (参考訳) CaMEL:ラベルのないケースマーカー抽出 [全文訳有]

CaMEL: Case Marker Extraction without Labels ( http://arxiv.org/abs/2203.10010v1 )

ライセンス: CC BY 4.0
Leonie Weissweiler, Valentin Hofmann, Masoud Jalili Sabet, Hinrich Sch\"utze(参考訳) 本稿では,低リソース言語に特に関係のある計算形態学の新しい課題であるCaMEL(Case Marker extract without Labels)を紹介する。 名詞句チャンパーとアライメントシステムのみをベースとして,多言語コーパスを用いて83言語でケースマーカーを抽出するCaMELの最初のモデルを提案する。 CaMELを評価するために、UniMorphから銀標準を自動構築する。 モデルにより抽出されたケースマーカーは,異なる言語のケースシステム間の類似点や相違点を検出し,可視化するために,また,過度にマークされていない言語において,詳細な深いケースに注釈を付けるために利用できる。

We introduce CaMEL (Case Marker Extraction without Labels), a novel and challenging task in computational morphology that is especially relevant for low-resource languages. We propose a first model for CaMEL that uses a massively multilingual corpus to extract case markers in 83 languages based only on a noun phrase chunker and an alignment system. To evaluate CaMEL, we automatically construct a silver standard from UniMorph. The case markers extracted by our model can be used to detect and visualise similarities and differences between the case systems of different languages as well as to annotate fine-grained deep cases in languages in which they are not overtly marked.
翻訳日:2022-03-21 15:49:27 公開日:2022-03-18
# (参考訳) 深層学習における一般化ミステリーについて

On the Generalization Mystery in Deep Learning ( http://arxiv.org/abs/2203.10036v1 )

ライセンス: CC BY 4.0
Satrajit Chatterjee and Piotr Zielinski(参考訳) 勾配降下(GD)で訓練された過パラメータニューラルネットワークは、同等の大きさのランダムデータセットに適合できるにもかかわらず、実際のデータセットでうまく一般化するのでしょうか? さらに、トレーニングデータに適合するすべてのソリューションの中で、GDはどのようにして一般化する(そのような一般化されたソリューションが存在する場合)のか? 両方の質問に対する答えは、トレーニング中の異なる例の勾配の相互作用にあると論じている。 直観的には、例ごとの勾配がうまく整列しているなら、つまりコヒーレントであれば、GD は(論理的に)安定であり、従って一般化される。 この議論を、コヒーレンスのための計算と解釈が容易なメトリックで形式化し、いくつかの共通のビジョンネットワークにおいて、実およびランダムデータセット上で非常に異なる値を取ることを示す。 この理論はまた、なぜ他のものよりも早く確実に学習されるのか、なぜ早期に止まるのか、なぜノイズのあるラベルから学ぶことができるのかなど、ディープラーニングの他の多くの現象についても説明している。 さらに、この理論は、GDが存在すればよく一般化された解を見つける方法の因果的説明を提供するので、記憶を弱め、一般化を改善するGDへの単純な修正のクラスを動機付けている。 深層学習における一般化は極めて広い現象であり、そのため等しく一般的な説明が必要である。 この問題に対する代替攻撃線の調査を締めくくるとともに,提案手法が最も有効なアプローチであると主張する。

The generalization mystery in deep learning is the following: Why do over-parameterized neural networks trained with gradient descent (GD) generalize well on real datasets even though they are capable of fitting random datasets of comparable size? Furthermore, from among all solutions that fit the training data, how does GD find one that generalizes well (when such a well-generalizing solution exists)? We argue that the answer to both questions lies in the interaction of the gradients of different examples during training. Intuitively, if the per-example gradients are well-aligned, that is, if they are coherent, then one may expect GD to be (algorithmically) stable, and hence generalize well. We formalize this argument with an easy to compute and interpretable metric for coherence, and show that the metric takes on very different values on real and random datasets for several common vision networks. The theory also explains a number of other phenomena in deep learning, such as why some examples are reliably learned earlier than others, why early stopping works, and why it is possible to learn from noisy labels. Moreover, since the theory provides a causal explanation of how GD finds a well-generalizing solution when one exists, it motivates a class of simple modifications to GD that attenuate memorization and improve generalization. Generalization in deep learning is an extremely broad phenomenon, and therefore, it requires an equally general explanation. We conclude with a survey of alternative lines of attack on this problem, and argue that the proposed approach is the most viable one on this basis.
翻訳日:2022-03-21 15:33:33 公開日:2022-03-18
# インタラクティブなプロトタイプ選択による推論調整は

But that's not why: Inference adjustment by interactive prototype deselection ( http://arxiv.org/abs/2203.10087v1 )

ライセンス: Link先を確認
Michael Gerstenberger, Sebastian Lapuschkin, Peter Eisert, Sebastian Bosse(参考訳) 機械学習の大幅な進歩にもかかわらず、人工エージェントの意思決定はまだ完璧ではなく、しばしばポストホックな人間の介入を必要とする。 モデルの予測が不合理な要因に依存している場合、その効果を取り除くことが望ましい。 深いインタラクティブなプロトタイプ調整により、ユーザーはヒントを与え、モデルの推論を修正できる。 本稿では,その予測がユーザによって意味的に解釈できる原型的イメージパッチに基づいているため,原型的部分モデルがこのタスクに適していることを示す。 正しい分類でさえ、データセットに変数が混ざった結果生じる不合理なプロトタイプに依存する可能性がある。 そこで,本研究では,推論調整のための簡易かつ効果的なインタラクション手法を提案する。 非対象のプロトタイプは、プロトタイプマスキングやカスタムデセレクショントレーニングによって取り除くことができる。 インタラクティブなプロトタイプの拒絶により、機械学習のna\"{i}veユーザは、精度を損なうことなく推論のロジックを調整できる。

Despite significant advances in machine learning, decision-making of artificial agents is still not perfect and often requires post-hoc human interventions. If the prediction of a model relies on unreasonable factors it is desirable to remove their effect. Deep interactive prototype adjustment enables the user to give hints and correct the model's reasoning. In this paper, we demonstrate that prototypical-part models are well suited for this task as their prediction is based on prototypical image patches that can be interpreted semantically by the user. It shows that even correct classifications can rely on unreasonable prototypes that result from confounding variables in a dataset. Hence, we propose simple yet effective interaction schemes for inference adjustment: The user is consulted interactively to identify faulty prototypes. Non-object prototypes can be removed by prototype masking or a custom mode of deselection training. Interactive prototype rejection allows machine learning na\"{i}ve users to adjust the logic of reasoning without compromising the accuracy.
翻訳日:2022-03-21 15:30:19 公開日:2022-03-18
# m2ts: ソースコード要約のためのトランスフォーマーに基づくマルチスケールマルチモーダルアプローチ

M2TS: Multi-Scale Multi-Modal Approach Based on Transformer for Source Code Summarization ( http://arxiv.org/abs/2203.09707v1 )

ライセンス: Link先を確認
Yuexiu Gao, Chen Lyu(参考訳) ソースコードの要約は、コードスニペットの自然言語記述の生成を目的としている。 既存の多くの研究は、トークンシーケンスと抽象構文木(AST)からコードスニペットの構文的および意味的知識を学ぶ。 彼らは学習したコード表現をコード要約モデルの入力として使用し、ソースコードを記述する要約を生成する。 伝統的なモデルはASTをシーケンスとして、あるいはASTを入力としてパスに分割する。 しかし、前者はASTの構造的特性を失い、後者はASTの構造全体を破壊する。 したがって、ソースコード要約のためのコード表現を学ぶ際のASTの構造的特徴を包括的に把握することは、解決すべき課題である。 本稿では,ソースコード要約のためのTransformerに基づくマルチスケールマルチモーダルアプローチであるM2TSを提案する。 M2TSはマルチスケールのAST特徴抽出手法を用いて,複数の局所およびグローバルレベルでASTの構造をより正確に正確に抽出することができる。 ASTにおける意味情報の欠如を補うために,ソースコードの構文的・文脈的意味情報を融合するだけでなく,各モダリティの重要な特徴を強調するクロスモーダル融合法を用いて,コードトークンの特徴を抽出したAST特徴と組み合わせる。 2つのJavaデータセットと1つのPythonデータセットで実験を行い、M2TSが現在の最先端手法より優れていることを示す実験結果を得た。 コードをhttps://github.com/T ranSMS/M2TSでリリースします。

Source code summarization aims to generate natural language descriptions of code snippets. Many existing studies learn the syntactic and semantic knowledge of code snippets from their token sequences and Abstract Syntax Trees (ASTs). They use the learned code representations as input to code summarization models, which can accordingly generate summaries describing source code. Traditional models traverse ASTs as sequences or split ASTs into paths as input. However, the former loses the structural properties of ASTs, and the latter destroys the overall structure of ASTs. Therefore, comprehensively capturing the structural features of ASTs in learning code representations for source code summarization remains a challenging problem to be solved. In this paper, we propose M2TS, a Multi-scale Multi-modal approach based on Transformer for source code Summarization. M2TS uses a multi-scale AST feature extraction method, which can extract the structures of ASTs more completely and accurately at multiple local and global levels. To complement missing semantic information in ASTs, we also obtain code token features, and further combine them with the extracted AST features using a cross modality fusion method that not only fuses the syntactic and contextual semantic information of source code, but also highlights the key features of each modality. We conduct experiments on two Java and one Python datasets, and the experimental results demonstrate that M2TS outperforms current state-of-the-art methods. We release our code at https://github.com/T ranSMS/M2TS.
翻訳日:2022-03-21 15:29:27 公開日:2022-03-18
# AdaVocoder: カスタム音声のためのアダプティブヴォコーダ

AdaVocoder: Adaptive Vocoder for Custom Voice ( http://arxiv.org/abs/2203.09825v1 )

ライセンス: Link先を確認
Xin Yuan, Yongbing Feng, Mingming Ye, Cheng Tuo, Minghang Zhang(参考訳) カスタム音声は、ターゲットの少数の記録を通して、ターゲットモデルにソース音声合成モデルを適応させることにより、個人音声合成システムを構築することである。 カスタム音声を構築するための解決策は、適応音響モデルとロバストなボコーダを組み合わせることである。 しかし、堅牢なヴォコーダのトレーニングは通常、年齢グループやさまざまな音色を含むマルチ話者データセットを必要とするため、トレーニング済みのヴォコーダを見えない話者に使用することができる。 このようなマルチスピーカーデータセットの収集は困難であり、データセットの分布は常にターゲットの話者データセットの分布とミスマッチする。 本稿では,新たな視点からカスタム音声のための適応型ボコーダを提案する。 適応ボコーダは、主にクロスドメイン一貫性損失を使用して、少数シーンの転送学習においてganベースのニューラルボコーダが直面する過剰フィッティング問題を解決する。 我々はAdaMelGANとAdaHiFi-GANという2つの適応型ボコーダを構築した。 まず、AISHELL3データセットとCSMSCデータセットに基づいて、ソースヴォコーダモデルを事前訓練する。 次に、適応データが少ない内部データセットvxi-childrenに微調整する。 その結果,適応音響モデルと適応ボコーダを組み合わせることで,高品質なカスタム音声システムを構築することができることがわかった。

Custom voice is to construct a personal speech synthesis system by adapting the source speech synthesis model to the target model through the target few recordings. The solution to constructing a custom voice is to combine an adaptive acoustic model with a robust vocoder. However, training a robust vocoder usually requires a multi-speaker dataset, which should include various age groups and various timbres, so that the trained vocoder can be used for unseen speakers. Collecting such a multi-speaker dataset is difficult, and the dataset distribution always has a mismatch with the distribution of the target speaker dataset. This paper proposes an adaptive vocoder for custom voice from another novel perspective to solve the above problems. The adaptive vocoder mainly uses a cross-domain consistency loss to solve the overfitting problem encountered by the GAN-based neural vocoder in the transfer learning of few-shot scenes. We construct two adaptive vocoders, AdaMelGAN and AdaHiFi-GAN. First, We pre-train the source vocoder model on AISHELL3 and CSMSC datasets, respectively. Then, fine-tune it on the internal dataset VXI-children with few adaptation data. The empirical results show that a high-quality custom voice system can be built by combining a adaptive acoustic model with a adaptive vocoder.
翻訳日:2022-03-21 15:26:44 公開日:2022-03-18
# ビデオ認識のためのグループコンテキスト化

Group Contextualization for Video Recognition ( http://arxiv.org/abs/2203.09694v1 )

ライセンス: Link先を確認
Yanbin Hao, Hao Zhang, Chong-Wah Ngo and Xiangnan He(参考訳) 複雑な時空間からの識別表現の学習はビデオ認識に不可欠である。 これらのスタイリングされた時空間計算ユニットに加えて、学習した特徴を軸的コンテキストでさらに洗練することが、この目標を達成する上で有望であることを示す。 しかし、従来の研究は、機能チャネル全体をキャリブレーションするために単一のコンテキストを利用することに重点を置いており、多様なビデオアクティビティにはほとんど適用できなかった。 この問題は、重計算を犠牲にして、クロス軸コンテキストによる特徴応答を再計算するために、ペアワイズな時空間的注意を用いることで解決できる。 本稿では,特徴チャネルを複数のグループに分割し,異なる軸方向のコンテキストで並列に処理する効率的な特徴改善手法を提案する。 この軽量な特徴キャリブレーションをグループ文脈化(GC)と呼ぶ。 具体的には,ecal-g/s/t/lという,軸方向の文脈が他の軸から集積された情報ダイナミクスである効率的な要素方向校正器群を設計,特徴チャネル群をコンテクスト化する。 GCモジュールは、市販のビデオネットワークの各残層に密に接続することができる。 計算オーバーヘッドが少ないため、異なるネットワーク上のGCをプラグインする場合、一貫した改善が観測される。 キャリブレータを用いて4種類のコンテキストを並列に埋め込むことで、学習者表現は多様な種類のアクティビティに対してより弾力性が期待できる。 時間変化の豊富なビデオでは、2D-CNN(TSNやTSM)の性能を最先端のビデオネットワークに匹敵するレベルまで向上させることができる。 コードはhttps://github.com/h aoyanbin918/Group-Co ntextualizationで入手できる。

Learning discriminative representation from the complex spatio-temporal dynamic space is essential for video recognition. On top of those stylized spatio-temporal computational units, further refining the learnt feature with axial contexts is demonstrated to be promising in achieving this goal. However, previous works generally focus on utilizing a single kind of contexts to calibrate entire feature channels and could hardly apply to deal with diverse video activities. The problem can be tackled by using pair-wise spatio-temporal attentions to recompute feature response with cross-axis contexts at the expense of heavy computations. In this paper, we propose an efficient feature refinement method that decomposes the feature channels into several groups and separately refines them with different axial contexts in parallel. We refer this lightweight feature calibration as group contextualization (GC). Specifically, we design a family of efficient element-wise calibrators, i.e., ECal-G/S/T/L, where their axial contexts are information dynamics aggregated from other axes either globally or locally, to contextualize feature channel groups. The GC module can be densely plugged into each residual layer of the off-the-shelf video networks. With little computational overhead, consistent improvement is observed when plugging in GC on different networks. By utilizing calibrators to embed feature with four different kinds of contexts in parallel, the learnt representation is expected to be more resilient to diverse types of activities. On videos with rich temporal variations, empirically GC can boost the performance of 2D-CNN (e.g., TSN and TSM) to a level comparable to the state-of-the-art video networks. Code is available at https://github.com/h aoyanbin918/Group-Co ntextualization.
翻訳日:2022-03-21 15:26:24 公開日:2022-03-18
# 目標条件付きダブルアクション深層学習でバナナを皮むくロボット

Robot peels banana with goal-conditioned dual-action deep imitation learning ( http://arxiv.org/abs/2203.09749v1 )

ライセンス: Link先を確認
Heecheol Kim, Yoshiyuki Ohmura, Yasuo Kuniyoshi(参考訳) バナナの皮剥きなどの変形性のある物体の長距離デキスタラスロボット操作は,物体モデリングの難しさと,安定かつデキスタラスな操作スキルに関する知識の欠如により問題となる。 本稿では、人間の実演データを用いて、巧妙な操作スキルを学習できる目標条件付きデュアルアクション深層模倣学習(DIL)を提案する。 従来のDIL法では,動作の繰り返し計算による模倣学習における誤りの複合化により,現在の感覚入力と反応動作のマッピングが容易であった。 提案手法は,対象オブジェクトの精密操作が必要な場合(局所動作)にリアクティブ動作を予測し,正確な操作が不要な場合には軌道全体を生成する。 この二重作用の定式化は、ターゲットオブジェクトの予期せぬ変化と反応性局所作用に応答しながら、軌道ベースの大域的作用との複合誤差を効果的に防止する。 さらに、この定式化では、ロバストな政策予測のために、各サブタスクの最終ステップとして定義されるゴール状態によってグローバル/ローカル両方のアクションが条件付けられる。 提案手法は実ダブルアームロボットで試験し,バナナの皮剥き作業に成功した。

A long-horizon dexterous robot manipulation task of deformable objects, such as banana peeling, is problematic because of difficulties in object modeling and a lack of knowledge about stable and dexterous manipulation skills. This paper presents a goal-conditioned dual-action deep imitation learning (DIL) which can learn dexterous manipulation skills using human demonstration data. Previous DIL methods map the current sensory input and reactive action, which easily fails because of compounding errors in imitation learning caused by recurrent computation of actions. The proposed method predicts reactive action when the precise manipulation of the target object is required (local action) and generates the entire trajectory when the precise manipulation is not required. This dual-action formulation effectively prevents compounding error with the trajectory-based global action while respond to unexpected changes in the target object with the reactive local action. Furthermore, in this formulation, both global/local actions are conditioned by a goal state which is defined as the last step of each subtask, for robust policy prediction. The proposed method was tested in the real dual-arm robot and successfully accomplished the banana peeling task.
翻訳日:2022-03-21 15:25:56 公開日:2022-03-18
# 合成トレーニングによるGrasp前形状選択:ハンセン補綴物の眼内共有制御

Grasp Pre-shape Selection by Synthetic Training: Eye-in-hand Shared Control on the Hannes Prosthesis ( http://arxiv.org/abs/2203.09812v1 )

ライセンス: Link先を確認
Federico Vasile, Elisa Maiettini, Giulia Pasquale, Astrid Florio, Nicol\`o Boccardo, Lorenzo Natale(参考訳) 複数のグリップタイプが可能な義手を用いて物体をつかむ作業について検討する。 この設定では、意図した把握タイプをコミュニケーションするには、高いユーザ認知負荷を必要とすることが多く、共有自律フレームワークの採用を減らすことができる。 いわゆるアイ・イン・ハンド・システムは、手首のカメラからの視覚的入力に基づいて、握る前に手の動きを自動で制御する。 そこで本研究では,RGB配列から手先分類を行うための手先学習方式を提案する。 そこで本研究では,手動軌跡の合成視覚系列を描画するパイプラインを考案し,システムトレーニングのための退屈なデータ収集セッションの必要性を低減した。 我々は,人間の腕の軌跡に対するモデルを用いて,関連する視覚要素に対する領域ランダム化を行い,視線設定の特異性に取り組む。 ベンチマークのための実際の人間の把握シーケンスを取得するためのセンサ化されたセットアップを開発し、実際のユースケースと比較して、我々の合成データセットで訓練されたモデルは、実際のデータで訓練されたモデルよりも優れた一般化性能が得られることを示す。 最終的にこのモデルをハンネス義手に統合し,実効性を示す。 私たちのコード、実データ、合成データセットは受け入れ次第リリースされます。

We consider the task of object grasping with a prosthetic hand capable of multiple grasp types. In this setting, communicating the intended grasp type often requires a high user cognitive load which can be reduced adopting shared autonomy frameworks. Among these, so-called eye-in-hand systems automatically control the hand aperture and pre-shaping before the grasp, based on visual input coming from a camera on the wrist. In this work, we present an eye-in-hand learning-based approach for hand pre-shape classification from RGB sequences. In order to reduce the need for tedious data collection sessions for training the system, we devise a pipeline for rendering synthetic visual sequences of hand trajectories for the purpose. We tackle the peculiarity of the eye-in-hand setting by means of a model for the human arm trajectories, with domain randomization over relevant visual elements. We develop a sensorized setup to acquire real human grasping sequences for benchmarking and show that, compared on practical use cases, models trained with our synthetic dataset achieve better generalization performance than models trained on real data. We finally integrate our model on the Hannes prosthetic hand and show its practical effectiveness. Our code, real and synthetic datasets will be released upon acceptance.
翻訳日:2022-03-21 15:25:34 公開日:2022-03-18
# (参考訳) アルジェリア方言アラビア語における攻撃的言語検出 [全文訳有]

Offensive Language Detection in Under-resourced Algerian Dialectal Arabic Language ( http://arxiv.org/abs/2203.10024v1 )

ライセンス: CC BY 4.0
Oussama Boucherit and Kheireddine Abainia(参考訳) 本稿では,facebookコメントにおける攻撃的・虐待的コンテンツの検出に関する問題に対処し,非ソース言語の一つであるアルジェリア方言アラビア語に着目した。 後者は様々な方言と異なる言語(ベルベル語、フランス語、英語)が混在している。 さらに、アラビア文字とローマ文字の両方(すなわちアラビジ文字)で書かれたテキストを扱う。 同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。 我々は,テキスト分類の最先端の分類器,すなわちBiLSTM,CNN,FastText, SVM,NBを用いて,一連の実験を行った。 その結果, 認識精度を高めるためには, 言語学的特徴のさらなる検討が必要であることがわかった。

This paper addresses the problem of detecting the offensive and abusive content in Facebook comments, where we focus on the Algerian dialectal Arabic which is one of under-resourced languages. The latter has a variety of dialects mixed with different languages (i.e. Berber, French and English). In addition, we deal with texts written in both Arabic and Roman scripts (i.e. Arabizi). Due to the scarcity of works on the same language, we have built a new corpus regrouping more than 8.7k texts manually annotated as normal, abusive and offensive. We have conducted a series of experiments using the state-of-the-art classifiers of text categorisation, namely: BiLSTM, CNN, FastText, SVM and NB. The results showed acceptable performances, but the problem requires further investigation on linguistic features to increase the identification accuracy.
翻訳日:2022-03-21 15:24:11 公開日:2022-03-18
# 抽出質問応答のためのユーザフィードバックからの帯域学習のシミュレーション

Simulating Bandit Learning from User Feedback for Extractive Question Answering ( http://arxiv.org/abs/2203.10079v1 )

ライセンス: Link先を確認
Ge Gao, Eunsol Choi, Yoav Artzi(参考訳) ユーザフィードバックからの学習を,教師付きデータを用いたフィードバックのシミュレーションにより学習する。 この問題をコンテキストバンディット学習としてキャストし,データアノテーションの削減に着目して,複数の学習シナリオの特徴を分析する。 モデル予測された回答に対するユーザからのフィードバックを劇的に改善し、既存のデータセットを使用して、アノテーションを使わずに新しいドメインにシステムをデプロイし、代わりにユーザからのフィードバックによってオンザフライでシステムを改善することができることを示す。

We study learning from user feedback for extractive question answering by simulating feedback using supervised data. We cast the problem as contextual bandit learning, and analyze the characteristics of several learning scenarios with focus on reducing data annotation. We show that systems initially trained on a small number of examples can dramatically improve given feedback from users on model-predicted answers, and that one can use existing datasets to deploy systems in new domains without any annotation, but instead improving the system on-the-fly via user feedback.
翻訳日:2022-03-21 15:15:34 公開日:2022-03-18
# 入射表現による顔の幾何学的詳細復元

Facial Geometric Detail Recovery via Implicit Representation ( http://arxiv.org/abs/2203.09692v1 )

ライセンス: Link先を確認
Xingyu Ren, Alexandros Lattas, Baris Gecer, Jiankang Deng, Chao Ma, Xiaokang Yang, Stefanos Zafeiriou(参考訳) 単一の顔画像から細部まで細部まで詳細な3Dモデルを学ぶことは極めて困難で不適切である。 この問題に対処するために、多くのアプローチは、詳細を追加の変位マップやパーソナライズされたベースとして学習しながら、顔の前のスムーズなジオメトリーに適合する。 しかし、これらの手法は通常、ペアのマルチビューデータや3dスキャンの膨大なデータセットを必要とするが、そのようなデータセットは少なく高価である。 重データ依存を軽減するため,一眼の顔画像のみを用いたテクスチャ誘導幾何細部復元手法を提案する。 具体的には,高品質なテクスチャ補完と暗示表面の強力な表現性を組み合わせる。 最初は、顔の部品を塗りつぶし、完全なテクスチャを生成し、同じ主題の正確なマルチビューデータセットを構築しました。 詳細な形状を推定するために、暗黙の符号付き距離関数を定義し、物理ベースの暗黙のレンダラーを用いて、生成された多視点画像から細かな幾何学的詳細を再構成する。 本手法は, 顔の正確な細部を復元するだけでなく, 正常部, アルベド部, シェーディング部を自己監督的に分解する。 最後に、暗黙の形状の詳細を、3d morphable modelテンプレートに登録します。 広範な実験により、提案手法は、特に大規模データセットでトレーニングされた最先端の手法と比較して、1つの画像から印象的な顔詳細を再構築できることが示されている。

Learning a dense 3D model with fine-scale details from a single facial image is highly challenging and ill-posed. To address this problem, many approaches fit smooth geometries through facial prior while learning details as additional displacement maps or personalized basis. However, these techniques typically require vast datasets of paired multi-view data or 3D scans, whereas such datasets are scarce and expensive. To alleviate heavy data dependency, we present a robust texture-guided geometric detail recovery approach using only a single in-the-wild facial image. More specifically, our method combines high-quality texture completion with the powerful expressiveness of implicit surfaces. Initially, we inpaint occluded facial parts, generate complete textures, and build an accurate multi-view dataset of the same subject. In order to estimate the detailed geometry, we define an implicit signed distance function and employ a physically-based implicit renderer to reconstruct fine geometric details from the generated multi-view images. Our method not only recovers accurate facial details but also decomposes normals, albedos, and shading parts in a self-supervised way. Finally, we register the implicit shape details to a 3D Morphable Model template, which can be used in traditional modeling and rendering pipelines. Extensive experiments demonstrate that the proposed approach can reconstruct impressive facial details from a single image, especially when compared with state-of-the-art methods trained on large datasets.
翻訳日:2022-03-21 15:14:05 公開日:2022-03-18
# VISTA:Dual-VIew Spatial Attentionによる3次元物体検出

VISTA: Boosting 3D Object Detection via Dual Cross-VIew SpaTial Attention ( http://arxiv.org/abs/2203.09704v1 )

ライセンス: Link先を確認
Shengheng Deng, Zhihao Liang, Lin Sun and Kui Jia(参考訳) LiDARポイントクラウドから物体を検出することは、自動運転において非常に重要である。 良好な進展にもかかわらず、LiDAR点雲の間隔と不規則性のため、正確で信頼性の高い3D検出はまだ達成されていない。 既存の戦略の中では、鳥の目視(BEV)と範囲視(RV)の両方からより包括的な情報を活用することで、マルチビュー手法は大きな可能性を秘めている。 これらのマルチビュー手法は、融合特徴によって単一のビューから予測される提案を洗練するか、グローバルな空間的文脈を考慮せずに機能を融合するかのいずれかであり、結果として性能が制限される。 本稿では,VISTA(Dual Cross-VIew SpaTial Attention)を用いて,グローバル空間コンテキストにおけるマルチビュー機能を適応的に融合する手法を提案する。 提案された vista は新たなプラグ・アンド・プレイ融合モジュールであり、標準的なアテンションモジュールで広く採用されている多層パーセプトロンを畳み込みモジュールに置き換える。 学習注意機構のおかげで、vistaは提案の予測のために高品質の融合特徴を生成できる。 VISTAにおける分類と回帰タスクを分離し、注意モジュールがジェネリックポイントではなく特定のターゲットに集中できるように、注意分散のさらなる制約を適用した。 我々は,nuscenes と waymo のベンチマークを徹底的に実験し,設計の有効性を確認した。 提出時点では,全マップで63.0%,nuscenesベンチマークで nds で69.8% を達成し,サイクリングなどの安全基準カテゴリーでは,全公開手法を24%上回った。 PyTorchのソースコードはhttps://github.com/G orilla-Lab-SCUT/VIST Aで入手できる。

Detecting objects from LiDAR point clouds is of tremendous significance in autonomous driving. In spite of good progress, accurate and reliable 3D detection is yet to be achieved due to the sparsity and irregularity of LiDAR point clouds. Among existing strategies, multi-view methods have shown great promise by leveraging the more comprehensive information from both bird's eye view (BEV) and range view (RV). These multi-view methods either refine the proposals predicted from single view via fused features, or fuse the features without considering the global spatial context; their performance is limited consequently. In this paper, we propose to adaptively fuse multi-view features in a global spatial context via Dual Cross-VIew SpaTial Attention (VISTA). The proposed VISTA is a novel plug-and-play fusion module, wherein the multi-layer perceptron widely adopted in standard attention modules is replaced with a convolutional one. Thanks to the learned attention mechanism, VISTA can produce fused features of high quality for prediction of proposals. We decouple the classification and regression tasks in VISTA, and an additional constraint of attention variance is applied that enables the attention module to focus on specific targets instead of generic points. We conduct thorough experiments on the benchmarks of nuScenes and Waymo; results confirm the efficacy of our designs. At the time of submission, our method achieves 63.0% in overall mAP and 69.8% in NDS on the nuScenes benchmark, outperforming all published methods by up to 24% in safety-crucial categories such as cyclist. The source code in PyTorch is available at https://github.com/G orilla-Lab-SCUT/VIST A
翻訳日:2022-03-21 15:13:22 公開日:2022-03-18
# 物体検出のための二重重み付けラベル割り当て方式

A Dual Weighting Label Assignment Scheme for Object Detection ( http://arxiv.org/abs/2203.09730v1 )

ライセンス: Link先を確認
Shuai Li, Chenhang He, Ruihuang Li, Lei Zhang(参考訳) 各トレーニングサンプルに正の(pos)と負の(neg)損失重みを割り当てることを目的としたラベル割り当て(la)は、オブジェクト検出において重要な役割を果たす。 既存のla法はpos重み関数の設計に重点を置いているが、neg重みはpos重み関数から直接導かれる。 このような機構は検出器の学習能力を制限する。 本稿では,2重み付け(DW)と呼ばれる新しい重み付けパラダイムを探索し,ポーとネグの重みを別々に指定する。 まず,pos/neg重みの主な要因を対象物検出における評価指標を分析し,それに基づいてposとneg重み関数を設計する。 具体的には、サンプルのポス重量は、その分類と局所化スコアの整合度によって決定される一方、ネグ重量は、ネグ試料である確率と、ネグ試料であるかどうかの2つの項に分解される。 このような重み付け戦略は、重要なサンプルとあまり重要でないサンプルを区別する柔軟性を高め、より効果的な物体検出器となる。 提案されたDW法により、1つのFCOS-ResNet-50検出器が1倍のスケジュールでCOCO上で41.5%のmAPに達することができ、他のLA法よりも優れている。 ベルや笛を使わずに、様々なバックボーンの下でCOCOのベースラインを大きく改善する。 コードはhttps://github.com/s trongwolf/dwで入手できる。

Label assignment (LA), which aims to assign each training sample a positive (pos) and a negative (neg) loss weight, plays an important role in object detection. Existing LA methods mostly focus on the design of pos weighting function, while the neg weight is directly derived from the pos weight. Such a mechanism limits the learning capacity of detectors. In this paper, we explore a new weighting paradigm, termed dual weighting (DW), to specify pos and neg weights separately. We first identify the key influential factors of pos/neg weights by analyzing the evaluation metrics in object detection, and then design the pos and neg weighting functions based on them. Specifically, the pos weight of a sample is determined by the consistency degree between its classification and localization scores, while the neg weight is decomposed into two terms: the probability that it is a neg sample and its importance conditioned on being a neg sample. Such a weighting strategy offers greater flexibility to distinguish between important and less important samples, resulting in a more effective object detector. Equipped with the proposed DW method, a single FCOS-ResNet-50 detector can reach 41.5% mAP on COCO under 1x schedule, outperforming other existing LA methods. It consistently improves the baselines on COCO by a large margin under various backbones without bells and whistles. Code is available at https://github.com/s trongwolf/DW.
翻訳日:2022-03-21 15:12:52 公開日:2022-03-18
# Dual-cubemap を用いた全方位画像の歪み耐性単眼深度推定

Distortion-Tolerant Monocular Depth Estimation On Omnidirectional Images Using Dual-cubemap ( http://arxiv.org/abs/2203.09733v1 )

ライセンス: Link先を確認
Zhijie Shen, Chunyu Lin, Lang Nie, Kang Liao, and Yao zhao(参考訳) 全方位像の深さを推定することは通常の視野画像(nfov)よりも難しい。 既存の手法は全方位画像の深さを推定しながら不都合な歪みに悩まされ、性能は低下する。 歪みの影響の負の影響を低減するため,双対cubemapを用いた歪み耐性全方位深さ推定アルゴリズムを提案する。 Dual-Cubemap Depth Estimation (DCDE)モジュールとBundary Revision (BR)モジュールの2つのモジュールで構成されている。 DCDEモジュールでは,NFoV深度を正確に推定し,全方向深度における境界不連続コストの歪みを低減するために,回転に基づく2値キューブマップモデルを提案する。 次に、不連続な境界を滑らかにするために境界修正モジュールが設計され、精密で視覚的に連続的な全方位深度に寄与する。 大規模な実験は、我々の手法が他の最先端ソリューションよりも優れていることを示す。

Estimating the depth of omnidirectional images is more challenging than that of normal field-of-view (NFoV) images because the varying distortion can significantly twist an object's shape. The existing methods suffer from troublesome distortion while estimating the depth of omnidirectional images, leading to inferior performance. To reduce the negative impact of the distortion influence, we propose a distortion-tolerant omnidirectional depth estimation algorithm using a dual-cubemap. It comprises two modules: Dual-Cubemap Depth Estimation (DCDE) module and Boundary Revision (BR) module. In DCDE module, we present a rotation-based dual-cubemap model to estimate the accurate NFoV depth, reducing the distortion at the cost of boundary discontinuity on omnidirectional depths. Then a boundary revision module is designed to smooth the discontinuous boundaries, which contributes to the precise and visually continuous omnidirectional depths. Extensive experiments demonstrate the superiority of our method over other state-of-the-art solutions.
翻訳日:2022-03-21 15:12:25 公開日:2022-03-18
# ドメイン適応意味セグメンテーションのためのクラスバランス画素レベル自己ラベル

Class-Balanced Pixel-Level Self-Labeling for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2203.09744v1 )

ライセンス: Link先を確認
Ruihuang Li, Shuai Li, Chenhang He, Yabin Zhang, Xu Jia, Lei Zhang(参考訳) ドメイン適応型セマンティックセグメンテーションは、ソースドメインデータの監視でモデルを学習し、ラベルなしのターゲットドメイン上で十分な密度の予測を生成することを目的としている。 この課題に対する一般的な解決策の1つは、トレーニングのための擬似ラベルとして、ターゲットサンプルのhigh-scoring予測を選択するセルフトレーニングである。 しかし、生成した擬似ラベルは、モデルがソースドメインと多数カテゴリに偏っているため、多くのノイズを含むことが多い。 上記の問題に対処するため,我々は,ソース領域に強く依存するのではなく,対象領域データの固有画素分布を直接調査することを提案する。 具体的には、ピクセルを同時にクラスタ化し、得られたクラスタ割り当てで擬似ラベルを整列する。 このプロセスはオンライン形式で行われ、擬似ラベルは追加のトレーニングラウンドなしでセグメンテーションモデルと協調することができる。 ロングテールカテゴリにおけるクラス不均衡問題を克服するために,クラスタ割り当ての限界クラス分布を擬似ラベルのそれに近いものに強制するために分布アライメント手法を用いる。 提案手法,すなわち,クラスバランスのピクセルレベル自己ラベル (CPSL) は,特に長いカテゴリにおいて,最先端技術に対する対象ドメインのセグメンテーション性能を大幅に向上する。

Domain adaptive semantic segmentation aims to learn a model with the supervision of source domain data, and produce satisfactory dense predictions on unlabeled target domain. One popular solution to this challenging task is self-training, which selects high-scoring predictions on target samples as pseudo labels for training. However, the produced pseudo labels often contain much noise because the model is biased to source domain as well as majority categories. To address the above issues, we propose to directly explore the intrinsic pixel distributions of target domain data, instead of heavily relying on the source domain. Specifically, we simultaneously cluster pixels and rectify pseudo labels with the obtained cluster assignments. This process is done in an online fashion so that pseudo labels could co-evolve with the segmentation model without extra training rounds. To overcome the class imbalance problem on long-tailed categories, we employ a distribution alignment technique to enforce the marginal class distribution of cluster assignments to be close to that of pseudo labels. The proposed method, namely Class-balanced Pixel-level Self-Labeling (CPSL), improves the segmentation performance on target domain over state-of-the-arts by a large margin, especially on long-tailed categories.
翻訳日:2022-03-21 15:11:44 公開日:2022-03-18
# ビデオフレーム補間器を超えて:連続画像遷移への空間分離学習アプローチ

Beyond a Video Frame Interpolator: A Space Decoupled Learning Approach to Continuous Image Transition ( http://arxiv.org/abs/2203.09771v1 )

ライセンス: Link先を確認
Tao Yang, Peiran Ren, Xuansong Xie, Xiansheng Hua, and Lei Zhang(参考訳) ビデオフレーム補間(VFI)は、ビデオシーケンスの時間分解能を改善することを目的としている。 既存のディープラーニングベースのVFI手法の多くは、オフザシェルフ光学フローアルゴリズムを採用し、双方向の流れを推定し、それに従って欠落フレームを補間する。 これらの手法は大きな成功を収めたものの、双方向の流れを調整するために多くの人間経験を必要とし、推定された流れが正確でない場合、しばしば不快な結果を生み出す。 本稿では,VFI問題を再考し,それを連続画像遷移(CIT)タスクとして定式化する。 より具体的には、画像を透過性フロー空間と非変換性特徴空間に暗黙的に分離することを学ぶ。 前者は与えられた画像間の翻訳可能な状態を描き、後者は直接翻訳できない中間的な特徴を再構築することを目指している。 このようにして、フロー空間における画像補間や特徴空間における中間画像合成を容易に行うことができ、CITモデルが得られる。 提案する空間疎結合学習(SDL)アプローチは実装が簡単であり,VFI以外の様々なCIT問題に対して,スタイル転送や画像変形などの効果的なフレームワークを提供する。 各種CITタスクに関する広範な実験は,既存の手法よりもSDLの方が優れていることを示す。 ソースコードとモデルは \url{https://github.com/y angxy/SDL} にある。

Video frame interpolation (VFI) aims to improve the temporal resolution of a video sequence. Most of the existing deep learning based VFI methods adopt off-the-shelf optical flow algorithms to estimate the bidirectional flows and interpolate the missing frames accordingly. Though having achieved a great success, these methods require much human experience to tune the bidirectional flows and often generate unpleasant results when the estimated flows are not accurate. In this work, we rethink the VFI problem and formulate it as a continuous image transition (CIT) task, whose key issue is to transition an image from one space to another space continuously. More specifically, we learn to implicitly decouple the images into a translatable flow space and a non-translatable feature space. The former depicts the translatable states between the given images, while the later aims to reconstruct the intermediate features that cannot be directly translated. In this way, we can easily perform image interpolation in the flow space and intermediate image synthesis in the feature space, obtaining a CIT model. The proposed space decoupled learning (SDL) approach is simple to implement, while it provides an effective framework to a variety of CIT problems beyond VFI, such as style transfer and image morphing. Our extensive experiments on a variety of CIT tasks demonstrate the superiority of SDL to existing methods. The source code and models can be found at \url{https://github.com/y angxy/SDL}.
翻訳日:2022-03-21 15:11:22 公開日:2022-03-18
# 協調補完とセグメンテーションによる外れ値のある部分点雲の完成

Completing Partial Point Clouds with Outliers by Collaborative Completion and Segmentation ( http://arxiv.org/abs/2203.09772v1 )

ライセンス: Link先を確認
Changfeng Ma, Yang Yang, Jie Guo, Chongjun Wang, Yanwen Guo(参考訳) ほとんどの既存の点雲補完法は、ノイズや外れ値のない部分点雲にしか適用できないが、実際には必ずしも成り立たない。 本稿では,ノイズや異常値を含む点群を完結させるために,cs-netと呼ばれるエンドツーエンドネットワークを提案する。 CS-Netでは、コンプリートモジュールとセグメンテーションモジュールが協調して互いに促進し、特別に設計されたカスケード構造から恩恵を受けています。 セグメンテーションの助けを借りて、よりクリーンなポイントクラウドが補完モジュールに供給される。 我々は,FPSとセグメンテーションによって得られたラベルを併用してポイントクラウドを浄化し,KNNグループ化を改良した新しい補完デコーダを設計する。 完了モジュールと分割モジュールは相互に有用な情報を交互に共有し、予測の品質を徐々に改善する。 ネットワークをトレーニングするために、不完全な点雲が外れ値を含む実例をシミュレートするデータセットを構築しました。 総合的な実験と最先端の完成方法との比較は,我々の優越性を示している。 また,セグメンテーションのスキームと,その完了とエンドツーエンドの融合を比較し,有効性も証明した。

Most existing point cloud completion methods are only applicable to partial point clouds without any noises and outliers, which does not always hold in practice. We propose in this paper an end-to-end network, named CS-Net, to complete the point clouds contaminated by noises or containing outliers. In our CS-Net, the completion and segmentation modules work collaboratively to promote each other, benefited from our specifically designed cascaded structure. With the help of segmentation, more clean point cloud is fed into the completion module. We design a novel completion decoder which harnesses the labels obtained by segmentation together with FPS to purify the point cloud and leverages KNN-grouping for better generation. The completion and segmentation modules work alternately share the useful information from each other to gradually improve the quality of prediction. To train our network, we build a dataset to simulate the real case where incomplete point clouds contain outliers. Our comprehensive experiments and comparisons against state-of-the-art completion methods demonstrate our superiority. We also compare with the scheme of segmentation followed by completion and their end-to-end fusion, which also proves our efficacy.
翻訳日:2022-03-21 15:10:59 公開日:2022-03-18
# 言語誘導ビデオセグメンテーションのための局所的グローバルコンテキスト認識トランスフォーマ

Local-Global Context Aware Transformer for Language-Guided Video Segmentation ( http://arxiv.org/abs/2203.09773v1 )

ライセンス: Link先を確認
Chen Liang, Wenguan Wang, Tianfei Zhou, Jiaxu Miao, Yawei Luo and Yi Yang(参考訳) 我々は,言語誘導ビデオセグメンテーション(lvs)の課題を検討する。 従来のアルゴリズムは、ビデオ表現を学ぶために3D CNNを採用しており、長期的コンテキストを捉えるのに苦労し、視覚言語的なミスアライメントに苦しむ。 そこで,本研究では,トランスフォーマーアーキテクチャを有限メモリで拡張し,ビデオ全体を効率的な言語表現でクエリする位置決め器(local-global context aware transformer)を提案する。 メモリは、グローバルなビデオコンテンツを永続的に保存するコンポーネントと、ローカルな時間的コンテキストとセグメンテーション履歴を動的に収集するコンポーネントの2つを含むように設計されている。 記憶された局所的グローバルコンテキストと各フレームの特定の内容に基づいて、ロケータは、各フレームに対する適応的クエリベクトルとして表現を階層的に柔軟に理解する。 ベクトルは、対応するフレームにマスク生成をクエリするために使用される。 メモリはリニアタイムの複雑さと一定サイズのメモリでビデオを処理することができ、Transformerスタイルの自己アテンション計算はシーケンス長と2倍にスケールする。 LVSモデルの視覚的グラウンドディング能力を徹底的に検証するために、A2D-Sデータセット上に構築されている新しいLVSデータセットであるA2D-S+をコントリビュートする。 3つのLVSデータセットとA2D-S+の実験は、Locaterが過去の最先端よりも優れていることを示している。 さらに,我々は,第3回大規模ビデオオブジェクトセグメンテーションチャレンジの参照ビデオオブジェクトセグメンテーショントラックにおいて,第1位を獲得した。 私たちのコードとデータセットは以下の通りです。

We explore the task of language-guided video segmentation (LVS). Previous algorithms mostly adopt 3D CNNs to learn video representation, struggling to capture long-term context and easily suffering from visual-linguistic misalignment. In light of this, we present Locater (local-global context aware Transformer), which augments the Transformer architecture with a finite memory so as to query the entire video with the language expression in an efficient manner. The memory is designed to involve two components -- one for persistently preserving global video content, and one for dynamically gathering local temporal context and segmentation history. Based on the memorized local-global context and the particular content of each frame, Locater holistically and flexibly comprehends the expression as an adaptive query vector for each frame. The vector is used to query the corresponding frame for mask generation. The memory also allows Locater to process videos with linear time complexity and constant size memory, while Transformer-style self-attention computation scales quadratically with sequence length. To thoroughly examine the visual grounding capability of LVS models, we contribute a new LVS dataset, A2D-S+, which is built upon A2D-S dataset but poses increased challenges in disambiguating among similar objects. Experiments on three LVS datasets and our A2D-S+ show that Locater outperforms previous state-of-the-arts. Further, our Locater based solution achieved the 1st place in the Referring Video Object Segmentation Track of the 3rd Large-scale Video Object Segmentation Challenge. Our code and dataset are available at: https://github.com/l eonnnop/Locater
翻訳日:2022-03-21 15:10:37 公開日:2022-03-18
# ContrastMask: あらゆるものをセグメンテーションするためのコントラスト学習

ContrastMask: Contrastive Learning to Segment Every Thing ( http://arxiv.org/abs/2203.09775v1 )

ライセンス: Link先を確認
Xuehui Wang, Kai Zhao, Ruixin Zhang, Shouhong Ding, Yan Wang, Wei Shen(参考訳) 部分教師付きインスタンスセグメンテーション(partial-supervised instance segmentation)は、注釈付きマスクによる限定されたカテゴリの学習を通じて、新しい未知のカテゴリからオブジェクトのセグメンテーションを要求するタスクである。 この課題に対処する鍵は、効果的なクラス非依存マスクセグメンテーションモデルを構築することである。 本稿では,このようなモデルを既往のカテゴリでのみ学習する手法と異なり,画素レベルのコントラスト学習の枠組みを用いて,見たカテゴリと見えないカテゴリの両方でマスクセグメンテーションモデルを学ぶ,con contrastmaskという新しい手法を提案する。 この枠組みでは、目に見えるカテゴリの注釈付きマスクと、目に見えないカテゴリの擬似マスクがコントラスト学習の先行として機能し、マスク領域(地上)の特徴をまとめて背景のマスクと対比する。 この枠組みにより、前景と背景の特徴識別が大幅に改善され、クラス非依存マスクセグメンテーションモデルの学習が容易になった。 COCOデータセットの発掘実験により,従来の最先端技術よりも優れた手法が示された。

Partially-supervised instance segmentation is a task which requests segmenting objects from novel unseen categories via learning on limited seen categories with annotated masks thus eliminating demands of heavy annotation burden. The key to addressing this task is to build an effective class-agnostic mask segmentation model. Unlike previous methods that learn such models only on seen categories, in this paper, we propose a new method, named ContrastMask, which learns a mask segmentation model on both seen and unseen categories under a unified pixel-level contrastive learning framework. In this framework, annotated masks of seen categories and pseudo masks of unseen categories serve as a prior for contrastive learning, where features from the mask regions (foreground) are pulled together, and are contrasted against those from the background, and vice versa. Through this framework, feature discrimination between foreground and background is largely improved, facilitating learning of the class-agnostic mask segmentation model. Exhaustive experiments on the COCO dataset demonstrate the superiority of our method, which outperforms previous state-of-the-arts.
翻訳日:2022-03-21 15:10:09 公開日:2022-03-18
# Sparse Fuse Dense:Depth Completionによる高品質3D検出に向けて

Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion ( http://arxiv.org/abs/2203.09780v1 )

ライセンス: Link先を確認
Xiaopei Wu, Liang Peng, Honghui Yang, Liang Xie, Chenxi Huang, Chengqi Deng, Haifeng Liu, Deng Cai(参考訳) 現在のLiDARのみの3D検出方法は、必然的に点雲の間隔に悩まされる。 多くのマルチモーダル手法がこの問題を軽減するために提案されているが、画像と点雲の異なる表現はそれらを融合させることを難しくし、結果として準最適性能をもたらす。 本稿では,上記の問題に対処するために,深度補完から生成された疑似点雲を利用するマルチモーダルフレームワークsfd(sparse fuse dense)を提案する。 先行研究と異なり,異なる種類の点雲からの情報を十分に活用するために,新しいroi融合戦略である3d-gaf(3dグリッド・アズ・アズ・インテンティブ・フュージョン)を提案する。 具体的には、3D-GAFは、2つの点の雲の3D RoI機能をグリッドワイドに融合させる。 さらに,LiDARのみの手法に合わせたデータ拡張アプローチを,マルチモーダルフレームワークで活用するためのシンクロナイズド拡張(Synchronized Augmentation)を提案する。 最後に、擬似点雲に対して有効で効率的な特徴抽出器CPConv(Color Point Convolution)をカスタマイズする。 擬似点雲の2次元画像特徴と3次元幾何学的特徴を同時に探索することができる。 本手法は, SFD の有効性を実証し, 3D オブジェクト検出リーダボードのKITTI カーにおける最上位項目を保持する。 コードは公開される予定だ。

Current LiDAR-only 3D detection methods inevitably suffer from the sparsity of point clouds. Many multi-modal methods are proposed to alleviate this issue, while different representations of images and point clouds make it difficult to fuse them, resulting in suboptimal performance. In this paper, we present a novel multi-modal framework SFD (Sparse Fuse Dense), which utilizes pseudo point clouds generated from depth completion to tackle the issues mentioned above. Different from prior works, we propose a new RoI fusion strategy 3D-GAF (3D Grid-wise Attentive Fusion) to make fuller use of information from different types of point clouds. Specifically, 3D-GAF fuses 3D RoI features from the couple of point clouds in a grid-wise attentive way, which is more fine-grained and more precise. In addition, we propose a SynAugment (Synchronized Augmentation) to enable our multi-modal framework to utilize all data augmentation approaches tailored to LiDAR-only methods. Lastly, we customize an effective and efficient feature extractor CPConv (Color Point Convolution) for pseudo point clouds. It can explore 2D image features and 3D geometric features of pseudo point clouds simultaneously. Our method holds the highest entry on the KITTI car 3D object detection leaderboard, demonstrating the effectiveness of our SFD. Code will be made publicly available.
翻訳日:2022-03-21 15:09:49 公開日:2022-03-18
# 信頼できる視覚認識のためのロバストな2次元畳み込み法

Towards Robust 2D Convolution for Reliable Visual Recognition ( http://arxiv.org/abs/2203.09790v1 )

ライセンス: Link先を確認
Lida Li, Shuai Li, Kun Wang, Xiangchu Feng, Lei Zhang(参考訳) 入力画像から特徴を抽出する2D畳み込み(Conv2d)は、畳み込みニューラルネットワーク(CNN)の重要なモジュールの1つである。 しかし、Conv2dは画像の破損や敵対的なサンプルに弱い。 より信頼性の高い特徴抽出のために、より堅牢なConv2dを設計できるかどうかという、重要かつまれな調査問題である。 本稿では,CNN特徴をコンパクトかつ疎い潜在空間に変換する学習可能なスパース変換に着想を得て,RConv-MKで表される新しいビルディングブロックを設計し,抽出した畳み込み特徴の堅牢性を高める。 本手法では,異なるサイズの学習可能なカーネルを用いて異なる周波数で特徴を抽出し,適応的にノイズや自明な特徴を除去する正規化ソフトしきい値演算子を用いる。 クリーンな画像, 破損した画像, および敵のサンプルに対する広範囲な実験により, 信頼性の高い視覚認識のための頑健なモジュールの有効性が検証された。 ソースコードは提出書類で囲まれている。

2D convolution (Conv2d), which is responsible for extracting features from the input image, is one of the key modules of a convolutional neural network (CNN). However, Conv2d is vulnerable to image corruptions and adversarial samples. It is an important yet rarely investigated problem that whether we can design a more robust alternative of Conv2d for more reliable feature extraction. In this paper, inspired by the recently developed learnable sparse transform that learns to convert the CNN features into a compact and sparse latent space, we design a novel building block, denoted by RConv-MK, to strengthen the robustness of extracted convolutional features. Our method leverages a set of learnable kernels of different sizes to extract features at different frequencies and employs a normalized soft thresholding operator to adaptively remove noises and trivial features at different corruption levels. Extensive experiments on clean images, corrupted images as well as adversarial samples validate the effectiveness of the proposed robust module for reliable visual recognition. The source codes are enclosed in the submission.
翻訳日:2022-03-21 15:09:25 公開日:2022-03-18
# 視覚トランスフォーマーについてみんな知っておくべき3つのこと

Three things everyone should know about Vision Transformers ( http://arxiv.org/abs/2203.09795v1 )

ライセンス: Link先を確認
Hugo Touvron, Matthieu Cord, Alaaeldin El-Nouby, Jakob Verbeek, Herv\'e J\'egou(参考訳) 自然言語処理での最初の成功の後、トランスフォーマーアーキテクチャはコンピュータビジョンにおいて急速に勢いを増し、画像分類、検出、セグメンテーション、ビデオ解析といったタスクに最先端の結果を提供している。 視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。 1) 視覚変換器の残層は通常順次処理されるが, 精度に顕著な影響を及ぼすことなく, ある程度の並列処理が可能である。 2)注目層の重みを微調整すれば,高解像度の視覚変換器や他の分類タスクに適応できる。 これにより、計算を省き、微調整時のピークメモリ消費量を削減し、タスク間で重みの大半を共有できる。 (3) MLPベースのパッチ前処理レイヤーの追加は、パッチマスキングに基づくバートのような自己教師型トレーニングを改善する。 我々は、imagenet-1kデータセットを用いて、これらの設計選択の影響を評価し、imagenet-v2テストセットで結果を確認した。 転送性能は6つの小さなデータセットで測定される。

After their initial success in natural language processing, transformer architectures have rapidly gained traction in computer vision, providing state-of-the-art results for tasks such as image classification, detection, segmentation, and video analysis. We offer three insights based on simple and easy to implement variants of vision transformers. (1) The residual layers of vision transformers, which are usually processed sequentially, can to some extent be processed efficiently in parallel without noticeably affecting the accuracy. (2) Fine-tuning the weights of the attention layers is sufficient to adapt vision transformers to a higher resolution and to other classification tasks. This saves compute, reduces the peak memory consumption at fine-tuning time, and allows sharing the majority of weights across tasks. (3) Adding MLP-based patch pre-processing layers improves Bert-like self-supervised training based on patch masking. We evaluate the impact of these design choices using the ImageNet-1k dataset, and confirm our findings on the ImageNet-v2 test set. Transfer performance is measured across six smaller datasets.
翻訳日:2022-03-21 15:09:07 公開日:2022-03-18
# 弱教師付き物体定位のための高品質擬似ラベルからの学習一貫性

Learning Consistency from High-quality Pseudo-labels for Weakly Supervised Object Localization ( http://arxiv.org/abs/2203.09803v1 )

ライセンス: Link先を確認
Kangbo Sun, Jie Zhu(参考訳) 擬似教師付き学習法は、弱教師付きオブジェクトローカライゼーションタスクに有効であることが示されている。 しかし、その効果はディープニューラルネットワークの強力な正規化能力に依存する。 ローカライゼーションネットワークが同一画像の異なるバージョンに類似した位置予測を持つべきであるという仮定に基づいて、より一貫したローカライゼーションを学習するための2段階のアプローチを提案する。 まず,マスクを用いた擬似ラベル生成アルゴリズムを提案し,擬似教師付き学習手法を用いてオブジェクトの局所化ネットワークを初期化する。 第2段階では,分類識別に基づく疑似ラベルの信頼性評価を簡便かつ効果的に行う方法を提案し,高品質な擬似ラベルから一貫性を学習することにより,ローカライゼーションネットワークをさらに改良し,ローカライゼーション性能を向上させる。 提案手法は,CUB-200-2011, ImageNet-1k, Tiny-ImageNet の3つのベンチマークデータセットにおいて優れた性能を示す。

Pseudo-supervised learning methods have been shown to be effective for weakly supervised object localization tasks. However, the effectiveness depends on the powerful regularization ability of deep neural networks. Based on the assumption that the localization network should have similar location predictions on different versions of the same image, we propose a two-stage approach to learn more consistent localization. In the first stage, we propose a mask-based pseudo label generator algorithm, and use the pseudo-supervised learning method to initialize an object localization network. In the second stage, we propose a simple and effective method for evaluating the confidence of pseudo-labels based on classification discrimination, and by learning consistency from high-quality pseudo-labels, we further refine the localization network to get better localization performance. Experimental results show that our proposed approach achieves excellent performance in three benchmark datasets including CUB-200-2011, ImageNet-1k and Tiny-ImageNet, which demonstrates its effectiveness.
翻訳日:2022-03-21 15:08:51 公開日:2022-03-18
# laneformer:レーン検出のためのオブジェクト対応行列変換器

Laneformer: Object-aware Row-Column Transformers for Lane Detection ( http://arxiv.org/abs/2203.09830v1 )

ライセンス: Link先を確認
Jianhua Han, Xiajun Deng, Xinyue Cai, Zhen Yang, Hang Xu, Chunjing Xu, Xiaodan Liang(参考訳) 本稿では、車線検出に適した概念的にシンプルだが強力なトランスフォーマーベースのアーキテクチャであるLaneformerについて紹介する。 支配的なパラダイムは純粋にcnnベースのアーキテクチャに依存しており、長距離レーンポイントと周囲の物体(例えば歩行者や車両)によって引き起こされるグローバルコンテキストの関係を組み込むのに失敗することが多い。 様々なビジョンタスクにおけるトランスフォーマエンコーダ・デコーダアーキテクチャの最近の進歩に触発されて、我々は従来のトランスフォーマを革命させ、レーンの形状とセマンティクス特性をより良く捉え、レイテンシのオーバーヘッドを最小限に抑える新しいエンド・ツー・エンドのレーンフォーマアーキテクチャを設計した。 まず、エンコーダ内の変形可能な画素単位のセルフアテンションと結合して、 laneformerは2つの新しい行と列の自己アテンション操作を示し、レーン形状と共にポイントコンテキストを効率的にマイニングする。 第二に、出現するオブジェクトがレーンセグメントを予測する決定に動機づけられ、さらに検出されたオブジェクトインスタンスをエンコーダ内のマルチヘッドアテンションブロックの余分な入力として含むことで、意味的コンテキストを感知してレーンポイント検出を容易にする。 具体的には、オブジェクトのバウンディングボックス位置をキーモジュールに追加して、各ピクセルとクエリとのインタラクションを提供し、ROIに沿った機能をバリューモジュールに挿入する。 我々のLaneformerは77.1%のF1スコアでCULaneベンチマークで最先端のパフォーマンスを達成した。 我々の単純で効果的なレーンフォーマーが、レーン検出のための自己認識モデルにおける将来の研究の強力なベースラインとなることを願っている。

We present Laneformer, a conceptually simple yet powerful transformer-based architecture tailored for lane detection that is a long-standing research topic for visual perception in autonomous driving. The dominant paradigms rely on purely CNN-based architectures which often fail in incorporating relations of long-range lane points and global contexts induced by surrounding objects (e.g., pedestrians, vehicles). Inspired by recent advances of the transformer encoder-decoder architecture in various vision tasks, we move forwards to design a new end-to-end Laneformer architecture that revolutionizes the conventional transformers into better capturing the shape and semantic characteristics of lanes, with minimal overhead in latency. First, coupling with deformable pixel-wise self-attention in the encoder, Laneformer presents two new row and column self-attention operations to efficiently mine point context along with the lane shapes. Second, motivated by the appearing objects would affect the decision of predicting lane segments, Laneformer further includes the detected object instances as extra inputs of multi-head attention blocks in the encoder and decoder to facilitate the lane point detection by sensing semantic contexts. Specifically, the bounding box locations of objects are added into Key module to provide interaction with each pixel and query while the ROI-aligned features are inserted into Value module. Extensive experiments demonstrate our Laneformer achieves state-of-the-art performances on CULane benchmark, in terms of 77.1% F1 score. We hope our simple and effective Laneformer will serve as a strong baseline for future research in self-attention models for lane detection.
翻訳日:2022-03-21 15:08:16 公開日:2022-03-18
# DTA:微分変換ネットワークを用いた物理的カモフラージュ攻撃

DTA: Physical Camouflage Attacks using Differentiable Transformation Network ( http://arxiv.org/abs/2203.09831v1 )

ライセンス: Link先を確認
Naufal Suryanto, Yongsu Kim, Hyoeun Kang, Harashta Tatimma Larasati, Youngyeo Yun, Thi-Thu-Huong Le, Hunmin Yang, Se-Yoon Oh, Howon Kim(参考訳) 物理世界での敵対的攻撃を行うために、多くの研究が3d物体表面に迷彩パターンを適用して対象物を隠すための逆迷彩法を提案している。 最適な物理的敵対的カモフラージュを得るために、これまでの研究では、分化性をサポートするためにいわゆるニューラル・レンダラーを利用した。 しかし、既存のニューラルレンダラーは、レガシなフォトリアリスティックレンダラーに比べてシーンパラメータの制御が不足しているため、様々な現実世界の変換を完全に表現することはできない。 本稿では,対象対象物に対する頑健な物理対角パターンを生成するためのフレームワークである微分可能変換攻撃(DTA)を提案する。 提案手法では,対象オブジェクトの本来の特性を維持しつつ,テクスチャの変更時にレンダリング対象の期待される変換を学習する,新しい微分可能変換ネットワーク(dtn)を利用する。 我々の攻撃フレームワークを利用することで、さまざまな物理世界変換を含むレガシなフォトリアリスティックレンダラーの利点と、差別性を提供することによるホワイトボックスアクセスの利点の両方を得ることができる。 実験の結果,我々のキャモフラージュした3D車両は,写真実写環境(例えば,Unreal EngineのCARLA)における最先端物体検出モデルを回避することができた。 さらに、スケールしたTesla Model 3での実証は、我々の方法が現実世界に応用可能であることを証明している。

To perform adversarial attacks in the physical world, many studies have proposed adversarial camouflage, a method to hide a target object by applying camouflage patterns on 3D object surfaces. For obtaining optimal physical adversarial camouflage, previous studies have utilized the so-called neural renderer, as it supports differentiability. However, existing neural renderers cannot fully represent various real-world transformations due to a lack of control of scene parameters compared to the legacy photo-realistic renderers. In this paper, we propose the Differentiable Transformation Attack (DTA), a framework for generating a robust physical adversarial pattern on a target object to camouflage it against object detection models with a wide range of transformations. It utilizes our novel Differentiable Transformation Network (DTN), which learns the expected transformation of a rendered object when the texture is changed while preserving the original properties of the target object. Using our attack framework, an adversary can gain both the advantages of the legacy photo-realistic renderers including various physical-world transformations and the benefit of white-box access by offering differentiability. Our experiments show that our camouflaged 3D vehicles can successfully evade state-of-the-art object detection models in the photo-realistic environment (i.e., CARLA on Unreal Engine). Furthermore, our demonstration on a scaled Tesla Model 3 proves the applicability and transferability of our method to the real world.
翻訳日:2022-03-21 15:07:45 公開日:2022-03-18
# 単眼パノラマ深度完了のためのマルチモーダルマスクプレトレーニング

Multi-Modal Masked Pre-Training for Monocular Panoramic Depth Completion ( http://arxiv.org/abs/2203.09855v1 )

ライセンス: Link先を確認
Zhiqiang Yan and Xiang Li and Kun Wang and Zhenyu Zhang and Jun Li and Jian Yang(参考訳) そこで本稿では,パノラマ3dカメラが複雑なシーンに欠落したデータを含む360{\deg}深度を生成するため,潜在的に価値のあるパノラマ深度完了(pdc)タスクを定式化する。 その目標は、粗いスパース画像とパノラマRGB画像から密集したパノラマ深度を回収することである。 PDCタスクに対処するため,高密度パノラマ深度回復のための入力として,深度と画像の両方を考慮した深度ネットワークを訓練する。 しかし、非凸目的関数のため、ネットワークパラメータの困難な最適化問題に直面する必要がある。 この問題に対処するために,M{^3}PT: Multi-modal masked pre-training というシンプルなアプローチを提案する。 具体的には,事前トレーニング中にパノラマRGB画像のパッチとスパース深さを共有ランダムマスクで同時にカバーし,マスク領域のスパース深さを再構築する。 我々の知る限り、マスク付きオートエンコーダ(MAE)が解決した単一モードタスクの代わりに、マルチモーダル視覚タスクにおいてマスク付き事前学習の有効性を示すのはこれが初めてである。 プリトレーニングのデコーダ部分を完全に破棄するMAEとは異なり、M$^{3}$PTの事前トレーニングと微調整ステージの間には、予測密度だけが異なるため、アーキテクチャ上の違いはなく、転送学習をより便利かつ効果的にする可能性がある。 3つのパノラマデータセットに対するM{^3}PTの有効性を検証する。 特に、平均26.2%のRMSE、51.7%のMRE、49.7%のMAE、37.5%のRMSElogを3つのベンチマークデータセットで改善しています。 コードと事前訓練されたモデルはhttps://github.com/a nonymoustbd/MMMPTで入手できる。

In this paper, we formulate a potentially valuable panoramic depth completion (PDC) task as panoramic 3D cameras often produce 360{\deg} depth with missing data in complex scenes. Its goal is to recover dense panoramic depths from raw sparse ones and panoramic RGB images. To deal with the PDC task, we train a deep network that takes both depth and image as inputs for the dense panoramic depth recovery. However, it needs to face a challenging optimization problem of the network parameters due to its non-convex objective function. To address this problem, we propose a simple yet effective approach termed M{^3}PT: multi-modal masked pre-training. Specifically, during pre-training, we simultaneously cover up patches of the panoramic RGB image and sparse depth by shared random mask, then reconstruct the sparse depth in the masked regions. To our best knowledge, it is the first time that we show the effectiveness of masked pre-training in a multi-modal vision task, instead of the single-modal task resolved by masked autoencoders (MAE). Different from MAE where fine-tuning completely discards the decoder part of pre-training, there is no architectural difference between the pre-training and fine-tuning stages in our M$^{3}$PT as they only differ in the prediction density, which potentially makes the transfer learning more convenient and effective. Extensive experiments verify the effectiveness of M{^3}PT on three panoramic datasets. Notably, we improve the state-of-the-art baselines by averagely 26.2% in RMSE, 51.7% in MRE, 49.7% in MAE, and 37.5% in RMSElog on three benchmark datasets. Codes and pre-trained models are available at https://github.com/a nonymoustbd/MMMPT.
翻訳日:2022-03-21 15:07:19 公開日:2022-03-18
# 全方位画像補完を用いた新しいビュー合成の促進

Enhancement of Novel View Synthesis Using Omnidirectional Image Completion ( http://arxiv.org/abs/2203.09957v1 )

ライセンス: Link先を確認
Takayuki Hara and Tatsuya Harada(参考訳) 本稿では,ニューラルネットワーク(neural radiance field, nerf)に基づく1つの360度画像から新たなビューを合成する方法を提案する。 先行研究は、多層パーセプトロンの近傍補間能力を利用して、閉塞やズームによる欠落した領域を完備し、人工物に繋がる。 提案手法では、入力画像を他のカメラ位置の360度画像に再投影し、再投影された画像の欠落領域を自己教師付き訓練された生成モデルにより完了させ、完了画像を用いてNeRFを訓練する。 複数の完成画像が3dに不整合を含むため、完成した画像のスパースセットを動的に選択しながらnrfを訓練する方法を導入し、合成ビューと実画像との識別誤差を低減させる。 提案手法は,人工的および実世界データの両方においてシーンの特徴を保存しつつ,実現可能な新しい視点を合成できることを示す。

We present a method for synthesizing novel views from a single 360-degree image based on the neural radiance field (NeRF) . Prior studies rely on the neighborhood interpolation capability of multi-layer perceptrons to complete missing regions caused by occlusion and zooming, and this leads to artifacts. In the proposed method, the input image is reprojected to 360-degree images at other camera positions, the missing regions of the reprojected images are completed by a self-supervised trained generative model, and the completed images are utilized to train the NeRF. Because multiple completed images contain inconsistencies in 3D, we introduce a method to train NeRF while dynamically selecting a sparse set of completed images, to reduce the discrimination error of the synthesized views with real images. Experiments indicate that the proposed method can synthesize plausible novel views while preserving the features of the scene for both artificial and real-world data.
翻訳日:2022-03-21 15:06:30 公開日:2022-03-18
# ジンジャー:一般化反復型非剛性点雲とガウス過程回帰を用いた表面登録

GiNGR: Generalized Iterative Non-Rigid Point Cloud and Surface Registration Using Gaussian Process Regression ( http://arxiv.org/abs/2203.09986v1 )

ライセンス: Link先を確認
Dennis Madsen, Jonathan Aellen, Andreas Morel-Forster, Thomas Vetter and Marcel L\"uthi(参考訳) 本稿では,一般的なフレームワークである GiNGR の下で,点集合と曲面に対する一般的な非剛性登録手法を統合する。 GiNGRはGaussian Process Morphable Models (GPMM) に基づいて構築され、モデル適応に先立って変形をモデル化する。 さらに、説明可能なハイパーパラメータ、マルチレゾリューション登録、専門的アノテーションの自明な包含、分析的および統計的変形を事前に使用および結合する機能を提供する。 しかし、さらに重要なのは、登録方法の直接比較を可能にすることだ。 最適化ステップで一般解法を用いる代わりに、gaussian process regression (gpr) が反復的に目標に参照をゆがめることを示し、任意の密度、スパース、あるいは部分的推定対応に対して、前兆に従う滑らかな変形を原理的に導く。 一般的な CPD と ICP のアルゴリズムが GiNGR でどのように直接説明できるかを示す。 さらに、GiNGRフレームワークの既存のアルゴリズムが確率的登録を行い、単一の最良登録ではなく異なる登録の分布を得る方法を示す。 これは、例えば部分的な観測を登録する際に不確実性を分析するために用いられる。 GiNGRは公開されており、ドメイン固有の事前構築を可能にする完全にモジュール化されている。

In this paper, we unify popular non-rigid registration methods for point sets and surfaces under our general framework, GiNGR. GiNGR builds upon Gaussian Process Morphable Models (GPMM) and hence separates modeling the deformation prior from model adaptation for registration. In addition, it provides explainable hyperparameters, multi-resolution registration, trivial inclusion of expert annotation, and the ability to use and combine analytical and statistical deformation priors. But more importantly, the reformulation allows for a direct comparison of registration methods. Instead of using a general solver in the optimization step, we show how Gaussian process regression (GPR) iteratively can warp a reference onto a target, leading to smooth deformations following the prior for any dense, sparse, or partial estimated correspondences in a principled way. We show how the popular CPD and ICP algorithms can be directly explained with GiNGR. Furthermore, we show how existing algorithms in the GiNGR framework can perform probabilistic registration to obtain a distribution of different registrations instead of a single best registration. This can be used to analyze the uncertainty e.g. when registering partial observations. GiNGR is publicly available and fully modular to allow for domain-specific prior construction.
翻訳日:2022-03-21 15:06:12 公開日:2022-03-18
# ESS:静止画像からイベントベースのセマンティックセグメンテーションを学ぶ

ESS: Learning Event-based Semantic Segmentation from Still Images ( http://arxiv.org/abs/2203.10016v1 )

ライセンス: Link先を確認
Zhaoning Sun, Nico Messikommer, Daniel Gehrig, Davide Scaramuzza(参考訳) ハイダイナミックレンジ(HDR)と高速条件における正確な意味情報を取得することは、画像劣化による画像ベースアルゴリズムのオープンな課題である。 イベントカメラは、ダイナミックレンジがはるかに高く、動きがぼやけやすいため、これらの課題に対処することを約束する。 それでも、イベントカメラによるセマンティクスセグメンテーションはまだ初期段階にあり、センサーの新規性や、高品質なラベル付きデータセットの欠如が主な原因である。 本稿では,既存のラベル付き画像データセットから直接,教師なしドメイン適応(UDA)を介してラベルなしイベントにセマンティックセグメンテーションタスクを転送することで,この問題に対処するESSを紹介する。 既存のUDA法と比較して, 動作不変なイベント埋め込みと画像埋め込みを一致させる。 このため,本手法では画像とイベント間の画像データや画素単位のアライメントは必要とせず,静止画像からの動作を幻覚する必要はない。 さらに、イベントベースのセマンティクスセグメンテーションのさらなる研究を促進するために、きめ細かいラベルを持つ最初の大規模イベントベースデータセットであるdsec-semanticを紹介する。 イメージラベルのみを用いることで、ESSは既存のUDAアプローチよりも優れており、イベントラベルと組み合わせることで、DDD17とDSEC-Semanticの両面で、最先端の監視アプローチよりも優れています。 最後に、ESSは汎用的であり、大量のラベル付き画像データセットをアンロックし、これまでイベントカメラにはアクセスできなかった新しい分野の新しい、エキサイティングな研究方向の道を開く。

Retrieving accurate semantic information in challenging high dynamic range (HDR) and high-speed conditions remains an open challenge for image-based algorithms due to severe image degradations. Event cameras promise to address these challenges since they feature a much higher dynamic range and are resilient to motion blur. Nonetheless, semantic segmentation with event cameras is still in its infancy which is chiefly due to the novelty of the sensor, and the lack of high-quality, labeled datasets. In this work, we introduce ESS, which tackles this problem by directly transferring the semantic segmentation task from existing labeled image datasets to unlabeled events via unsupervised domain adaptation (UDA). Compared to existing UDA methods, our approach aligns recurrent, motion-invariant event embeddings with image embeddings. For this reason, our method neither requires video data nor per-pixel alignment between images and events and, crucially, does not need to hallucinate motion from still images. Additionally, to spur further research in event-based semantic segmentation, we introduce DSEC-Semantic, the first large-scale event-based dataset with fine-grained labels. We show that using image labels alone, ESS outperforms existing UDA approaches, and when combined with event labels, it even outperforms state-of-the-art supervised approaches on both DDD17 and DSEC-Semantic. Finally, ESS is general-purpose, which unlocks the vast amount of existing labeled image datasets and paves the way for new and exciting research directions in new fields previously inaccessible for event cameras.
翻訳日:2022-03-21 15:04:10 公開日:2022-03-18
# 半監督セマンティックセグメンテーションのための非バイアスサブクラス正規化

Unbiased Subclass Regularization for Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2203.10026v1 )

ライセンス: Link先を確認
Dayan Guan, Jiaxing Huang, Aoran Xiao, Shijian Lu(参考訳) 半教師付きセマンティックセグメンテーションは、少数のラベル付き画像と大量の非ラベル付き画像から学習し、近年のディープニューラルネットワークの進歩で目覚ましい進歩をみせた。 しかし、ラベル付き画像の明快なピクセル単位のクラス不均衡が原因で、ラベル付き画像の探索中に深刻なクラスバイアスの問題を抱えることが多い。 本稿では,均衡部分クラス分布からクラス非バイアスセグメンテーションを学習することにより,クラス不均衡を緩和する非バイアス部分クラス正規化ネットワーク(usrn)を提案する。 我々は,各オリジナルクラスのピクセルを同じ大きさの複数のサブクラスにクラスタリングすることで,バランスの取れたサブクラス分布を構築する。 さらに,不確実なサブクラス予測を抑えることで,サブクラス正規化を効果的に促進する,元のクラスとクラスタ化されたサブクラス間の学習を協調するエントロピーベースのゲート機構を設計する。 複数の公開ベンチマークに対する大規模な実験は、USRNが最先端技術と比較して優れたパフォーマンスを達成していることを示している。

Semi-supervised semantic segmentation learns from small amounts of labelled images and large amounts of unlabelled images, which has witnessed impressive progress with the recent advance of deep neural networks. However, it often suffers from severe class-bias problem while exploring the unlabelled images, largely due to the clear pixel-wise class imbalance in the labelled images. This paper presents an unbiased subclass regularization network (USRN) that alleviates the class imbalance issue by learning class-unbiased segmentation from balanced subclass distributions. We build the balanced subclass distributions by clustering pixels of each original class into multiple subclasses of similar sizes, which provide class-balanced pseudo supervision to regularize the class-biased segmentation. In addition, we design an entropy-based gate mechanism to coordinate learning between the original classes and the clustered subclasses which facilitates subclass regularization effectively by suppressing unconfident subclass predictions. Extensive experiments over multiple public benchmarks show that USRN achieves superior performance as compared with the state-of-the-art.
翻訳日:2022-03-21 15:03:43 公開日:2022-03-18
# ハイパースペクトル異常検出のためのユニオン辞書を用いた非負連関共同表現

Nonnegative-Constrai ned Joint Collaborative Representation with Union Dictionary for Hyperspectral Anomaly Detection ( http://arxiv.org/abs/2203.10030v1 )

ライセンス: Link先を確認
Shizhen Chang and Pedram Ghamisi(参考訳) 近年,超スペクトル異常検出のための協調表現型(cr)アルゴリズムが提案されている。 crベースの検出器は背景辞書と係数行列の線形結合により画像を近似し、回復残差を利用して検出マップを導出する。 しかし、これらのcrベースの検出器は、正確な背景特徴と強い画像表現を前提として、しばしば確立される。 さらに、一般的な$l_2$-min で強化された係数行列の追求は非常に時間がかかる。 この問題に対処するため,超スペクトル異常検出タスクのために,非負制約協調表現モデルを提案する。 背景サブディクショナリをスーパーピクセルレベルで取得し、事前検出処理により異常サブディクショナリを抽出した背景サブディクショナリと異常サブディクショナリからなる結合辞書を、信頼性の高いサンプル抽出のために設計する。 また、係数行列は非負の制約と和対1の制約を持つフロベニウスノルム正規化によって共同最適化される。 最適化処理後、仮定された背景情報を除く残差を計算して、最終的に異常情報を得る。 比較実験を行うため,提案した非負制約共同表現(NJCR)モデルとそのカーネルバージョン(KNJCR)を4つのHSIデータセットでテストし,他の最先端検出器と比較して優れた結果を得た。

Recently, many collaborative representation-based (CR) algorithms have been proposed for hyperspectral anomaly detection. CR-based detectors approximate the image by a linear combination of background dictionaries and the coefficient matrix, and derive the detection map by utilizing recovery residuals. However, these CR-based detectors are often established on the premise of precise background features and strong image representation, which are very difficult to obtain. In addition, pursuing the coefficient matrix reinforced by the general $l_2$-min is very time consuming. To address these issues, a nonnegative-constrai ned joint collaborative representation model is proposed in this paper for the hyperspectral anomaly detection task. To extract reliable samples, a union dictionary consisting of background and anomaly sub-dictionaries is designed, where the background sub-dictionary is obtained at the superpixel level and the anomaly sub-dictionary is extracted by the pre-detection process. And the coefficient matrix is jointly optimized by the Frobenius norm regularization with a nonnegative constraint and a sum-to-one constraint. After the optimization process, the abnormal information is finally derived by calculating the residuals that exclude the assumed background information. To conduct comparable experiments, the proposed nonnegative-constrai ned joint collaborative representation (NJCR) model and its kernel version (KNJCR) are tested in four HSI data sets and achieve superior results compared with other state-of-the-art detectors.
翻訳日:2022-03-21 15:03:22 公開日:2022-03-18
# SHREC 2021: 低温電子トモグラフィーの分類

SHREC 2021: Classification in cryo-electron tomograms ( http://arxiv.org/abs/2203.10035v1 )

ライセンス: Link先を確認
Ilja Gubins, Marten L. Chaillet, Gijs van der Schot, M. Cristina Trueba, Remco C. Veltkamp, Friedrich F\"orster, Xiao Wang, Daisuke Kihara, Emmanuel Moebel, Nguyen P. Nguyen, Tommi White, Filiz Bunyak, Giorgos Papoulias, Stavros Gerolymatos, Evangelia I. Zacharaki, Konstantinos Moustakas, Xiangrui Zeng, Sinuo Liu, Min Xu, Yaoyu Wang, Cheng Chen, Xuefeng Cui, Fa Zhang(参考訳) クライオ電子トモグラフィ(Cryo-Electronトモグラフィ、Cryo-ET)は、マクロ分子集合体の3次元可視化を可能にするイメージング技術である。 Cryo-ETには、主に低信号のノイズと、すべての角度から画像を取得することができない、いくつかの課題がある。 計算手法は低温電子断層解析の鍵となる。 計算手法の革新を促進するために,新しいシミュレーションデータセットを作成し,トモグラムにおける生体高分子の局在と分類の異なる手法をベンチマークする。 我々の公開データセットは、シミュレーションされた細胞様体積の10のトモグラフィー再構成を含んでいる。 各体積は12種類の異なる錯体を含み、サイズ、機能、構造が異なる。 本稿では,タンパク質の発見と分類の7つの方法を評価する。 7つの研究グループは、cryo-et研究で広く使われているベースラインテンプレートマッチング(tm)と同様に、学習に基づく手法で得られた結果を示し、シミュレーションデータセットでトレーニングする。 学習に基づくアプローチは, TMよりも, ローカライゼーションと分類性能が優れていることを示す。 また, 粒子径と全ての手法の性能に負の相関があることを実験的に確認した。

Cryo-electron tomography (cryo-ET) is an imaging technique that allows three-dimensional visualization of macro-molecular assemblies under near-native conditions. Cryo-ET comes with a number of challenges, mainly low signal-to-noise and inability to obtain images from all angles. Computational methods are key to analyze cryo-electron tomograms. To promote innovation in computational methods, we generate a novel simulated dataset to benchmark different methods of localization and classification of biological macromolecules in tomograms. Our publicly available dataset contains ten tomographic reconstructions of simulated cell-like volumes. Each volume contains twelve different types of complexes, varying in size, function and structure. In this paper, we have evaluated seven different methods of finding and classifying proteins. Seven research groups present results obtained with learning-based methods and trained on the simulated dataset, as well as a baseline template matching (TM), a traditional method widely used in cryo-ET research. We show that learning-based approaches can achieve notably better localization and classification performance than TM. We also experimentally confirm that there is a negative relationship between particle size and performance for all methods.
翻訳日:2022-03-21 15:02:56 公開日:2022-03-18
# 非小細胞肺癌におけるMET変化の画像ベース組織学的特徴

Imaging-based histological features are predictive of MET alterations in Non-Small Cell Lung Cancer ( http://arxiv.org/abs/2203.10062v1 )

ライセンス: Link先を確認
Rohan P. Joshi, Bo Osinski, Niha Beig, Lingdao Sha, Kshitij Ingale, Martin C. Stumpe(参考訳) METはプロトオンコジーンであり、非小細胞肺癌における体細胞活性化は細胞増殖と腫瘍の進行を促進する。 MET変異の2つの主要なクラスは、遺伝子増幅とエキソン14欠失であり、どちらも治療標的であり、既存の分子アッセイを用いて検出可能である。 しかし、既存のテストは、価値ある組織の使用、コスト、そして広く使われるのを防ぐ複雑さによって制限されている。 METの変異は細胞形態に影響を及ぼし、これらの関連を定量化することで、形態学に基づくスクリーニングツールの研究と開発のための新たな道を開くことができる。 H&E-stained whole slide image (WSIs) を用いて, 細胞形態学的特徴とMET増幅, METエキソン14欠失との関連について検討した。 腫瘍浸潤リンパ球および腫瘍細胞から得られた細胞形態, 色, グレースケール強度, テクスチャに基づく特徴は, MET amplified または MET exon 14 欠失例からMET wild-type と区別された。 METの変異と個々の細胞の特徴の関連は、METの野生型とMETの増幅またはMETエキソン14の除去とを区別する予測モデルが示唆された。 そこで我々は,L1ペナル化ロジスティック回帰モデルを開発し,受信器動作特性曲線(ROC-AUC)の平均値0.77+/-0.05sd,独立したホールドアウトテストセット0.77を達成した。 43種類のスパースセットはこれらのクラスを区別し、単変量解析で見られるものと類似した特徴と組織内の腫瘍細胞のパーセントを含んでいた。 本研究は,METの変異が腫瘍細胞およびリンパ球に検出可能な形態学的シグナルをもたらすことを示す。 以上の結果から,H&E染色WSIを用いた低コスト予測モデルの開発がMET修飾腫瘍のスクリーニングを改善する可能性が示唆された。

MET is a proto-oncogene whose somatic activation in non-small cell lung cancer leads to increased cell growth and tumor progression. The two major classes of MET alterations are gene amplification and exon 14 deletion, both of which are therapeutic targets and detectable using existing molecular assays. However, existing tests are limited by their consumption of valuable tissue, cost and complexity that prevent widespread use. MET alterations could have an effect on cell morphology, and quantifying these associations could open new avenues for research and development of morphology-based screening tools. Using H&E-stained whole slide images (WSIs), we investigated the association of distinct cell-morphological features with MET amplifications and MET exon 14 deletions. We found that cell shape, color, grayscale intensity and texture-based features from both tumor infiltrating lymphocytes and tumor cells distinguished MET wild-type from MET amplified or MET exon 14 deletion cases. The association of individual cell features with MET alterations suggested a predictive model could distinguish MET wild-type from MET amplification or MET exon 14 deletion. We therefore developed an L1-penalized logistic regression model, achieving a mean Area Under the Receiver Operating Characteristic Curve (ROC-AUC) of 0.77 +/- 0.05sd in cross-validation and 0.77 on an independent holdout test set. A sparse set of 43 features differentiated these classes, which included features similar to what was found in the univariate analysis as well as the percent of tumor cells in the tissue. Our study demonstrates that MET alterations result in a detectable morphological signal in tumor cells and lymphocytes. These results suggest that development of low-cost predictive models based on H&E-stained WSIs may improve screening for MET altered tumors.
翻訳日:2022-03-21 15:02:37 公開日:2022-03-18
# lehdc: 学習ベースの超次元計算分類器

LeHDC: Learning-Based Hyperdimensional Computing Classifier ( http://arxiv.org/abs/2203.09680v1 )

ライセンス: Link先を確認
Shijin Duan, Yejia Liu, Shaolei Ren, and Xiaolin Xu(参考訳) 小さなストレージと効率的な実行のおかげで、リソース制約のあるハードウェア上での軽量な学習フレームワークとして超次元コンピューティング(HDC)が登場している。 それでも、既存のHDCトレーニングは様々なヒューリスティックな手法に依存しており、推論精度を著しく制限している。 本稿では,モデル精度を向上させるために,原則的学習手法を活用した新しいHDCフレームワークLeHDCを提案する。 具体的には、LeHDCは既存のHDCフレームワークを同等のバイナリニューラルネットワークアーキテクチャにマッピングし、トレーニング損失を最小限にするために対応するトレーニング戦略を使用する。 実験による検証では、LeHDCは従来のHDCトレーニング戦略よりも優れており、ベースラインのHDCと比較して平均推定精度が15%以上向上している。

Thanks to the tiny storage and efficient execution, hyperdimensional Computing (HDC) is emerging as a lightweight learning framework on resource-constrained hardware. Nonetheless, the existing HDC training relies on various heuristic methods, significantly limiting their inference accuracy. In this paper, we propose a new HDC framework, called LeHDC, which leverages a principled learning approach to improve the model accuracy. Concretely, LeHDC maps the existing HDC framework into an equivalent Binary Neural Network architecture, and employs a corresponding training strategy to minimize the training loss. Experimental validation shows that LeHDC outperforms previous HDC training strategies and can improve on average the inference accuracy over 15% compared to the baseline HDC.
翻訳日:2022-03-21 15:00:37 公開日:2022-03-18
# ISDE : 独立構造密度推定

ISDE : Independence Structure Density Estimation ( http://arxiv.org/abs/2203.09783v1 )

ライセンス: Link先を確認
Louis Pujol (DATASHAPE, CELESTE)(参考訳) 密度推定は多くの学習手順においてサブルーチンとして現れるため、実践的な状況において効率的に行う方法が重要である。 多次元密度推定は次元性の呪いに苦しむ。 この問題に対する解決策は、基盤となる分布に無向なグラフィカルモデルを通して構造仮説を追加することである。 独立構造(IS)に対応するグラフの特定のファミリから密度と非方向のグラフィカルモデルを推定するアルゴリズムであるISDE(Independence Structure Density Estimation)を提案する。 ISDEは、適度に高次元のデータ(最大数十の特徴)を処理し、パラメトリックおよび非パラメトリックの状況で使用することができる。 非パラメトリックグラフィカルモデル推定の既存の手法は、ペアワイズでのみ多次元依存に焦点を当てている: ISDEは、この制限に悩まされず、まだ利用可能なアルゴリズムでカバーされていない構造に対処できる。 本稿では,isに関する既存の理論を説明し,アルゴリズムの構成を説明し,その効果を証明する。 これはkullback-leibler損失下での密度推定性能の測定と、is回復能力の質的評価を通じて、定量的に合成データ上で行われる。 質量サイトメトリーデータセットにISDEを適用することにより、実世界のデータセットに対して定量的かつ質的にどのように動作するかを示す。 そして、実行時間に関する情報を提供します。

Density estimation appears as a subroutine in many learning procedures, so it is of interest to have efficient methods for it to perform in practical situations. Multidimensional density estimation suffers from the curse of dimensionality. A solution to this problem is to add a structural hypothesis through an undirected graphical model on the underlying distribution. We propose ISDE (Independence Structure Density Estimation), an algorithm designed to estimate a density and an undirected graphical model from a particular family of graphs corresponding to Independence Structure (IS), a situation where we can separate features into independent groups. ISDE works for moderately high-dimensional data (up to a few dozen features), and it is useable in parametric and nonparametric situations. Existing methods on nonparametric graphical model estimation focus on multidimensional dependencies only through pairwise ones: ISDE does not suffer from this restriction and can address structures not yet covered by available algorithms. In this paper, we present the existing theory about IS, explain the construction of our algorithm and prove its effectiveness. This is done on synthetic data both quantitatively, through measures of density estimation performance under Kullback-Leibler loss, and qualitatively, in terms of capability to recover IS. By applying ISDE on mass cytometry datasets, we also show how it performs both quantitatively and qualitatively on real-world datasets. Then we provide information about running time.
翻訳日:2022-03-21 15:00:25 公開日:2022-03-18
# 対称相対密度比に対する適応閾値を用いた近似政策最適化

Proximal Policy Optimization with Adaptive Threshold for Symmetric Relative Density Ratio ( http://arxiv.org/abs/2203.09809v1 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 深層強化学習(DRL)は複雑な環境にロボットを導入する上で有望なアプローチの1つである。 DRLの最近の顕著な進歩は、政策の規則化であり、政策を安定かつ効率的に改善することができる。 一般的な手法、いわゆる近位政策最適化(ppo)とその変種は、密度比が所定の閾値を超えると、最新のポリシーとベースラインポリシーの密度比を制約する。 この閾値は比較的直感的に設計することができ、実際には推奨値範囲が提案されている。 しかし、密度比は中心に対して非対称であり、その中心からの誤差スケールは閾値に近いはずであり、基準政策がどのように与えられるかに依存する。 政策の正則化の値を最大化するために,本論文では,相対的ピアソン(RPE)偏差(PPO-RPE)を用いた新しいPPOを提案し,その閾値を適応的に設計する。 PPO-RPEでは、対称性で形成できる相対密度比が原密度比を置き換える。 この対称性により、その中心からの誤差スケールを推定しやすく、推定誤差スケールにしきい値を適用することができる。 3つの単純なベンチマークシミュレーションから,アルゴリズム依存のしきい値設計の重要性が明らかになった。 追加の4つの移動タスクをシミュレートすることにより,提案手法がタスク達成に統計的に貢献することを確認した。

Deep reinforcement learning (DRL) is one of the promising approaches for introducing robots into complicated environments. The recent remarkable progress of DRL stands on regularization of policy, which allows the policy to improve stably and efficiently. A popular method, so-called proximal policy optimization (PPO), and its variants constrain density ratio of the latest and baseline policies when the density ratio exceeds a given threshold. This threshold can be designed relatively intuitively, and in fact its recommended value range has been suggested. However, the density ratio is asymmetric for its center, and the possible error scale from its center, which should be close to the threshold, would depend on how the baseline policy is given. In order to maximize the values of regularization of policy, this paper proposes a new PPO derived using relative Pearson (RPE) divergence, therefore so-called PPO-RPE, to design the threshold adaptively. In PPO-RPE, the relative density ratio, which can be formed with symmetry, replaces the raw density ratio. Thanks to this symmetry, its error scale from center can easily be estimated, hence, the threshold can be adapted for the estimated error scale. From three simple benchmark simulations, the importance of algorithm-dependent threshold design is revealed. By simulating additional four locomotion tasks, it is verified that the proposed method statistically contributes to task accomplishment by appropriately restricting the policy updates.
翻訳日:2022-03-21 15:00:03 公開日:2022-03-18
# オンライン大文字手書きによる性別分類:テキスト依存型アログラフアプローチ

Gender classification by means of online uppercase handwriting: A text-dependent allographic approach ( http://arxiv.org/abs/2203.09848v1 )

ライセンス: Link先を確認
Enric Sesa-Nogueras, Marcos Faundez-Zanuy, Josep Roure-Alcob\'e(参考訳) 本稿では,オンライン手書きによる性別分類方式を提案する。 文字のダイナミクスをキャプチャするデジタルタブレットで取得したサンプルを使用して、著者を男性または女性に分類する。 提案手法は,筆跡の構造単位としてのストロークに関するアログラフである。 また、筆記装置が筆記面に圧力をかけていない間に行う筆画、ペンアップ(空気中)の筆画も考慮される。 この方法はテキストに依存しているため、トレーニングとテストはまったく同じテキストで行われる。 テキスト依存は、ごく少量のテキストで分類を行うことができる。 BiosecurIDデータベースのサンプルを用いて行った実験では、人間の審査員が期待する分類平均の範囲に該当する結果が得られる。 1つの大文字を4回繰り返すだけで、よく分類された作家の平均率は68%であり、16語で平均72.6%まで上昇する。 統計分析によると、上記の割合は非常に大きい。 ペンアップストロークの分類可能性を調べるために、これらも考慮される。 この場合、結論は得られないが、ペンアップストロークの情報とペンダウンストロークの情報とが組み合わさると、優れた分類された著者の74%の顕著な平均値が得られる。

This paper presents a gender classification schema based on online handwriting. Using samples acquired with a digital tablet that captures the dynamics of the writing, it classifies the writer as a male or a female. The method proposed is allographic, regarding strokes as the structural units of handwriting. Strokes performed while the writing device is not exerting any pressure on the writing surface, pen-up (in-air) strokes, are also taken into account. The method is also text-dependent meaning that training and testing is done with exactly the same text. Text-dependency allows classification be performed with very small amounts of text. Experimentation, performed with samples from the BiosecurID database, yields results that fall in the range of the classification averages expected from human judges. With only four repetitions of a single uppercase word, the average rate of well classified writers is 68%; with sixteen words, the rate rises to an average 72.6%. Statistical analysis reveals that the aforementioned rates are highly significant. In order to explore the classification potential of the pen-up strokes, these are also considered. Although in this case results are not conclusive, an outstanding average of 74% of well classified writers is obtained when information from pen-up strokes is combined with information from pen-down ones.
翻訳日:2022-03-21 14:59:39 公開日:2022-03-18
# 適応共振理論に基づく位相クラスタリングを用いた連続学習が可能なクラスワイド分類器の設計

Class-wise Classifier Design Capable of Continual Learning using Adaptive Resonance Theory-based Topological Clustering ( http://arxiv.org/abs/2203.09879v1 )

ライセンス: Link先を確認
Naoki Masuyama, Itsuki Tsubota, Yusuke Nojima, Hisao Ishibuchi(参考訳) 本稿では,適応共鳴理論(art)に基づく自己組織型クラスタリングアルゴリズムを用いて,連続学習が可能な教師付き分類アルゴリズムを提案する。 ARTに基づくクラスタリングアルゴリズムは理論的には連続的な学習が可能であり、提案アルゴリズムは個別に分類器を生成する訓練データの各クラスに適用する。 新しいクラスから追加のトレーニングデータセットが与えられると、新しいアートベースのクラスタリングが別の学習空間で定義されます。 上記の特徴により,提案アルゴリズムは連続学習能力を実現する。 シミュレーション実験により,提案アルゴリズムは連続学習が可能な最先端クラスタリングに基づく分類アルゴリズムと比較して,分類性能が優れていることがわかった。

This paper proposes a supervised classification algorithm capable of continual learning by utilizing an Adaptive Resonance Theory (ART)-based growing self-organizing clustering algorithm. The ART-based clustering algorithm is theoretically capable of continual learning, and the proposed algorithm independently applies it to each class of training data for generating classifiers. Whenever an additional training data set from a new class is given, a new ART-based clustering will be defined in a different learning space. Thanks to the above-mentioned features, the proposed algorithm realizes continual learning capability. Simulation experiments showed that the proposed algorithm has superior classification performance compared with state-of-the-art clustering-based classification algorithms capable of continual learning.
翻訳日:2022-03-21 14:59:17 公開日:2022-03-18
# (参考訳) NSF Future Directions Workshop on Automatic Evaluation of Dialog: Research Directions and Challenges 参加報告 [全文訳有]

Report from the NSF Future Directions Workshop on Automatic Evaluation of Dialog: Research Directions and Challenges ( http://arxiv.org/abs/2203.10012v1 )

ライセンス: CC BY 4.0
Shikib Mehri, Jinho Choi, Luis Fernando D'Haro, Jan Deriu, Maxine Eskenazi, Milica Gasic, Kallirroi Georgila, Dilek Hakkani-Tur, Zekang Li, Verena Rieser, Samira Shaikh, David Traum, Yi-Ting Yeh, Zhou Yu, Yizhe Zhang, Chen Zhang(参考訳) 本報告はNSF Future Directions Workshop on Automatic Evaluation of Dialogの報告である。 このワークショップは、その限界と共に芸術の現状を探求し、この重要かつ非常に急速に変化する研究領域における将来の研究に向けた有望な方向性を提案した。

This is a report on the NSF Future Directions Workshop on Automatic Evaluation of Dialog. The workshop explored the current state of the art along with its limitations and suggested promising directions for future work in this important and very rapidly changing area of research.
翻訳日:2022-03-21 14:57:08 公開日:2022-03-18
# モルフォシンタクチックレンズ下 : 音声翻訳におけるジェンダーバイアスの多面的評価

Under the Morphosyntactic Lens: A Multifaceted Evaluation of Gender Bias in Speech Translation ( http://arxiv.org/abs/2203.09866v1 )

ライセンス: Link先を確認
Beatrice Savoldi, Marco Gaido, Luisa Bentivogli, Matteo Negri, Marco Turchi(参考訳) ジェンダーバイアスは、言語技術に影響を及ぼす問題として広く認識されており、近年の研究は、言語によって異なる表面になる可能性があると指摘している。 しかしながら、現在の評価慣行のほとんどは、合成条件下での職業名詞の狭いセットに単語レベルの焦点をあてている。 このようなプロトコルは、様々な語彙項目やPOS(part-of-speech)に特徴付けられる、ジェンダー合意のモルフォシンタクティック連鎖を特徴とする文法性言語の重要な特徴を見落としている。 この制限を克服するために、自然で性別に敏感な MuST-SHE コーパス (Bentivogli et al., 2020) を2つの新しい言語的アノテーション層 (POS と 合意連鎖) で強化し、様々な語彙カテゴリーや合意現象がジェンダースキューにどの程度影響するかを探る。 英語・フランス語・イタリア語・スペイン語の3つの言語方向について多面的評価を行い,多様なデータ量と異なる単語分割法を用いて学習した。 本研究は, モデル行動, 性別バイアス, および数段階の粒度検出に光を当てることで, 総合的な結果以上の専用分析の価値を強調した。

Gender bias is largely recognized as a problematic phenomenon affecting language technologies, with recent studies underscoring that it might surface differently across languages. However, most of current evaluation practices adopt a word-level focus on a narrow set of occupational nouns under synthetic conditions. Such protocols overlook key features of grammatical gender languages, which are characterized by morphosyntactic chains of gender agreement, marked on a variety of lexical items and parts-of-speech (POS). To overcome this limitation, we enrich the natural, gender-sensitive MuST-SHE corpus (Bentivogli et al., 2020) with two new linguistic annotation layers (POS and agreement chains), and explore to what extent different lexical categories and agreement phenomena are impacted by gender skews. Focusing on speech translation, we conduct a multifaceted evaluation on three language directions (English-French/Ital ian/Spanish), with models trained on varying amounts of data and different word segmentation techniques. By shedding light on model behaviours, gender bias, and its detection at several levels of granularity, our findings emphasize the value of dedicated analyses beyond aggregated overall results.
翻訳日:2022-03-21 14:24:03 公開日:2022-03-18
# scot: 時間経過によるセンスクラスタリング: 語彙変化の分析ツール

SCoT: Sense Clustering over Time: a tool for the analysis of lexical change ( http://arxiv.org/abs/2203.09892v1 )

ライセンス: Link先を確認
Christian Haase, Saba Anwar, Seid Muhie Yimam, Alexander Friedrich, Chris Biemann(参考訳) 我々は、語彙変化を分析する新しいネットワークベースのツールであるSense Clustering over Time (SCoT)を提示する。 SCoTは、単語の意味を類似した単語の集合として表現する。 形成、変化、消滅を可視化する。 動的ネットワークの探索には2つの主要なアプローチがある: 離散的グラフは時間内の別々の点から一連のクラスタ化されたグラフを比較する。 連続的に1つの動的ネットワークの変化を時間スパンで解析する。 SCoTは新しいハイブリッドソリューションを提供する。 まず、タイムスタンプされた文書を間隔に集約し、離散区間毎に1つのセンスグラフを計算する。 そして、静的グラフを時間とともに新しいタイプの動的セマンティック近隣グラフにマージする。 結果として得られたセンスクラスタは、モデルの透明性とプロヴァンスを備えた、連続的な間隔での語彙変化に対するユニークな詳細な洞察を提供する。 SCoTは「危機」の意味の変化に関するヨーロッパの研究で成功している。

We present Sense Clustering over Time (SCoT), a novel network-based tool for analysing lexical change. SCoT represents the meanings of a word as clusters of similar words. It visualises their formation, change, and demise. There are two main approaches to the exploration of dynamic networks: the discrete one compares a series of clustered graphs from separate points in time. The continuous one analyses the changes of one dynamic network over a time-span. SCoT offers a new hybrid solution. First, it aggregates time-stamped documents into intervals and calculates one sense graph per discrete interval. Then, it merges the static graphs to a new type of dynamic semantic neighbourhood graph over time. The resulting sense clusters offer uniquely detailed insights into lexical change over continuous intervals with model transparency and provenance. SCoT has been successfully used in a European study on the changing meaning of `crisis'.
翻訳日:2022-03-21 14:23:36 公開日:2022-03-18
# 多言語言語モデルは異なる道徳的規範を捉えているか?

Do Multilingual Language Models Capture Differing Moral Norms? ( http://arxiv.org/abs/2203.09904v1 )

ライセンス: Link先を確認
Katharina H\"ammerl, Bj\"orn Deiseroth, Patrick Schramowski, Jind\v{r}ich Libovick\'y, Alexander Fraser, Kristian Kersting(参考訳) 大規模多言語文表現は、未計算データの大規模なコーパスに基づいて訓練され、訓練に含まれる言語の割合は非常に不均衡である。 これにより、高リソース言語からの道徳的判断を含む文化的価値を把握し、低リソース言語にそれらを強制することができる。 特定の言語におけるデータの欠如は、ランダムで潜在的に有害な信念を生み出すことにも繋がる。 どちらの問題もゼロショットの言語間モデル転送に悪影響を及ぼし、有害な結果をもたらす可能性がある。 そこで我々は,(1)異なる言語で異なるモデルを比較して,これらの問題を検出・定量化すること,(2)モデルの望ましくない特性を改善する手法を開発することを目的とする。 多言語モデル xlm-r を用いた最初の実験では,多言語 lms がモラル規範を捉えていることがわかった。 しかし、これらの道徳的規範が言語によってどの程度異なるかはまだ明らかではない。

Massively multilingual sentence representations are trained on large corpora of uncurated data, with a very imbalanced proportion of languages included in the training. This may cause the models to grasp cultural values including moral judgments from the high-resource languages and impose them on the low-resource languages. The lack of data in certain languages can also lead to developing random and thus potentially harmful beliefs. Both these issues can negatively influence zero-shot cross-lingual model transfer and potentially lead to harmful outcomes. Therefore, we aim to (1) detect and quantify these issues by comparing different models in different languages, (2) develop methods for improving undesirable properties of the models. Our initial experiments using the multilingual model XLM-R show that indeed multilingual LMs capture moral norms, even with potentially higher human-agreement than monolingual ones. However, it is not yet clear to what extent these moral norms differ between languages.
翻訳日:2022-03-21 14:23:25 公開日:2022-03-18
# クロスカルチャーNLPの課題と戦略

Challenges and Strategies in Cross-Cultural NLP ( http://arxiv.org/abs/2203.10020v1 )

ライセンス: Link先を確認
Daniel Hershcovich and Stella Frank and Heather Lent and Miryam de Lhoneux and Mostafa Abdou and Stephanie Brandl and Emanuele Bugliarello and Laura Cabello Piqueras and Ilias Chalkidis and Ruixiang Cui and Constanza Fierro and Katerina Margatina and Phillip Rust and Anders S{\o}gaard(参考訳) 自然言語処理(NLP)コミュニティにおける様々な取り組みは、言語多様性に対応し、多くの異なる言語の話者にサービスを提供している。 しかし、話者とそれらが生成し、必要とするコンテンツが言語だけでなく、文化によっても異なることを認めることが重要である。 言語と文化は密接に結びついているが、重要な違いがある。 言語横断NLPや多言語NLPとは対照的に、異文化と多文化のNLPは、NLPシステムの利用者により良いサービスを提供するためにこれらの違いを考察している。 我々は,これらの取り組みを体系化し,既存および潜在的戦略を調査するための原則的枠組みを提案する。

Various efforts in the Natural Language Processing (NLP) community have been made to accommodate linguistic diversity and serve speakers of many different languages. However, it is important to acknowledge that speakers and the content they produce and require, vary not just by language, but also by culture. Although language and culture are tightly linked, there are important differences. Analogous to cross-lingual and multilingual NLP, cross-cultural and multicultural NLP considers these differences in order to better serve users of NLP systems. We propose a principled framework to frame these efforts, and survey existing and potential strategies.
翻訳日:2022-03-21 14:23:10 公開日:2022-03-18
# Relic: 文学的主張の証拠を取得する

RELIC: Retrieving Evidence for Literary Claims ( http://arxiv.org/abs/2203.10053v1 )

ライセンス: Link先を確認
Katherine Thai, Yapei Chang, Kalpesh Krishna, and Mohit Iyyer(参考訳) 人文科学の学者は一般的に、作品からの引用の形で文学作品(例:小説)に関する主張の証拠を提供している。 78kの文学的引用とその周辺における批判的分析の大規模データセット(relic)を収集し,それを用いて文学的証拠検索の新たなタスクを定式化し,マスキングされた引用を取り囲む文学的分析の抜粋をモデルに与え,引用文を作品中の全節の組から取り出すように求めた。 この検索課題を解決するには、複雑な文学現象と言語現象の深い理解が必要であり、語彙的および意味的類似性マッチングに圧倒的に依存する手法に挑戦することが証明されている。 本稿では,既存の事前学習情報検索ベースラインよりも優れたRoBERTaを用いた高密度パスレトリバーを実装するが,人間ドメインの専門家による実験と分析により,高密度検索よりも大幅に改善の余地があることが示唆された。

Humanities scholars commonly provide evidence for claims that they make about a work of literature (e.g., a novel) in the form of quotations from the work. We collect a large-scale dataset (RELiC) of 78K literary quotations and surrounding critical analysis and use it to formulate the novel task of literary evidence retrieval, in which models are given an excerpt of literary analysis surrounding a masked quotation and asked to retrieve the quoted passage from the set of all passages in the work. Solving this retrieval task requires a deep understanding of complex literary and linguistic phenomena, which proves challenging to methods that overwhelmingly rely on lexical and semantic similarity matching. We implement a RoBERTa-based dense passage retriever for this task that outperforms existing pretrained information retrieval baselines; however, experiments and analysis by human domain experts indicate that there is substantial room for improvement over our dense retriever.
翻訳日:2022-03-21 14:22:57 公開日:2022-03-18
# (参考訳) 改良網膜血管セグメンテーションのための前処理支援U-netアーキテクチャのパラメトリックスケーリング [全文訳有]

Parametric Scaling of Preprocessing assisted U-net Architecture for Improvised Retinal Vessel Segmentation ( http://arxiv.org/abs/2203.10014v1 )

ライセンス: CC BY 4.0
Kundan Kumar and Sumanshu Agarwal(参考訳) 網膜基底画像から血管を抽出することは、関連する疾患の進行を診断する上で決定的な役割を果たす。 医用画像解析では、血管抽出は意味的な二分節分画問題であり、背景から血管を抽出する必要がある。 本稿では,形態素前処理と拡張U-netアーキテクチャを組み合わせた画像強調手法を提案する。 トレーニング可能なネットワークパラメータの数は比較的少ないが、拡張バージョンのU-netアーキテクチャでは、ドメイン内の他のメソッドと比較してパフォーマンスが向上している。 DRIVEデータベースからの網膜基底画像に対する提案手法の検証を行った。 この結果から,roc曲線下の領域 (>0.9762) と分類精度 (>95.47%) において,領域内の他のアルゴリズムと比較して有意な改善が認められた。 さらに,本提案法は,視神経系,視神経系,眼窩系の存在下での血管検出に敏感でありながら,中枢血管反射に耐性がある。

Extracting blood vessels from retinal fundus images plays a decisive role in diagnosing the progression in pertinent diseases. In medical image analysis, vessel extraction is a semantic binary segmentation problem, where blood vasculature needs to be extracted from the background. Here, we present an image enhancement technique based on the morphological preprocessing coupled with a scaled U-net architecture. Despite a relatively less number of trainable network parameters, the scaled version of U-net architecture provides better performance compare to other methods in the domain. We validated the proposed method on retinal fundus images from the DRIVE database. A significant improvement as compared to the other algorithms in the domain, in terms of the area under ROC curve (>0.9762) and classification accuracy (>95.47%) are evident from the results. Furthermore, the proposed method is resistant to the central vessel reflex while sensitive to detect blood vessels in the presence of background items viz. exudates, optic disc, and fovea.
翻訳日:2022-03-21 14:20:48 公開日:2022-03-18
# 音声認識におけるブラックボックス攻撃のニューラルネットワーク予測

Neural Predictor for Black-Box Adversarial Attacks on Speech Recognition ( http://arxiv.org/abs/2203.09849v1 )

ライセンス: Link先を確認
Marie Biolkov\'a, Bac Nguyen(参考訳) 最近の研究では、自動音声認識(asr)モデルの、逆例(aes)、すなわち音声信号の書き起こしの誤りを引き起こす小さな摂動に対する脆弱性が明らかにされている。 したがって、音声の敵対攻撃を研究することは、堅牢なASRへの第一歩である。 音声の例としては大きな進歩があったが、ブラックボックス攻撃は、文字のハードラベル情報のみを提供するため、依然として困難である。 この限られた情報のため、既存のブラックボックスメソッドは、単一のオーディオサンプルを攻撃するために過剰なクエリを必要とすることが多い。 本稿では, NP-Attackを提案する。NP-Attackは, 小さな対向摂動に対する探索を段階的に進化させる神経予測器に基づく手法である。 摂動方向が与えられると、神経予測器は誤記を引き起こす最小摂動を直接推定する。 特に、NP-Attackは勾配に基づく最適化により、予測される摂動方向を正確に学習することができる。 実験結果から,NP-Attackは他の最先端のブラックボックス攻撃と競合する結果が得られた。 NP-Attackのコードはオンラインで入手できる。

Recent works have revealed the vulnerability of automatic speech recognition (ASR) models to adversarial examples (AEs), i.e., small perturbations that cause an error in the transcription of the audio signal. Studying audio adversarial attacks is therefore the first step towards robust ASR. Despite the significant progress made in attacking audio examples, the black-box attack remains challenging because only the hard-label information of transcriptions is provided. Due to this limited information, existing black-box methods often require an excessive number of queries to attack a single audio example. In this paper, we introduce NP-Attack, a neural predictor-based method, which progressively evolves the search towards a small adversarial perturbation. Given a perturbation direction, our neural predictor directly estimates the smallest perturbation that causes a mistranscription. In particular, it enables NP-Attack to accurately learn promising perturbation directions via gradient-based optimization. Experimental results show that NP-Attack achieves competitive results with other state-of-the-art black-box adversarial attacks while requiring a significantly smaller number of queries. The code of NP-Attack is available online.
翻訳日:2022-03-21 14:12:18 公開日:2022-03-18
# サブサンプリングと準ニュートン精製による高速ベイズコアセット

Fast Bayesian Coresets via Subsampling and Quasi-Newton Refinement ( http://arxiv.org/abs/2203.09675v1 )

ライセンス: Link先を確認
Cian Naik, Judith Rousseau, Trevor Campbell(参考訳) ベイズコアセットは、データポイントの小さな重み付き部分集合を構築することによって、後続分布を近似する。 全後方で実行するには計算コストが高すぎる推論手順は、代わりにcoreset上で安価に実行することができ、その結果は全データに近似する。 しかし、現在のアプローチは、大幅な実行時間や、ユーザが完全な後部への低コストな近似を指定する必要性によって制限されている。 まず,データのランダムな部分集合を選択し,新しい擬似ニュートン法を用いて重み付けを最適化するベイズ型コアセット構成アルゴリズムを提案する。 提案アルゴリズムは実装が簡単で,低コスト後部近似をユーザが指定する必要がなく,出力コアセット後部のKL分散に束縛された一般的な高確率のアルゴリズムである。 実験により,本手法は最先端のブラックボックス法に対して建設時間を大幅に改善することを示した。 さらに、コンストラクション時間に比較してコアセットの品質が大幅に向上し、ストレージコストとユーザ入力が大幅に削減される。

Bayesian coresets approximate a posterior distribution by building a small weighted subset of the data points. Any inference procedure that is too computationally expensive to be run on the full posterior can instead be run inexpensively on the coreset, with results that approximate those on the full data. However, current approaches are limited by either a significant run-time or the need for the user to specify a low-cost approximation to the full posterior. We propose a Bayesian coreset construction algorithm that first selects a uniformly random subset of data, and then optimizes the weights using a novel quasi-Newton method. Our algorithm is simple to implement, does not require the user to specify a low-cost posterior approximation, and is the first to come with a general high-probability bound on the KL divergence of the output coreset posterior. Experiments demonstrate that the method provides orders of magnitude improvement in construction time against the state-of-the-art black-box method. Moreover, it provides significant improvements in coreset quality against alternatives with comparable construction times, with far less storage cost and user input required.
翻訳日:2022-03-21 14:12:02 公開日:2022-03-18
# 時空間圧縮とシナプス畳み込みブロックを用いた超低レイテンシスパイクニューラルネットワーク

Ultra-low Latency Spiking Neural Networks with Spatio-Temporal Compression and Synaptic Convolutional Block ( http://arxiv.org/abs/2203.10006v1 )

ライセンス: Link先を確認
Changqing Xu, Yi Liu, Yintang Yang(参考訳) スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたモデルの一つで、時空間情報処理能力、低消費電力機能、高生物学的可視性を備えている。 効果的な時空間的特徴は、イベントストリームの分類に適している。 しかし、N-MNIST、CIFAR10-DVS、DVS128-gestureなどのニューロモルフィックデータセットは、個々のイベントをフレームに集約し、イベントストリーム分類のための新しい高時間分解能で、高いトレーニングと推論遅延を引き起こす。 本研究では,個々のイベントを数回のシナプス電流の時間ステップに集約し,トレーニングと推論の待ち時間を短縮する時空間圧縮法を提案する。 また,SNNの精度を高い圧縮比で維持するために,隣接する時間ステップ間の劇的変化のバランスをとるためのシナプス畳み込みブロックを提案する。 また,学習可能な膜時間定数を持つマルチスレッドLeaky Integrate-and-Fire(L IF)を導入し,その情報処理能力を向上させる。 ニューロモルフィックN-MNIST, CIFAR10-DVS, DVS128ジェスチャデータセットを用いたイベントストリーム分類タスクの評価を行った。 実験の結果,提案手法は,ほぼすべてのデータセットにおいて,少ない時間ステップで最先端の精度を上回っていることがわかった。

Spiking neural networks (SNNs), as one of the brain-inspired models, has spatio-temporal information processing capability, low power feature, and high biological plausibility. The effective spatio-temporal feature makes it suitable for event streams classification. However, neuromorphic datasets, such as N-MNIST, CIFAR10-DVS, DVS128-gesture, need to aggregate individual events into frames with a new higher temporal resolution for event stream classification, which causes high training and inference latency. In this work, we proposed a spatio-temporal compression method to aggregate individual events into a few time steps of synaptic current to reduce the training and inference latency. To keep the accuracy of SNNs under high compression ratios, we also proposed a synaptic convolutional block to balance the dramatic change between adjacent time steps. And multi-threshold Leaky Integrate-and-Fire (LIF) with learnable membrane time constant is introduced to increase its information processing capability. We evaluate the proposed method for event streams classification tasks on neuromorphic N-MNIST, CIFAR10-DVS, DVS128 gesture datasets. The experiment results show that our proposed method outperforms the state-of-the-art accuracy on nearly all datasets, using fewer time steps.
翻訳日:2022-03-21 14:08:41 公開日:2022-03-18
# (参考訳) それゆえ私はスコアリングする:ドメインの専門知識に基づく制約を用いたスコアリング関数のラベルフリー作成 [全文訳有]

I Know Therefore I Score: Label-Free Crafting of Scoring Functions using Constraints Based on Domain Expertise ( http://arxiv.org/abs/2203.10085v1 )

ライセンス: CC0 1.0
Ragja Palakkadavath, Sarath Sivaprasad, Shirish Karande, Niranjan Pedanekar(参考訳) いくつかの実生活応用では、測定された観測結果から精度の高い定量的評価関数(レーティングシステムとも呼ばれる)を必要とする。 例えば、多くのエンゲージメント指標を使用して広告キャンペーンの有効性スコアを作成する必要がある。 専門家は、しばしばラベル付きデータがない状態でそのようなスコアリング機能を作成する必要があり、そこでは、スコアはドメインの専門家が理解したビジネス上の洞察とルールを反映する必要がある。 これらの入力を体系的にキャプチャする方法がなければ、試行錯誤を伴う時間のかかるプロセスになる。 本稿では,多次元数値データからスコアリング関数を学習するためのラベルなし実践手法を提案する。 このアプローチでは、容易に観察可能で仕様化可能な制約という形で、ドメインエキスパートからの洞察とビジネスルールを取り入れている。 これらの制約をスコアリング関数を学習しながら同時に最適化した損失関数に変換する。 合成データセットと4つの実生活データセットを用いたアプローチの有効性を検討するとともに,vis-a-vis教師付き学習モデルの実行方法を比較する。

Several real-life applications require crafting concise, quantitative scoring functions (also called rating systems) from measured observations. For example, an effectiveness score needs to be created for advertising campaigns using a number of engagement metrics. Experts often need to create such scoring functions in the absence of labelled data, where the scores need to reflect business insights and rules as understood by the domain experts. Without a way to capture these inputs systematically, this becomes a time-consuming process involving trial and error. In this paper, we introduce a label-free practical approach to learn a scoring function from multi-dimensional numerical data. The approach incorporates insights and business rules from domain experts in the form of easily observable and specifiable constraints, which are used as weak supervision by a machine learning model. We convert such constraints into loss functions that are optimized simultaneously while learning the scoring function. We examine the efficacy of the approach using a synthetic dataset as well as four real-life datasets, and also compare how it performs vis-a-vis supervised learning models.
翻訳日:2022-03-21 14:06:20 公開日:2022-03-18
# PRBoost: 対話型弱監視学習のためのプロンプトに基づくルール発見とブースティング

PRBoost: Prompt-Based Rule Discovery and Boosting for Interactive Weakly-Supervised Learning ( http://arxiv.org/abs/2203.09735v1 )

ライセンス: Link先を確認
Rongzhi Zhang, Yue Yu, Pranav Shetty, Le Song, Chao Zhang(参考訳) 弱教師付き学習(WSL)は,多くのNLPタスクにおいてラベル不足に対処する上で有望な結果を示している。 本稿では,データから新たなラベル付け規則を自動的に発見し,WSLモデルを改善するために,インタラクティブな教師付き学習について検討する。 提案モデルであるPRBoostは、反復的なプロンプトベースのルール発見とモデル強化によってこの目標を達成する。 boostingを使用して大規模なエラーインスタンスを特定し、事前トレーニングされたLMにルールテンプレートを付与することで、候補ルールを検出する。 候補ルールは人間の専門家によって判断され、受け入れられたルールは補完的な弱いラベルを生成し、現在のモデルを強化するために使用される。 4つのタスクでの実験では、prboostは最先端のwslベースラインを7.1%上回り、完全な教師付きモデルでギャップを埋める。 我々の実装は \url{https://github.com/r z-zhang/PRBoost} で利用可能です。

Weakly-supervised learning (WSL) has shown promising results in addressing label scarcity on many NLP tasks, but manually designing a comprehensive, high-quality labeling rule set is tedious and difficult. We study interactive weakly-supervised learning -- the problem of iteratively and automatically discovering novel labeling rules from data to improve the WSL model. Our proposed model, named PRBoost, achieves this goal via iterative prompt-based rule discovery and model boosting. It uses boosting to identify large-error instances and then discovers candidate rules from them by prompting pre-trained LMs with rule templates. The candidate rules are judged by human experts, and the accepted rules are used to generate complementary weak labels and strengthen the current model. Experiments on four tasks show PRBoost outperforms state-of-the-art WSL baselines up to 7.1% and bridges the gaps with fully supervised models. Our Implementation is available at \url{https://github.com/r z-zhang/PRBoost}.
翻訳日:2022-03-21 13:53:17 公開日:2022-03-18
# BIOS:アルゴリズムで生成されたバイオメディカル知識グラフ

BIOS: An Algorithmically Generated Biomedical Knowledge Graph ( http://arxiv.org/abs/2203.09975v1 )

ライセンス: Link先を確認
Sheng Yu, Zheng Yuan, Jun Xia, Shengxuan Luo, Huaiyuan Ying, Sihang Zeng, Jingyi Ren, Hongyi Yuan, Zhengyun Zhao, Yucong Lin, Keming Lu, Jing Wang, Yutao Xie, Heung-Yeung Shum(参考訳) バイオメディカル・ナレッジグラフ(バイオメディカル・ナレッジグラフ、BioMedKG)は、バイオメディカルおよび医療用ビッグデータと人工知能(AI)にとって不可欠な基盤であり、自然言語処理、モデル開発、データ交換を容易にする。 何十年もの間、これらの知識グラフは専門家のキュレーションによって構築され、今日のAI開発速度に追いつかなくなり、アルゴリズムによって生成されたBioMedKGsへの移行が必要である。 そこで本研究では,機械学習アルゴリズムによって完全に生成された初の大規模バイオメディカルインフォマティクスオントロジーシステム (bios) を紹介する。 BIOSは現在4100万のコンセプト、2つの言語で740万の用語と730万のリレーション・トリプルを含んでいる。 生バイオメディカル用語のキュレーション,同義語を計算的に識別し,それらを集約して概念ノードを作成するBIOSの開発手法,概念の意味型分類,関係同定,バイオメディカル機械翻訳について紹介する。 我々はbiosの現在の内容に関する統計を提供し, 用語品質, 同義語グループ化, 関係抽出の予備評価を行う。 結果は、機械学習ベースのBioMedKG開発は、従来のエキスパートキュレーションを置き換えるための、完全に実行可能なソリューションであることを示唆している。

Biomedical knowledge graphs (BioMedKGs) are essential infrastructures for biomedical and healthcare big data and artificial intelligence (AI), facilitating natural language processing, model development, and data exchange. For many decades, these knowledge graphs have been built via expert curation, which can no longer catch up with the speed of today's AI development, and a transition to algorithmically generated BioMedKGs is necessary. In this work, we introduce the Biomedical Informatics Ontology System (BIOS), the first large scale publicly available BioMedKG that is fully generated by machine learning algorithms. BIOS currently contains 4.1 million concepts, 7.4 million terms in two languages, and 7.3 million relation triplets. We introduce the methodology for developing BIOS, which covers curation of raw biomedical terms, computationally identifying synonymous terms and aggregating them to create concept nodes, semantic type classification of the concepts, relation identification, and biomedical machine translation. We provide statistics about the current content of BIOS and perform preliminary assessment for term quality, synonym grouping, and relation extraction. Results suggest that machine learning-based BioMedKG development is a totally viable solution for replacing traditional expert curation.
翻訳日:2022-03-21 13:52:59 公開日:2022-03-18
# 医用表現学習のためのグラフテキスト多モード事前学習

Graph-Text Multi-Modal Pre-training for Medical Representation Learning ( http://arxiv.org/abs/2203.09994v1 )

ライセンス: Link先を確認
Sungjin Park, Seongsu Bae, Jiho Kim, Tackeun Kim, Edward Choi(参考訳) エレクトロニック・ヘルス・レコーズ(EHR)のボリュームが急上昇するにつれて、医療応用のためのEHRの表現を学ぶことへの関心が高まっている。 EHRの表現学習には、構造化データと非構造化テキストの2つの支配的モダリティを適切にモデル化する必要がある。 本稿では,構造化およびテキストEHRデータのマルチモーダル表現学習のための事前学習モデルであるMedGTXを提案する。 MedGTXは、構造化EHRデータのグラフィカルな性質を利用する新しいグラフエンコーダと、構造化されていないテキストを扱うテキストエンコーダと、共同表現空間を学ぶためのクロスモーダルエンコーダを使用する。 我々は,オープンソースのEMHデータであるMIMIC-III上での4つのプロキシタスクを通じてモデルを事前訓練し,EHRデータの現実的な問題に対処する2つの臨床ベンチマークと3つの下流タスクでモデルを評価する。 その結果,ehlからの構造化情報と非構造化情報の共用表現におけるモデル事前学習の有効性が示唆された。 MedGTXの有望な性能を考えると、この研究はEHRデータの2つの基本的なモダリティを共同で理解するための新たな扉を開くと信じている。

As the volume of Electronic Health Records (EHR) sharply grows, there has been emerging interest in learning the representation of EHR for healthcare applications. Representation learning of EHR requires appropriate modeling of the two dominant modalities in EHR: structured data and unstructured text. In this paper, we present MedGTX, a pre-trained model for multi-modal representation learning of the structured and textual EHR data. MedGTX uses a novel graph encoder to exploit the graphical nature of structured EHR data, and a text encoder to handle unstructured text, and a cross-modal encoder to learn a joint representation space. We pre-train our model through four proxy tasks on MIMIC-III, an open-source EHR data, and evaluate our model on two clinical benchmarks and three novel downstream tasks which tackle real-world problems in EHR data. The results consistently show the effectiveness of pre-training the model for joint representation of both structured and unstructured information from EHR. Given the promising performance of MedGTX, we believe this work opens a new door to jointly understanding the two fundamental modalities of EHR data.
翻訳日:2022-03-21 13:52:36 公開日:2022-03-18
# 偏りのあるaiが必要な理由 - 認知的および倫理的なマシンバイアスがaiシステムをいかに強化できるか

Why we need biased AI -- How including cognitive and ethical machine biases can enhance AI systems ( http://arxiv.org/abs/2203.09911v1 )

ライセンス: Link先を確認
Sarah Fabi, Thilo Hagendorff(参考訳) 本稿では,人工知能(AI)分野におけるバイアスの重要性を2つの点で強調する。 まず,複雑で不安定で不確定な実環境において効率的なアルゴリズム意思決定を促進するために,学習アルゴリズムにおける人間の認知バイアスの構造的実装を議論する。 第2に、倫理的機械行動を達成するためには、倫理的に望ましい社会的・行動的特性を表す偏りのある訓練刺激を選択するためにフィルタ機構を適用する必要がある。 我々は、認知科学の知見と倫理をAI分野に適用し、理論的考察と有形のバイアス実装シナリオを描いた7つのケーススタディを組み合わせる。 最終的に、この論文は、マシンバイアスの倫理的重要性を再評価するアイデアを明示的に追求し、マシンに認知バイアスを実装するためのアイデアを提示する最初の仮のステップである。

This paper stresses the importance of biases in the field of artificial intelligence (AI) in two regards. First, in order to foster efficient algorithmic decision-making in complex, unstable, and uncertain real-world environments, we argue for the structurewise implementation of human cognitive biases in learning algorithms. Secondly, we argue that in order to achieve ethical machine behavior, filter mechanisms have to be applied for selecting biased training stimuli that represent social or behavioral traits that are ethically desirable. We use insights from cognitive science as well as ethics and apply them to the AI field, combining theoretical considerations with seven case studies depicting tangible bias implementation scenarios. Ultimately, this paper is the first tentative step to explicitly pursue the idea of a re-evaluation of the ethical significance of machine biases, as well as putting the idea forth to implement cognitive biases into machines.
翻訳日:2022-03-21 13:52:05 公開日:2022-03-18
# SURF:フィードバック効率に基づく強化学習のためのデータ強化による半教師付きリワード学習

SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning ( http://arxiv.org/abs/2203.10050v1 )

ライセンス: Link先を確認
Jongjin Park, Younggyo Seo, Jinwoo Shin, Honglak Lee, Pieter Abbeel, Kimin Lee(参考訳) 選好に基づく強化学習(rl)は,エージェントの2つの行動間の選好によって報酬を学習することで,費用のかかる事前定義された報酬機能なしに目標課題を遂行する可能性を示した。 しかし、好みに基づく学習は、しばしば大量の人間のフィードバックを必要とするため、このアプローチを様々なアプリケーションに適用することは困難である。 このデータ効率問題は、典型的には教師あり学習の文脈において、ラベルのないサンプルやデータ拡張技術を用いて対処されてきた。 これらの手法の最近の成功に触発されたSURFは、データ拡張を伴う大量の未ラベルサンプルを利用する半教師付き報酬学習フレームワークである。 報酬学習にラベルなしサンプルを活用するために,好み予測者の信頼度に基づいてラベルなしサンプルの擬似ラベルを推測する。 報奨学習のラベル効率をさらに高めるため,従来の行動から時系列的に時系列を抽出する新たなデータ拡張を導入する。 本実験は, ロボット操作作業における最先端の嗜好に基づく手法のフィードバック効率を大幅に向上することを示す。

Preference-based reinforcement learning (RL) has shown potential for teaching agents to perform the target tasks without a costly, pre-defined reward function by learning the reward with a supervisor's preference between the two agent behaviors. However, preference-based learning often requires a large amount of human feedback, making it difficult to apply this approach to various applications. This data-efficiency problem, on the other hand, has been typically addressed by using unlabeled samples or data augmentation techniques in the context of supervised learning. Motivated by the recent success of these approaches, we present SURF, a semi-supervised reward learning framework that utilizes a large amount of unlabeled samples with data augmentation. In order to leverage unlabeled samples for reward learning, we infer pseudo-labels of the unlabeled samples based on the confidence of the preference predictor. To further improve the label-efficiency of reward learning, we introduce a new data augmentation that temporally crops consecutive subsequences from the original behaviors. Our experiments demonstrate that our approach significantly improves the feedback-efficiency of the state-of-the-art preference-based method on a variety of locomotion and robotic manipulation tasks.
翻訳日:2022-03-21 13:51:49 公開日:2022-03-18
# Bernoulliレベルセット推定のためのルックアヘッド獲得関数

Look-Ahead Acquisition Functions for Bernoulli Level Set Estimation ( http://arxiv.org/abs/2203.09751v1 )

ライセンス: Link先を確認
Benjamin Letham, Phillip Guan, Chase Tymms, Eytan Bakshy, Michael Shvartsman(参考訳) レベルセット推定(LSE)は、未知の関数が指定された閾値以上の値を取る領域を特定する問題である。 効率的なLSEのためのアクティブサンプリング戦略は主に連続値関数で研究されている。 共通の実験デザインがバイナリ応答を生成するヒト精神物理学の応用に動機づけられ,ベルヌーイ結果を用いたlse能動的サンプリング法について検討した。 gaussian process classification surrogateモデルでは、最先端の連続アウトプット法で使われるルック・アヘッドモデル後方は扱いにくい。 しかし, サブレベル集合メンバシップのルックアヘッド後部に対する解析式を導出し, 情報に基づく手法を含む, ルックアヘッド LSE 獲得関数のクラスに対する解析式について示す。 ベンチマーク実験は、後部全体のグローバルなルックアヘッドの影響を考慮することの重要性を示している。 ベンチマーク問題や,高次元のコントラスト感度関数を推定する実世界の課題において,この新しいタイプの獲得関数を用いることで明らかな利点が得られた。

Level set estimation (LSE) is the problem of identifying regions where an unknown function takes values above or below a specified threshold. Active sampling strategies for efficient LSE have primarily been studied in continuous-valued functions. Motivated by applications in human psychophysics where common experimental designs produce binary responses, we study LSE active sampling with Bernoulli outcomes. With Gaussian process classification surrogate models, the look-ahead model posteriors used by state-of-the-art continuous-output methods are intractable. However, we derive analytic expressions for look-ahead posteriors of sublevel set membership, and show how these lead to analytic expressions for a class of look-ahead LSE acquisition functions, including information-based methods. Benchmark experiments show the importance of considering the global look-ahead impact on the entire posterior. We demonstrate a clear benefit to using this new class of acquisition functions on benchmark problems, and on a challenging real-world task of estimating a high-dimensional contrast sensitivity function.
翻訳日:2022-03-21 13:50:24 公開日:2022-03-18
# ディープネットワークはクラス間で不変か?

Do Deep Networks Transfer Invariances Across Classes? ( http://arxiv.org/abs/2203.09739v1 )

ライセンス: Link先を確認
Allan Zhou, Fahim Tajwar, Alexander Robey, Tom Knowles, George J. Pappas, Hamed Hassani, Chelsea Finn(参考訳) うまく一般化するには、分類器は入力のクラスを変えないニュアサンス変換に不変であることを学ぶ必要がある。 多くの問題は「クラス非依存」なニュアサンス変換を持ち、画像分類の照明や背景変更など、全てのクラスに同じように適用される。 ニューラルネットワークは、十分なデータ量からこれらの不変性を学ぶことができるが、多くの現実世界のデータセットは、非常にクラス不均衡であり、ほとんどのクラスでいくつかの例しか含まない。 ニューラルネットワークは、大きなクラスから学んだクラスに依存しない不変性を、どの程度小さなクラスに転送するのでしょうか? 注意深い実験を通じて、クラスに依存しない変換に対する不変性は依然としてクラスサイズに大きく依存しており、ネットワークはより小さなクラスで不変性が低いことを観察する。 この結果は、データバランシング技術を使用しても持続し、クラス間での不変性の低さを示唆する。 以上の結果から,分類器が不均衡分布やロングテール分布の一般化に乏しい理由が説明できる。 この分析から,不規則変換を学習するための生成的アプローチは,クラス間の不変性を伝達し,不均衡な画像分類ベンチマークのセットの性能を向上させることができることを示す。 実験のソースコードはhttps://github.com/A llanYangZhou/generat ive-invariance-trans fer.comで公開されている。

To generalize well, classifiers must learn to be invariant to nuisance transformations that do not alter an input's class. Many problems have "class-agnostic" nuisance transformations that apply similarly to all classes, such as lighting and background changes for image classification. Neural networks can learn these invariances given sufficient data, but many real-world datasets are heavily class imbalanced and contain only a few examples for most of the classes. We therefore pose the question: how well do neural networks transfer class-agnostic invariances learned from the large classes to the small ones? Through careful experimentation, we observe that invariance to class-agnostic transformations is still heavily dependent on class size, with the networks being much less invariant on smaller classes. This result holds even when using data balancing techniques, and suggests poor invariance transfer across classes. Our results provide one explanation for why classifiers generalize poorly on unbalanced and long-tailed distributions. Based on this analysis, we show how a generative approach for learning the nuisance transformations can help transfer invariances across classes and improve performance on a set of imbalanced image classification benchmarks. Source code for our experiments is available at https://github.com/A llanYangZhou/generat ive-invariance-trans fer.
翻訳日:2022-03-21 13:49:46 公開日:2022-03-18
# GAN生成画像の分散型ソース属性の変換可能なクラスモデリング

Transferable Class-Modelling for Decentralized Source Attribution of GAN-Generated Images ( http://arxiv.org/abs/2203.09777v1 )

ライセンス: Link先を確認
Brandon B. G. Khoo, Chern Hong Lim, Raphael C.-W. Phan(参考訳) デジタル画像のジャンルとしてのGAN生成のディープフェイクは、芸術的表現の触媒と悪意のある偽造の両方が原因で、倫理的利用を強制し、認定するようシステムに求めている。 合成画像のソース属性に関する既存の技術は,機能やスケーラビリティに制限のある多クラス分類ニューラルネットを用いて,微妙な内在性指紋を識別する。 したがって、deepfake検出問題とソース帰属問題を関連するバイナリ分類タスクとして再定義する。 半分散モジュラー設計を提案し,同時に効率的に解くことにより,複数の独立帰属問題に対する偽造検出ネットワークを迅速に適応させる。 クラスアクティベーションマッピングは、モデル解釈のための特徴ローカライゼーションの効果的な方法としても示される。 我々のモデルは、現在のベンチマークと競争力のある実験を通じて決定され、理想的な条件で人間の肖像画をまともに評価することができる。 分散指紋ベースの属性は、新しい情報源の存在下では有効性を維持するが、画像の摂動や帰属不確実性によって増大するタイプIIのエラーの影響を受けやすい。 我々は,リアクティブなディープフェイク属性の技術的限界を調査する際の,概念的枠組みとモデルプロトタイプについて述べる。

GAN-generated deepfakes as a genre of digital images are gaining ground as both catalysts of artistic expression and malicious forms of deception, therefore demanding systems to enforce and accredit their ethical use. Existing techniques for the source attribution of synthetic images identify subtle intrinsic fingerprints using multiclass classification neural nets limited in functionality and scalability. Hence, we redefine the deepfake detection and source attribution problems as a series of related binary classification tasks. We leverage transfer learning to rapidly adapt forgery detection networks for multiple independent attribution problems, by proposing a semi-decentralized modular design to solve them simultaneously and efficiently. Class activation mapping is also demonstrated as an effective means of feature localization for model interpretation. Our models are determined via experimentation to be competitive with current benchmarks, and capable of decent performance on human portraits in ideal conditions. Decentralized fingerprint-based attribution is found to retain validity in the presence of novel sources, but is more susceptible to type II errors that intensify with image perturbations and attributive uncertainty. We describe both our conceptual framework and model prototypes for further enhancement when investigating the technical limits of reactive deepfake attribution.
翻訳日:2022-03-21 13:49:24 公開日:2022-03-18
# 畳み込み同時スパース近似とRGB-NIR画像融合への応用

Convolutional Simultaneous Sparse Approximation with Applications to RGB-NIR Image Fusion ( http://arxiv.org/abs/2203.09913v1 )

ライセンス: Link先を確認
Farshad G. Veshki, Sergiy A. Vorobyov(参考訳) 同時スパース近似(SSA)は、同一の支持を持つスパースベクトルを用いて依存信号の集合を表現する。 SSAモデルは、複数の相関入力信号を含む様々な信号および画像処理アプリケーションで使われている。 本稿では,乗算器の交互方向法に基づく畳み込みSSA(CSSA)のアルゴリズムを提案する。 具体的には、SSAモデルに基づくマルチモーダルデータ/信号における空間構造が異なるCSSA問題と畳み込み特徴学習問題に対処する。 提案アルゴリズムをマルチモーダル・マルチフォーカス画像融合問題に適用して評価する。

Simultaneous sparse approximation (SSA) seeks to represent a set of dependent signals using sparse vectors with identical supports. The SSA model has been used in various signal and image processing applications involving multiple correlated input signals. In this paper, we propose algorithms for convolutional SSA (CSSA) based on the alternating direction method of multipliers. Specifically, we address the CSSA problem with different sparsity structures and the convolutional feature learning problem in multimodal data/signals based on the SSA model. We evaluate the proposed algorithms by applying them to multimodal and multifocus image fusion problems.
翻訳日:2022-03-21 13:49:05 公開日:2022-03-18
# (参考訳) 急性虚血性脳梗塞患者におけるスリー・フュージョンを用いた脳損傷のマルチインプットセグメンテーション [全文訳有]

Multi-input segmentation of damaged brain in acute ischemic stroke patients using slow fusion with skip connection ( http://arxiv.org/abs/2203.10039v1 )

ライセンス: CC BY 4.0
Luca Tomasetti, Mahdieh Khanmohammadi, Kjersti Engan, Liv Jorunn H{\o}llesli, and Kathinka D{\ae}hli Kurz(参考訳) 脳卒中治療の基本因子は時間である。 虚血領域を分割する高速で自動的なアプローチは、治療決定に役立つ。 現在,CTP画像から得られたカラーコードパラメトリックマップを手作業で検討し,治療計画を決定する。 急性期脳卒中患者の2つの虚血領域(coreとpenumbra)を区分するパラメトリックマップを用いたニューラルネットワークを用いた自動手法を提案する。 我々のモデルは、マルチインプットと遅い融合を伴う畳み込み・デコンボリューションのボトルネック構造に基づいている。 focaltverskyインデックスに基づく損失関数は、データの不均衡問題に対処する。 提案するアーキテクチャは,神経放射線科医が注釈した根拠真理に匹敵する効果的な性能と結果を示している。 大型容器閉塞試験セット上でのペヌンブラのDice係数0.81、コアの0.52を実現する。 完全な実装はhttps://git.io/jtfgb で利用可能である。

Time is a fundamental factor during stroke treatments. A fast, automatic approach that segments the ischemic regions helps treatment decisions. In clinical use today, a set of color-coded parametric maps generated from computed tomography perfusion (CTP) images are investigated manually to decide a treatment plan. We propose an automatic method based on a neural network using a set of parametric maps to segment the two ischemic regions (core and penumbra) in patients affected by acute ischemic stroke. Our model is based on a convolution-deconvol ution bottleneck structure with multi-input and slow fusion. A loss function based on the focal Tversky index addresses the data imbalance issue. The proposed architecture demonstrates effective performance and results comparable to the ground truth annotated by neuroradiologists. A Dice coefficient of 0.81 for penumbra and 0.52 for core over the large vessel occlusion test set is achieved. The full implementation is available at: https://git.io/JtFGb .
翻訳日:2022-03-21 13:47:16 公開日:2022-03-18
# フォース:ルールに基づく会話推薦システムの枠組み

FORCE: A Framework of Rule-Based Conversational Recommender System ( http://arxiv.org/abs/2203.10001v1 )

ライセンス: Link先を確認
Jun Quan, Ze Wei, Qiang Gan, Jingqi Yao, Jingyi Lu, Yuchen Dong, Yiming Liu, Yi Zeng, Chao Zhang, Yongzhi Li, Huang Hu, Yingying He, Yang Yang and Daxin Jiang(参考訳) 近年,会話推薦システム (CRS) が注目されている。 しかし、既存の作品の多くはさまざまなディープラーニングモデルに焦点を合わせており、大規模な人間の注釈付きデータセットの要件によってほとんど制限されている。 このような手法は、工業製品におけるコールドスタートシナリオに対処できない。 この問題を軽減するために,ルールベースの会話型レコメンダシステムのフレームワークであるforceを提案する。 異なる言語とドメインの2つのデータセットで実験を行い、その有効性とユーザビリティを検証する。

The conversational recommender systems (CRSs) have received extensive attention in recent years. However, most of the existing works focus on various deep learning models, which are largely limited by the requirement of large-scale human-annotated datasets. Such methods are not able to deal with the cold-start scenarios in industrial products. To alleviate the problem, we propose FORCE, a Framework Of Rule-based Conversational Recommender system that helps developers to quickly build CRS bots by simple configuration. We conduct experiments on two datasets in different languages and domains to verify its effectiveness and usability.
翻訳日:2022-03-21 13:36:15 公開日:2022-03-18
# リトアニア文法の誤り訂正に向けて

Towards Lithuanian grammatical error correction ( http://arxiv.org/abs/2203.09963v1 )

ライセンス: Link先を確認
Lukas Stankevi\v{c}ius and Mantas Luko\v{s}evi\v{c}ius(参考訳) 誰もが美しく正しいテキストを書きたがっていますが、言語スキルの欠如、経験の欠如、あるいはタイピングの急激さがエラーを引き起こします。 近年のトランスフォーマーアーキテクチャの進歩を利用して,古来の特徴に富むリトアニア語に対する文法的誤り訂正モデルを構築した。 サブワードとバイトレベルのアプローチを比較して、最高のトレーニングモデルを共有し、f$_{0.5}$=0.92をオンラインのオープンソースリポジトリで達成します。

Everyone wants to write beautiful and correct text, yet the lack of language skills, experience, or hasty typing can result in errors. By employing the recent advances in transformer architectures, we construct a grammatical error correction model for Lithuanian, the language rich in archaic features. We compare subword and byte-level approaches and share our best trained model, achieving F$_{0.5}$=0.92, and accompanying code, in an online open-source repository.
翻訳日:2022-03-21 13:36:06 公開日:2022-03-18
# 原子シミュレーションのための数十億のパラメータグラフニューラルネットワークの学習に向けて

Towards Training Billion Parameter Graph Neural Networks for Atomic Simulations ( http://arxiv.org/abs/2203.09697v1 )

ライセンス: Link先を確認
Anuroop Sriram, Abhishek Das, Brandon M. Wood, Siddharth Goyal, C. Lawrence Zitnick(参考訳) 原子シミュレーションをモデル化するためのグラフニューラルネットワーク(gnns)の最近の進歩は、触媒の発見に革命を起こす可能性を秘めている。 しかし、このタスクで最も効果的であることが証明されたGNNは、三重項や四重項のようなグラフ内の高次相互作用をモデル化するため、メモリ集約的であり、これらのモデルをスケールすることは困難である。 本稿では、複数のGPUにまたがる入力グラフを分散するグラフ並列性を導入し、数十億から数十億のパラメータで非常に大きなGNNを訓練することを可能にする。 最近提案されたdimenet++とgemnetモデルのパラメータ数を1桁以上スケールアップして,本手法を実証的に評価した。 大規模open catalyst 2020(oc20)データセットでは、グラフ並列化モデルが相対的に改善される。 1)s2efタスクのforce maeメトリックの15%、および 2) IS2RS タスクの AFbT 測定値の 21% は, 新たな最先端の結果が得られた。

Recent progress in Graph Neural Networks (GNNs) for modeling atomic simulations has the potential to revolutionize catalyst discovery, which is a key step in making progress towards the energy breakthroughs needed to combat climate change. However, the GNNs that have proven most effective for this task are memory intensive as they model higher-order interactions in the graphs such as those between triplets or quadruplets of atoms, making it challenging to scale these models. In this paper, we introduce Graph Parallelism, a method to distribute input graphs across multiple GPUs, enabling us to train very large GNNs with hundreds of millions or billions of parameters. We empirically evaluate our method by scaling up the number of parameters of the recently proposed DimeNet++ and GemNet models by over an order of magnitude. On the large-scale Open Catalyst 2020 (OC20) dataset, these graph-parallelized models lead to relative improvements of 1) 15% on the force MAE metric for the S2EF task and 2) 21% on the AFbT metric for the IS2RS task, establishing new state-of-the-art results.
翻訳日:2022-03-21 13:35:58 公開日:2022-03-18
# AutoAdversary: スパース・アタックのためのピクセル・プルーニング方式

AutoAdversary: A Pixel Pruning Method for Sparse Adversarial Attack ( http://arxiv.org/abs/2203.09756v1 )

ライセンス: Link先を確認
Jinqiao Li, Xiaotao Liu, Jian Zhao, Furao Shen(参考訳) ディープニューラルネットワーク(DNN)は、敵の例に弱いことが証明されている。 逆数例の特別な枝、すなわちスパース対数例は、数ピクセルだけを摂動することでターゲットのDNNを騙すことができる。 しかし、既存のスパース対逆攻撃の多くは、ヒューリスティック手法を用いて、摂動すべきピクセルを選択し、画素選択と対逆攻撃を2つの別々のステップとみなす。 ニューラル・ネットワーク・プルーニングの観点からは,新たな対向攻撃手法,すなわちAutoAdversaryを提案し,画素選択を対向攻撃に統合することにより,最も重要な画素を自動的に見つけることができる。 具体的には,学習可能なニューラルネットワークを用いて,画素選択のためのバイナリマスクを生成する。 対向摂動とニューラルネットワークを協調的に最適化した後、マスクの値1に対応する画素のみを摂動する。 実験により,提案手法が最先端手法よりも優れていることを示す。 さらに、AutoAdversaryはヒューリスティックな画素選択プロセスを必要としないため、画像サイズが大きくなると他の方法ほど遅くならない。

Deep neural networks (DNNs) have been proven to be vulnerable to adversarial examples. A special branch of adversarial examples, namely sparse adversarial examples, can fool the target DNNs by perturbing only a few pixels. However, many existing sparse adversarial attacks use heuristic methods to select the pixels to be perturbed, and regard the pixel selection and the adversarial attack as two separate steps. From the perspective of neural network pruning, we propose a novel end-to-end sparse adversarial attack method, namely AutoAdversary, which can find the most important pixels automatically by integrating the pixel selection into the adversarial attack. Specifically, our method utilizes a trainable neural network to generate a binary mask for the pixel selection. After jointly optimizing the adversarial perturbation and the neural network, only the pixels corresponding to the value 1 in the mask are perturbed. Experiments demonstrate the superiority of our proposed method over several state-of-the-art methods. Furthermore, since AutoAdversary does not require a heuristic pixel selection process, it does not slow down excessively as other methods when the image size increases.
翻訳日:2022-03-21 13:35:31 公開日:2022-03-18
# クレーターをランドマークとした月面ローバー位置決め

Lunar Rover Localization Using Craters as Landmarks ( http://arxiv.org/abs/2203.10073v1 )

ライセンス: Link先を確認
Larry Matthies, Shreyansh Daftry, Scott Tepsuporn, Yang Cheng, Deegan Atha, R. Michael Swan, Sanjna Ravichandar, Masahiro Ono(参考訳) これまで惑星ローバーの軌道上のローカライズ機能は、車輪のオドメトリ、視覚のオドメトリ、慣性測定の組み合わせを統合して、各ドライブの開始に対する位置を追跡することで、相対的なナビゲーションを使用してきた。 各ドライブの最後には、ローバー上の画像やローカルマップをローバーの現在の位置の広い領域の軌道偵察画像や地図にマッチングすることにより、よりグローバルな参照フレームで人間のオペレーターからの位置更新を受けるために、グランド・イン・ザ・ループ(gitl)インタラクションが使用される。 自律的なローバードライブは距離が限られているので、相対的な航法誤差の蓄積は、軌道画像から知られる危険にさらされる恐れがない。 しかし、最近のいくつかのローバーミッションの概念は、特に月のGITLサイクルの間にずっと長いドライブを必要とする。 これらの概念はGITLサイクルを最小限に抑えるためにより大きな自律性を必要とし、グローバルなローカライゼーションがそのような自律性の重要な要素である。 ローバーのグローバルローカライズには過去に複数の技術が研究されてきたが、まだ十分な解決策は見つかっていない。 月にとって、ユビキタスなクレーターは新しい可能性を提供し、軌道からクレーターをマッピングし、ローバーに搭載されたカメラやライダーでクレーターのランドマークを認識する。 このアプローチは月の至るところで適用でき、他のいくつかのアプローチと同様に高解像度のステレオイメージングは必要とせず、常に5mから10mの精度で位置知識を実現できる可能性がある。 本稿では,月面ローバーのクレーター位置推定に関する技術アプローチについて述べるとともに,lidarやステレオカメラからの3dポイント雲データと単眼画像におけるシェーディング手がかりを用いたクレーター検出の初期結果について述べる。

Onboard localization capabilities for planetary rovers to date have used relative navigation, by integrating combinations of wheel odometry, visual odometry, and inertial measurements during each drive to track position relative to the start of each drive. At the end of each drive, a ground-in-the-loop (GITL) interaction is used to get a position update from human operators in a more global reference frame, by matching images or local maps from onboard the rover to orbital reconnaissance images or maps of a large region around the rover's current position. Autonomous rover drives are limited in distance so that accumulated relative navigation error does not risk the possibility of the rover driving into hazards known from orbital images. However, several rover mission concepts have recently been studied that require much longer drives between GITL cycles, particularly for the Moon. These concepts require greater autonomy to minimize GITL cycles to enable such large range; onboard global localization is a key element of such autonomy. Multiple techniques have been studied in the past for onboard rover global localization, but a satisfactory solution has not yet emerged. For the Moon, the ubiquitous craters offer a new possibility, which involves mapping craters from orbit, then recognizing crater landmarks with cameras and-or a lidar onboard the rover. This approach is applicable everywhere on the Moon, does not require high resolution stereo imaging from orbit as some other approaches do, and has potential to enable position knowledge with order of 5 to 10 m accuracy at all times. This paper describes our technical approach to crater-based lunar rover localization and presents initial results on crater detection using 3D point cloud data from onboard lidar or stereo cameras, as well as using shading cues in monocular onboard imagery.
翻訳日:2022-03-21 13:33:55 公開日:2022-03-18
# deepfake style transfer mixture: 合成画像に関する最初の法医学的弾道学研究

Deepfake Style Transfer Mixture: a First Forensic Ballistics Study on Synthetic Images ( http://arxiv.org/abs/2203.09928v1 )

ライセンス: Link先を確認
Luca Guarnera (1 and 2), Oliver Giudice (1 and 3), Sebastiano Battiato (1 and 2) ((1) University of Catania, (2) iCTLab s.r.l. - Spin-off of University of Catania, (3) Applied Research Team, IT dept., Banca d'Italia, Italy)(参考訳) 生成的アーキテクチャに基づく最近のスタイル転送技術は、ほとんど人工物なしで合成マルチメディアコンテンツ、あるいは一般にディープフェイク(deepfakes)を得ることができる。 研究者たちはすでに、合成画像には、それがディープフェイクであるだけでなく、画像データ自体を作成するために使用される生成アーキテクチャも決定できるパターンが含まれていることを実証している。 これらのトレースはディープフェイクの文脈で解決されたことのない問題を研究するために利用することができる。 そこで,本稿では,スタイル移動操作を受けるディープフェイク画像における画像弾道について検討する最初のアプローチを提案する。 具体的には,デジタル画像の処理回数を,スタイル転送のための生成的アーキテクチャによって検出する手法について述べる。 さらに,ディープフェイク画像の法医学的弾道学を正確に研究するために,スタイル転送操作の数学的特性について検討した。

Most recent style-transfer techniques based on generative architectures are able to obtain synthetic multimedia contents, or commonly called deepfakes, with almost no artifacts. Researchers already demonstrated that synthetic images contain patterns that can determine not only if it is a deepfake but also the generative architecture employed to create the image data itself. These traces can be exploited to study problems that have never been addressed in the context of deepfakes. To this aim, in this paper a first approach to investigate the image ballistics on deepfake images subject to style-transfer manipulations is proposed. Specifically, this paper describes a study on detecting how many times a digital image has been processed by a generative architecture for style transfer. Moreover, in order to address and study accurately forensic ballistics on deepfake images, some mathematical properties of style-transfer operations were investigated.
翻訳日:2022-03-21 13:32:35 公開日:2022-03-18
# (参考訳) アクティブラーニングのためのマージンペナルティ付き最寄り隣接分類器 [全文訳有]

Nearest Neighbor Classifier with Margin Penalty for Active Learning ( http://arxiv.org/abs/2203.09174v2 )

ライセンス: CC BY 4.0
Yuan Cao, Zhiqiao Gao, Jie Hu, Mingchuan Yang(参考訳) 自然言語処理の分野でディープラーニングが主流となるにつれ、適切な能動的学習手法の必要性は先例のない急進的になりつつある。 隣り合う分類器に基づくアクティブラーニング(AL)手法を提案し,優れた結果を示した。 しかし、既存の隣り合う分類器は互いに排他的なクラスを分類するのに適していない。 その結果、マージン領域における情報サンプルが発見できず、AL性能が損なわれる。 そこで本研究では,NCMAL(Nest Nearest neighbor Classifier with Margin penalty for Active Learning)を提案する。 まず、クラス間で強制的なマージンペナルティが加えられ、クラス間の不一致とクラス内コンパクト性の両方が保証される。 次に,新しいサンプル選択戦略を提案し,マージン領域内で有意義なサンプルを探索する。 提案手法の有効性を実証するため,他の最先端手法を用いたデータセットに対する広範な実験を行った。 実験の結果,全てのベースライン法よりも少ないアノテート標本で良好な結果が得られることがわかった。

As deep learning becomes the mainstream in the field of natural language processing, the need for suitable active learning method are becoming unprecedented urgent. Active Learning (AL) methods based on nearest neighbor classifier are proposed and demonstrated superior results. However, existing nearest neighbor classifier are not suitable for classifying mutual exclusive classes because inter-class discrepancy cannot be assured by nearest neighbor classifiers. As a result, informative samples in the margin area can not be discovered and AL performance are damaged. To this end, we propose a novel Nearest neighbor Classifier with Margin penalty for Active Learning(NCMAL). Firstly, mandatory margin penalty are added between classes, therefore both inter-class discrepancy and intra-class compactness are both assured. Secondly, a novel sample selection strategy are proposed to discover informative samples within the margin area. To demonstrate the effectiveness of the methods, we conduct extensive experiments on for datasets with other state-of-the-art methods. The experimental results demonstrate that our method achieves better results with fewer annotated samples than all baseline methods.
翻訳日:2022-03-21 13:30:12 公開日:2022-03-18
# (参考訳) ビデオ復元のためのニューラル圧縮に基づく特徴学習

Neural Compression-Based Feature Learning for Video Restoration ( http://arxiv.org/abs/2203.09208v2 )

ライセンス: CC BY 4.0
Cong Huang and Jiahao Li and Bin Li and Dong Liu and Yan Lu(参考訳) 時間的特徴を効率的に活用する方法は、ビデオ修復にとって不可欠だが難しい。 時間的特徴は、通常、様々なノイズと非相関な情報を含み、現在のフレームの復元を妨げる可能性がある。 本稿では,映像復元を支援する学習用ノイズロバスト特徴表現を提案する。 私たちは、神経コーデックが自然なデノイザーであることにインスパイアされています。 ニューラルコーデックでは、予測が難しいがコストがかかるノイズや相関のないコンテンツはビットレートの節約のために破棄される傾向がある。 そこで我々は,ノイズをフィルタリングし,最も有用な情報を映像復元機能に保持するニューラル圧縮モジュールを設計した。 雑音に対するロバスト性を実現するために, 圧縮モジュールは空間的チャネル回り量子化機構を採用し, 潜在位置毎の量子化ステップサイズを適応的に決定する。 実験により,本手法はビデオ復調性能を大幅に向上し,0.23倍のFLOPでベーシックVSR++よりも0.13dB向上できることがわかった。 一方,本手法では,ビデオデレーシングとデヘイジングのsota結果も取得する。

How to efficiently utilize the temporal features is crucial, yet challenging, for video restoration. The temporal features usually contain various noisy and uncorrelated information, and they may interfere with the restoration of the current frame. This paper proposes learning noise-robust feature representations to help video restoration. We are inspired by that the neural codec is a natural denoiser. In neural codec, the noisy and uncorrelated contents which are hard to predict but cost lots of bits are more inclined to be discarded for bitrate saving. Therefore, we design a neural compression module to filter the noise and keep the most useful information in features for video restoration. To achieve robustness to noise, our compression module adopts a spatial channel-wise quantization mechanism to adaptively determine the quantization step size for each position in the latent. Experiments show that our method can significantly boost the performance on video denoising, where we obtain 0.13 dB improvement over BasicVSR++ with only 0.23x FLOPs. Meanwhile, our method also obtains SOTA results on video deraining and dehazing.
翻訳日:2022-03-21 12:48:25 公開日:2022-03-18
# 時間と空間を通したバックプロパゲーション:マルチエージェント強化学習による数値手法の学習

Backpropagation through Time and Space: Learning Numerical Methods with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2203.08937v2 )

ライセンス: Link先を確認
Elliot Way, Dheeraj S.K. Kapilavai, Yiwei Fu, Lei Yu(参考訳) 本稿では,均質なマルチエージェント強化学習 (marl) において用いられる再帰的時空間ニューラルネットワークの学習法であるtime and space (bptts) を導入し,双曲的保存則の数値解法を学習する。 本稿では,偏微分方程式(pdes)に基づく数値スキームを強化学習(rl)における部分可観測マルコフゲーム(pomg)として扱う。 数値解法と同様に,エージェントは計算空間の各離散位置において効率的かつ一般化された学習を行う。 局所状態に作用して高次の空間的手法を学ぶためには、エージェントは与えられた時空間的位置での作用が状態の将来の進化にどのように影響するかを識別する必要がある。 この非定常性の顕在化はbpttsによって対処され、空間と時間の両方で勾配が流れることができる。 学習された数値ポリシーは、バーガーズ方程式とオイラー方程式という2つの設定のSOTA数値に匹敵し、他のシミュレーションセットとよく似たものである。

We introduce Backpropagation Through Time and Space (BPTTS), a method for training a recurrent spatio-temporal neural network, that is used in a homogeneous multi-agent reinforcement learning (MARL) setting to learn numerical methods for hyperbolic conservation laws. We treat the numerical schemes underlying partial differential equations (PDEs) as a Partially Observable Markov Game (POMG) in Reinforcement Learning (RL). Similar to numerical solvers, our agent acts at each discrete location of a computational space for efficient and generalizable learning. To learn higher-order spatial methods by acting on local states, the agent must discern how its actions at a given spatiotemporal location affect the future evolution of the state. The manifestation of this non-stationarity is addressed by BPTTS, which allows for the flow of gradients across both space and time. The learned numerical policies are comparable to the SOTA numerics in two settings, the Burgers' Equation and the Euler Equations, and generalize well to other simulation set-ups.
翻訳日:2022-03-21 12:45:13 公開日:2022-03-18
# 追加のインストラクションの価値があるデータサンプルはいくつあるか?

How Many Data Samples is an Additional Instruction Worth? ( http://arxiv.org/abs/2203.09161v2 )

ライセンス: Link先を確認
Ravsehaj Singh Puri, Swaroop Mishra, Mihir Parmar and Chitta Baral(参考訳) 最近導入された命令パラダイムは、自然言語で新しいタスクを定義することによって、NLPリソースを活用する非専門家ユーザーに権限を与える。 命令を調整したモデルは、(命令なしで)マルチタスク学習モデルを大幅に上回っているが、最先端のタスク特化モデルとは程遠い。 多数のタスクインスタンスを持つ大規模なデータセットの作成や、モデルのアーキテクチャ/トレーニング変更を通じてモデルパフォーマンスを改善するという従来のアプローチは、専門家でないユーザにとって実現不可能な場合がある。 しかし、命令タスクを表す別の命令を書くことができる。 指導指導は役に立つか? 我々は、NATURAL INSTRUCTIONSの拡張バージョンにおけるタスクのサブセットを追加命令で拡張し、特に低データ体制におけるモデル性能(最大35%)を大幅に改善することを発見した。 その結果、追加の命令はタスク全体で平均200データサンプルに相当することが判明した。

Recently introduced instruction-paradigm empowers non-expert users to leverage NLP resources by defining a new task in natural language. Instruction-tuned models have significantly outperformed multitask learning models (without instruction); however they are far from state of the art task specific models. Conventional approaches to improve model performance via creating large datasets with lots of task instances or architectural/traini ng changes in model may not be feasible for non-expert users. However, they can write alternate instructions to represent an instruction task. Is Instruction-augument ation helpful? We augment a subset of tasks in the expanded version of NATURAL INSTRUCTIONS with additional instructions and find that these significantly improve model performance (up to 35%), especially in the low-data regime. Our results indicate that an additional instruction can be equivalent to ~200 data samples on average across tasks.
翻訳日:2022-03-21 11:34:15 公開日:2022-03-18
# transframer: 生成モデルを用いた任意フレーム予測

Transframer: Arbitrary Frame Prediction with Generative Models ( http://arxiv.org/abs/2203.09494v2 )

ライセンス: Link先を確認
Charlie Nash, Jo\~ao Carreira, Jacob Walker, Iain Barr, Andrew Jaegle, Mateusz Malinowski, Peter Battaglia(参考訳) 本稿では,確率的フレーム予測に基づく画像モデリングと視覚タスクのための汎用フレームワークを提案する。 提案手法は,画像分割から新しいビュー合成,ビデオ補間に至るまで,幅広いタスクを統一する。 このフレームワークと、u-netとtransformerコンポーネントを使用してアノテーション付きコンテキストフレームを条件付けし、スパースで圧縮された画像特徴のシーケンスを出力するtransframerというアーキテクチャを組み合わせる。 Transframerは様々なビデオ生成ベンチマークの最先端技術であり、数ショットビュー合成において最強のモデルと競合し、明確な幾何学的情報なしで単一の画像からコヒーレントな30秒のビデオを生成することができる。 単一のジェネラリストトランスフレームは、タスク固有のアーキテクチャコンポーネントなしで意味セグメンテーション、画像分類、光フロー予測を含む8つのタスクで有望な結果を同時に生成し、確率的イメージモデルを用いてマルチタスクのコンピュータビジョンに取り組むことができることを実証する。 我々の手法は、注釈付き画像フォーマットデータの条件構造を学習する必要がある広範囲のアプリケーションに原則として適用することができる。

We present a general-purpose framework for image modelling and vision tasks based on probabilistic frame prediction. Our approach unifies a broad range of tasks, from image segmentation, to novel view synthesis and video interpolation. We pair this framework with an architecture we term Transframer, which uses U-Net and Transformer components to condition on annotated context frames, and outputs sequences of sparse, compressed image features. Transframer is the state-of-the-art on a variety of video generation benchmarks, is competitive with the strongest models on few-shot view synthesis, and can generate coherent 30 second videos from a single image without any explicit geometric information. A single generalist Transframer simultaneously produces promising results on 8 tasks, including semantic segmentation, image classification and optical flow prediction with no task-specific architectural components, demonstrating that multi-task computer vision can be tackled using probabilistic image models. Our approach can in principle be applied to a wide range of applications that require learning the conditional structure of annotated image-formatted data.
翻訳日:2022-03-21 11:33:59 公開日:2022-03-18
# 双方向画像再構成のためのインタラクションアテンショングラフ

Interacting Attention Graph for Single Image Two-Hand Reconstruction ( http://arxiv.org/abs/2203.09364v2 )

ライセンス: Link先を確認
Mengcheng Li, Liang An, Hongwen Zhang, Lianpeng Wu, Feng Chen, Tao Yu, Yebin Liu(参考訳) グラフ畳み込みネットワーク (gcn) は, 片手復元作業において大きな成功を収めているが, gcnによる双方向再構成の相互作用は未検討のままである。 本稿では、1つのRGB画像から2つのインタラクションハンドを再構成する最初のグラフ畳み込みネットワークであるInteracting Attention Graph Hand(IntagHand)を提案する。 両手再建における咬合・相互作用の課題を解決するため,元のGCNの各アップサンプリングステップに2つの新しい注意ベースモジュールを導入する。 最初のモジュールは、多解像度機能を利用して暗黙的に頂点対像アライメントを得るピラミッド画像特徴アテンション(PIFA)モジュールである。 第2のモジュールは、交差注意モジュール(CHA)であり、2つの手頂点間の密接な交差注意を構築することで、相互作用する手のコヒーレンスを符号化する。 その結果,本モデルはinterhand2.6mベンチマークにおいて,既存の2手法を大差で上回った。 さらに, 再建精度を向上させるため, PIFAおよびCHAモジュールの有効性について検討した。 実画像とライブビデオストリームの結果は,ネットワークの一般化能力をさらに証明している。 私たちのコードはhttps://github.com/d w1010/intaghand.comで利用可能です。

Graph convolutional network (GCN) has achieved great success in single hand reconstruction task, while interacting two-hand reconstruction by GCN remains unexplored. In this paper, we present Interacting Attention Graph Hand (IntagHand), the first graph convolution based network that reconstructs two interacting hands from a single RGB image. To solve occlusion and interaction challenges of two-hand reconstruction, we introduce two novel attention based modules in each upsampling step of the original GCN. The first module is the pyramid image feature attention (PIFA) module, which utilizes multiresolution features to implicitly obtain vertex-to-image alignment. The second module is the cross hand attention (CHA) module that encodes the coherence of interacting hands by building dense cross-attention between two hand vertices. As a result, our model outperforms all existing two-hand reconstruction methods by a large margin on InterHand2.6M benchmark. Moreover, ablation studies verify the effectiveness of both PIFA and CHA modules for improving the reconstruction accuracy. Results on in-the-wild images and live video streams further demonstrate the generalization ability of our network. Our code is available at https://github.com/D w1010/IntagHand.
翻訳日:2022-03-21 11:33:39 公開日:2022-03-18
# 空間変形ロバストなシーンテキスト画像の超解像のためのテキスト注意ネットワーク

A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution ( http://arxiv.org/abs/2203.09388v2 )

ライセンス: Link先を確認
Jianqi Ma, Zhetong Liang, Lei Zhang(参考訳) シーンテキスト画像は低解像度画像におけるテキストの解像度と可読性を高めることを目的としている。 深層畳み込みニューラルネットワーク(cnns)によって大きな改善がなされているが、空間的に変形したテキスト、特に回転および曲線状のテキストの高解像度画像の再構築は困難である。 これは、現在のCNNベースの手法が局所性に基づく操作を採用するためであり、変形による変動に対処するには有効ではない。 本稿では,CNN ベースの Text ATTention Network (TATT) を提案し,この問題に対処する。 テキストのセマンティクスは、まずテキスト事前情報としてテキスト認識モジュールによって抽出される。 次に,グローバル・アテンション・メカニズムを活用した新しいトランスフォーマティブ・モジュールの設計を行い,テキスト再構成プロセスに先立ってテキストの意味的指導を行う。 さらに,正規および変形したテキストの再構成に構造的整合性を与えることにより,視覚的外観を洗練させるテキスト構造整合性損失を提案する。 ベンチマークのTextZoomデータセットの実験では、提案したTATTはPSNR/SSIMの指標から最先端のパフォーマンスを達成するだけでなく、下流のテキスト認識タスクにおける認識精度を大幅に向上させる。 コードはhttps://github.com/m jq11302010044/TATTで入手できる。

Scene text image super-resolution aims to increase the resolution and readability of the text in low-resolution images. Though significant improvement has been achieved by deep convolutional neural networks (CNNs), it remains difficult to reconstruct high-resolution images for spatially deformed texts, especially rotated and curve-shaped ones. This is because the current CNN-based methods adopt locality-based operations, which are not effective to deal with the variation caused by deformations. In this paper, we propose a CNN based Text ATTention network (TATT) to address this problem. The semantics of the text are firstly extracted by a text recognition module as text prior information. Then we design a novel transformer-based module, which leverages global attention mechanism, to exert the semantic guidance of text prior to the text reconstruction process. In addition, we propose a text structure consistency loss to refine the visual appearance by imposing structural consistency on the reconstructions of regular and deformed texts. Experiments on the benchmark TextZoom dataset show that the proposed TATT not only achieves state-of-the-art performance in terms of PSNR/SSIM metrics, but also significantly improves the recognition accuracy in the downstream text recognition task, particularly for text instances with multi-orientation and curved shapes. Code is available at https://github.com/m jq11302010044/TATT.
翻訳日:2022-03-21 11:33:20 公開日:2022-03-18
# Vox2Cortex: 幾何学的ディープニューラルネットワークを用いた3次元MRIスキャンから皮質表面を高速に再現する

Vox2Cortex: Fast Explicit Reconstruction of Cortical Surfaces from 3D MRI Scans with Geometric Deep Neural Networks ( http://arxiv.org/abs/2203.09446v2 )

ライセンス: Link先を確認
Fabian Bongratz, Anne-Marie Rickmann, Sebastian P\"olsterl, Christian Wachinger(参考訳) 脳磁気共鳴画像(MRI)スキャンによる皮質表面の再構築は、皮質の厚さとsulcal morphologyの定量的解析に不可欠である。 この目的のために、伝統的なディープラーニングベースのアルゴリズムパイプラインは存在するが、それらは2つの大きな欠点がある: 複数時間(伝統的)の長いランタイム、またはメッシュ抽出やトポロジ補正(ディープラーニングベース)のような複雑な後処理である。 本研究では,これら2つの問題に対処し,大脳皮質の境界の3次元メッシュを直接生成する深層学習に基づくアルゴリズムであるVox2Cortexを提案する。 Vox2Cortexは畳み込みニューラルネットワークとグラフ畳み込みニューラルネットワークを利用して、入力MRIスキャンで表される大脳皮質の密に折り畳まれた幾何学に初期テンプレートを変形する。 我々は3つの脳MRIデータセットの広範な実験で、我々のメッシュは時間とリソース集約的な後処理を必要とせずに、現場の最先端の手法で再構築されたものと同じくらい正確であることを示した。 密に折りたたまれた皮質を正確に再構築するために、テスト時に約168,000個の頂点を含むメッシュを用いて、深部明示的な再構成方法を新しいレベルにスケールする。

The reconstruction of cortical surfaces from brain magnetic resonance imaging (MRI) scans is essential for quantitative analyses of cortical thickness and sulcal morphology. Although traditional and deep learning-based algorithmic pipelines exist for this purpose, they have two major drawbacks: lengthy runtimes of multiple hours (traditional) or intricate post-processing, such as mesh extraction and topology correction (deep learning-based). In this work, we address both of these issues and propose Vox2Cortex, a deep learning-based algorithm that directly yields topologically correct, three-dimensional meshes of the boundaries of the cortex. Vox2Cortex leverages convolutional and graph convolutional neural networks to deform an initial template to the densely folded geometry of the cortex represented by an input MRI scan. We show in extensive experiments on three brain MRI datasets that our meshes are as accurate as the ones reconstructed by state-of-the-art methods in the field, without the need for time- and resource-intensive post-processing. To accurately reconstruct the tightly folded cortex, we work with meshes containing about 168,000 vertices at test time, scaling deep explicit reconstruction methods to a new level.
翻訳日:2022-03-21 11:32:54 公開日:2022-03-18