このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211129となっている論文です。

PDF登録状況(公開日: 20211129)

TitleAuthorsAbstract論文公表日・翻訳日
# フランス臨床文書からの薬物関連情報の自動抽出 - relyfeアプローチ-

Automated Drug-Related Information Extraction from French Clinical Documents: ReLyfe Approach ( http://arxiv.org/abs/2112.11439v1 )

ライセンス: Link先を確認
Azzam Alwan, Maayane Attias, Larry Rubin, Adnan El Bakri(参考訳) フランスにおける医療データの構造化は、プライバシー上の懸念による医療データの欠如と、フランス語の処理方法やアプローチの欠如が主な原因である。 これらの課題の1つは、フランスの臨床文書における薬物関連情報の構造化である。 私たちの知る限り、過去10年間、フランスの処方薬を研究する関連論文は5つ以下しかありません。 本稿では, 患者のプライバシーを保ちつつ, フランスの臨床検査文書から薬物関連情報を抽出する新しい手法を提案する。 また,本手法を健康データ管理プラットフォームに導入し,薬物の医療データを構造化し,患者が薬のスケジュールを整理するのを助ける。 あらゆるWebプラットフォームやモバイルプラットフォームで実装できる。 この作業は、実際のプロダクション問題に適応したアプリケーションを作成することによって、理論と実践のギャップを埋める。 これはルールベースのフェーズとディープラーニングアプローチを組み合わせたものです。 最後に,提案手法の有効性と性能を示す数値計算を行った。

Structuring medical data in France remains a challenge mainly because of the lack of medical data due to privacy concerns and the lack of methods and approaches on processing the French language. One of these challenges is structuring drug-related information in French clinical documents. To our knowledge, over the last decade, there are less than five relevant papers that study French prescriptions. This paper proposes a new approach for extracting drug-related information from French clinical scanned documents while preserving patients' privacy. In addition, we deployed our method in a health data management platform where it is used to structure drug medical data and help patients organize their drug schedules. It can be implemented on any web or mobile platform. This work closes the gap between theoretical and practical work by creating an application adapted to real production problems. It is a combination of a rule-based phase and a Deep Learning approach. Finally, numerical results show the outperformance and relevance of the proposed methodology.
翻訳日:2021-12-26 13:18:09 公開日:2021-11-29
# 音楽タギングのための歌詞文書埋め込み

Lyric document embeddings for music tagging ( http://arxiv.org/abs/2112.11436v1 )

ライセンス: Link先を確認
Matt McVicar, Bruno Di Giorgi, Baris Dundar, Matthias Mauch(参考訳) 本研究では,楽曲の歌詞を音楽タグ付けのための固定次元特徴に組み込む実験的検討を行った。 数千万曲の産業規模データセット上で,トークンレベルと文書レベル表現の5つの計算方法と4つの計算方法を訓練する。 プレトレーニング済み埋め込みの簡単な平均化と、現代の繰り返しおよび注意に基づくニューラルアーキテクチャを比較した。 ジャンル分類や明示的コンテンツ識別,年代検出など,幅広いタグ付けタスクを評価した結果,平均的な単語埋め込みは下流の多くのメトリクスにおいて,より複雑なアーキテクチャよりも優れていることがわかった。

We present an empirical study on embedding the lyrics of a song into a fixed-dimensional feature for the purpose of music tagging. Five methods of computing token-level and four methods of computing document-level representations are trained on an industrial-scale dataset of tens of millions of songs. We compare simple averaging of pretrained embeddings to modern recurrent and attention-based neural architectures. Evaluating on a wide range of tagging tasks such as genre classification, explicit content identification and era detection, we find that averaging word embeddings outperform more complex architectures in many downstream metrics.
翻訳日:2021-12-26 13:17:20 公開日:2021-11-29
# 音声認識のためのニューラルネットワーク言語モデルの混合精度低ビット量子化

Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition ( http://arxiv.org/abs/2112.11438v1 )

ライセンス: Link先を確認
Junhao Xu, Jianwei Yu, Shoukang Hu, Xunying Liu, Helen Meng(参考訳) 長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。 低ビットニューラルネットワーク量子化は、モデルサイズを劇的に削減する強力なソリューションを提供する。 現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。 そこで本研究では,新しい混合精度ニューラルネットワークLM量子化法を提案する。 LSTM-RNNとTransformerベースのニューラルLMの最適局所精度選択は、3つの手法を用いて自動的に学習される。 最初の2つのアプローチは、完全精度と量子化LM間で測定されたKL偏差の形での量子化感度測定と、行列フリー手法で効率的に近似できるヘッセントレース重み付き量子化摂動に基づいている。 第3のアプローチは、混合精度ニューラルネットワークアーキテクチャ探索に基づいている。 離散量子化重量を直接推定するために勾配降下法を用いることの難しさを克服するために、乗算器の交互方向法(ADMM)を用いて量子化LMを効率的に訓練する。 高速摂動, i-Vector, およびLHUCに基づく話者適応機能を備えた最新のLF-MMI CNN-TDNNシステムの実験を行った。 提案した混合精度量子化技術は,全精度LSTMおよびトランスフォーマーベースラインLMのモデルサイズ圧縮比を最大16倍にし,統計的に有意な単語誤り率の増加は生じなかった。

State-of-the-art language models (LMs) represented by long-short term memory recurrent neural networks (LSTM-RNNs) and Transformers are becoming increasingly complex and expensive for practical applications. Low-bit neural network quantization provides a powerful solution to dramatically reduce their model size. Current quantization methods are based on uniform precision and fail to account for the varying performance sensitivity at different parts of LMs to quantization errors. To this end, novel mixed precision neural network LM quantization methods are proposed in this paper. The optimal local precision choices for LSTM-RNN and Transformer based neural LMs are automatically learned using three techniques. The first two approaches are based on quantization sensitivity metrics in the form of either the KL-divergence measured between full precision and quantized LMs, or Hessian trace weighted quantization perturbation that can be approximated efficiently using matrix free techniques. The third approach is based on mixed precision neural architecture search. In order to overcome the difficulty in using gradient descent methods to directly estimate discrete quantized weights, alternating direction methods of multipliers (ADMM) are used to efficiently train quantized LMs. Experiments were conducted on state-of-the-art LF-MMI CNN-TDNN systems featuring speed perturbation, i-Vector and learning hidden unit contribution (LHUC) based speaker adaptation on two tasks: Switchboard telephone speech and AMI meeting transcription. The proposed mixed precision quantization techniques achieved "lossless" quantization on both tasks, by producing model size compression ratios of up to approximately 16 times over the full precision LSTM and Transformer baseline LMs, while incurring no statistically significant word error rate increase.
翻訳日:2021-12-26 13:16:43 公開日:2021-11-29
# 音声認識用トランス言語モデルの量子化の混合精度

Mixed Precision of Quantization of Transformer Language Models for Speech Recognition ( http://arxiv.org/abs/2112.11540v1 )

ライセンス: Link先を確認
Junhao Xu, Shoukang Hu, Jianwei Yu, Xunying Liu, Helen Meng(参考訳) トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。 低ビットのディープニューラルネットワーク量子化技術は、モデルサイズを劇的に削減する強力なソリューションを提供する。 現在の低ビット量子化法は、均一な精度に基づいており、量子化誤差に対するシステムの様々な部分のパフォーマンス感度を考慮できない。 そこで本研究では,新しい混合精度DNN量子化法を提案する。 最適な局所精度設定は2つの手法で自動的に学習される。 1つ目は、ヘッセントレース重み付き量子化摂動の形での量子化感度計量に基づいている。 2つ目は混合精密変圧器アーキテクチャ探索に基づくものである。 乗算器の交互方向法(ADMM)は、混合精度の量子化DNNシステムを効率的に訓練するために用いられる。 Penn Treebank (PTB) と Switchboard corpus の LF-MMI TDNN システムを用いて行った実験から,提案した混合精度変換器量子化技術は,認識性能を低下させることなく,全精度ベースライン上で最大16倍のモデルサイズ圧縮比を達成したことが示唆された。 より大きな全精度変換器LMをより多くの層で圧縮するために使用すると、全体的な単語誤り率(WER)は1.7%の絶対値(1%)まで低下する。

State-of-the-art neural language models represented by Transformers are becoming increasingly complex and expensive for practical applications. Low-bit deep neural network quantization techniques provides a powerful solution to dramatically reduce their model size. Current low-bit quantization methods are based on uniform precision and fail to account for the varying performance sensitivity at different parts of the system to quantization errors. To this end, novel mixed precision DNN quantization methods are proposed in this paper. The optimal local precision settings are automatically learned using two techniques. The first is based on a quantization sensitivity metric in the form of Hessian trace weighted quantization perturbation. The second is based on mixed precision Transformer architecture search. Alternating direction methods of multipliers (ADMM) are used to efficiently train mixed precision quantized DNN systems. Experiments conducted on Penn Treebank (PTB) and a Switchboard corpus trained LF-MMI TDNN system suggest the proposed mixed precision Transformer quantization techniques achieved model size compression ratios of up to 16 times over the full precision baseline with no recognition performance degradation. When being used to compress a larger full precision Transformer LM with more layers, overall word error rate (WER) reductions up to 1.7% absolute (18% relative) were obtained.
翻訳日:2021-12-26 13:16:12 公開日:2021-11-29
# (参考訳) md推論ニューラルネットワークによる$\beta$-hmxのためのモノクリニック有限ひずみ超弾性モデル:ソボレフトレーニングと物理的制約に対する検証 [全文訳有]

MD-inferred neural network monoclinic finite-strain hyperelasticity models for $\beta$-HMX: Sobolev training and validation against physical constraints ( http://arxiv.org/abs/2112.02077v1 )

ライセンス: CC BY 4.0
Nikolaos N. Vlassis, Puhan Zhao, Ran Ma, Tommy Sewell, WaiChing Sun(参考訳) 本稿では, モノクリニックな有機分子結晶である$\beta$-HMXの非線型状態における異方性弾性応答を予測するために, ニューラルネットワークをトレーニングし, 検証するための機械学習フレームワークを提案する。 filtered molecular dynamic (md) simulations databaseは、ストレス測度と参照構成を用いて弾性保存エネルギー汎関数を推定するソボレフノルムを用いてニューラルネットワークを訓練するために使用される。 学習した記憶エネルギーに由来する弾性接予測の精度を向上させるために、モデルの正しさに対する必要条件(強楕円性、結晶対称性など)が追加の物理的制約として導入されたり、検証試験に組み込まれたりしながら、データから追加の接制約を導入する転写学習技術を用いる。 ニューラルネットワークの評価は,(1)MDが予測した底線構成応答を再現する精度,(2)安定性と特異性の詳細な検証,(3)有限変形系における連続体力学理論に対する予測応答の許容性に基づく。 異なるソボレフ制約下でニューラルネットワークのトレーニング効率を比較し,$\beta$-hmxのmdベンチマークに対するモデルの正確性と頑健性を評価する。

We present a machine learning framework to train and validate neural networks to predict the anisotropic elastic response of the monoclinic organic molecular crystal $\beta$-HMX in the geometrical nonlinear regime. A filtered molecular dynamic (MD) simulations database is used to train the neural networks with a Sobolev norm that uses the stress measure and a reference configuration to deduce the elastic stored energy functional. To improve the accuracy of the elasticity tangent predictions originating from the learned stored energy, a transfer learning technique is used to introduce additional tangential constraints from the data while necessary conditions (e.g. strong ellipticity, crystallographic symmetry) for the correctness of the model are either introduced as additional physical constraints or incorporated in the validation tests. Assessment of the neural networks is based on (1) the accuracy with which they reproduce the bottom-line constitutive responses predicted by MD, (2) detailed examination of their stability and uniqueness, and (3) admissibility of the predicted responses with respect to continuum mechanics theory in the finite-deformation regime. We compare the neural networks' training efficiency under different Sobolev constraints and assess the models' accuracy and robustness against MD benchmarks for $\beta$-HMX.
翻訳日:2021-12-12 17:02:10 公開日:2021-11-29
# 競技オンラインゲームにおける行動信号を用いたプレイヤーモデリング

Player Modeling using Behavioral Signals in Competitive Online Games ( http://arxiv.org/abs/2112.04379v1 )

ライセンス: Link先を確認
Arman Dehpanah, Muheeb Faizan Ghori, Jonathan Gemmell, Bamshad Mobasher(参考訳) 競争的なオンラインゲームは、プレイヤーが満足できる体験を確実にするために、同様のスキルを持つプレイヤーと対戦するためにレーティングシステムを使用する。 本稿では,マッチング作成のためのプレイヤーのモデリングにおいて,演奏行動の異なる側面に対処することの重要性に焦点を当てる。 この目的のために、我々は75,000以上のバトルロイヤルマッチのデータセットからいくつかの行動特徴を設計し、得られた特徴に基づいてプレイヤーモデルを作成する。 次に、作成したモデルを使用して、データ内のさまざまなプレイヤーのグループのランクを予測します。 予測順位は3つの人気格付けシステムと比較される。 本結果は,本格評価システムよりも単純な行動モデルの方が優れていることを示す。 いくつかの行動的特徴はプレイヤーの全てのグループに正確な予測を与え、一方あるプレイヤーのグループには有用であることが証明された。 本研究は,課題を立てる際に,ゴール,戦略,専門知識など,選手の行動の異なる側面を考える必要があることを強調した。

Competitive online games use rating systems to match players with similar skills to ensure a satisfying experience for players. In this paper, we focus on the importance of addressing different aspects of playing behavior when modeling players for creating match-ups. To this end, we engineer several behavioral features from a dataset of over 75,000 battle royale matches and create player models based on the retrieved features. We then use the created models to predict ranks for different groups of players in the data. The predicted ranks are compared to those of three popular rating systems. Our results show the superiority of simple behavioral models over mainstream rating systems. Some behavioral features provided accurate predictions for all groups of players while others proved useful for certain groups of players. The results of this study highlight the necessity of considering different aspects of the player's behavior such as goals, strategy, and expertise when making assignments.
翻訳日:2021-12-12 15:20:20 公開日:2021-11-29
# (参考訳) less is more: ランドマークからグラウンドドナビゲーション命令を生成する [全文訳有]

Less is More: Generating Grounded Navigation Instructions from Landmarks ( http://arxiv.org/abs/2111.12872v2 )

ライセンス: CC BY 4.0
Su Wang, Ceslee Montgomery, Jordi Orbay, Vighnesh Birodkar, Aleksandra Faust, Izzeddin Gur, Natasha Jaques, Austin Waters, Jason Baldridge, Peter Anderson(参考訳) 屋内経路で撮影した360度画像からナビゲーション指示の自動生成について検討した。 既存のジェネレータは視覚的な接地が悪く、言語に先立って依存し、オブジェクトを幻覚させる。 我々のMARKY-MT5システムは、視覚的ランドマークに焦点を当ててこの問題に対処し、第1ステージランドマーク検出器と第2ステージジェネレータ - マルチモーダル、マルチ言語、マルチタスクエンコーダ-デコーダ - を備える。 トレーニングのために、Room-across-Room(RxR )データセット上にランドマークアノテーションを根拠にしています。 テキストパーサ,rxrのポーズトレースからの弱い監督,1.8b画像で訓練された多言語画像テキストエンコーダを用いて,英語,ヒンディー語,テルグ語のランドマーク記述1.1mを同定し,パノラマの特定の領域に配置した。 Room-to-Roomでは、MARKY-MT5の指示に従って、人間のウェイファインダーが71%の成功率(SR)を得る。 RxRの長い様々な経路の評価では、3つの言語で61-64%のSRが得られる。 このような高品質なナビゲーション命令を新しい環境で生成することは、対話型ナビゲーションツールへの一歩であり、命令追従エージェントの大規模トレーニングを容易にする。

We study the automatic generation of navigation instructions from 360-degree images captured on indoor routes. Existing generators suffer from poor visual grounding, causing them to rely on language priors and hallucinate objects. Our MARKY-MT5 system addresses this by focusing on visual landmarks; it comprises a first stage landmark detector and a second stage generator -- a multimodal, multilingual, multitask encoder-decoder. To train it, we bootstrap grounded landmark annotations on top of the Room-across-Room (RxR) dataset. Using text parsers, weak supervision from RxR's pose traces, and a multilingual image-text encoder trained on 1.8b images, we identify 1.1m English, Hindi and Telugu landmark descriptions and ground them to specific regions in panoramas. On Room-to-Room, human wayfinders obtain success rates (SR) of 71% following MARKY-MT5's instructions, just shy of their 75% SR following human instructions -- and well above SRs with other generators. Evaluations on RxR's longer, diverse paths obtain 61-64% SRs on three languages. Generating such high-quality navigation instructions in novel environments is a step towards conversational navigation tools and could facilitate larger-scale training of instruction-followin g agents.
翻訳日:2021-12-05 01:36:34 公開日:2021-11-29
# グラフィオン平均場ゲームと近似ナッシュ平衡の学習

Learning Graphon Mean Field Games and Approximate Nash Equilibria ( http://arxiv.org/abs/2112.01280v1 )

ライセンス: Link先を確認
Kai Cui, Heinz Koeppl(参考訳) 密集した大規模グラフ限界と平均フィールドゲームとの交点における最近の進歩は、多数のエージェントを持つ幅広いダイナミックシーケンシャルゲームのスケーラブルな分析を可能にし始めた。 これまでの結果は主に、連続時間微分あるいはジャンプダイナミクスを持つグラフェン平均場システムに限られており、通常は制御がなく、計算手法にほとんど焦点を合わせていない。 弱い相互作用を持つ非線型グラフグラフマルコフゲームの極限として,グラノン平均場ゲームに対する離散時間の新定式化を提案する。 理論的には、十分大きな系におけるグラフェン平均場解の広範囲で厳密な存在と近似性を与える。 実践的には,エージェント等価クラスを導入するか,あるいは古典的な平均場システムとしてgraphon平均場システムを再構成することにより,graphon平均場平衡のための一般的な学習スキームを提供する。 正規化最適制御解とその生成平均場を反復的に求めることにより,多数のエージェントを持つ非可逆大密グラフゲームにおいて,可算近似ナッシュ平衡を得ることに成功した。 経験的に、グラフやシステムサイズが大きくなるにつれて、有限エージェントの挙動が計算された平衡の平均場挙動に近づき、理論が検証されることを実証することができる。 より一般に,逐次モンテカルロ法を併用した政策勾配強化学習を成功させた。

Recent advances at the intersection of dense large graph limits and mean field games have begun to enable the scalable analysis of a broad class of dynamical sequential games with large numbers of agents. So far, results have been largely limited to graphon mean field systems with continuous-time diffusive or jump dynamics, typically without control and with little focus on computational methods. We propose a novel discrete-time formulation for graphon mean field games as the limit of non-linear dense graph Markov games with weak interaction. On the theoretical side, we give extensive and rigorous existence and approximation properties of the graphon mean field solution in sufficiently large systems. On the practical side, we provide general learning schemes for graphon mean field equilibria by either introducing agent equivalence classes or reformulating the graphon mean field system as a classical mean field system. By repeatedly finding a regularized optimal control solution and its generated mean field, we successfully obtain plausible approximate Nash equilibria in otherwise infeasible large dense graph games with many agents. Empirically, we are able to demonstrate on a number of examples that the finite-agent behavior comes increasingly close to the mean field behavior for our computed equilibria as the graph or system size grows, verifying our theory. More generally, we successfully apply policy gradient reinforcement learning in conjunction with sequential Monte Carlo methods.
翻訳日:2021-12-03 17:30:53 公開日:2021-11-29
# フェデレーション学習におけるデータ分布が公正性とロバスト性に及ぼす影響

The Impact of Data Distribution on Fairness and Robustness in Federated Learning ( http://arxiv.org/abs/2112.01274v1 )

ライセンス: Link先を確認
Mustafa Safa Ozdayi and Murat Kantarcioglu(参考訳) Federated Learning(FL)は、エージェントの集合がデータセットを共有することなく、協調的にモデルをトレーニングできる分散機械学習プロトコルである。 これにより、FLは特にデータのプライバシが求められる設定に適している。 しかし、flの性能はエージェントの局所データ分布の類似性と密接に関連していることが観察されている。 特にエージェントのデータ分布が異なるため、トレーニングされたモデルの精度は低下する。 本研究では、局所的なデータ分布の変化が、精度に加えて、訓練されたモデルの公正性とロバスト性に与える影響について考察する。 実験の結果,訓練されたモデルではバイアスが高く,局所的なデータ分布が異なるほど攻撃を受けやすいことが示唆された。 重要なことは、公正性の劣化と堅牢性は、精度よりもはるかに深刻である。 したがって、トレーニングされたモデルを公正/セキュリティクリティカルなコンテキストにデプロイする場合、正確性にほとんど影響を与えない小さなバリエーションが依然として重要であることが分かりました。

Federated Learning (FL) is a distributed machine learning protocol that allows a set of agents to collaboratively train a model without sharing their datasets. This makes FL particularly suitable for settings where data privacy is desired. However, it has been observed that the performance of FL is closely related to the similarity of the local data distributions of agents. Particularly, as the data distributions of agents differ, the accuracy of the trained models drop. In this work, we look at how variations in local data distributions affect the fairness and the robustness properties of the trained models in addition to the accuracy. Our experimental results indicate that, the trained models exhibit higher bias, and become more susceptible to attacks as local data distributions differ. Importantly, the degradation in the fairness, and robustness can be much more severe than the accuracy. Therefore, we reveal that small variations that have little impact on the accuracy could still be important if the trained model is to be deployed in a fairness/security critical context.
翻訳日:2021-12-03 14:36:11 公開日:2021-11-29
# テンポラルテキストデータにおける話題分布の変化点解析

Changepoint Analysis of Topic Proportions in Temporal Text Data ( http://arxiv.org/abs/2112.00827v1 )

ライセンス: Link先を確認
Avinandan Bose, Soumendu Sundar Mukherjee(参考訳) 変更点分析は、データ生成の分布が変化するとき、時系列データにおける教師なしの検出および/またはタイムポイントの推定を扱う。 本稿では,大規模テキストデータの文脈で \emph{offline} 変化点検出について考察する。 トピック比の分布に変化点を規定する特化時間トピックモデルを構築した。 このモデルにおける全帰納法に基づく推論は計算に難解であるため,計算に難解な近似推論手法を開発した。 より具体的には、まずトピックポリトープを推定するためにサンプル分割を使用し、その後、fryzlewicz et al. (2014) のワイルドバイナリセグメンテーションアルゴリズムの修正版と共に確率比統計を適用する。 提案手法は,ドメインエキスパートによる手動処理を必要とせず,大規模コーパスにおける構造変化の自動検出を容易にする。 我々のモデルにおける変化点が話題構造の変化に対応するため、予測された変化点はしばしば、流行する話題の急増や人気低下を示すものとして解釈される。 2つの大きなデータセットに手順を適用する。 (i)1800-1922年の英文学のコーパス(Underwoodet al., 2015) (II)高エネルギー物理arXivリポジトリからの要約(Clementet al., 2019) 歴史的によく知られた変更点を取得し、新しい変更点を見つけます。

Changepoint analysis deals with unsupervised detection and/or estimation of time-points in time-series data, when the distribution generating the data changes. In this article, we consider \emph{offline} changepoint detection in the context of large scale textual data. We build a specialised temporal topic model with provisions for changepoints in the distribution of topic proportions. As full likelihood based inference in this model is computationally intractable, we develop a computationally tractable approximate inference procedure. More specifically, we use sample splitting to estimate topic polytopes first and then apply a likelihood ratio statistic together with a modified version of the wild binary segmentation algorithm of Fryzlewicz et al. (2014). Our methodology facilitates automated detection of structural changes in large corpora without the need of manual processing by domain experts. As changepoints under our model correspond to changes in topic structure, the estimated changepoints are often highly interpretable as marking the surge or decline in popularity of a fashionable topic. We apply our procedure on two large datasets: (i) a corpus of English literature from the period 1800-1922 (Underwoodet al., 2015); (ii) abstracts from the High Energy Physics arXiv repository (Clementet al., 2019). We obtain some historically well-known changepoints and discover some new ones.
翻訳日:2021-12-03 14:08:43 公開日:2021-11-29
# (参考訳) 特徴選択とインプテーションによるランダムウォークランキングの改善 [全文訳有]

Improving random walk rankings with feature selection and imputation ( http://arxiv.org/abs/2111.15635v1 )

ライセンス: CC BY 4.0
Ngoc Mai Tran, Yangxinyu Xie(参考訳) Science4castコンペティションはセマンティックネットワークにおける新しいリンクを予測し、各ノードは概念を表し、各エッジは2つの概念に関する論文によって提案されたリンクを表す。 このネットワークには1994年から2017年までの情報が含まれており、日数(基礎となる論文の発行日を表す)を区別している。 team hash brownの最終的な提案である \emph{ee5a} は、テストセットで0.92738のスコアを達成した。 私たちのチームの得点は、勝者のスコアより0.01低い2位である。 本稿では,我々のモデル,その直観,およびテストセットのバリエーションの性能について詳述する。

The Science4cast Competition consists of predicting new links in a semantic network, with each node representing a concept and each edge representing a link proposed by a paper relating two concepts. This network contains information from 1994-2017, with a discretization of days (which represents the publication date of the underlying papers). Team Hash Brown's final submission, \emph{ee5a}, achieved a score of 0.92738 on the test set. Our team's score ranks \emph{second place}, 0.01 below the winner's score. This paper details our model, its intuition, and the performance of its variations in the test set.
翻訳日:2021-12-02 08:38:38 公開日:2021-11-29
# (参考訳) 協調AIにおける敵対的攻撃 [全文訳有]

Adversarial Attacks in Cooperative AI ( http://arxiv.org/abs/2111.14833v1 )

ライセンス: CC BY-SA 4.0
Ted Fujimoto and Arthur Paul Pedersen(参考訳) 多エージェント環境における単エージェント強化学習アルゴリズムは協調の育成には不十分である。 インテリジェントエージェントが相互作用し、複雑な問題を解決するために協力するならば、複数のエージェントのトレーニングを促進するためには、非協力的な動作に対抗する方法が必要となる。 これは協力的なAIの目標です。 しかし、近年の敵対的機械学習の研究は、モデル(例えば画像分類器)が容易に誤った決定を下すことができることを示している。 さらに、協調AIにおける過去の研究は、最適な協調行動の学習を促進するために、公的な信念のような新しい表現の概念に依存してきた。 したがって、協調的なAIは、以前の機械学習研究では研究されなかった新たな弱点をもたらす可能性がある。 本稿では,(1)人間のような社会知性にインスパイアされた3つのアルゴリズムが,敵が活用できるAIに特有の新たな脆弱性を導入し,(2)エージェントの信念に対する単純で敵対的な摂動がパフォーマンスに悪影響を及ぼすことを示す実験を含む。 この証拠は、社会的行動の形式的表現が敵の攻撃に弱い可能性を示している。

Single-agent reinforcement learning algorithms in a multi-agent environment are inadequate for fostering cooperation. If intelligent agents are to interact and work together to solve complex problems, methods that counter non-cooperative behavior are needed to facilitate the training of multiple agents. This is the goal of cooperative AI. Recent work in adversarial machine learning, however, shows that models (e.g., image classifiers) can be easily deceived into making incorrect decisions. In addition, some past research in cooperative AI has relied on new notions of representations, like public beliefs, to accelerate the learning of optimally cooperative behavior. Hence, cooperative AI might introduce new weaknesses not investigated in previous machine learning research. In this paper, our contributions include: (1) arguing that three algorithms inspired by human-like social intelligence introduce new vulnerabilities, unique to cooperative AI, that adversaries can exploit, and (2) an experiment showing that simple, adversarial perturbations on the agents' beliefs can negatively impact performance. This evidence points to the possibility that formal representations of social behavior are vulnerable to adversarial attacks.
翻訳日:2021-12-02 08:31:27 公開日:2021-11-29
# (参考訳) 時系列データに対する自己教師付き自己回帰ドメイン適応

Self-supervised Autoregressive Domain Adaptation for Time Series Data ( http://arxiv.org/abs/2111.14834v1 )

ライセンス: CC BY 4.0
Mohamed Ragab, Emadeldeen Eldele, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, and Xiaoli Li(参考訳) 教師なしドメイン適応(UDA)は、視覚アプリケーションにおけるドメインシフト問題にうまく対処している。 しかし、これらの手法は以下の理由から時系列データの性能に制限がある可能性がある。 まず、主に時系列データには適用できないソース事前トレーニングのために大規模なデータセット(イメージネット)に依存している。 第二に、彼らはドメインアライメントステップの間、ソースとターゲットドメインの特徴空間の時間次元を無視します。 最後に、以前のUDAメソッドのほとんどは、対象ドメインの詳細なクラス分布を考慮せずにグローバルな特徴を調整できる。 このような制約に対処するために,自己監督型自己回帰ドメイン適応(SLARDA)フレームワークを提案する。 特に,予測を補助タスクとして利用する自己教師付き学習モジュールをまず設計し,ソース機能の転送性を向上させる。 第2に、ドメインアライメント中のソースとターゲットの特徴の時間的依存性を組み込んだ、新しい自己回帰型ドメイン適応手法を提案する。 最後に,親密な擬似ラベリング手法を用いて,対象領域のクラスワイド分布を整列するアンサンブル教師モデルを構築した。 30のクロスドメインシナリオを含む3つの実世界の時系列アプリケーションで広範な実験が行われている。 その結果,提案手法は時系列領域適応のための最先端手法よりも優れていた。

Unsupervised domain adaptation (UDA) has successfully addressed the domain shift problem for visual applications. Yet, these approaches may have limited performance for time series data due to the following reasons. First, they mainly rely on large-scale dataset (i.e., ImageNet) for the source pretraining, which is not applicable for time-series data. Second, they ignore the temporal dimension on the feature space of the source and target domains during the domain alignment step. Last, most of prior UDA methods can only align the global features without considering the fine-grained class distribution of the target domain. To address these limitations, we propose a Self-supervised Autoregressive Domain Adaptation (SLARDA) framework. In particular, we first design a self-supervised learning module that utilizes forecasting as an auxiliary task to improve the transferability of the source features. Second, we propose a novel autoregressive domain adaptation technique that incorporates temporal dependency of both source and target features during domain alignment. Finally, we develop an ensemble teacher model to align the class-wise distribution in the target domain via a confident pseudo labeling approach. Extensive experiments have been conducted on three real-world time series applications with 30 cross-domain scenarios. Results demonstrate that our proposed SLARDA method significantly outperforms the state-of-the-art approaches for time series domain adaptation.
翻訳日:2021-12-02 08:23:16 公開日:2021-11-29
# (参考訳) p2pGNN:ピアツーピアネットワークにおけるノード分類のための分散グラフニューラルネットワーク [全文訳有]

p2pGNN: A Decentralized Graph Neural Network for Node Classification in Peer-to-Peer Networks ( http://arxiv.org/abs/2111.14837v1 )

ライセンス: CC BY-SA 4.0
Emmanouil Krasanakis, Symeon Papadopoulos, Ioannis Kompatsiaris(参考訳) 本研究では,非構造化ピアツーピアネットワークのノードを分散化ソーシャルネットワークのユーザなど通信の不確実性で分類することを目的とする。 グラフニューラルネットワーク(gnns)は、自然発生するネットワークリンクを利用することで、中央集権設定におけるより単純な分類器の精度を向上させることが知られているが、グラフ畳み込み層は、ノード近傍が常に利用できない場合に分散設定を実装することが困難である。 本稿では,学習後のグラフを通じてベース分類器の予測とエラーが拡散される,分離gnnを用いてこの問題に対処する。 そこで我々は,事前学習およびゴシップ学習による基本分類器をデプロイし,通信不確実性の下でピアツーピアグラフ拡散を実装する。 特に,通信速度に対して線形に同じ予測で収束する拡散の非同期分散定式化を考案する。 我々はノードの特徴とラベルを持つ3つの実世界のグラフを実験し、一様ランダムな通信周波数でピアツーピアネットワークをシミュレートする。

In this work, we aim to classify nodes of unstructured peer-to-peer networks with communication uncertainty, such as users of decentralized social networks. Graph Neural Networks (GNNs) are known to improve the accuracy of simpler classifiers in centralized settings by leveraging naturally occurring network links, but graph convolutional layers are challenging to implement in decentralized settings when node neighbors are not constantly available. We address this problem by employing decoupled GNNs, where base classifier predictions and errors are diffused through graphs after training. For these, we deploy pre-trained and gossip-trained base classifiers and implement peer-to-peer graph diffusion under communication uncertainty. In particular, we develop an asynchronous decentralized formulation of diffusion that converges at the same predictions linearly with respect to communication rate. We experiment on three real-world graphs with node features and labels and simulate peer-to-peer networks with uniformly random communication frequencies; given a portion of known labels, our decentralized graph diffusion achieves comparable accuracy to centralized GNNs.
翻訳日:2021-12-02 08:22:20 公開日:2021-11-29
# (参考訳) アーキテクチャの問題: ニューラルネットワーク設計における差分プライバシーの影響を探る [全文訳有]

Architecture Matters: Investigating the Influence of Differential Privacy on Neural Network Design ( http://arxiv.org/abs/2111.14924v1 )

ライセンス: CC BY 4.0
Felix Morsbach, Tobias Dehling, Ali Sunyaev(参考訳) 微分プライベートニューラルネットワークをより広く採用する上での障壁の1つは、関連する精度損失である。 この問題に対処するためには、ニューラルネットワークアーキテクチャと差分プライバシー制約下でのモデル精度の関係をよりよく理解する必要がある。 最初のステップとして、アーキテクチャ設計に関する既存の知識が、微分プライベートな設定にも当てはまるかどうかをテストする。 差分プライバシなしでうまく機能するアーキテクチャは、必ずしも差分プライバシで機能するとは限らない。 したがって、ニューラルネットワークアーキテクチャ設計に関する既存の知識は、差分プライバシーコンテキストにシームレスに変換することはできない。 将来の研究は、ニューラルネットワークアーキテクチャとモデル精度の関係をよりよく理解し、差分プライバシー制約下でのアーキテクチャ設計選択の改善を可能にする必要がある。

One barrier to more widespread adoption of differentially private neural networks is the entailed accuracy loss. To address this issue, the relationship between neural network architectures and model accuracy under differential privacy constraints needs to be better understood. As a first step, we test whether extant knowledge on architecture design also holds in the differentially private setting. Our findings show that it does not; architectures that perform well without differential privacy, do not necessarily do so with differential privacy. Consequently, extant knowledge on neural network architecture design cannot be seamlessly translated into the differential privacy context. Future research is required to better understand the relationship between neural network architectures and model accuracy to enable better architecture design choices under differential privacy constraints.
翻訳日:2021-12-02 08:08:06 公開日:2021-11-29
# (参考訳) 新型コロナウイルス感染時の航空顧客行動の分布変化 [全文訳有]

Distribution Shift in Airline Customer Behavior during COVID-19 ( http://arxiv.org/abs/2111.14938v1 )

ライセンス: CC BY 4.0
Abhinav Garg, Naman Shukla, Lavanya Marla, Sriram Somanchi(参考訳) カスタマイズされた(個人化された)コンテキスト価格アプリケーションにおける従来のAIアプローチは、オンライン価格時のデータ分布がトレーニング中に観察されたものと似ていると仮定する。 しかし、特にcovid-19のような予期せぬシステムショックのため、顧客の購買パターンが動的であるため、実際にはこの仮定に違反する可能性がある。 新型コロナウイルス(covid-19)パンデミックにおける大手航空会社の顧客行動の変化を,共変量シフトとコンセプトドリフト検出問題と組み合わせて検討する。 どの顧客が旅行や購入の行動を変更したか、その変更に影響する属性を識別する。 (i)高速一般化部分集合走査及び (ii)因果樹林。 シミュレーションと実世界のデータを用いた実験で,この2つの手法が質的分析によってどのように利用できるかを示す。

Traditional AI approaches in customized (personalized) contextual pricing applications assume that the data distribution at the time of online pricing is similar to that observed during training. However, this assumption may be violated in practice because of the dynamic nature of customer buying patterns, particularly due to unanticipated system shocks such as COVID-19. We study the changes in customer behavior for a major airline during the COVID-19 pandemic by framing it as a covariate shift and concept drift detection problem. We identify which customers changed their travel and purchase behavior and the attributes affecting that change using (i) Fast Generalized Subset Scanning and (ii) Causal Forests. In our experiments with simulated and real-world data, we present how these two techniques can be used through qualitative analysis.
翻訳日:2021-12-02 08:01:52 公開日:2021-11-29
# (参考訳) Expressive Communication: 生成モデルとステアリングインターフェースにおける開発評価のための共通フレームワーク [全文訳有]

Expressive Communication: A Common Framework for Evaluating Developments in Generative Models and Steering Interfaces ( http://arxiv.org/abs/2111.14951v1 )

ライセンス: CC BY 4.0
Ryan Louie, Jesse Engel, Anna Huang(参考訳) MLとHCIコミュニティは、より優れた生成モデルとそれらを制御するためのより直感的なインターフェースをクリエーターに提供することに、ますます関心を集めている。 音楽の分野では、ml研究者は長距離構造と音楽の一貫性を高める要素を生成できるトレーニングモデルにフォーカスし、hciの研究者はユーザー制御とオーナシップをサポートするステアリングインターフェースの設計に別々に集中している。 本研究では,モデルとユーザインターフェースの両方の開発が,特定のイメージやアイデアを伝達する音楽(例えば,ムードの確立や,他のメディアのための伴奏音楽の作成など,音楽制作における他の目的に共通するタスク)の創造を目標とする共同創造の促進にどのように重要であるか,という共通の枠組みを通して検討する。 本研究は,作曲家の自己報告経験によるコミュニケーションと,リスナーが音楽を通してコミュニケーションを評価する方法とを区別する。 100曲以上の楽曲を作曲した26人の作曲家による評価研究で、より表現力のあるモデルとより操りやすいインターフェースは、音楽を通じてコミュニケーションし、創造的なエンパワーメントをサポートする作曲家に違いをもたらすための、重要かつ補完的な方法であることが判明した。

There is an increasing interest from ML and HCI communities in empowering creators with better generative models and more intuitive interfaces with which to control them. In music, ML researchers have focused on training models capable of generating pieces with increasing long-range structure and musical coherence, while HCI researchers have separately focused on designing steering interfaces that support user control and ownership. In this study, we investigate through a common framework how developments in both models and user interfaces are important for empowering co-creation where the goal is to create music that communicates particular imagery or ideas (e.g., as is common for other purposeful tasks in music creation like establishing mood or creating accompanying music for another media). Our study is distinguished in that it measures communication through both composer's self-reported experiences, and how listeners evaluate this communication through the music. In an evaluation study with 26 composers creating 100+ pieces of music and listeners providing 1000+ head-to-head comparisons, we find that more expressive models and more steerable interfaces are important and complementary ways to make a difference in composers communicating through music and supporting their creative empowerment.
翻訳日:2021-12-02 07:55:45 公開日:2021-11-29
# (参考訳) グリオーマ脳腫瘍の弱教師付き分節に対する局所摂動 [全文訳有]

Localized Perturbations For Weakly-Supervised Segmentation of Glioma Brain Tumours ( http://arxiv.org/abs/2111.14953v1 )

ライセンス: CC BY 4.0
Sajith Rajapaksa and Farzad Khalvati(参考訳) 深層畳み込みニューラルネットワーク(deep convolutional neural networks, cnns)は、医療画像に基づく診断パイプラインにおいて必須のツールとなっている。 しかし、正確で信頼性の高いCNNのトレーニングには、大きな微粒なアノテートデータセットが必要である。 これを軽減するために、グローバルラベルからローカル情報を取得するために弱教師付き手法を用いることができる。 本研究は,脳腫瘍のセグメンテーションマスクを事前訓練した3次元分類モデルから抽出する手法として局所摂動を用いた。 さらに、u-netアーキテクチャを用いて、与えられた分類の最も適切な領域を見つけるために、3dスーパーピクセルを利用する新しい最適摂動法を提案する。 本手法は, エキスパートアノテーションとの比較により, ディス類似度係数 (dsc) を 0.44 とした。 grad-camと比較すると, 腫瘍領域の可視化能と局在能はともに優れ, grad-camは平均0.11dscであった。

Deep convolutional neural networks (CNNs) have become an essential tool in the medical imaging-based computer-aided diagnostic pipeline. However, training accurate and reliable CNNs requires large fine-grain annotated datasets. To alleviate this, weakly-supervised methods can be used to obtain local information from global labels. This work proposes the use of localized perturbations as a weakly-supervised solution to extract segmentation masks of brain tumours from a pretrained 3D classification model. Furthermore, we propose a novel optimal perturbation method that exploits 3D superpixels to find the most relevant area for a given classification using a U-net architecture. Our method achieved a Dice similarity coefficient (DSC) of 0.44 when compared with expert annotations. When compared against Grad-CAM, our method outperformed both in visualization and localization ability of the tumour region, with Grad-CAM only achieving 0.11 average DSC.
翻訳日:2021-12-02 07:38:46 公開日:2021-11-29
# (参考訳) マルチタスク学習による小児低重力グリオーマのセグメンテーションの改善 [全文訳有]

Improving the Segmentation of Pediatric Low-Grade Gliomas through Multitask Learning ( http://arxiv.org/abs/2111.14959v1 )

ライセンス: CC BY 4.0
Partoo Vafaeikia, Matthias W. Wagner, Uri Tabori, Birgit B. Ertl-Wagner, Farzad Khalvati(参考訳) 脳腫瘍のセグメンテーションは、腫瘍体積分析とAIアルゴリズムにとって重要な課題である。 しかし、それは時間を要するプロセスであり、神経放射線学の専門知識を必要とする。 成人における脳腫瘍の分画の最適化に関する研究が盛んに行われているが,ai誘導型小児腫瘍分画の研究は少ない。 さらに、小児および成人脳腫瘍のmri信号特性は異なり、小児脳腫瘍専用に設計されたセグメンテーションアルゴリズムの開発が必要となる。 カナダ・オンタリオ州トロントにあるシック・チルドレン病院で低次グリオーマ(pLGG)を有する小児患者のMRI(MRI)を訓練したセグメンテーションモデルを構築した。 提案モデルは,腫瘍の遺伝的変異分類器をメインネットワークに補助的タスクとして付加することにより,ディープマルチタスク学習(dMTL)を活用し,最終的にセグメンテーション結果の精度を向上する。

Brain tumor segmentation is a critical task for tumor volumetric analyses and AI algorithms. However, it is a time-consuming process and requires neuroradiology expertise. While there has been extensive research focused on optimizing brain tumor segmentation in the adult population, studies on AI guided pediatric tumor segmentation are scarce. Furthermore, MRI signal characteristics of pediatric and adult brain tumors differ, necessitating the development of segmentation algorithms specifically designed for pediatric brain tumors. We developed a segmentation model trained on magnetic resonance imaging (MRI) of pediatric patients with low-grade gliomas (pLGGs) from The Hospital for Sick Children (Toronto, Ontario, Canada). The proposed model utilizes deep Multitask Learning (dMTL) by adding tumor's genetic alteration classifier as an auxiliary task to the main network, ultimately improving the accuracy of the segmentation results.
翻訳日:2021-12-02 07:31:27 公開日:2021-11-29
# (参考訳) 自由テキスト顧客レポートを用いた車両自動診断のための自然言語処理とディープラーニングに基づくモデル [全文訳有]

A Natural Language Processing and Deep Learning based Model for Automated Vehicle Diagnostics using Free-Text Customer Service Reports ( http://arxiv.org/abs/2111.14977v1 )

ライセンス: CC BY 4.0
Ali Khodadadi, Soroush Ghandiparsi, Chen-Nee Chuah(参考訳) 初期故障検出と診断は、車両運用の効率、安全性、安定性を改善するための重要な手段である。 近年、利用可能な車両データを用いて車両診断プロセスを改善するためのデータ駆動アプローチの研究が数多く行われている。 さらに、顧客-サービスエージェントのインタラクションを強化するためにデータ駆動方式が採用されている。 本研究では,自動診断を改善するための機械学習パイプラインを提案する。 まず、自然言語処理(nlp)は、フリーテキスト障害レポート(サービス部門への顧客の呼び出し中に生成された)から重要な情報を抽出するのに使用される。 次に、深層学習アルゴリズムを使用して、サービス要求の検証と、曖昧あるいは誤解を招くクレームのフィルタリングを行う。 最終的に、サービス要求を分類するために異なる分類アルゴリズムが実装され、有効なサービス要求を関連するサービス部門に向けることができる。 提案したモデル-双方向長短期記憶(BiLSTM)と畳み込みニューラルネットワーク(CNN)は、技術者の能力と比較して、サービス要求を検証する精度が18%以上向上していることを示す。 さらに、前処理や機能抽出の段階でドメインベースのNLP技術を用いることで、CNN-BiLSTMベースの要求バリデーションとともに、精度($>25\%$)、感度($>39\%$)、特異性($>11\%$)、グラディエントツリーブースティング(GTB)サービスの分類モデルの精度($>11\%$)が向上した。 受信機動作特性領域(ROC-AUC)は0.82に達した。

Initial fault detection and diagnostics are imperative measures to improve the efficiency, safety, and stability of vehicle operation. In recent years, numerous studies have investigated data-driven approaches to improve the vehicle diagnostics process using available vehicle data. Moreover, data-driven methods are employed to enhance customer-service agent interactions. In this study, we demonstrate a machine learning pipeline to improve automated vehicle diagnostics. First, Natural Language Processing (NLP) is used to automate the extraction of crucial information from free-text failure reports (generated during customers' calls to the service department). Then, deep learning algorithms are employed to validate service requests and filter vague or misleading claims. Ultimately, different classification algorithms are implemented to classify service requests so that valid service requests can be directed to the relevant service department. The proposed model- Bidirectional Long Short Term Memory (BiLSTM) along with Convolution Neural Network (CNN)- shows more than 18\% accuracy improvement in validating service requests compared to technicians' capabilities. In addition, using domain-based NLP techniques at preprocessing and feature extraction stages along with CNN-BiLSTM based request validation enhanced the accuracy ($>25\%$), sensitivity ($>39\%$), specificity ($>11\%$), and precision ($>11\%$) of Gradient Tree Boosting (GTB) service classification model. The Receiver Operating Characteristic Area Under the Curve (ROC-AUC) reached 0.82.
翻訳日:2021-12-02 07:22:25 公開日:2021-11-29
# (参考訳) 地球オーロラ宇宙気象システムの複雑な結合を表現するために、機械学習モデリングの表現能力を活用する [全文訳有]

Harnessing expressive capacity of Machine Learning modeling to represent complex coupling of Earth's auroral space weather regimes ( http://arxiv.org/abs/2111.14998v1 )

ライセンス: CC BY 4.0
Jack Ziegler and Ryan M. Mcgranaghan(参考訳) 我々は,大域オーロラ粒子沈降の最先端予測を推し進める複数の深層学習(DL)モデルを開発した。 我々は、電子エネルギー流束を周回する低軌道探査機の観測を用いて、加速粒子のグローバル・ナキャスト(観測時の予測)を改善するモデルを開発した。 複数の機械学習(ML)モデリング手法を比較し、新しいマルチタスクモデル、テールと分布に基づく損失関数を持つモデル、時空間的にスパースな2D畳み込みモデルを含む。 我々は、宇宙の天候やドメイン全体における、多くの類似した時系列的回帰問題に対して、データ準備プロセスとモデル開発について詳述する。 MLの改善は3倍です。 1) 損失機能工学 2)マルチタスク学習,及び 3) タスクを時系列予測から時空間予測に変換する。 特に、MLモデルは、歴史的に正確な仕様に固執する極端な事象の予測を改善し、MLイノベーションによって提供される表現能力の増大は、宇宙気象科学における大きな課題に対処できることを示している。

We develop multiple Deep Learning (DL) models that advance the state-of-the-art predictions of the global auroral particle precipitation. We use observations from low Earth orbiting spacecraft of the electron energy flux to develop a model that improves global nowcasts (predictions at the time of observation) of the accelerated particles. Multiple Machine Learning (ML) modeling approaches are compared, including a novel multi-task model, models with tail- and distribution-based loss functions, and a spatio-temporally sparse 2D-convolutional model. We detail the data preparation process as well as the model development that will be illustrative for many similar time series global regression problems in space weather and across domains. Our ML improvements are three-fold: 1) loss function engineering; 2) multi-task learning; and 3) transforming the task from time series prediction to spatio-temporal prediction. Notably, the ML models improve prediction of the extreme events, historically obstinate to accurate specification and indicate that increased expressive capacity provided by ML innovation can address grand challenges in the science of space weather.
翻訳日:2021-12-02 07:11:14 公開日:2021-11-29
# (参考訳) 多層ネットワーク上のグラフ処理に基づくハイパースペクトル画像分割 [全文訳有]

Hyperspectral Image Segmentation based on Graph Processing over Multilayer Networks ( http://arxiv.org/abs/2111.15018v1 )

ライセンス: CC BY 4.0
Songyang Zhang, Qinwen Deng, and Zhi Ding(参考訳) ハイパースペクトルイメージングは、環境科学、気象学、地球・宇宙探査など、幅広い応用と影響を持つ重要なセンシング技術である。 ハイパースペクトル画像(HSI)処理の重要な課題は、スペクトル空間的特徴の抽出である。 近年開発されたマルチレイヤネットワーク(M-GSP)上でのグラフ信号処理を活用し,M-GSP特徴抽出に基づくHSIセグメンテーションへのいくつかのアプローチを提案する。 まず,HSIのためのテンソルベース多層ネットワーク(MLN)モデルをカスタマイズし,特徴抽出のためのMLN特異空間を定義する。 次に,MLNスペクトルクラスタリングを利用した教師なしHSIセグメンテーション手法を開発した。 MLNに基づくクラスタリングによりHSI画素を再分類し,スーパーピクセルの多重分解能融合に基づく半教師付きHSI分類を提案する。 実験結果は,hsi処理およびスペクトル空間情報抽出におけるm-gspの強度を示す。

Hyperspectral imaging is an important sensing technology with broad applications and impact in areas including environmental science, weather, and geo/space exploration. One important task of hyperspectral image (HSI) processing is the extraction of spectral-spatial features. Leveraging on the recent-developed graph signal processing over multilayer networks (M-GSP), this work proposes several approaches to HSI segmentation based on M-GSP feature extraction. To capture joint spectral-spatial information, we first customize a tensor-based multilayer network (MLN) model for HSI, and define a MLN singular space for feature extraction. We then develop an unsupervised HSI segmentation method by utilizing MLN spectral clustering. Regrouping HSI pixels via MLN-based clustering, we further propose a semi-supervised HSI classification based on multi-resolution fusions of superpixels. Our experimental results demonstrate the strength of M-GSP in HSI processing and spectral-spatial information extraction.
翻訳日:2021-12-02 06:57:49 公開日:2021-11-29
# (参考訳) DNN推論高速化のための高構成ハードウェア/ソフトウェアスタック [全文訳有]

A Highly Configurable Hardware/Software Stack for DNN Inference Acceleration ( http://arxiv.org/abs/2111.15024v1 )

ライセンス: CC BY 4.0
Suvadeep Banerjee, Steve Burns, Pasquale Cocchini, Abhijit Davare, Shweta Jain, Desmond Kirkpatrick, Anton Sorokin, Jin Yang, Zhenkun Yang(参考訳) この仕事は、ドメイン特化アクセラレーターのための効率的なアジャイル設計方法論にフォーカスします。 我々は,縦型開発スタックの機能拡張を行い,tvm/vta推論アクセラレータに適用する。 VTA設計スペースを拡張し、追加のワークロードに対してエンドツーエンドのサポートを可能にしました。 これは、VTAマイクロアーキテクチャと命令セットアーキテクチャ(ISA)の強化と、広範囲なVTA構成をサポートするためにTVMコンパイルスタックの拡張によって実現されている。 VTA tsim実装(CHISELベース)は、ALU/GEMM実行ユニットの完全なパイプラインバージョンで拡張されている。 tsimでは、メモリ幅が8-64バイトになった。 フィールド幅はより大きなスクラッチパッドをサポートするように柔軟になった。 新しい命令が追加された: 奥行きの畳み込みをサポートする要素ワイド8ビット乗算と、最大プールをサポートするパッド値の選択をロードする。 より多くのレイヤとより良いダブルバッファのサポートも追加された。 完全なパイプライン化 ALU/GEMM は、ResNet-18 をデフォルト設定で実行するために、最小限の領域変更を伴うサイクルを4.9倍削減する。 さらに11.5倍のサイクルカウントを12倍のコストで含む構成をインスタンス化することができる。 エリアパフォーマンスパレート曲線の多くのポイントを示し、実行ユニットサイズ、メモリインターフェース幅、スクラッチパッドサイズのバランスを示す。 最後に、VTAはMobilenet 1.0とResNetsのすべてのレイヤを実行することができる。 TVM/VTAアーキテクチャは常に、RTLのエンドツーエンドのワークロード評価を数分で行う。 私たちの変更により、幅広いコスト対パフォーマンスを備えた、実現可能な構成がより多く提供されます。 前述のすべての機能はオープンソースフォークで利用可能だが、これらの機能のサブセットはすでにアップストリームされている。

This work focuses on an efficient Agile design methodology for domain-specific accelerators. We employ feature-by-feature enhancement of a vertical development stack and apply it to the TVM/VTA inference accelerator. We have enhanced the VTA design space and enabled end-to-end support for additional workloads. This has been accomplished by augmenting the VTA micro-architecture and instruction set architecture (ISA), as well as by enhancing the TVM compilation stack to support a wide range of VTA configs. The VTA tsim implementation (CHISEL-based) has been enhanced with fully pipelined versions of the ALU/GEMM execution units. In tsim, memory width can now range between 8-64 bytes. Field widths have been made more flexible to support larger scratchpads. New instructions have been added: element-wise 8-bit multiplication to support depthwise convolution, and load with a choice of pad values to support max pooling. Support for more layers and better double buffering has also been added. Fully pipelining ALU/GEMM helps significantly: 4.9x fewer cycles with minimal area change to run ResNet-18 under the default config. Configs featuring a further 11.5x decrease in cycle count at a cost of 12x greater area can be instantiated. Many points on the area-performance pareto curve are shown, showcasing the balance of execution unit sizing, memory interface width, and scratchpad sizing. Finally, VTA is now able to run Mobilenet 1.0 and all layers for ResNets, including the previously disabled pooling and fully connected layers. The TVM/VTA architecture has always featured end-to-end workload evaluation on RTL in minutes. With our modifications, it now offers a much greater number of feasible configurations with a wide range of cost vs. performance. All capabilities mentioned are available in opensource forks while a subset of these capabilities have already been upstreamed.
翻訳日:2021-12-02 06:36:30 公開日:2021-11-29
# (参考訳) 不均一ネットワークにおけるトラヒックステアリングのための強化学習アルゴリズム [全文訳有]

Reinforcement Learning Algorithm for Traffic Steering in Heterogeneous Network ( http://arxiv.org/abs/2111.15029v1 )

ライセンス: CC BY 4.0
Cezary Adamczyk and Adrian Kliks(参考訳) 不均質な無線アクセスネットワークは、ネットワーク容量を最大化するために、最適に近い結果を得るために効率的なトラヒックステアリング方法を必要とする。 本稿では,シミュレーションセルネットワークにおけるユーザ満足度を最大化するために,強化学習アルゴリズムと人工ニューラルネットワークを組み合わせることで,HetNetsにおける新しいトラフィックステアリングアルゴリズムを提案する。 ネットワークシミュレーション結果を用いた2つの参照アルゴリズムと比較した。 その結果,本アルゴリズムは,無線アクセスネットワークの周波数リソースが限られている利用者数において,参照アルゴリズムと比較して明らかに効率が良いことがわかった。

Heterogeneous radio access networks require efficient traffic steering methods to reach near-optimal results in order to maximize network capacity. This paper aims to propose a novel traffic steering algorithm for usage in HetNets, which utilizes a reinforcement learning algorithm in combination with an artificial neural network to maximize total user satisfaction in the simulated cellular network. The novel algorithm was compared with two reference algorithms using network simulation results. The results prove that the novel algorithm provides noticeably better efficiency in comparison with reference algorithms, especially in terms of the number of served users with limited frequency resources of the radio access network.
翻訳日:2021-12-02 06:08:53 公開日:2021-11-29
# 超エッジデバイスを用いた新生児シーズーア検出のためのスケーラブル機械学習アーキテクチャ

Scalable Machine Learning Architecture for Neonatal Seizure Detection on Ultra-Edge Devices ( http://arxiv.org/abs/2111.15569v1 )

ライセンス: Link先を確認
Vishal Nagarajan, Ashwini Muralidharan, Deekshitha Sriraman and Pravin Kumar S(参考訳) 新生児発作は一般的に起こる神経疾患である。 重篤な神経疾患の最初の臨床症状である。 そのため、重篤な致命傷の予防には迅速な認識と治療が必要である。 神経学分野における脳波検査(EEG)の使用は、いくつかの医学的状態の正確な診断を可能にする。 しかし、脳波信号の解釈には、新生児期の発達が未熟であるため、高度に専門的なスタッフの注意が必要である。 時間による発作の検出は、幼児の神経認知発達に悪影響を及ぼす可能性がある。 近年,機械学習アルゴリズムを用いた新生児発作検出が注目されている。 発作検出においては,生体信号の分類が計算的に安価である必要があるため,従来のモデルと同等の予測性能を持つが,最小レベルの構成を持つ機械学習(ml)ベースのアーキテクチャを提案する。 提案された分類器は、ヘルシンキ大学病院で記録されたNICU発作の公開データセットで訓練され、テストされた。 本研究で選択した標準MLモデルよりも6%高い87%の感度を実現した。 ML分類器のモデルサイズは、最小予測時間182.61ミリ秒で4.84KBに最適化され、ウェアラブルのウルトラエッジデバイスにデプロイすることで、迅速かつ正確な応答と、クラウドベースや他の徹底した計算方法の必要性を回避できる。

Neonatal seizures are a commonly encountered neurological condition. They are the first clinical signs of a serious neurological disorder. Thus, rapid recognition and treatment are necessary to prevent serious fatalities. The use of electroencephalograp hy (EEG) in the field of neurology allows precise diagnosis of several medical conditions. However, interpreting EEG signals needs the attention of highly specialized staff since the infant brain is developmentally immature during the neonatal period. Detecting seizures on time could potentially prevent the negative effects on the neurocognitive development of the infants. In recent years, neonatal seizure detection using machine learning algorithms have been gaining traction. Since there is a need for the classification of bio-signals to be computationally inexpensive in the case of seizure detection, this research presents a machine learning (ML) based architecture that operates with comparable predictive performance as previous models but with minimum level configuration. The proposed classifier was trained and tested on a public dataset of NICU seizures recorded at the Helsinki University Hospital. Our architecture achieved a best sensitivity of 87%, which is 6% more than that of the standard ML model chosen in this study. The model size of the ML classifier is optimized to just 4.84 KB with minimum prediction time of 182.61 milliseconds, thus enabling it to be deployed on wearable ultra-edge devices for quick and accurate response and obviating the need for cloud-based and other such exhaustive computational methods.
翻訳日:2021-12-01 16:53:55 公開日:2021-11-29
# UCAサンプル学習に基づく高周波マルチモードOAM検出

Radio-Frequency Multi-Mode OAM Detection Based on UCA Samples Learning ( http://arxiv.org/abs/2111.15638v1 )

ライセンス: Link先を確認
Jiabei Fan, Rui Chen, Wen-Xuan Long, Marco Moretti, and Jiandong Li(参考訳) 高周波での軌道角運動量(oam)は、同じ周波数チャネル上の直交モードの集合を多重化して高いスペクトル効率を達成する新しいアプローチを提供する。 しかし、古典位相勾配に基づくOAMモード検出法は、送信アンテナと受信アンテナの完全なアライメントを必要とするため、OAM通信の実用化に大きな課題がある。 本稿では,OAM位相構造に対する非並列不整合の影響を最初に示すとともに,より一般的なアライメントや非並列不整合を学習した一様円配列(UCA)サンプルに基づくOAMモード検出手法を提案する。 具体的には、K-nearest neighbor(KNN)、サポートベクトルマシン(SVM)、バックプロパゲーションニューラルネットワーク(BPNN)の3つの分類器をシングルモードおよびマルチモードOAM検出の両方に適用した。 シミュレーションの結果,提案手法は誤り訂正に頑健であり,特にBPNN分類器は最適の一般化性能を有することがわかった。

Orbital angular momentum (OAM) at radio-frequency provides a novel approach of multiplexing a set of orthogonal modes on the same frequency channel to achieve high spectral efficiencies. However, classical phase gradient-based OAM mode detection methods require perfect alignment of transmit and receive antennas, which greatly challenges the practical application of OAM communications. In this paper, we first show the effect of non-parallel misalignment on the OAM phase structure, and then propose the OAM mode detection method based on uniform circular array (UCA) samples learning for the more general alignment or non-parallel misalignment case. Specifically, we applied three classifiers: K-nearest neighbor (KNN), support vector machine (SVM), and back-propagation neural network (BPNN) to both single-mode and multi-mode OAM detection. The simulation results validate that the proposed learning-based OAM mode detection methods are robust to misalignment errors and especially BPNN classifier has the best generalization performance.
翻訳日:2021-12-01 16:52:40 公開日:2021-11-29
# 分散小データによるプライバシ保存型サーバレスエッジラーニング

Privacy-Preserving Serverless Edge Learning with Decentralized Small Data ( http://arxiv.org/abs/2111.14955v1 )

ライセンス: Link先を確認
Shih-Chun Lin and Chia-Hung Lin(参考訳) 過去10年間、データ駆動アルゴリズムは、コンピュータビジョンや自然言語処理など、多くの研究分野において、従来の最適化ベースのアルゴリズムを上回っていた。 しかし、広範なデータ利用は、ディープラーニングアルゴリズム、すなわちプライバシ保存に新たな課題や脅威をもたらす。 分散トレーニング戦略は、ディープモデルをトレーニングする際のデータプライバシを保証するための有望なアプローチになっている。 本稿では、従来のサーバレスプラットフォームをサーバレスエッジ学習アーキテクチャで拡張し、ネットワークの観点から効率的な分散トレーニングフレームワークを提供する。 このフレームワークは、異種物理ユニット間の利用可能なリソースを動的に編成し、ディープラーニングの目標を効率的に達成する。 この設計では、ラストマイル送信、モバイルデバイスの計算能力、エッジとクラウドコンピューティングセンター、デバイスバッテリステータスなど、学習タスク要求と基盤となるインフラストラクチャの不均一性を共同で検討している。 さらに、分散トレーニングのオーバーヘッドを大幅に削減するために、汎用的な単純なデータ分類器を統合することで、小規模データトレーニングを提案する。 この低負荷強化は、様々な分散ディープモデルとシームレスに働き、トレーニングフェーズにおける通信と計算効率を改善する。 最後に、オープンチャレンジと今後の研究方向性は、研究コミュニティに効率的な分散ディープラーニング技術の開発を促す。

In the last decade, data-driven algorithms outperformed traditional optimization-based algorithms in many research areas, such as computer vision, natural language processing, etc. However, extensive data usages bring a new challenge or even threat to deep learning algorithms, i.e., privacy-preserving. Distributed training strategies have recently become a promising approach to ensure data privacy when training deep models. This paper extends conventional serverless platforms with serverless edge learning architectures and provides an efficient distributed training framework from the networking perspective. This framework dynamically orchestrates available resources among heterogeneous physical units to efficiently fulfill deep learning objectives. The design jointly considers learning task requests and underlying infrastructure heterogeneity, including last-mile transmissions, computation abilities of mobile devices, edge and cloud computing centers, and devices battery status. Furthermore, to significantly reduce distributed training overheads, small-scale data training is proposed by integrating with a general, simple data classifier. This low-load enhancement can seamlessly work with various distributed deep models to improve communications and computation efficiencies during the training phase. Finally, open challenges and future research directions encourage the research community to develop efficient distributed deep learning techniques.
翻訳日:2021-12-01 16:51:40 公開日:2021-11-29
# 動的系に対するクープマン作用素のスペクトル特性の厳密なデータ駆動計算

Rigorous data-driven computation of spectral properties of Koopman operators for dynamical systems ( http://arxiv.org/abs/2111.14889v1 )

ライセンス: Link先を確認
Matthew J. Colbrook, Alex Townsend(参考訳) クープマン作用素は、非線形力学系を大域的に線型化する無限次元作用素であり、スペクトル情報は力学を理解するのに有用である。 しかし、クープマン作用素は連続スペクトルと無限次元不変部分空間を持ち、そのスペクトル情報を計算することがかなり難しい。 本稿では、コープマン作用素のスペクトル情報を軌道データから計算するための厳密な収束保証付きデータ駆動アルゴリズムについて述べる。 スペクトル汚染のないスナップショットデータから一般クープマン作用素のスペクトルと擬似スペクトルを計算するための最初のスキームである残留動的モード分解(ResDMD)を導入する。 また、リゾルペント演算子とResDMDを用いて、測定保存力学系に関連するスペクトル測度を滑らかに近似する。 連続スペクトルと離散スペクトルの密度を計算する際に,カオス系においても高次収束を達成できるアルゴリズムに対する明示的な収束定理を証明する。 テントマップ,ガウス反復マップ,非線形振り子,二重振り子,ロレンツシステム,および11ドルの拡張ロレンツシステム上でアルゴリズムを実証した。 最後に、高次元状態空間を持つ動的システムに対して、アルゴリズムのカーネル化された変種を提供する。 これにより,20,046次元状態空間を持つタンパク質分子のダイナミックスに関連するスペクトル測度を計算し,レイノルズ数$>10^5$の空力翼を通過する乱流の誤差境界を持つ非線形クープマンモードを計算できる。

Koopman operators are infinite-dimensional operators that globally linearize nonlinear dynamical systems, making their spectral information useful for understanding dynamics. However, Koopman operators can have continuous spectra and infinite-dimensional invariant subspaces, making computing their spectral information a considerable challenge. This paper describes data-driven algorithms with rigorous convergence guarantees for computing spectral information of Koopman operators from trajectory data. We introduce residual dynamic mode decomposition (ResDMD), which provides the first scheme for computing the spectra and pseudospectra of general Koopman operators from snapshot data without spectral pollution. Using the resolvent operator and ResDMD, we also compute smoothed approximations of spectral measures associated with measure-preserving dynamical systems. We prove explicit convergence theorems for our algorithms, which can achieve high-order convergence even for chaotic systems, when computing the density of the continuous spectrum and the discrete spectrum. We demonstrate our algorithms on the tent map, Gauss iterated map, nonlinear pendulum, double pendulum, Lorenz system, and an $11$-dimensional extended Lorenz system. Finally, we provide kernelized variants of our algorithms for dynamical systems with a high-dimensional state-space. This allows us to compute the spectral measure associated with the dynamics of a protein molecule that has a 20,046-dimensional state-space, and compute nonlinear Koopman modes with error bounds for turbulent flow past aerofoils with Reynolds number $>10^5$ that has a 295,122-dimensional state-space.
翻訳日:2021-12-01 16:47:15 公開日:2021-11-29
# 多源衛星観測データとモデルシミュレーションデータを用いた時空間分解能の高ギャップ地表面温度の生成

Generating gapless land surface temperature with a high spatio-temporal resolution by fusing multi-source satellite-observed and model-simulated data ( http://arxiv.org/abs/2111.15636v1 )

ライセンス: Link先を確認
Jun Ma, Huanfeng Shen, Penghai Wu, Jingan Wu, Meiling Gao, Chunlei Meng(参考訳) ランドサーフェス温度(LST)は、ランドサーフェスプロセスを監視する際の重要なパラメータである。 しかし、雲の汚染と空間分解能と時間分解能のトレードオフは、高品質の熱赤外(TIR)リモートセンシングデータへのアクセスを著しく妨げた。 これらのジレンマを解くための多大な努力にもかかわらず、空間的完全性と時空間分解能の高いLST推定を生成することは依然として困難である。 ランドサーフェスモデル(LSM)は、時間分解能の高いギャップレスLSTをシミュレートするために用いられるが、通常は空間分解能が低い。 本稿では,60m空間分解能と半時間時間時間分解能で空隙のないLSTをマッピングするために,衛星観測とLSMシミュレーションによるLSTデータの統合温度融合フレームワークを提案する。 大域線形モデル(GloLM)モデルと日中陸面温度サイクル(DTC)モデルはそれぞれ、センサーの前処理ステップとして、異なるLSTデータ間の時間正規化として実行される。 次に、Landsat LST、Modate Resolution Imaging Spectroradiometer (MODIS) LST、Community Land Model Version 5.0 (CLM 5.0)-simulated LSTをフィルタベースの時空間融合モデルを用いて融合する。 都市支配地域(中国の武漢市)と自然支配地域(中国の平河流域)において,正確性,空間変動性,日時変動の両面で評価を行った。 LSTは実際のランドサットのLSTデータとよく一致しており、ピアソン相関係数 0.94 (0.97-0.99)、平均絶対誤差 0.71-0.98 K (0.82-3.17 K)、根平均誤差 0.97-1.26 K (1.09-3.97 K) である。

Land surface temperature (LST) is a key parameter when monitoring land surface processes. However, cloud contamination and the tradeoff between the spatial and temporal resolutions greatly impede the access to high-quality thermal infrared (TIR) remote sensing data. Despite the massive efforts made to solve these dilemmas, it is still difficult to generate LST estimates with concurrent spatial completeness and a high spatio-temporal resolution. Land surface models (LSMs) can be used to simulate gapless LST with a high temporal resolution, but this usually comes with a low spatial resolution. In this paper, we present an integrated temperature fusion framework for satellite-observed and LSM-simulated LST data to map gapless LST at a 60-m spatial resolution and half-hourly temporal resolution. The global linear model (GloLM) model and the diurnal land surface temperature cycle (DTC) model are respectively performed as preprocessing steps for sensor and temporal normalization between the different LST data. The Landsat LST, Moderate Resolution Imaging Spectroradiometer (MODIS) LST, and Community Land Model Version 5.0 (CLM 5.0)-simulated LST are then fused using a filter-based spatio-temporal integrated fusion model. Evaluations were implemented in an urban-dominated region (the city of Wuhan in China) and a natural-dominated region (the Heihe River Basin in China), in terms of accuracy, spatial variability, and diurnal temporal dynamics. Results indicate that the fused LST is highly consistent with actual Landsat LST data (in situ LST measurements), in terms of a Pearson correlation coefficient of 0.94 (0.97-0.99), a mean absolute error of 0.71-0.98 K (0.82-3.17 K), and a root-mean-square error of 0.97-1.26 K (1.09-3.97 K).
翻訳日:2021-12-01 16:22:14 公開日:2021-11-29
# 多木における因果構造学習のための高速非パラメトリックアプローチ

A Fast Non-parametric Approach for Causal Structure Learning in Polytrees ( http://arxiv.org/abs/2111.14969v1 )

ライセンス: Link先を確認
Mona Azadkia, Armeen Taeb, Peter B\"uhlmann(参考訳) 機能的関係や雑音を前提とせずに因果構造学習の課題を考察する。 我々は,この設定のための計算速度の速いアルゴリズムである dag-foci を開発し,そのアルゴリズムは \cite{azadkia2019simple} の foci 変数選択アルゴリズムに基づいている。 DAG-FOCIはチューニングパラメータを必要とせず、興味のある応答変数の親とマルコフ境界を出力する。 グラフがポリツリーである場合の手順の高次元保証を提供する。 さらに,計算生物学におけるDAG-FOCIの適用可能性を示すとともに,仮定違反に対する我々の手法の堅牢性を示す。

We study the problem of causal structure learning with no assumptions on the functional relationships and noise. We develop DAG-FOCI, a computationally fast algorithm for this setting that is based on the FOCI variable selection algorithm in \cite{azadkia2019simple}. DAG-FOCI requires no tuning parameter and outputs the parents and the Markov boundary of a response variable of interest. We provide high-dimensional guarantees of our procedure when the underlying graph is a polytree. Furthermore, we demonstrate the applicability of DAG-FOCI on real data from computational biology \cite{sachs2005causal} and illustrate the robustness of our methods to violations of assumptions.
翻訳日:2021-12-01 16:21:41 公開日:2021-11-29
# クリティカルインフラストラクチャにおけるプライバシ保護機械学習の評価 : 時系列分類を事例として

Evaluating Privacy-Preserving Machine Learning in Critical Infrastructures: A Case Study on Time-Series Classification ( http://arxiv.org/abs/2111.14838v1 )

ライセンス: Link先を確認
Dominique Mercier, Adriano Lucieri, Mohsin Munir, Andreas Dengel and Sheraz Ahmed(参考訳) 医療やエネルギーといった重要なインフラの応用における機械学習の出現により、プライバシーはステークホルダーの心の中でますます懸念される。 モデルもデータも、攻撃者が個人に対して使用する機密情報を抽出したり、重要なインフラの活用を通じて社会全体に危害を与えるためにも使用できないことが重要だ。 これらの領域における機械学習の適用性は、透明性とプライバシーの制約に対する信頼の欠如により、ほとんど制限されている。 さまざまな安全クリティカルなユースケース(主に時系列データに依存している)は、現在、プライバシーに関する考慮事項で不足している。 時系列データに適用可能なプライバシ保存手法をいくつか評価することにより,深層学習における暗号化の非効率性,差分プライバシーの強いデータセット依存性,フェデレーション手法の広範な適用性を検証する。

With the advent of machine learning in applications of critical infrastructure such as healthcare and energy, privacy is a growing concern in the minds of stakeholders. It is pivotal to ensure that neither the model nor the data can be used to extract sensitive information used by attackers against individuals or to harm whole societies through the exploitation of critical infrastructure. The applicability of machine learning in these domains is mostly limited due to a lack of trust regarding the transparency and the privacy constraints. Various safety-critical use cases (mostly relying on time-series data) are currently underrepresented in privacy-related considerations. By evaluating several privacy-preserving methods regarding their applicability on time-series data, we validated the inefficacy of encryption for deep learning, the strong dataset dependence of differential privacy, and the broad applicability of federated methods.
翻訳日:2021-12-01 16:21:31 公開日:2021-11-29
# 最後のマイルのバウンディング: 効率的な文字列インデックス作成

Bounding the Last Mile: Efficient Learned String Indexing ( http://arxiv.org/abs/2111.14905v1 )

ライセンス: Link先を確認
Benjamin Spector, Andreas Kipf, Kapil Vaidya, Chi Wang, Umar Farooq Minhas, Tim Kraska(参考訳) 文字列を効率的にインデックスするRandixStringSpline(R SS)学習インデックス構造を導入する。 RSS は radix のツリーで、それぞれ固定数のバイトをインデックス化している。 RSSは7-70$\times$少ないメモリを使用しながら、従来の文字列インデックスのパフォーマンスに近づいたり、超えたりします。 RSSは最小の文字列プレフィックスを使用して、文字列全体をインデックスするほとんどの学習アプローチとは異なり、データを十分に区別する。 さらに、rssのバウンドエラー特性はラストマイル検索を加速し、メモリ効率のよいハッシュテーブルルックアップアクセラレータを可能にする。 実世界の文字列データセットのRSSをARTとHOTに対してベンチマークする。 我々の実験は、この一連の研究が将来のメモリ集約型データベースアプリケーションに有望であることを示唆している。

We introduce the RadixStringSpline (RSS) learned index structure for efficiently indexing strings. RSS is a tree of radix splines each indexing a fixed number of bytes. RSS approaches or exceeds the performance of traditional string indexes while using 7-70$\times$ less memory. RSS achieves this by using the minimal string prefix to sufficiently distinguish the data unlike most learned approaches which index the entire string. Additionally, the bounded-error nature of RSS accelerates the last mile search and also enables a memory-efficient hash-table lookup accelerator. We benchmark RSS on several real-world string datasets against ART and HOT. Our experiments suggest this line of research may be promising for future memory-intensive database applications.
翻訳日:2021-12-01 16:21:17 公開日:2021-11-29
# 監視学習と後処理によるトロイの木馬に対するハードウェアIP保証

Third-Party Hardware IP Assurance against Trojans through Supervised Learning and Post-processing ( http://arxiv.org/abs/2111.14956v1 )

ライセンス: Link先を確認
Pravin Gaikwad, Jonathan Cruz, Prabuddha Chakraborty, Swarup Bhunia, Tamzidul Hoque(参考訳) System-on-chip (SoC) 開発者はますます、信頼できないサードパーティベンダから取得された、検証済みのハードウェア知的財産権(IP)ブロックに依存している。 これらのIPは、製造されたSoCのセキュリティを損なうために、隠された悪意のある機能やハードウェアを含むかもしれない。 近年、教師付き機械学習(ML)技術は、サードパーティのIP(3PIP)における潜在的なトロイの木馬の網を識別する有望な能力を示している。 しかし、それらはいくつかの大きな課題をもたらす。 まず、トロイの木馬の多様なクラスを確実にカバーする機能の最適な選択を導くことはできない。 第二に、既知のトロイの木馬を挿入し、訓練されたモデルを生成するために、複数のトロイの木馬のない信頼できる設計を必要とする。 たとえ一連の信頼できる設計がトレーニングに利用できるとしても、疑わしいipは本質的に信頼できる設計の集合と大きく異なる可能性があり、検証結果に悪影響を及ぼす可能性がある。 第三に、これらの技術は、潜在的な脅威を理解するために手動で介入する必要がある疑わしいトロイの木網のセットのみを特定する。 本稿では、3pipsのための系統的機械学習(ml)ベースの信頼検証ソリューションviprを提案する。 本稿では,包括的なフレームワーク,関連するアルゴリズム,最適な特徴セットを得るためのツールフロー,ターゲットとする機械学習モデルのトレーニング,疑わしいネットの検出,被疑者ネットからのトロイの木馬回路の同定について述べる。 このフレームワークをいくつかのtrust-hub trojanベンチマークで評価し、異なるトレーニングモデルにおける検出性能の比較分析、特徴の選択、後処理技術を提供する。 提案された後処理アルゴリズムは、偽陽性を最大92.85%削減する。

System-on-chip (SoC) developers increasingly rely on pre-verified hardware intellectual property (IP) blocks acquired from untrusted third-party vendors. These IPs might contain hidden malicious functionalities or hardware Trojans to compromise the security of the fabricated SoCs. Recently, supervised machine learning (ML) techniques have shown promising capability in identifying nets of potential Trojans in third party IPs (3PIPs). However, they bring several major challenges. First, they do not guide us to an optimal choice of features that reliably covers diverse classes of Trojans. Second, they require multiple Trojan-free/trusted designs to insert known Trojans and generate a trained model. Even if a set of trusted designs are available for training, the suspect IP could be inherently very different from the set of trusted designs, which may negatively impact the verification outcome. Third, these techniques only identify a set of suspect Trojan nets that require manual intervention to understand the potential threat. In this paper, we present VIPR, a systematic machine learning (ML) based trust verification solution for 3PIPs that eliminates the need for trusted designs for training. We present a comprehensive framework, associated algorithms, and a tool flow for obtaining an optimal set of features, training a targeted machine learning model, detecting suspect nets, and identifying Trojan circuitry from the suspect nets. We evaluate the framework on several Trust-Hub Trojan benchmarks and provide a comparative analysis of detection performance across different trained models, selection of features, and post-processing techniques. The proposed post-processing algorithms reduce false positives by up to 92.85%.
翻訳日:2021-12-01 16:21:07 公開日:2021-11-29
# モチーフ: ground truth family labels による大規模マルウェア参照データセット

MOTIF: A Large Malware Reference Dataset with Ground Truth Family Labels ( http://arxiv.org/abs/2111.15031v1 )

ライセンス: Link先を確認
Robert J. Joyce, Dev Amlani, Charles Nicholas, Edward Raff(参考訳) マルウェアの家族分類は、専門家ラベルの高コストによって妨げられている公共の安全と研究上の意味において重要な問題である。 コーパスの大部分は、結果の正確な定量化と深い相互作用の研究を妨げるノイズラベリングアプローチを使用している。 さらに前進するために必要なデータを提供するため、Malware Open-source Threat Intelligence Family (MOTIF)データセットを作成しました。 MOTIFには454ファミリーの3,095のマルウェアサンプルが含まれており、これまでで最大の、最も多様な公的なマルウェアデータセットであり、これまでの専門家ラベル付きコーパスの約3倍、以前のWindowsマルウェアコーパスの約36倍である。 モチーフにはマルウェアのサンプルから脅威レポートへのマッピングも含まれており、ラベルを検証し、不透明なマルウェアのサンプルと人間の読みやすい記述をつなぐ新たな研究機会を開く。 これにより、業界における非標準化レポートのため、通常不可能な重要な評価が可能になる。 例えば、同一のマルウェアファミリーを記述するために使用される異なる名前のエイリアスを提供し、異なるソースから名前が得られた場合、既存のツールの最初の精度をベンチマークすることができる。 モチーフデータセットを用いた評価の結果、既存の課題は、62.10%の抗ウイルス多数決の精度と46.78%の精度で知られているavクラスツールによって、改善の余地があることが示された。 以上の結果から,多くのML文献で研究されているものとは異なり,マルウェアの分類にはラベル付けノイズが伴うことが示唆された。

Malware family classification is a significant issue with public safety and research implications that has been hindered by the high cost of expert labels. The vast majority of corpora use noisy labeling approaches that obstruct definitive quantification of results and study of deeper interactions. In order to provide the data needed to advance further, we have created the Malware Open-source Threat Intelligence Family (MOTIF) dataset. MOTIF contains 3,095 malware samples from 454 families, making it the largest and most diverse public malware dataset with ground truth family labels to date, nearly 3x larger than any prior expert-labeled corpus and 36x larger than the prior Windows malware corpus. MOTIF also comes with a mapping from malware samples to threat reports published by reputable industry sources, which both validates the labels and opens new research opportunities in connecting opaque malware samples to human-readable descriptions. This enables important evaluations that are normally infeasible due to non-standardized reporting in industry. For example, we provide aliases of the different names used to describe the same malware family, allowing us to benchmark for the first time accuracy of existing tools when names are obtained from differing sources. Evaluation results obtained using the MOTIF dataset indicate that existing tasks have significant room for improvement, with accuracy of antivirus majority voting measured at only 62.10% and the well-known AVClass tool having just 46.78% accuracy. Our findings indicate that malware family classification suffers a type of labeling noise unlike that studied in most ML literature, due to the large open set of classes that may not be known from the sample under consideration
翻訳日:2021-12-01 16:19:59 公開日:2021-11-29
# 乗算器の交互方向法によるリカレントニューラルネットワークモデルの低ビット量子化

Low-bit Quantization of Recurrent Neural Network Language Models Using Alternating Direction Methods of Multipliers ( http://arxiv.org/abs/2111.14836v1 )

ライセンス: Link先を確認
Junhao Xu, Xie Chen, Shoukang Hu, Jianwei Yu, Xunying Liu and Helen Meng(参考訳) リカレントニューラルネットワーク言語モデル(RNNLM)の高メモリ消費と計算コストは、リソース制約のあるデバイスに対するより広範な適用を制限する。 近年,二項化RNNLMなどの超低ビット圧縮を実現するニューラルネットワーク量子化技術が研究の関心を集めている。 量子化されたニューラルネットワークの直接トレーニングは難しい。 本稿では、最適化問題として量子化RNNLMのトレーニングを定式化することにより、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する方法を提案する。 また, 圧縮率とモデル性能のトレードオフを, 連結低ビット量子化テーブルを用いて柔軟に調整することができる。 Penn Treebank (PTB) と Switchboard (SWBD) の2つのタスクの実験では、提案されたADMM量子化は、完全な精度ベースライン RNNLM の最大31倍のモデルサイズ圧縮係数を達成した。 ベースラインバイナライズされたRNNLM量子化に対するモデルトレーニングの5倍の高速収束も得られた。 インデックス項:言語モデル、リカレントニューラルネットワーク、量子化、乗算器の交互方向法。

The high memory consumption and computational costs of Recurrent neural network language models (RNNLMs) limit their wider application on resource constrained devices. In recent years, neural network quantization techniques that are capable of producing extremely low-bit compression, for example, binarized RNNLMs, are gaining increasing research interests. Directly training of quantized neural networks is difficult. By formulating quantized RNNLMs training as an optimization problem, this paper presents a novel method to train quantized RNNLMs from scratch using alternating direction methods of multipliers (ADMM). This method can also flexibly adjust the trade-off between the compression rate and model performance using tied low-bit quantization tables. Experiments on two tasks: Penn Treebank (PTB), and Switchboard (SWBD) suggest the proposed ADMM quantization achieved a model size compression factor of up to 31 times over the full precision baseline RNNLMs. Faster convergence of 5 times in model training over the baseline binarized RNNLM quantization was also obtained. Index Terms: Language models, Recurrent neural networks, Quantization, Alternating direction methods of multipliers.
翻訳日:2021-12-01 15:57:49 公開日:2021-11-29
# pcaを用いた数値変数変換のためのカテゴリエンコーダ

PCA-based Category Encoder for Categorical to Numerical Variable Conversion ( http://arxiv.org/abs/2111.14839v1 )

ライセンス: Link先を確認
Hamed Farkhari, Joseanne Viana, Luis Miguel Campos, Pedro Sebastiao, Rodolfo Oliveira, Luis Bernardo(参考訳) 分類変数の濃度の上昇は、MLアルゴリズム全体の性能を低下させる可能性がある。 本稿では,機械学習(ml)アルゴリズムのカテゴリを数値変数に変換する新しい計算前処理法を提案する。 本研究では,3つの分類特徴を数値的特徴量に変換する。 まず,変数のカテゴリの分布に基づいてしきい値パラメータを選択する。 次に条件付き確率を用いて各カテゴリー変数を2つの新しい数値変数に変換し,合計6つの数値変数を生成する。 その後、これら6つの数値変数を主成分分析(PCA)アルゴリズムに供給する。 次に、主成分(PC)の全体または部分数を選択する。 最後に,10種類の分類器を用いたバイナリ分類を行い,新しいエンコーダの性能を測定し,他の17個のカテゴリエンコーダと比較した。 提案手法は、よく知られたサイバーセキュリティNSLKDDデータセットを用いて、高濃度カテゴリ変数に基づく精度とAUC(Area under the curve)に関する最高性能を達成した。 また,高調波平均指標を定義して,列車とテスト性能の最良のトレードオフを見つけ,過給や過給を防止する。 最終的に、新しく作られた数値変数の数は最小である。 これにより、5gの将来の通信ネットワークにおける処理データを削減できる計算処理時間を短縮できる。

Increasing the cardinality of categorical variables might decrease the overall performance of ML algorithms. This paper presents a novel computational preprocessing method to convert categorical to numerical variables for machine learning (ML) algorithms. In this method, We select and convert three categorical features to numerical features. First, we choose the threshold parameter based on the distribution of categories in variables. Then, we use conditional probabilities to convert each categorical variable into two new numerical variables, resulting in six new numerical variables in total. After that, we feed these six numerical variables to the Principal Component Analysis (PCA) algorithm. Next, we select the whole or partial numbers of Principal Components (PCs). Finally, by applying binary classification with ten different classifiers, We measured the performance of the new encoder and compared it with the other 17 well-known category encoders. The proposed technique achieved the highest performance related to accuracy and Area under the curve (AUC) on high cardinality categorical variables using the well-known cybersecurity NSLKDD dataset. Also, we defined harmonic average metrics to find the best trade-off between train and test performance and prevent underfitting and overfitting. Ultimately, the number of newly created numerical variables is minimal. Consequently, this data reduction improves computational processing time which might reduce processing data in 5G future telecommunication networks.
翻訳日:2021-12-01 15:56:48 公開日:2021-11-29
# 畳み込みニューラルネットワークを用いた熱帯雨林における動物の音の分類

Classification of animal sounds in a hyperdiverse rainforest using Convolutional Neural Networks ( http://arxiv.org/abs/2111.14971v1 )

ライセンス: Link先を確認
Yuren Sun, Tatiana Midori Maeda, Claudia Solis-Lemus, Daniel Pimentel-Alarcon, Zuzana Burivalova(参考訳) 熱帯林の生物多様性を保護するためには, 信頼性, 安価, 大規模に検出できる必要がある。 機械学習アプローチによる受動的に記録された音場からの自動種検出は、この目標に向けて有望な手法であるが、大規模なトレーニングデータセットの必要性に制約されている。 ボルネオの熱帯林からのサウンドスケープとトランスファー学習を用いた畳み込みニューラルネットワークモデル(cnn)を用いて検討した。 一 コールタイプ(「ソノタイプ」)の正確な予測のための最小限の訓練データセットのサイズ及び 二 小規模な訓練データセットの問題点を克服できる範囲 その結果, 比較的高いサンプルサイズ(コールタイプ80)でも中程度の精度が得られ, しかし, 分類群や呼び出し特性に関わらず, 極めて小さなサンプルサイズを含むデータ拡張では有意に改善することがわかった。 以上の結果から,トランスファー学習とデータ拡張は,多くの稀な種を持つ小さなサウンドスケーププロジェクトにおいても,CNNを用いて声の分類が可能であることが示唆された。 我々のオープンソース手法は,生物多様性の適応管理にサウンドスケープデータを用いることで,よりエビデンスに基づく保全活動を可能にする可能性がある。

To protect tropical forest biodiversity, we need to be able to detect it reliably, cheaply, and at scale. Automated species detection from passively recorded soundscapes via machine-learning approaches is a promising technique towards this goal, but it is constrained by the necessity of large training data sets. Using soundscapes from a tropical forest in Borneo and a Convolutional Neural Network model (CNN) created with transfer learning, we investigate i) the minimum viable training data set size for accurate prediction of call types ('sonotypes'), and ii) the extent to which data augmentation can overcome the issue of small training data sets. We found that even relatively high sample sizes (> 80 per call type) lead to mediocre accuracy, which however improves significantly with data augmentation, including at extremely small sample sizes, regardless of taxonomic group or call characteristics. Our results suggest that transfer learning and data augmentation can make the use of CNNs to classify species' vocalizations feasible even for small soundscape-based projects with many rare species. Our open-source method has the potential to enable conservation initiatives become more evidence-based by using soundscape data in the adaptive management of biodiversity.
翻訳日:2021-12-01 15:56:30 公開日:2021-11-29
# US-Rule: ユーティリティ駆動のシーケンスルールを発見する

US-Rule: Discovering Utility-driven Sequential Rules ( http://arxiv.org/abs/2111.15020v1 )

ライセンス: Link先を確認
Gengsen Huang, Wensheng Gan, Jian Weng, and Philip S. Yu(参考訳) ユーティリティ駆動マイニングはデータサイエンスにおいて重要なタスクであり、実生活で多くの応用がある。 高実用性シーケンシャルパターンマイニング(HUSPM)は、実用性駆動型マイニングの一種である。 HUSPMは、すべてのシーケンシャルパターンを高ユーティリティで発見することを目的としている。 しかし、HUSPMの既存のアルゴリズムは、予測やレコメンデーションのためにいくつかのシナリオを扱う正確な確率を提供することができない。 高実用性シーケンシャルルールマイニング (HUSRM) は、高実用性と高い信頼性を持つ全てのシーケンシャルルールを発見するために提案された。 HUSRMには1つのアルゴリズムしか提案されていないが、効率は十分ではない。 本稿では,高ユーティリティシーケンシャルルールを効率的にマイニングする,US-Ruleと呼ばれる高速アルゴリズムを提案する。 ルール推定ユーティリティ共起プルーニング戦略(REUCP)を用いて、無意味な計算を避ける。 密度および長周期データセットの効率を改善するため、より厳密な4つの上限(LEEU, REEU, LERSU, RERSU)とその対応するプルーニング戦略(LEEUP, REEUP, LERSUP, RERSUP)を提案する。 さらにUS-Ruleは、スパースデータセットを扱うために、ルール推定ユーティリティ再計算プルーニング戦略(REURP)を提案する。 最終的に、最先端のアルゴリズムと比較して、異なるデータセットに対する多数の実験は、US-Ruleが実行時間、メモリ消費、スケーラビリティの点でより良いパフォーマンスを達成できることを示した。

Utility-driven mining is an important task in data science and has many applications in real life. High utility sequential pattern mining (HUSPM) is one kind of utility-driven mining. HUSPM aims to discover all sequential patterns with high utility. However, the existing algorithms of HUSPM can not provide an accurate probability to deal with some scenarios for prediction or recommendation. High-utility sequential rule mining (HUSRM) was proposed to discover all sequential rules with high utility and high confidence. There is only one algorithm proposed for HUSRM, which is not enough efficient. In this paper, we propose a faster algorithm, called US-Rule, to efficiently mine high-utility sequential rules. It utilizes rule estimated utility co-occurrence pruning strategy (REUCP) to avoid meaningless computation. To improve the efficiency on dense and long sequence datasets, four tighter upper bounds (LEEU, REEU, LERSU, RERSU) and their corresponding pruning strategies (LEEUP, REEUP, LERSUP, RERSUP) are proposed. Besides, US-Rule proposes rule estimated utility recomputing pruning strategy (REURP) to deal with sparse datasets. At last, a large number of experiments on different datasets compared to the state-of-the-art algorithm demonstrate that US-Rule can achieve better performance in terms of execution time, memory consumption and scalability.
翻訳日:2021-12-01 15:52:01 公開日:2021-11-29
# シーケンスデータにおける異常ルール検出

Anomaly Rule Detection in Sequence Data ( http://arxiv.org/abs/2111.15026v1 )

ライセンス: Link先を確認
Wensheng Gan, Lili Chen, Shicheng Wan, Jiahui Chen, and Chien-Ming Chen(参考訳) シーケンスデータの解析は、通常、興味深いパターンの発見と異常検出につながる。 近年、シーケンスデータの興味深いパターンを発見し、異常な振る舞いを検出するために、多くのフレームワークや手法が提案されている。 しかし、既存のアルゴリズムは主に周波数駆動分析に焦点を合わせており、現実の環境では適用が困難である。 本研究では,一組のシーケンスからユーティリティを意識した外部規則の発見を可能にする,DUOSと呼ばれる新しい異常検出フレームワークを提案する。 このパターンに基づく異常検出アルゴリズムでは,集団の異常性と実用性を両立させ,実用性を考慮したアウトリー・シーケンシャル・ルール(UOSR)の概念を導入する。 これは、異常を検出するためのより意味のある方法であることを示す。 さらに,UOSRのマイニングにおける上層境界,および外れ値検出のための効率的な刈り取り方策を提案する。 いくつかの実世界のデータセットで行った広範囲な実験により、duosアルゴリズムがより有効性と効率性を示している。 最後に、DUOSはベースラインアルゴリズムより優れ、適切なスケーラビリティを持つ。

Analyzing sequence data usually leads to the discovery of interesting patterns and then anomaly detection. In recent years, numerous frameworks and methods have been proposed to discover interesting patterns in sequence data as well as detect anomalous behavior. However, existing algorithms mainly focus on frequency-driven analytic, and they are challenging to be applied in real-world settings. In this work, we present a new anomaly detection framework called DUOS that enables Discovery of Utility-aware Outlier Sequential rules from a set of sequences. In this pattern-based anomaly detection algorithm, we incorporate both the anomalousness and utility of a group, and then introduce the concept of utility-aware outlier sequential rule (UOSR). We show that this is a more meaningful way for detecting anomalies. Besides, we propose some efficient pruning strategies w.r.t. upper bounds for mining UOSR, as well as the outlier detection. An extensive experimental study conducted on several real-world datasets shows that the proposed DUOS algorithm has a better effectiveness and efficiency. Finally, DUOS outperforms the baseline algorithm and has a suitable scalability.
翻訳日:2021-12-01 15:51:38 公開日:2021-11-29
# 条件因子化によるコードスイッチングASRとモノリンガルASRの連成モデリング

Joint Modeling of Code-Switched and Monolingual ASR via Conditional Factorization ( http://arxiv.org/abs/2111.15016v1 )

ライセンス: Link先を確認
Brian Yan, Chunlei Zhang, Meng Yu, Shi-Xiong Zhang, Siddharth Dalmia, Dan Berrebbi, Chao Weng, Shinji Watanabe, Dong Yu(参考訳) 会話的バイリンガル音声は2つの純粋単言語型と1つの文内コード切替型という3種類の発話を含む。 本研究では,バイリンガル音声認識を構成する単言語とコードスイッチのサブタスクの確率を協調的にモデル化する汎用フレームワークを提案する。 ラベルとフレームの同期によって単言語サブタスクを定義することにより、この共同モデリングフレームワークは、コードに切り替わるか否かに関わらず、最終二言語出力が単言語情報のみを与えられるように条件付きファクタリングすることができる。 この条件付き因子付きジョイントフレームワークは、エンドツーエンドの微分可能ニューラルネットワークによってモデル化できることを示す。 提案モデルが単言語とコード切り換えコーパスの両言語間音声認識に有効であることを示す。

Conversational bilingual speech encompasses three types of utterances: two purely monolingual types and one intra-sententially code-switched type. In this work, we propose a general framework to jointly model the likelihoods of the monolingual and code-switch sub-tasks that comprise bilingual speech recognition. By defining the monolingual sub-tasks with label-to-frame synchronization, our joint modeling framework can be conditionally factorized such that the final bilingual output, which may or may not be code-switched, is obtained given only monolingual information. We show that this conditionally factorized joint framework can be modeled by an end-to-end differentiable neural network. We demonstrate the efficacy of our proposed model on bilingual Mandarin-English speech recognition across both monolingual and code-switched corpora.
翻訳日:2021-12-01 15:49:38 公開日:2021-11-29
# 位相情報と深い畳み込み特徴に基づく非線形強度水中ソナー画像マッチング法

Nonlinear Intensity Underwater Sonar Image Matching Method Based on Phase Information and Deep Convolution Features ( http://arxiv.org/abs/2111.15514v1 )

ライセンス: Link先を確認
Xiaoteng Zhou, Changli Yu, Xin Yuan, Haijun Feng, and Yang Xu(参考訳) 深海探査の分野では、ソナーが唯一の効率的な長距離センシング装置である。 ノイズ干渉や低目標強度、背景ダイナミクスといった複雑な水中環境は、ソナーイメージングに多くの悪影響を与えている。 その中でも非線形強度の問題は極めて一般的である。 音響センサイメージングの異方性としても知られており、自律型水中車両(AUV)がソナーを携帯して異なる角度から同じターゲットを検出すると、画像対間の強度の変動が非常に大きくなり、従来のマッチングアルゴリズムはほとんど効果がない。 しかし、画像マッチングはナビゲーション、ポジショニング、マッピングといった包括的なタスクの基礎となっている。 したがって、堅牢で正確なマッチング結果を得ることは非常に貴重である。 本稿では,位相情報と深部畳み込み特徴に基づく組み合わせマッチング手法を提案する。 1つはソナー画像の局所的および大域的位置の類似性を測定するために深部畳み込み特性を使用できることと、もう1つはソナー画像のキーターゲット位置において局所的特徴マッチングを行うことができることである。 この手法は複雑な手動設計を必要とせず、非線形強度ソナー画像のマッチング処理をエンドツーエンドで完了させる。 AUVが捉えた深海ソナー画像に特徴マッチング実験を行い,提案手法の精度とロバスト性について検討した。

In the field of deep-sea exploration, sonar is presently the only efficient long-distance sensing device. The complicated underwater environment, such as noise interference, low target intensity or background dynamics, has brought many negative effects on sonar imaging. Among them, the problem of nonlinear intensity is extremely prevalent. It is also known as the anisotropy of acoustic sensor imaging, that is, when autonomous underwater vehicles (AUVs) carry sonar to detect the same target from different angles, the intensity variation between image pairs is sometimes very large, which makes the traditional matching algorithm almost ineffective. However, image matching is the basis of comprehensive tasks such as navigation, positioning, and mapping. Therefore, it is very valuable to obtain robust and accurate matching results. This paper proposes a combined matching method based on phase information and deep convolution features. It has two outstanding advantages: one is that the deep convolution features could be used to measure the similarity of the local and global positions of the sonar image; the other is that local feature matching could be performed at the key target position of the sonar image. This method does not need complex manual designs, and completes the matching task of nonlinear intensity sonar images in a close end-to-end manner. Feature matching experiments are carried out on the deep-sea sonar images captured by AUVs, and the results show that our proposal has preeminent matching accuracy and robustness.
翻訳日:2021-12-01 15:18:41 公開日:2021-11-29
# buildformer: vision transformerによる自動建物抽出

BuildFormer: Automatic building extraction with vision transformer ( http://arxiv.org/abs/2111.15637v1 )

ライセンス: Link先を確認
Libo Wang, Yuechi Yang, Rui Li(参考訳) 精密なリモートセンシング画像からの建築物抽出は,都市計画,人口統計,経済評価,災害管理など,多くの地理空間応用において重要な役割を担っている。 深層学習技術の進歩により、深層畳み込みニューラルネットワーク(dcnn)は、長年にわたって自動建物抽出タスクを支配してきた。 しかし、dcnnの局所的な特性はグローバル情報の抽出を制限し、ビルディングインスタンスを認識するネットワークの能力を弱めている。 近年、トランスフォーマーはコンピュータビジョン領域においてホットトピックであり、画像分類、セマンティックセグメンテーション、オブジェクト検出といった基本的なビジョンタスクにおいて最先端のパフォーマンスを実現する。 そこで本稿では,超高解像度リモートセンシング画像であるbuildformerから建物を抽出するトランスフォーマネットワークを提案する。 ResNetとの比較において,提案手法はWHU構築データセット上でmIoUの2%の改善を実現する。

Building extraction from fine-resolution remote sensing images plays a vital role in numerous geospatial applications, such as urban planning, population statistic, economic assessment and disaster management. With the advancement of deep learning technology, deep convolutional neural networks (DCNNs) have dominated the automatic building extraction task for many years. However, the local property of DCNNs limits the extraction of global information, weakening the ability of the network for recognizing the building instance. Recently, the Transformer comprises a hot topic in the computer vision domain and achieves state-of-the-art performance in fundamental vision tasks, such as image classification, semantic segmentation and object detection. Inspired by this, in this paper, we propose a novel transformer-based network for extracting buildings from fine-resolution remote sensing images, namely BuildFormer. In Comparision with the ResNet, the proposed method achieves an improvement of 2% in mIoU on the WHU building dataset.
翻訳日:2021-12-01 15:16:52 公開日:2021-11-29
# daformer: ドメイン適応意味セグメンテーションのためのネットワークアーキテクチャの改善とトレーニング戦略

DAFormer: Improving Network Architectures and Training Strategies for Domain-Adaptive Semantic Segmentation ( http://arxiv.org/abs/2111.14887v1 )

ライセンス: Link先を確認
Lukas Hoyer, Dengxin Dai, Luc Van Gool(参考訳) セマンティックセグメンテーションのための実世界の画像のピクセル単位のアノテーションを取得することはコストのかかるプロセスであるため、モデルはよりアクセスしやすい合成データで訓練され、アノテーションを必要とせずに実際の画像に適応することができる。 このプロセスはunsupervised domain adaptation (UDA)で研究されている。 多くの手法が新しい適応戦略を提案するが、その多くは時代遅れのネットワークアーキテクチャに基づいている。 近年のネットワークアーキテクチャの影響は体系的に研究されていないため、まずUDAの異なるネットワークアーキテクチャをベンチマークし、そのベンチマーク結果に基づいて新しいUDA手法であるDAFormerを提案する。 DAFormerネットワークはTransformerエンコーダとマルチレベルコンテキスト認識機能融合デコーダで構成される。 ソースドメインでの希少なクラスサンプリングは、一般的なクラスに対する自己学習の確証バイアスを緩和することで、擬似ラベルの品質を改善するが、Thing-Class ImageNet Feature Distanceと学習率ウォームアップは、ImageNetプリトレーニングからのフィーチャー転送を促進する。 DAFormer は,GTA->Cityscapes の10.8 mIoU と Synthia->Cityscapes の5.4 mIoU を改良し,列車,バス,トラックなどの難易度も学べるようにした。 実装はhttps://github.com/l hoyer/daformerで利用可能である。

As acquiring pixel-wise annotations of real-world images for semantic segmentation is a costly process, a model can instead be trained with more accessible synthetic data and adapted to real images without requiring their annotations. This process is studied in unsupervised domain adaptation (UDA). Even though a large number of methods propose new adaptation strategies, they are mostly based on outdated network architectures. As the influence of recent network architectures has not been systematically studied, we first benchmark different network architectures for UDA and then propose a novel UDA method, DAFormer, based on the benchmark results. The DAFormer network consists of a Transformer encoder and a multi-level context-aware feature fusion decoder. It is enabled by three simple but crucial training strategies to stabilize the training and to avoid overfitting DAFormer to the source domain: While the Rare Class Sampling on the source domain improves the quality of pseudo-labels by mitigating the confirmation bias of self-training towards common classes, the Thing-Class ImageNet Feature Distance and a learning rate warmup promote feature transfer from ImageNet pretraining. DAFormer significantly improves the state-of-the-art performance by 10.8 mIoU for GTA->Cityscapes and 5.4 mIoU for Synthia->Cityscapes and enables learning even difficult classes such as train, bus, and truck well. The implementation is available at https://github.com/l hoyer/DAFormer.
翻訳日:2021-12-01 15:14:19 公開日:2021-11-29
# 部分的注釈付きデータから多次元予測課題の学習

Learning Multiple Dense Prediction Tasks from Partially Annotated Data ( http://arxiv.org/abs/2111.14893v1 )

ライセンス: Link先を確認
Wei-Hong Li, Xialei Liu, Hakan Bilen(参考訳) 密集した予測問題のマルチタスク学習の最近の進歩にもかかわらず、ほとんどの方法は高価なラベル付きデータセットに依存している。 本稿では,マルチタスクを部分的に教師付き学習と呼ぶ部分的注釈付きデータに対して,複数の密分布予測タスクを協調的に学習する手法を提案する。 タスク関係をうまく活用し,データが部分的にアノテートされた場合のマルチタスク学習を監督するマルチタスクトレーニング手順を提案する。 特に、各タスクペアを、タスクペアを条件とした別のネットワークを介して計算効率の良い方法で情報を共有できるジョイントペアワイズタスク空間にマップすることを学び、入力画像に関するハイレベル情報を保持して、自明なクロスタスク関係を学習することを避ける。 提案手法は,既存の半教師付き学習手法や関連する手法を3つの標準ベンチマークで比較し,その性能を向上する。

Despite the recent advances in multi-task learning of dense prediction problems, most methods rely on expensive labelled datasets. In this paper, we present a label efficient approach and look at jointly learning of multiple dense prediction tasks on partially annotated data, which we call multi-task partially-supervised learning. We propose a multi-task training procedure that successfully leverages task relations to supervise its multi-task learning when data is partially annotated. In particular, we learn to map each task pair to a joint pairwise task-space which enables sharing information between them in a computationally efficient way through another network conditioned on task pairs, and avoids learning trivial cross-task relations by retaining high-level information about the input image. We rigorously demonstrate that our proposed method effectively exploits the images with unlabelled tasks and outperforms existing semi-supervised learning approaches and related methods on three standard benchmarks.
翻訳日:2021-12-01 15:13:50 公開日:2021-11-29
# 静止環境における顔特徴の注意喚起

How Facial Features Convey Attention in Stationary Environments ( http://arxiv.org/abs/2111.14931v1 )

ライセンス: Link先を確認
Janelle Domantay(参考訳) 認識検出技術は様々な企業で注目を集めており、運転者の疲労検出によく用いられるが、近年の研究では、オンライン教室などの環境におけるユーザの注意をコンピュータビジョン技術で分析する研究にシフトしている。 本研究は,視覚的特徴が認知と疲労の予測に最も寄与する要因を分析することによって,従来の注意欠陥検出研究を拡大することを目的とする。 被験者の視覚データを種々の注意度で分析するために,オープンソースの顔分析ツールキットOpenFaceを利用した。 次に,svm(support-vector machine)を用いてユーザの注意を喚起するための予測モデルをいくつか作成し,我々がテストした機能の最大の予測要因として,向き付け勾配(hog)とアクションユニットのヒストグラムを特定しました。 また、このSVMの性能を、畳み込みと/またはリカレントニューラルネットワーク(CNNとCRNN)を利用するディープラーニングアプローチと比較した。 興味深いことに、CRNNはCNNよりもパフォーマンスが良くなかった。 ディープラーニング手法は予測精度が向上する一方で,SVMはリソースの削減と,特定のパラメータを用いて深層学習手法の性能にアプローチすることができた。

Awareness detection technologies have been gaining traction in a variety of enterprises; most often used for driver fatigue detection, recent research has shifted towards using computer vision technologies to analyze user attention in environments such as online classrooms. This paper aims to extend previous research on distraction detection by analyzing which visual features contribute most to predicting awareness and fatigue. We utilized the open source facial analysis toolkit OpenFace in order to analyze visual data of subjects at varying levels of attentiveness. Then, using a Support-Vector Machine (SVM) we created several prediction models for user attention and identified Histogram of Oriented Gradients (HOG) and Action Units to be the greatest predictors of the features we tested. We also compared the performance of this SVM to deep learning approaches that utilize Convolutional and/or Recurrent neural networks (CNN's and CRNN's). Interestingly, CRNN's did not appear to perform significantly better than their CNN counterparts. While deep learning methods achieved greater prediction accuracy, SVMs utilized less resources and, using certain parameters, were able to approach the performance of deep learning methods.
翻訳日:2021-12-01 15:13:31 公開日:2021-11-29
# 構造群間隔によるモルフ検出

Morph Detection Enhanced by Structured Group Sparsity ( http://arxiv.org/abs/2111.14943v1 )

ライセンス: Link先を確認
Poorya Aghdaie, Baaria Chaudhary, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) 本稿では,国境警備機関で採用されている顔認証システムの整合性を著しく損なう顔変形攻撃の課題について考察する。 形態検出は細粒度表現の抽出として定式化され、局所的な判別特徴を仮説の学習に利用することができる。 異なる粒度の識別的特徴と分離されたスペクトル情報を得るために,ウェーブレット領域解析を活用し,形態面の空間周波数内容について考察する。 そのため、RGB領域で画像を使用する代わりに、2次元ウェーブレット分解を用いて全ての画像をウェーブレットサブバンドに分解し、入力画像の最も識別性の高いウェーブレットサブバンドを見つけるために、深い教師付き特徴選択方式を用いる。 この目的のために,モーフィドおよびボナファイド画像の分解ウェーブレットサブバンドを用いて,ディープニューラルネットワーク(dnn)モルフィック検出器を訓練する。 トレーニングフェーズでは,DNNを構成するサブバンドのうち最も識別可能なウェーブレットサブバンドを抽出し,DNNを再トレーニングすることで,プローブ画像上での推測が達成された際の画像の正確な検出を行う。 また, 3つの顔形態画像データベース(VISAPP17, LMA, MorGAN)を用いて, 構造群ラッソにより増強された深部形態検出器の有効性を検証した。

In this paper, we consider the challenge of face morphing attacks, which substantially undermine the integrity of face recognition systems such as those adopted for use in border protection agencies. Morph detection can be formulated as extracting fine-grained representations, where local discriminative features are harnessed for learning a hypothesis. To acquire discriminative features at different granularity as well as a decoupled spectral information, we leverage wavelet domain analysis to gain insight into the spatial-frequency content of a morphed face. As such, instead of using images in the RGB domain, we decompose every image into its wavelet sub-bands using 2D wavelet decomposition and a deep supervised feature selection scheme is employed to find the most discriminative wavelet sub-bands of input images. To this end, we train a Deep Neural Network (DNN) morph detector using the decomposed wavelet sub-bands of the morphed and bona fide images. In the training phase, our structured group sparsity-constrained DNN picks the most discriminative wavelet sub-bands out of all the sub-bands, with which we retrain our DNN, resulting in a precise detection of morphed images when inference is achieved on a probe image. The efficacy of our deep morph detector which is enhanced by structured group lasso is validated through experiments on three facial morph image databases, i.e., VISAPP17, LMA, and MorGAN.
翻訳日:2021-12-01 15:13:11 公開日:2021-11-29
# 画像キャプションのためのニューラルアテンション:既存の手法のレビュー

Neural Attention for Image Captioning: Review of Outstanding Methods ( http://arxiv.org/abs/2111.15015v1 )

ライセンス: Link先を確認
Zanyar Zohourianshahzadi and Jugal K. Kalita(参考訳) 画像キャプションは、入力イメージを可能な限り最善に記述する文を自動的に生成するタスクである。 画像キャプションを自動的に生成する最も成功した技術は、近年、注意深い学習モデルを用いている。 注意深いディープラーニングモデルの設計方法には、さまざまなバリエーションがある。 本研究では,画像キャプションのための注意深い深層学習モデルに関する文献のレビューを行う。 深層画像キャプションモデルに関する全ての先行研究の包括的なレビューを提供する代わりに、深層学習モデルにおける画像キャプションのタスクに使用される様々な注意メカニズムについて説明する。 画像キャプションに最も成功したディープラーニングモデルはエンコーダ・デコーダアーキテクチャに従っているが、これらのモデルでは注意機構が採用されている。 画像キャプションのための異なる注意深度モデルの性能解析により、画像キャプションのための深度モデルにおいて最も成功した注意機構を見つけることを目的とする。 ソフトアテンション(soft attention)、ボトムアップアテンション(boot-up attention)、マルチヘッドアテンション(multi-head attention)は、画像キャプションのための最先端の注意深層学習モデルで広く使われているアテンションメカニズムの一種である。 現状ではボトムアップの注意を向けたマルチヘッド・アテンションの変種から最高の結果が得られる。

Image captioning is the task of automatically generating sentences that describe an input image in the best way possible. The most successful techniques for automatically generating image captions have recently used attentive deep learning models. There are variations in the way deep learning models with attention are designed. In this survey, we provide a review of literature related to attentive deep learning models for image captioning. Instead of offering a comprehensive review of all prior work on deep image captioning models, we explain various types of attention mechanisms used for the task of image captioning in deep learning models. The most successful deep learning models used for image captioning follow the encoder-decoder architecture, although there are differences in the way these models employ attention mechanisms. Via analysis on performance results from different attentive deep models for image captioning, we aim at finding the most successful types of attention mechanisms in deep models for image captioning. Soft attention, bottom-up attention, and multi-head attention are the types of attention mechanism widely used in state-of-the-art attentive deep learning models for image captioning. At the current time, the best results are achieved from variants of multi-head attention with bottom-up attention.
翻訳日:2021-12-01 15:12:46 公開日:2021-11-29
# 人工知能で天の川とアンドロメダを計量する

Weighing the Milky Way and Andromeda with Artificial Intelligence ( http://arxiv.org/abs/2111.14874v1 )

ライセンス: Link先を確認
Pablo Villanueva-Domingo, Francisco Villaescusa-Navarro, Shy Genel, Daniel Angl\'es-Alc\'azar, Lars Hernquist, Federico Marinacci, David N. Spergel, Mark Vogelsberger, Desika Narayanan(参考訳) 我々は、銀河系とアンドロメダ銀河を包含するハロの質量に関する新しい制約をグラフニューラルネットワークを用いて提示する。 我々のモデルは、CAMELS計画の何千もの最先端の流体力学シミュレーションに基づいて訓練され、ハロに属する銀河の位置、速度、恒星質量のみを利用しており、宇宙学的および天文学的な不確かさを考慮しつつハロ質量について確率のない推論を行うことができる。 我々の制約は他の伝統的な方法からの見積もりと一致している。

We present new constraints on the masses of the halos hosting the Milky Way and Andromeda galaxies derived using graph neural networks. Our models, trained on thousands of state-of-the-art hydrodynamic simulations of the CAMELS project, only make use of the positions, velocities and stellar masses of the galaxies belonging to the halos, and are able to perform likelihood-free inference on halo masses while accounting for both cosmological and astrophysical uncertainties. Our constraints are in agreement with estimates from other traditional methods.
翻訳日:2021-12-01 14:43:13 公開日:2021-11-29
# 耳に耳を傾けると、複雑な非マップ環境におけるオーディオ・ビジュアル・ナビゲーション

Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving Sounds ( http://arxiv.org/abs/2111.14843v1 )

ライセンス: Link先を確認
Abdelrahman Younes, Daniel Honerkamp, Tim Welschehold and Abhinav Valada(参考訳) 視聴覚ナビゲーションは視覚と聴覚を組み合わせることで、未熟な環境では発光源にナビゲートする。 最近のアプローチでは、音声入力による目標の検出と発見の利点が示されているが、それらはクリーンで静的な音源にフォーカスし、耳に届かない音への一般化に苦慮している。 そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。 これらの複雑な設定に対して堅牢なナビゲーションポリシーを学習する強化学習アプローチを導入する。 そこで本研究では,空間的特徴空間に視聴覚情報を融合して,局所地図と音声信号の両方に固有な幾何学的情報の相関関係を学習するアーキテクチャを提案する。 本手法は,matterport3dとreplicaという2つの挑戦的な実環境において,移動音,未聴音,騒音環境のすべてのタスクにおいて,最先端の技術を一貫して上回っている。 ベンチマークはhttp://dav-nav.cs.un i-freiburg.deで利用可能である。

Audio-visual navigation combines sight and hearing to navigate to a sound-emitting source in an unmapped environment. While recent approaches have demonstrated the benefits of audio input to detect and find the goal, they focus on clean and static sound sources and struggle to generalize to unheard sounds. In this work, we propose the novel dynamic audio-visual navigation benchmark which requires to catch a moving sound source in an environment with noisy and distracting sounds. We introduce a reinforcement learning approach that learns a robust navigation policy for these complex settings. To achieve this, we propose an architecture that fuses audio-visual information in the spatial feature space to learn correlations of geometric information inherent in both local maps and audio signals. We demonstrate that our approach consistently outperforms the current state-of-the-art by a large margin across all tasks of moving sounds, unheard sounds, and noisy environments, on two challenging 3D scanned real-world environments, namely Matterport3D and Replica. The benchmark is available at http://dav-nav.cs.un i-freiburg.de.
翻訳日:2021-12-01 14:43:04 公開日:2021-11-29
# アスペクトベース感情分析へのハイブリッドアプローチのためのadversarial training

Adversarial Training for a Hybrid Approach to Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2111.14988v1 )

ライセンス: Link先を確認
Ron Hochstenbach, Flavius Frasincar and Maria Mihaela Trusca(参考訳) Webの人気が高まったことで、製品やサービスに対するレビューの量が増えた。 これらのレビューを表現された感情にマイニングすることは、企業と消費者の両方にとって有益であり、この情報に基づいて品質を改善することができる。 本稿では,アスペクトベース感情分析のための最新のHAABSA++アルゴリズムについて考察する。 具体的には,このアルゴリズムのニューラルネットワーク部分を,高現実的な新しいサンプルを生成することによって,ジェネレータネットワークを騙そうとする新たな機械学習学習手法である,対角ネットワークを用いてトレーニングする。 2015年のsemevalデータセットでは、精度が81.7%から82.5%に向上し、2016年のsemevalタスクでは84.4%から87.3%に向上した。

The increasing popularity of the Web has subsequently increased the abundance of reviews on products and services. Mining these reviews for expressed sentiment is beneficial for both companies and consumers, as quality can be improved based on this information. In this paper, we consider the state-of-the-art HAABSA++ algorithm for aspect-based sentiment analysis tasked with identifying the sentiment expressed towards a given aspect in review sentences. Specifically, we train the neural network part of this algorithm using an adversarial network, a novel machine learning training method where a generator network tries to fool the classifier network by generating highly realistic new samples, as such increasing robustness. This method, as of yet never in its classical form applied to aspect-based sentiment analysis, is found to be able to considerably improve the out-of-sample accuracy of HAABSA++: for the SemEval 2015 dataset, accuracy was increased from 81.7% to 82.5%, and for the SemEval 2016 task, accuracy increased from 84.4% to 87.3%.
翻訳日:2021-12-01 14:42:26 公開日:2021-11-29
# 音声言語理解のための音声認識はまだ必要か?

Do We Still Need Automatic Speech Recognition for Spoken Language Understanding? ( http://arxiv.org/abs/2111.14842v1 )

ライセンス: Link先を確認
Lasse Borgholt, Jakob Drachmann Havtorn, Mostafa Abdou, Joakim Edin, Lars Maal{\o}e, Anders S{\o}gaard, Christian Igel(参考訳) 音声言語理解(slu)タスクは通常、まず発話を自動音声認識(asr)で書き起こし、それからテキストベースのモデルに出力することで解決される。 音声データに対する自己教師付き表現学習の最近の進歩は、ASRコンポーネントの改善に焦点を当てている。 音声の表現学習がSLUのASRに取って代わるほど成熟したかどうかを検討する。 我々は,wav2vec 2.0の学習音声特徴,最先端のASR書き起こし,および音声に基づく新しいエンティティ認識タスク,現実世界の緊急電話における心停止検出タスク,および既存の2つのSLUベンチマークの入力として真実テキストを比較した。 学習音声の特徴は3つの分類課題においてasr書き起こしよりも優れていることを示す。 機械翻訳では、asrの書き起こしが良い選択である。 我々は,wav2vec 2.0表現の語彙外表現に対する本質的ロバスト性を,パフォーマンス向上の鍵として強調する。

Spoken language understanding (SLU) tasks are usually solved by first transcribing an utterance with automatic speech recognition (ASR) and then feeding the output to a text-based model. Recent advances in self-supervised representation learning for speech data have focused on improving the ASR component. We investigate whether representation learning for speech has matured enough to replace ASR in SLU. We compare learned speech features from wav2vec 2.0, state-of-the-art ASR transcripts, and the ground truth text as input for a novel speech-based named entity recognition task, a cardiac arrest detection task on real-world emergency calls and two existing SLU benchmarks. We show that learned speech features are superior to ASR transcripts on three classification tasks. For machine translation, ASR transcripts are still the better choice. We highlight the intrinsic robustness of wav2vec 2.0 representations to out-of-vocabulary words as key to better performance.
翻訳日:2021-12-01 14:20:58 公開日:2021-11-29
# 不確実性定量化予測のための機械学習手法の評価

Evaluation of Machine Learning Techniques for Forecast Uncertainty Quantification ( http://arxiv.org/abs/2111.14844v1 )

ライセンス: Link先を確認
Maximiliano A. Sacco, Juan J. Ruiz, Manuel Pulido and Pierre Tandeo(参考訳) 正確な天気予報と、その不確かさの信頼できる定量化は、オープンな科学的課題である。 アンサンブル予測は、これまでのところ、その不確実性の推定とともに、関連する予測を生成するための最も成功したアプローチである。 アンサンブル予測の主な制限は、高い計算コストと、不確実性、特にモデルエラーに関連する様々なソースを捕捉し定量化することの難しさである。 本研究は,1つの決定論的予測のみを入力として,システムの修正状態と状態不確かさを予測するために訓練されたANNの性能を評価するための概念モデル実験である。 対象としてアンサンブル予測の平均と拡散を用いた直接訓練と,データから不確実性が暗黙的に学習されるターゲットとして決定論的予測を用いた間接訓練とを併用した訓練とを比較した。 最後のアプローチでは、データ観測可能性に基づく2つの代替損失関数と、誤差の局所的推定に基づく2つの損失関数が提案され、評価される。 ネットワークの性能は、モデルエラーの有無に関わらず、異なるリードタイムとシナリオで検証される。 Lorenz'96モデルを用いた実験により、ANNは最も予測不可能なモードのフィルタリングや予測の不確実性の状態依存定量化など、アンサンブル予測の特性の一部をエミュレートできることが示された。 さらに、annはモデル誤差の存在下で予測の不確かさの信頼性の高い推定を提供する。

Producing an accurate weather forecast and a reliable quantification of its uncertainty is an open scientific challenge. Ensemble forecasting is, so far, the most successful approach to produce relevant forecasts along with an estimation of their uncertainty. The main limitations of ensemble forecasting are the high computational cost and the difficulty to capture and quantify different sources of uncertainty, particularly those associated with model errors. In this work proof-of-concept model experiments are conducted to examine the performance of ANNs trained to predict a corrected state of the system and the state uncertainty using only a single deterministic forecast as input. We compare different training strategies: one based on a direct training using the mean and spread of an ensemble forecast as target, the other ones rely on an indirect training strategy using a deterministic forecast as target in which the uncertainty is implicitly learned from the data. For the last approach two alternative loss functions are proposed and evaluated, one based on the data observation likelihood and the other one based on a local estimation of the error. The performance of the networks is examined at different lead times and in scenarios with and without model errors. Experiments using the Lorenz'96 model show that the ANNs are able to emulate some of the properties of ensemble forecasts like the filtering of the most unpredictable modes and a state-dependent quantification of the forecast uncertainty. Moreover, ANNs provide a reliable estimation of the forecast uncertainty in the presence of model error.
翻訳日:2021-12-01 14:20:43 公開日:2021-11-29
# DeepCQ+: 高ダイナミックネットワークのためのマルチエージェントディープ強化学習によるロバストでスケーラブルなルーティング

DeepCQ+: Robust and Scalable Routing with Multi-Agent Deep Reinforcement Learning for Highly Dynamic Networks ( http://arxiv.org/abs/2111.15013v1 )

ライセンス: Link先を確認
Saeed Kaviani, Bo Ryu, Ejaz Ahmed, Kevin Larson, Anh Le, Alex Yahja, and Jae H. Kim(参考訳) 高ダイナミックなモバイルアドホックネットワーク(MANET)は、堅牢で効率的でスケーラブルなルーティングプロトコルを開発し、デプロイする上で最も困難な環境の1つである。 本稿では,新たなマルチエージェント深層強化学習(madrl)手法を既存のq-learningベースのルーティングプロトコルとその変種に統合し,多種多様なトポロジーおよびモビリティ構成において持続的に高いパフォーマンスを実現する,deepcq+ルーティングプロトコルを提案する。 Qラーニングベースのルーティングプロトコルの全体的なプロトコル構造を維持しながら、DeepCQ+は静的に設定されたパラメータ化しきい値と手書きのルールを、慎重に設計されたMADRLエージェントで置き換える。 大規模なシミュレーションにより、DeepCQ+は、Qラーニングベースのものと比較して、オーバーヘッドが低く、エンドツーエンドの遅延(ホップカウント)が明らかに低下しないため、エンドツーエンドのスループットが大幅に向上することが示された。 deepcq+は、ネットワークサイズ、モビリティ条件、およびトラフィックダイナミクスに関して訓練されていない多くのシナリオにおいて、非常によく似たパフォーマンス向上を維持している。 私たちの知る限りでは、これはmaetルーティング問題に対するmadrlフレームワークの最初の成功例であり、トレーニングされたシナリオの範囲外の環境においても高いスケーラビリティと堅牢性を示している。 このことは、我々のMARLベースのDeepCQ+設計ソリューションが、Q-learningベースのCQ+ベースラインアプローチの性能を大幅に改善し、実世界のMANET環境が訓練されたMANETシナリオの範囲外で異なるため、その実用性と説明可能性を高めることを意味する。 パフォーマンスとスケーラビリティのさらなる向上のための追加技術について論じる。

Highly dynamic mobile ad-hoc networks (MANETs) remain as one of the most challenging environments to develop and deploy robust, efficient, and scalable routing protocols. In this paper, we present DeepCQ+ routing protocol which, in a novel manner integrates emerging multi-agent deep reinforcement learning (MADRL) techniques into existing Q-learning-based routing protocols and their variants and achieves persistently higher performance across a wide range of topology and mobility configurations. While keeping the overall protocol structure of the Q-learning-based routing protocols, DeepCQ+ replaces statically configured parameterized thresholds and hand-written rules with carefully designed MADRL agents such that no configuration of such parameters is required a priori. Extensive simulation shows that DeepCQ+ yields significantly increased end-to-end throughput with lower overhead and no apparent degradation of end-to-end delays (hop counts) compared to its Q-learning based counterparts. Qualitatively, and perhaps more significantly, DeepCQ+ maintains remarkably similar performance gains under many scenarios that it was not trained for in terms of network sizes, mobility conditions, and traffic dynamics. To the best of our knowledge, this is the first successful application of the MADRL framework for the MANET routing problem that demonstrates a high degree of scalability and robustness even under environments that are outside the trained range of scenarios. This implies that our MARL-based DeepCQ+ design solution significantly improves the performance of Q-learning based CQ+ baseline approach for comparison and increases its practicality and explainability because the real-world MANET environment will likely vary outside the trained range of MANET scenarios. Additional techniques to further increase the gains in performance and scalability are discussed.
翻訳日:2021-12-01 14:20:20 公開日:2021-11-29
# 複合ベイズ最適化による高次元物理シミュレーションの最適化

Optimizing High-Dimensional Physics Simulations via Composite Bayesian Optimization ( http://arxiv.org/abs/2111.14911v1 )

ライセンス: Link先を確認
Wesley Maddox, Qing Feng, Max Balandat(参考訳) 物理シミュレーションに基づく最適化は、科学と工学において一般的なタスクである。 このようなシミュレーションの多くは、所望の目的がそれらの出力の関数である画像またはテンソルベースの出力を生成し、高次元パラメータ空間上で最適化を行う。 テンソルベースガウス過程と信頼領域のベイズ最適化を利用したベイズ最適化手法を開発し、画像出力を効果的にモデル化し、電波塔構成問題や光設計問題を含むこれらの種類のシミュレーションを効率的に最適化する。

Physical simulation-based optimization is a common task in science and engineering. Many such simulations produce image- or tensor-based outputs where the desired objective is a function of those outputs, and optimization is performed over a high-dimensional parameter space. We develop a Bayesian optimization method leveraging tensor-based Gaussian process surrogates and trust region Bayesian optimization to effectively model the image outputs and to efficiently optimize these types of simulations, including a radio-frequency tower configuration problem and an optical design problem.
翻訳日:2021-12-01 13:57:58 公開日:2021-11-29
# ラベル誤りに対する効率的な遷移行列推定による雑音ラベル学習

Learning with Noisy Labels by Efficient Transition Matrix Estimation to Combat Label Miscorrection ( http://arxiv.org/abs/2111.14932v1 )

ライセンス: Link先を確認
Seong Min Kye, Kwanghee Choi, Joonyoung Yi, and Buru Chang(参考訳) ノイズラベルを用いた学習に関する最近の研究は、小さなクリーンデータセットを利用して顕著な性能を示した。 特にモデル非依存なメタラーニングに基づくラベル補正手法は、オンザフライでノイズの多いラベルを訂正することでパフォーマンスをさらに向上させる。 しかし、ラベルの誤りに対する保護は存在せず、性能劣化は避けられない。 さらに、トレーニングステップごとに少なくとも3つのバックプロパゲーションが必要となり、トレーニング速度が大幅に低下する。 これらの問題を解決するために,ラベル遷移行列をリアルタイムで学習するロバストで効率的な手法を提案する。 遷移行列を用いると、分類器は全ての修正されたサンプルについて懐疑的になる。 また,1つのバックプロパゲーション内の反復毎にラベル遷移行列を効率的に推定するため,ラベル補正によって生じるシフト雑音分布に密接に従う2つのヘッドアーキテクチャを導入する。 大規模な実験により,本手法は既存の手法と同等あるいは高い精度で,訓練効率の最高の性能を示した。

Recent studies on learning with noisy labels have shown remarkable performance by exploiting a small clean dataset. In particular, model agnostic meta-learning-based label correction methods further improve performance by correcting noisy labels on the fly. However, there is no safeguard on the label miscorrection, resulting in unavoidable performance degradation. Moreover, every training step requires at least three back-propagations, significantly slowing down the training speed. To mitigate these issues, we propose a robust and efficient method that learns a label transition matrix on the fly. Employing the transition matrix makes the classifier skeptical about all the corrected samples, which alleviates the miscorrection issue. We also introduce a two-head architecture to efficiently estimate the label transition matrix every iteration within a single back-propagation, so that the estimated matrix closely follows the shifting noise distribution induced by label correction. Extensive experiments demonstrate that our approach shows the best performance in training efficiency while having comparable or better accuracy than existing methods.
翻訳日:2021-12-01 13:57:48 公開日:2021-11-29
# neural prophet: スケールで説明可能な予測

NeuralProphet: Explainable Forecasting at Scale ( http://arxiv.org/abs/2111.15397v1 )

ライセンス: Link先を確認
Oskar Triebe, Hansika Hewamalage, Polina Pilyugina, Nikolay Laptev, Christoph Bergmeir, Ram Rajagopal(参考訳) facebook prophetの後継であるneural prophetを紹介し、説明可能でスケーラブルで、ユーザフレンドリーな予測フレームワークの業界標準を設定します。 時系列データの普及に伴い、説明可能な予測はビジネスや運用上の意思決定において依然として困難なタスクである。 解釈可能な古典的手法とスケーラブルなディープラーニングモデルの間のギャップを埋めるためにハイブリッドソリューションが必要である。 我々は Prophet をそのようなソリューションの先駆者と見なしている。 しかし、prophetにはローカルコンテキストが欠如しており、これは近い将来の予測に必須であり、stanバックエンドのため拡張が困難である。 neuralprophetはpytorchをベースにしたハイブリッド予測フレームワークであり、標準的なディープラーニングメソッドでトレーニングされている。 ローカルコンテキストは自動回帰と共変モジュールによって導入され、古典線形回帰やニューラルネットワークとして設定できる。 そうでなければ、NeuralProphetはProphetの設計哲学を維持し、同じ基本モデルコンポーネントを提供する。 この結果から,Neural Prophetは生成した時系列の集合上で,Prophetに等価あるいは優れた品質の解釈可能な予測成分を生成することがわかった。 neuralprophetは、現実世界のさまざまなデータセットの集まりでprophetを上回る。 短期から中期の予測では、NeuralProphetは予測精度を55%から92%改善する。

We introduce NeuralProphet, a successor to Facebook Prophet, which set an industry standard for explainable, scalable, and user-friendly forecasting frameworks. With the proliferation of time series data, explainable forecasting remains a challenging task for business and operational decision making. Hybrid solutions are needed to bridge the gap between interpretable classical methods and scalable deep learning models. We view Prophet as a precursor to such a solution. However, Prophet lacks local context, which is essential for forecasting the near-term future and is challenging to extend due to its Stan backend. NeuralProphet is a hybrid forecasting framework based on PyTorch and trained with standard deep learning methods, making it easy for developers to extend the framework. Local context is introduced with auto-regression and covariate modules, which can be configured as classical linear regression or as Neural Networks. Otherwise, NeuralProphet retains the design philosophy of Prophet and provides the same basic model components. Our results demonstrate that NeuralProphet produces interpretable forecast components of equivalent or superior quality to Prophet on a set of generated time series. NeuralProphet outperforms Prophet on a diverse collection of real-world datasets. For short to medium-term forecasts, NeuralProphet improves forecast accuracy by 55 to 92 percent.
翻訳日:2021-12-01 13:55:17 公開日:2021-11-29
# 形態的制約のある3次元深部生成モデルによる脳画像の等価モデリング

Equitable modelling of brain imaging by counterfactual augmentation with morphologically constrained 3D deep generative models ( http://arxiv.org/abs/2111.14923v1 )

ライセンス: Link先を確認
Guilherme Pombo, Robert Gray, Jorge Cardoso, Sebastien Ourselin, Geraint Rees, John Ashburner, Parashkev Nachev(参考訳) 本稿では,ラベル駆動,生物学的に有理な脳画像変化を誘発する2相変形の条件付き生成モデルであるcountersynthについて述べる。 このモデルは、データ不均衡、分散不安定性、不特定性によって忠実さが制限される下流の識別モデルタスクに対する対実的トレーニングデータ拡張を合成することを目的としており、異なるサブ人口間で不平等なパフォーマンスを示す。 人口統計学的属性に着目し,voxelに基づく形態計測,条件付属性の分類と回帰,fr\'{e}chetインセプション距離を用いた合成偽物の品質評価を行った。 本研究は,イギリスにおけるバイオバンク磁気共鳴画像データを用いて,これらの課題に対する現在の解に対する反合成増強のベンチマークを行う。 我々は、全体的な忠実さと株式の両方において、最先端の改善を達成する。 CounterSynthのソースコードはオンラインで入手できる。

We describe Countersynth, a conditional generative model of diffeomorphic deformations that induce label-driven, biologically plausible changes in volumetric brain images. The model is intended to synthesise counterfactual training data augmentations for downstream discriminative modelling tasks where fidelity is limited by data imbalance, distributional instability, confounding, or underspecification, and exhibits inequitable performance across distinct subpopulations. Focusing on demographic attributes, we evaluate the quality of synthesized counterfactuals with voxel-based morphometry, classification and regression of the conditioning attributes, and the Fr\'{e}chet inception distance. Examining downstream discriminative performance in the context of engineered demographic imbalance and confounding, we use UK Biobank magnetic resonance imaging data to benchmark CounterSynth augmentation against current solutions to these problems. We achieve state-of-the-art improvements, both in overall fidelity and equity. The source code for CounterSynth is available online.
翻訳日:2021-12-01 13:53:15 公開日:2021-11-29
# 超ニューロンによるイメージデノイング:なぜ深みがあるのか?

Image denoising by Super Neurons: Why go deep? ( http://arxiv.org/abs/2111.14948v1 )

ライセンス: Link先を確認
Junaid Malik, Serkan Kiranyaz, Moncef Gabbouj(参考訳) 古典的な画像分類法は非局所的自己相似原理を用いてノイズ画像から画像コンテンツを効果的に復元する。 現在の最先端手法では、深層畳み込みニューラルネットワーク(cnns)を使用してノイズからクリーン画像へのマッピングを効果的に学習している。 ディープデノイジングcnnは高い学習能力を示し、多数の隠れた層によって生じる大きな受容領域のために非局所的な情報を統合する。 しかし、ディープネットワークは計算も複雑で、トレーニングには大きなデータを必要とする。 これらの課題に対処するため,本研究では,コンパクトで浅いモデルで類似あるいはより優れた復調性能を達成可能な,新しいニューロンモデルによって強化された自己組織型オペレーショナルニューラルネットワーク(Self-ONN)に注目した。 近年、非局在化カーネル位置を利用して生成ニューロンの非線形変換を増強し、受容野のサイズを拡大する超ニューロンの概念が導入されている。 これが、ディープネットワーク構成の必要性を浮き彫りにする重要な成果です。 本研究は,非局所的情報の統合がデノイジングに役立つことが知られているため,人工的および実世界の画像デノイジングにおけるスーパーニューロンの利用について検討する。 また,gpu上でスーパーニューロンモデルを実装する際の実際的な課題を議論し,非局所演算の多様性と計算複雑性とのトレードオフを提案する。 以上の結果から,超ニューロンを用いた自己ONNは,生成ニューロンと畳み込みニューロンを両タスクに用いたネットワーク上でのデノナイジング性能を著しく向上させることが示唆された。 さらに, スーパーニューロンを用いた自己ONNは, 合成および実世界のデノナイザーとしてよく知られたディープCNNデノナイザーよりも, 競争力と優れたデノナイジング性能が得られることを示した。

Classical image denoising methods utilize the non-local self-similarity principle to effectively recover image content from noisy images. Current state-of-the-art methods use deep convolutional neural networks (CNNs) to effectively learn the mapping from noisy to clean images. Deep denoising CNNs manifest a high learning capacity and integrate non-local information owing to the large receptive field yielded by numerous cascade of hidden layers. However, deep networks are also computationally complex and require large data for training. To address these issues, this study draws the focus on the Self-organized Operational Neural Networks (Self-ONNs) empowered by a novel neuron model that can achieve a similar or better denoising performance with a compact and shallow model. Recently, the concept of super-neurons has been introduced which augment the non-linear transformations of generative neurons by utilizing non-localized kernel locations for an enhanced receptive field size. This is the key accomplishment which renders the need for a deep network configuration. As the integration of non-local information is known to benefit denoising, in this work we investigate the use of super neurons for both synthetic and real-world image denoising. We also discuss the practical issues in implementing the super neuron model on GPUs and propose a trade-off between the heterogeneity of non-localized operations and computational complexity. Our results demonstrate that with the same width and depth, Self-ONNs with super neurons provide a significant boost of denoising performance over the networks with generative and convolutional neurons for both denoising tasks. Moreover, results demonstrate that Self-ONNs with super neurons can achieve a competitive and superior synthetic denoising performances than well-known deep CNN denoisers for synthetic and real-world denoising, respectively.
翻訳日:2021-12-01 13:52:54 公開日:2021-11-29
# MultiPath++: 行動予測のための効率的な情報融合と軌道集約

MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction ( http://arxiv.org/abs/2111.14973v1 )

ライセンス: Link先を確認
Balakrishnan Varadarajan, Ahmed Hefny, Avikalp Srivastava, Khaled S. Refaat, Nigamaa Nayakanti, Andre Cornman, Kan Chen, Bertrand Douillard, Chi Pang Lam, Dragomir Anguelov, Benjamin Sapp(参考訳) 道路利用者の将来行動を予測することは、自動運転において最も困難で重要な問題の一つである。 この問題にディープラーニングを適用するには、豊富な知覚信号と地図情報という形で異種の世界状態を融合し、可能未来にわたる高度にマルチモーダルな分布を推定する必要がある。 本稿では,一般的なベンチマークにおける最先端性能を実現するための予測モデルであるMultiPath++を提案する。 MultiPath++は、多くの設計選択を再考することによって、MultiPathアーキテクチャを改善している。 multipath++は、道路の特徴を記述するためにコンパクトで効率的なポリラインを消費し、生のエージェント状態情報(例えば、位置、速度、加速度など)を直接消費する。 本稿では,これらの要素のコンテキスト対応融合を提案し,再利用可能なマルチコンテキストゲーティング融合コンポーネントを開発する。 次に、事前定義された静的アンカーの選択を再考し、モデルのエンドツーエンドに潜伏するアンカーの埋め込みを学習する方法を開発する。 最後に、他のMLドメインに共通するアンサンブルと出力アグリゲーション技術を検討し、確率的マルチモーダル出力表現に有効な変種を見つける。 我々は,これらの設計選択を徹底的にアブレーションし,提案モデルがargoverse motion forecasting competition と waymo open dataset motion prediction challenge において最先端のパフォーマンスを達成していることを示す。

Predicting the future behavior of road users is one of the most challenging and important problems in autonomous driving. Applying deep learning to this problem requires fusing heterogeneous world state in the form of rich perception signals and map information, and inferring highly multi-modal distributions over possible futures. In this paper, we present MultiPath++, a future prediction model that achieves state-of-the-art performance on popular benchmarks. MultiPath++ improves the MultiPath architecture by revisiting many design choices. The first key design difference is a departure from dense image-based encoding of the input world state in favor of a sparse encoding of heterogeneous scene elements: MultiPath++ consumes compact and efficient polylines to describe road features, and raw agent state information directly (e.g., position, velocity, acceleration). We propose a context-aware fusion of these elements and develop a reusable multi-context gating fusion component. Second, we reconsider the choice of pre-defined, static anchors, and develop a way to learn latent anchor embeddings end-to-end in the model. Lastly, we explore ensembling and output aggregation techniques -- common in other ML domains -- and find effective variants for our probabilistic multimodal output representation. We perform an extensive ablation on these design choices, and show that our proposed model achieves state-of-the-art performance on the Argoverse Motion Forecasting Competition and the Waymo Open Dataset Motion Prediction Challenge.
翻訳日:2021-12-01 13:29:12 公開日:2021-11-29
# Deformable ProtoPNet:Deformable Prototypesを用いた解釈可能な画像分類器

Deformable ProtoPNet: An Interpretable Image Classifier Using Deformable Prototypes ( http://arxiv.org/abs/2111.15000v1 )

ライセンス: Link先を確認
Jon Donnelly, Alina Jade Barnett, Chaofan Chen(参考訳) 機械学習は多くの分野で広く採用されており、医療、金融、刑事司法などの高度な応用がある。 公平性、説明責任、透明性の懸念に対処するためには、これらの重要な領域における機械学習モデルによる予測を解釈しなくてはならない。 ディープニューラルネットワークのパワーとケースベース推論の解釈性を統合して、正確かつ解釈可能な画像分類モデルを構築することで、この課題にアプローチする。 これらのモデルは通常、トレーニング中に学習したプロトタイプと比較することで入力画像を分類し、「これのような形」で説明を与える。 しかし、この作品の手法では空間的に剛性のあるプロトタイプが使われており、ポーズのバリエーションを明示的に説明できない。 本稿では,デフォルマブルなプロトタイプ部分ネットワーク(Deformable ProtoPNet)と呼ばれる,空間的にフレキシブルなプロトタイプを提供するケースベースの解釈可能なニューラルネットワークを提案する。 Deformable ProtoPNetでは、各プロトタイプは、入力画像に応じて相対的な空間位置を適応的に変更するいくつかのプロトタイプ部品で構成されている。 これにより、プロトタイプ内の部分の移動が許されるため、各プロトタイプは、空間変換への耐性が高いオブジェクト特徴を検出できる。 これにより、変形可能なプロトプネットはポーズの変動を明示的に捉えることができ、モデルの精度と説明の豊かさが向上する。 プロトタイプを用いた他のケースベース解釈可能なモデルと比較して,提案手法は競争精度が向上し,よりコンテキストの広い説明が可能となり,学習が容易になり,コンピュータビジョンに解釈可能なモデルをより広く活用することができる。

Machine learning has been widely adopted in many domains, including high-stakes applications such as healthcare, finance, and criminal justice. To address concerns of fairness, accountability and transparency, predictions made by machine learning models in these critical domains must be interpretable. One line of work approaches this challenge by integrating the power of deep neural networks and the interpretability of case-based reasoning to produce accurate yet interpretable image classification models. These models generally classify input images by comparing them with prototypes learned during training, yielding explanations in the form of "this looks like that." However, methods from this line of work use spatially rigid prototypes, which cannot explicitly account for pose variations. In this paper, we address this shortcoming by proposing a case-based interpretable neural network that provides spatially flexible prototypes, called a deformable prototypical part network (Deformable ProtoPNet). In a Deformable ProtoPNet, each prototype is made up of several prototypical parts that adaptively change their relative spatial positions depending on the input image. This enables each prototype to detect object features with a higher tolerance to spatial transformations, as the parts within a prototype are allowed to move. Consequently, a Deformable ProtoPNet can explicitly capture pose variations, improving both model accuracy and the richness of explanations provided. Compared to other case-based interpretable models using prototypes, our approach achieves competitive accuracy, gives an explanation with greater context, and is easier to train, thus enabling wider use of interpretable models for computer vision.
翻訳日:2021-12-01 13:28:45 公開日:2021-11-29
# DeDUCE: 事実上の説明を効果的に生成する

DeDUCE: Generating Counterfactual Explanations Efficiently ( http://arxiv.org/abs/2111.15639v1 )

ライセンス: Link先を確認
Benedikt H\"oltgen, Lisa Schut, Jan M. Brauner and Yarin Gal(参考訳) 画像分類器が間違ったクラスラベルを出力すると、画像のどの変更が正しい分類につながるかを確認するのに役立ちます。 これは、反事実的説明を生成するアルゴリズムの目的である。 しかし,そのような反事実を生成するためのスケーラブルな手法は存在しない。 我々は,スペクトル正規化を訓練した大規模画像分類器に対して,計算コストの低い反実的説明を提供するアルゴリズムを開発した。 我々は、このアルゴリズムを文献のベースラインと経験的に比較し、新しいアルゴリズムは、元の入力にずっと近い反事実を常に見つける。 同時に、これらの反事実のリアリズムは、ベースラインと同等である。 すべての実験のコードはhttps://github.com/b enedikthoeltgen/dedu ceで入手できる。

When an image classifier outputs a wrong class label, it can be helpful to see what changes in the image would lead to a correct classification. This is the aim of algorithms generating counterfactual explanations. However, there is no easily scalable method to generate such counterfactuals. We develop a new algorithm providing counterfactual explanations for large image classifiers trained with spectral normalisation at low computational cost. We empirically compare this algorithm against baselines from the literature; our novel algorithm consistently finds counterfactuals that are much closer to the original inputs. At the same time, the realism of these counterfactuals is comparable to the baselines. The code for all experiments is available at https://github.com/b enedikthoeltgen/DeDU CE.
翻訳日:2021-12-01 13:28:05 公開日:2021-11-29
# GAN-CNMP:インタラクティブな生成描画ツール

GAN-CNMP: An Interactive Generative Drawing Tool ( http://arxiv.org/abs/2111.14934v1 )

ライセンス: Link先を確認
S. Ece Ada, M. Yunus Seker, Pinar Yanardag(参考訳) スケッチは視覚知覚と視覚構成の抽象表現である。 そこで本研究では,スケッチのスムーズさと一貫性を高めるために,CNMPに新たな敵対的損失をもたらす新しいフレームワークであるGAN-CNMPを提案する。 実験により,本モデルは,少数の未ラベルサンプルを用いてトレーニングし,潜在空間で自動的に分布を構築し,形状の整合性や滑らかさの観点から,ベースモデルよりも優れた結果が得られることを示した。

Sketches are abstract representations of visual perception and visuospatial construction. In this work, we proposed a new framework, GAN-CNMP, that incorporates a novel adversarial loss on CNMP to increase sketch smoothness and consistency. Through the experiments, we show that our model can be trained with few unlabeled samples, can construct distributions automatically in the latent space, and produces better results than the base model in terms of shape consistency and smoothness.
翻訳日:2021-12-01 13:27:55 公開日:2021-11-29
# (参考訳) 弱い監督によるカスタマーエージェントチャットの顧客感情分析 [全文訳有]

Customer Sentiment Analysis using Weak Supervision for Customer-Agent Chat ( http://arxiv.org/abs/2111.14282v1 )

ライセンス: CC BY 4.0
Navdeep Jain(参考訳) 弱い監督を用いた感情分析に関する以前の仕事は、主に映画(imdb)、レストラン(yelp)、製品(amazon)といった異なるレビューに焦点を当てていた。 この点に関して未検討の分野の1つは、無料の公開データがないことによるカスタマーサポートにおけるカスタマーエージェントチャットのカスタマチャットデータである。 ここでは、社内データセットの弱さを利用した顧客チャットの感情分析を行う。 我々は、弱い監督力を用いた感情分類器として、事前学習言語モデル(LM)RoBERTaを微調整する。 1) 弱い感情分類器とドメイン固有の語彙ベースのルールをラベル付け関数(LF)として使用することにより、弱い監督力を使ってかなり正確な顧客チャット感情分類器を訓練できることを示す。 2) カスタムトレーニングモデルと市販の Google クラウド NLP API を比較し,感情分析を行った。 LFを使ってドメイン固有の知識を注入することで、監督の弱い場合でも、オフザシェルフの Google クラウド NLP API よりもドメイン固有のユースケースを扱うようにモデルを訓練できることを示す。 3)チャットにおける顧客感情と課題解決との関連性についても分析を行った。

Prior work on sentiment analysis using weak supervision primarily focuses on different reviews such as movies (IMDB), restaurants (Yelp), products (Amazon).~One under-explored field in this regard is customer chat data for a customer-agent chat in customer support due to the lack of availability of free public data. Here, we perform sentiment analysis on customer chat using weak supervision on our in-house dataset. We fine-tune the pre-trained language model (LM) RoBERTa as a sentiment classifier using weak supervision. Our contribution is as follows:1) We show that by using weak sentiment classifiers along with domain-specific lexicon-based rules as Labeling Functions (LF), we can train a fairly accurate customer chat sentiment classifier using weak supervision. 2) We compare the performance of our custom-trained model with off-the-shelf google cloud NLP API for sentiment analysis. We show that by injecting domain-specific knowledge using LFs, even with weak supervision, we can train a model to handle some domain-specific use cases better than off-the-shelf google cloud NLP API. 3) We also present an analysis of how customer sentiment in a chat relates to problem resolution.
翻訳日:2021-12-01 05:35:55 公開日:2021-11-29
# (参考訳) ベイズ学習のためのカテゴリ理論の枠組み [全文訳有]

A category theory framework for Bayesian learning ( http://arxiv.org/abs/2111.14293v1 )

ライセンス: CC BY 4.0
Kotaro Kamiya and John Welliaveetil(参考訳) spivak、fong、cruttwellらによる基礎研究に着想を得て、ベイズ推論と学習を形式化する分類的枠組みを導入する。 ここでの2つの主要な考えは、ベイズ反転の概念と、クルトウェルらによって構築された関手 GL である。 この文脈では、ベイズ学習が学習パラダイムの最も単純なケースであることがわかった。 次に、バッチおよびシーケンシャルベイズ更新のカテゴリの定式化と、その2つが特定の例で一致することを検証する。

Inspired by the foundational works by Spivak and Fong and Cruttwell et al., we introduce a categorical framework to formalize Bayesian inference and learning. The two key ideas at play here are the notions of Bayesian inversions and the functor GL as constructed by Cruttwell et al.. In this context, we find that Bayesian learning is the simplest case of the learning paradigm. We then obtain categorical formulations of batch and sequential Bayes updates while also verifying that the two coincide in a specific example.
翻訳日:2021-12-01 05:27:57 公開日:2021-11-29
# (参考訳) 動的ネットワークプラニングのための機能ゲート結合

Feature-Gate Coupling for Dynamic Network Pruning ( http://arxiv.org/abs/2111.14302v1 )

ライセンス: CC BY 4.0
Mengnan Shi, Chang Liu, Qixiang Ye, Jianbin Jiao(参考訳) ゲーティングモジュールは、機能表現を維持しながらディープニューラルネットワークの実行時間計算コストを削減するために、動的ネットワークプラニングにおいて広く研究されてきた。 かなりの進歩にもかかわらず、既存の手法は特徴分布とゲート分布の整合性を無視し続けており、ゲート特徴の歪みにつながる可能性がある。 本稿では,特徴とゲートの分布の整合化を目的とした特徴ゲート結合(FGC)手法を提案する。 FGCはプラグアンドプレイモジュールであり、反復的な自己管理方式で2つのステップが実行される。 最初のステップでは、FGCは特徴空間における$k$-Nearest Neighbor法を用いて、自己監督信号として扱われるインスタンス近傍の関係を探索する。 第2のステップでは、FGCは対照的な学習を利用して、生成した自己超越的な信号でゲーティングモジュールを正規化し、特徴空間とゲート空間内のインスタンス近傍の関係を整列させる。 実験の結果, 提案手法は, 精度と計算効率のトレードオフが向上し, 高いマージンでベースラインアプローチを改善できることが確認された。 コードは公開されている。

Gating modules have been widely explored in dynamic network pruning to reduce the run-time computational cost of deep neural networks while preserving the representation of features. Despite the substantial progress, existing methods remain ignoring the consistency between feature and gate distributions, which may lead to distortion of gated features. In this paper, we propose a feature-gate coupling (FGC) approach aiming to align distributions of features and gates. FGC is a plug-and-play module, which consists of two steps carried out in an iterative self-supervised manner. In the first step, FGC utilizes the $k$-Nearest Neighbor method in the feature space to explore instance neighborhood relationships, which are treated as self-supervisory signals. In the second step, FGC exploits contrastive learning to regularize gating modules with generated self-supervisory signals, leading to the alignment of instance neighborhood relationships within the feature and gate spaces. Experimental results validate that the proposed FGC method improves the baseline approach with significant margins, outperforming the state-of-the-arts with better accuracy-computation trade-off. Code is publicly available.
翻訳日:2021-12-01 05:06:02 公開日:2021-11-29
# (参考訳) インフルエンスグラフによるバックドア攻撃防止のための汎用フレームワーク [全文訳有]

A General Framework for Defending Against Backdoor Attacks via Influence Graph ( http://arxiv.org/abs/2111.14309v1 )

ライセンス: CC BY 4.0
Xiaofei Sun, Jiwei Li, Xiaoya Li, Ziyao Wang, Tianwei Zhang, Han Qiu, Fei Wu, Chun Fan(参考訳) 本研究では,攻撃トリガーが通常,攻撃パターンである「textsc{specific}」に追従するという事実にインスパイアされた,バックドア攻撃に対する防御のための新しい一般的な枠組みを提案する。 個々のトレーニングポイントと関連する対方向の影響をそれぞれ表わすノードとエッジからなる「it影響グラフ」の概念を導入する。 一対のトレーニングポイント間の影響は、影響関数 \citep{koh2017understanding } によって近似された、あるトレーニングポイントが別のトレーニングポイントの予測に与える影響を表す。 特定の大きさの最大平均サブグラフを見つけることにより、悪意のあるトレーニングポイントを抽出する。 コンピュータビジョンと自然言語処理タスクに関する大規模な実験は,提案フレームワークの有効性と汎用性を示している。

In this work, we propose a new and general framework to defend against backdoor attacks, inspired by the fact that attack triggers usually follow a \textsc{specific} type of attacking pattern, and therefore, poisoned training examples have greater impacts on each other during training. We introduce the notion of the {\it influence graph}, which consists of nodes and edges respectively representative of individual training points and associated pair-wise influences. The influence between a pair of training points represents the impact of removing one training point on the prediction of another, approximated by the influence function \citep{koh2017understanding }. Malicious training points are extracted by finding the maximum average sub-graph subject to a particular size. Extensive experiments on computer vision and natural language processing tasks demonstrate the effectiveness and generality of the proposed framework.
翻訳日:2021-12-01 05:04:59 公開日:2021-11-29
# (参考訳) マルチエージェントシステムで創造性を実現するには? [全文訳有]

How Can Creativity Occur in Multi-Agent Systems? ( http://arxiv.org/abs/2111.14310v1 )

ライセンス: CC BY-SA 4.0
Ted Fujimoto(参考訳) 複雑な系は、単純な規則に従って構造やエージェントからいかに驚きで美しい現象が生まれるかを示す。 近年の深層強化学習(英語版)(RL)の成功により、複数の深層RLエージェントの能力を利用して、より大きな利益と高度化の創発的な行動を生み出すことができる。 一般に、これはマルチエージェントRLトレーニングに固有の困難さのため、大きな計算をしない信頼できない戦略であることが証明されている。 本稿では,マルチエージェントrlにおけるクリエイティビティの基準を提案する。 この提案は、アーティストにマルチエージェントRLを適用し、哲学的な議論から導かれるさらなる調査の触媒となることを期待する。

Complex systems show how surprising and beautiful phenomena can emerge from structures or agents following simple rules. With the recent success of deep reinforcement learning (RL), a natural path forward would be to use the capabilities of multiple deep RL agents to produce emergent behavior of greater benefit and sophistication. In general, this has proved to be an unreliable strategy without significant computation due to the difficulties inherent in multi-agent RL training. In this paper, we propose some criteria for creativity in multi-agent RL. We hope this proposal will give artists applying multi-agent RL a starting point, and provide a catalyst for further investigation guided by philosophical discussion.
翻訳日:2021-12-01 04:38:08 公開日:2021-11-29
# (参考訳) 人物探索のための文脈認識埋め込みの学習 [全文訳有]

Learning Context-Aware Embedding for Person Search ( http://arxiv.org/abs/2111.14316v1 )

ライセンス: CC BY 4.0
Shihui Chen, Yueqing Zhuang, Boxun Li(参考訳) Person Searchは、Person DetectionとPerson Re-identification(re -ID)を共同で解決することを目的とした、関連するタスクである。 従来の手法は、検索のための堅牢な個々の特徴の学習に重点を置いていたが、照明、大きなポーズのばらつき、閉塞などによって、混乱した人物を区別することは依然として困難である。 コンテキスト情報は、混乱を減らすことの助けとなる個人検索タスクで実際に利用可能である。 そこで,本稿では,コンテキスト情報を強化するAttention Context-Aware Embedding (ACAE) という新しい特徴ヘッドを提案する。 ACAEは、画像内の人物の特徴を繰り返しレビューし、類似した歩行者パターンを見つけ、暗黙的にコトラベラを見つけ、コンテキスト関連インスタンスの関係を効率的にモデル化することができる。 さらに,トレーニング効率を向上させるため,画像メモリバンクを提案する。 実験では、ACAEは異なるワンステップの手法で構築した場合に広範囲のプロモーションを行う。 提案手法は,従来のワンステップ手法と比較して最先端の手法である。

Person Search is a relevant task that aims to jointly solve Person Detection and Person Re-identification(re -ID). Though most previous methods focus on learning robust individual features for retrieval, it's still hard to distinguish confusing persons because of illumination, large pose variance, and occlusion. Contextual information is practically available in person search task which benefits searching in terms of reducing confusion. To this end, we present a novel contextual feature head named Attention Context-Aware Embedding(ACAE) which enhances contextual information. ACAE repeatedly reviews the person features within and across images to find similar pedestrian patterns, allowing it to implicitly learn to find possible co-travelers and efficiently model contextual relevant instances' relations. Moreover, we propose Image Memory Bank to improve the training efficiency. Experimentally, ACAE shows extensive promotion when built on different one-step methods. Our overall methods achieve state-of-the-art results compared with previous one-step methods.
翻訳日:2021-12-01 04:34:32 公開日:2021-11-29
# (参考訳) 機械学習は安全性を脅かすのか? 調査の結果 [全文訳有]

Is the Rush to Machine Learning Jeopardizing Safety? Results of a Survey ( http://arxiv.org/abs/2111.14324v1 )

ライセンス: CC0 1.0
Mehrnoosh Askarpour, Alan Wassyng, Mark Lawford, Richard Paige, Zinovy Diskin(参考訳) 機械学習(ML)は、安全クリティカルシステム(SCS)への道を探っている。 現在の安全基準やプラクティスは、ML技術に対処するために設計されておらず、MLコンポーネントを含むSCSが安全であることを確信することは困難である。 我々の仮説は、ML技術の使用が安全上の問題を引き起こすかどうかについて、徹底的な検査を犠牲にして、ML技術の導入を急いでいるというものである。 本研究では,ML コンポーネントをデプロイする SCS の安全性を評価するのに費やした費用と比較して,ML を SCS に適用するための研究努力について検討した。 本稿では,調査の結果について概説する。

Machine learning (ML) is finding its way into safety-critical systems (SCS). Current safety standards and practice were not designed to cope with ML techniques, and it is difficult to be confident that SCSs that contain ML components are safe. Our hypothesis was that there has been a rush to deploy ML techniques at the expense of a thorough examination as to whether the use of ML techniques introduces safety problems that we are not yet adequately able to detect and mitigate against. We thus conducted a targeted literature survey to determine the research effort that has been expended in applying ML to SCS compared with that spent on evaluating the safety of SCSs that deploy ML components. This paper presents the (surprising) results of the survey.
翻訳日:2021-12-01 04:06:22 公開日:2021-11-29
# (参考訳) 学習指導による深層学習の理解性向上 [全文訳有]

Improving Deep Learning Interpretability by Saliency Guided Training ( http://arxiv.org/abs/2111.14338v1 )

ライセンス: CC BY 4.0
Aya Abdelsalam Ismail, H\'ector Corrada Bravo and Soheil Feizi(参考訳) 精度法はモデル予測において重要な入力特徴を強調するために広く用いられている。 既存の手法では、修正された勾配関数のバックプロパゲーションを使って塩分マップを生成する。 したがって、雑音勾配は不誠実な特徴属性をもたらす。 本稿では,モデル予測性能を維持しつつ,予測に使用する雑音勾配を低減させるニューラルネットワークのための,"it saliency guided training}プロシージャを導入する。 当社のサリエンシ指導訓練は,マスク入力とアンマスク入力の両方のモデル出力の類似性を最大化しつつ,小さく,うるさい勾配で特徴を反復的にマスキングする。 本稿では,計算機ビジョン,自然言語処理,ニューラルネットワーク,畳み込みニューラルネットワーク,トランスフォーマーなどの多種多様なニューラルネットワークを対象とする時系列の合成および実データに対して,サリエンシガイド付きトレーニング手順を適用した。 定性的・定量的評価を通して, 塩分指導訓練は, 予測性能を維持しつつ, 様々な領域におけるモデル解釈可能性を大幅に向上させることを示した。

Saliency methods have been widely used to highlight important input features in model predictions. Most existing methods use backpropagation on a modified gradient function to generate saliency maps. Thus, noisy gradients can result in unfaithful feature attributions. In this paper, we tackle this issue and introduce a {\it saliency guided training}procedure for neural networks to reduce noisy gradients used in predictions while retaining the predictive performance of the model. Our saliency guided training procedure iteratively masks features with small and potentially noisy gradients while maximizing the similarity of model outputs for both masked and unmasked inputs. We apply the saliency guided training procedure to various synthetic and real data sets from computer vision, natural language processing, and time series across diverse neural architectures, including Recurrent Neural Networks, Convolutional Networks, and Transformers. Through qualitative and quantitative evaluations, we show that saliency guided training procedure significantly improves model interpretability across various domains while preserving its predictive performance.
翻訳日:2021-12-01 03:51:26 公開日:2021-11-29
# (参考訳) オフライン深部強化学習のための悲観的モデル選択 [全文訳有]

Pessimistic Model Selection for Offline Deep Reinforcement Learning ( http://arxiv.org/abs/2111.14346v1 )

ライセンス: CC BY 4.0
Chao-Han Huck Yang, Zhengling Qi, Yifan Cui, Pin-Yu Chen(参考訳) 深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。 有望なパフォーマンスにもかかわらず、実際のシナリオでDRLをデプロイする際には、現実的なギャップが存在する。 主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度な問題である。 特に、観測データを持つオフラインDRLでは、シミュレーション環境によるオンライン設定とは対照的に、性能実証に利用できる基礎的な真実が存在しないため、モデル選択は難しい課題である。 本研究では,オフラインDRLに対する悲観的モデル選択(PMS)アプローチを理論的保証付きで提案する。 また、最適ポリシーを特定する際にDRLモデルの潜在的なバイアスに対処する2つの改良されたアプローチも提案されている。 数値解析により,既存手法よりも優れた性能を示した。

Deep Reinforcement Learning (DRL) has demonstrated great potentials in solving sequential decision making problems in many applications. Despite its promising performance, practical gaps exist when deploying DRL in real-world scenarios. One main barrier is the over-fitting issue that leads to poor generalizability of the policy learned by DRL. In particular, for offline DRL with observational data, model selection is a challenging task as there is no ground truth available for performance demonstration, in contrast with the online setting with simulated environments. In this work, we propose a pessimistic model selection (PMS) approach for offline DRL with a theoretical guarantee, which features a provably effective framework for finding the best policy among a set of candidate models. Two refined approaches are also proposed to address the potential bias of DRL model in identifying the optimal policy. Numerical studies demonstrated the superior performance of our approach over existing methods.
翻訳日:2021-12-01 03:30:15 公開日:2021-11-29
# (参考訳) 不公平なエッジ優先化と識別除去のための因果的アプローチ [全文訳有]

A Causal Approach for Unfair Edge Prioritization and Discrimination Removal ( http://arxiv.org/abs/2111.14348v1 )

ライセンス: CC BY 4.0
Pavan Ravishankar, Pranshu Malviya, and Balaraman Ravindran(参考訳) 法執行など不公平を緩和するための予算制約のある環境では、現実世界で不公平を緩和するための対策を講じる前に不公平の源を優先することが不可欠である。 データ生成後の差別や非バイアスデータに対する警告としてしか機能しない以前の研究とは異なり、この研究は、不公平エッジ優先化アルゴリズムによって与えられるデータ生成中の不公平性を緩和するためのツールキットを提供する。 データ生成手順を表す非パラメトリックマルコフ因果モデルが与えられると仮定する。 人種のような因果グラフのセンシティブなノードから発せられるエッジは不公平な原因であると仮定される。 X-> Y に沿った X の特定の値の影響により、Y の特定の値を観測する信念である任意のエッジ X-> Y において、エッジフローを定量化し、その後、エッジフローの観点から非パラメトリックモデルを定式化することによってエッジ不公平を定量化する。 次に、保釈決定におけるレースのような決定における機密グループに対する累積不公平性は、エッジ不公平性が欠如している場合に存在しないことを証明する。 非自明な非パラメトリックモデル設定において、累積不公平性がエッジ不公平性で表現できない場合に、この結果を証明する。 そして、エッジの不公平性が低下した場合の累積不公平を緩和する可能性を測定する。 これらの測定に基づいて,政策立案者が使用できる不公平なエッジ優先化アルゴリズムを提案する。 また,感度の高い属性数やそれらの値に指数関数的に増加する最適化制約を取り除き,データ分布を曖昧にする識別除去手法を提案する。 広範な実験は、上記の測度の定量化に使用される定理と仕様を検証する。

In budget-constrained settings aimed at mitigating unfairness, like law enforcement, it is essential to prioritize the sources of unfairness before taking measures to mitigate them in the real world. Unlike previous works, which only serve as a caution against possible discrimination and de-bias data after data generation, this work provides a toolkit to mitigate unfairness during data generation, given by the Unfair Edge Prioritization algorithm, in addition to de-biasing data after generation, given by the Discrimination Removal algorithm. We assume that a non-parametric Markovian causal model representative of the data generation procedure is given. The edges emanating from the sensitive nodes in the causal graph, such as race, are assumed to be the sources of unfairness. We first quantify Edge Flow in any edge X -> Y, which is the belief of observing a specific value of Y due to the influence of a specific value of X along X -> Y. We then quantify Edge Unfairness by formulating a non-parametric model in terms of edge flows. We then prove that cumulative unfairness towards sensitive groups in a decision, like race in a bail decision, is non-existent when edge unfairness is absent. We prove this result for the non-trivial non-parametric model setting when the cumulative unfairness cannot be expressed in terms of edge unfairness. We then measure the Potential to mitigate the Cumulative Unfairness when edge unfairness is decreased. Based on these measurements, we propose the Unfair Edge Prioritization algorithm that can then be used by policymakers. We also propose the Discrimination Removal Procedure that de-biases a data distribution by eliminating optimization constraints that grow exponentially in the number of sensitive attributes and values taken by them. Extensive experiments validate the theorem and specifications used for quantifying the above measures.
翻訳日:2021-12-01 02:58:36 公開日:2021-11-29
# (参考訳) 呼吸器疾患音の診断における機械学習モデル開発への挑戦 [全文訳有]

Responding to Challenge Call of Machine Learning Model Development in Diagnosing Respiratory Disease Sounds ( http://arxiv.org/abs/2111.14354v1 )

ライセンス: CC BY 4.0
Negin Melek(参考訳) 本研究では, 疾患診断におけるくしゃみやうずなどの呼吸系音を自動的に検出する機械学習モデルを開発した。 有用な情報を含む呼吸音の自動モデルとアプローチの開発は、早期診断と治療に繋がる。 この研究で成功した機械学習モデルは、"osfhome"オープンアクセスプラットフォームにおける"pfizer digital medicine challenge"と呼ばれる課題に対する強い反応として開発された。 データセットの作成にはESC-50とAudioSetという環境音分類が用いられた。 3つの部分からなるこのデータセットでは, サンプルの訓練, 試験, 検証から, くしゃみ, くしゃみ音の分析を効果的に行う特徴を抽出した。 メル周波数ケプストラム係数 (MFCC) の特徴抽出法に基づいて, 数学的特徴と統計的特徴を作成した。 3つの異なる分類手法が3800以上の異なる音を含むデータセットにおいて呼吸音分類を成功させると考えられた。 放射基底関数(RBF)カーネルとアンサンブルアグリゲーションと決定木分類手法を備えたサポートベクターマシン(SVM)を分類手法として用いた。 他の鳴き声やくしゃみ音を他の音から分類する試みとして、svmとrbfカーネルが83%の成功をおさめた。

In this study, a machine learning model was developed for automatically detecting respiratory system sounds such as sneezing and coughing in disease diagnosis. The automatic model and approach development of breath sounds, which carry valuable information, results in early diagnosis and treatment. A successful machine learning model was developed in this study, which was a strong response to the challenge called the "Pfizer digital medicine challenge" on the "OSFHOME" open access platform. "Environmental sound classification" called ESC-50 and AudioSet sound files were used to prepare the dataset. In this dataset, which consisted of three parts, features that effectively showed coughing and sneezing sound analysis were extracted from training, testing and validating samples. Based on the Mel frequency cepstral coefficients (MFCC) feature extraction method, mathematical and statistical features were prepared. Three different classification techniques were considered to perform successful respiratory sound classification in the dataset containing more than 3800 different sounds. Support vector machine (SVM) with radial basis function (RBF) kernels, ensemble aggregation and decision tree classification methods were used as classification techniques. In an attempt to classify coughing and sneezing sounds from other sounds, SVM with RBF kernels was achieved with 83% success.
翻訳日:2021-12-01 02:38:45 公開日:2021-11-29
# (参考訳) N-Player ゲームの最終適応強化学習 [全文訳有]

Final Adaptation Reinforcement Learning for N-Player Games ( http://arxiv.org/abs/2111.14375v1 )

ライセンス: CC BY-SA 4.0
Wolfgang Konen and Samineh Bagheri(参考訳) 本稿では,n-tuple-based reinforcement learning (RL)アルゴリズムについて述べる。 任意のプレイヤー数で様々なゲームにシームレスに動作するtd-, sarsa-, q-learningのための新しいアルゴリズムを提案する。 これはプレイヤー中心の視点で各プレイヤーが前回のラウンドまで報酬を伝達することで達成される。 これらのアルゴリズムにFinal Adaptation RL(FARL)と呼ばれる新しい要素を追加します。 我々の主な貢献は、FARLが様々なゲームにおいてプレイヤー中心の視点で成功するための重要な要素であることである。 我々は,Othello,ConnectFour ,Hexを含む1,2,3人のプレイヤーによる7つのボードゲームの結果を報告する。 多くの場合、FARLは、ほぼ完璧なプレイ戦略を学ぶことが重要である。 すべてのアルゴリズムはGitHubのGBGフレームワークで利用可能だ。

This paper covers n-tuple-based reinforcement learning (RL) algorithms for games. We present new algorithms for TD-, SARSA- and Q-learning which work seamlessly on various games with arbitrary number of players. This is achieved by taking a player-centered view where each player propagates his/her rewards back to previous rounds. We add a new element called Final Adaptation RL (FARL) to all these algorithms. Our main contribution is that FARL is a vitally important ingredient to achieve success with the player-centered view in various games. We report results on seven board games with 1, 2 and 3 players, including Othello, ConnectFour and Hex. In most cases it is found that FARL is important to learn a near-perfect playing strategy. All algorithms are available in the GBG framework on GitHub.
翻訳日:2021-12-01 02:24:40 公開日:2021-11-29
# (参考訳) 医用画像と患者画像データ融合による伝達学習の強化 [全文訳有]

Enhanced Transfer Learning Through Medical Imaging and Patient Demographic Data Fusion ( http://arxiv.org/abs/2111.14388v1 )

ライセンス: CC BY 4.0
Spencer A. Thomas(参考訳) 本研究では,画像特徴と関連する非画像データを組み合わせた場合の医用画像データの分類における性能向上について検討する。 画像特徴のみを使用する場合の分類タスクにおける8つの最先端ディープニューラルネットワークの性能を,患者メタデータと組み合わせた場合と比較した。 特徴抽出器として直接使用し,対象領域に微調整を施したImageNetで事前訓練したネットワークを用いた転送学習を利用する。 実験の結果,メタデータの導入によって性能が大幅に向上し,その改善につながる機能を特定するために解釈可能性手法が用いられている。 さらに,本研究の結果から,非自然画像(非画像データの表現など)はトレーニング済みのネットワークを微調整することの利点が最も大きいのに対し,光学画像はトレーニング済みのモデルを直接利用することの利点が示唆された。 これらの拡張は計算時間に必然的に追加コストがかかるため、他のアプリケーションでは実用的な方法である。

In this work we examine the performance enhancement in classification of medical imaging data when image features are combined with associated non-image data. We compare the performance of eight state-of-the-art deep neural networks in classification tasks when using only image features, compared to when these are combined with patient metadata. We utilise transfer learning with networks pretrained on ImageNet used directly as feature extractors and fine tuned on the target domain. Our experiments show that performance can be significantly enhanced with the inclusion of metadata and use interpretability methods to identify which features lead to these enhancements. Furthermore, our results indicate that the performance enhancement for natural medical imaging (e.g. optical images) benefit most from direct use of pre-trained models, whereas non natural images (e.g. representations of non imaging data) benefit most from fine tuning pre-trained networks. These enhancements come at a negligible additional cost in computation time, and therefore is a practical method for other applications.
翻訳日:2021-12-01 02:02:00 公開日:2021-11-29
# (参考訳) PGGANet: 人物再識別のための Pose Guided Graph Attention Network [全文訳有]

PGGANet: Pose Guided Graph Attention Network for Person Re-identification ( http://arxiv.org/abs/2111.14411v1 )

ライセンス: CC BY 4.0
Zhijun He, Hongbo Zhao, Wenquan Feng(参考訳) 人物再識別(ReID)は、異なるカメラで撮影された画像から人物を回収することを目的としている。 深層学習に基づくReID法では,局所的特徴と人物像のグローバルな特徴を併用することで,人物検索に堅牢な特徴表現を与えることが証明されている。 人間のポーズ情報は、人間の骨格の位置を提供し、ネットワークを効果的に誘導し、これらの重要な領域に注意を払い、背景や閉塞からのノイズの妨げを減らすのに役立つ。 しかし,従来のポーズ関連作品では,ポーズ情報の利点を十分に活用できず,地域特性の異なる貢献を考慮に入れなかった。 本稿では,ポーズガイド付きグラフアテンションネットワーク,グローバル機能のための1つのブランチ,中粒体機能のための1つのブランチ,粒状キーポイント機能のための1つのブランチからなるマルチブランチアーキテクチャを提案する。 事前学習されたポーズ推定器を用いて局所特徴学習のためのキーポイントヒートマップを生成し、グラフ注意畳み込み層を慎重に設計し、類似度関係をモデル化して抽出した局所特徴の寄与重みを再評価する。 実験の結果,本手法が識別的特徴学習に与える影響を実証し,本モデルがいくつかの主流評価データセット上で最先端の性能を達成することを示す。 また,我々は多くのアブレーション研究を行い,その効果と頑健性を証明するため,ネットワークにおける異なる種類の比較実験をデザインした。

Person re-identification (ReID) aims at retrieving a person from images captured by different cameras. For deep-learning-based ReID methods, it has been proved that using local features together with global feature of person image could help to give robust feature representations for person retrieval. Human pose information could provide the locations of human skeleton to effectively guide the network to pay more attention on these key areas and could also help to reduce the noise distractions from background or occlusions. However, methods proposed by previous pose-related works might not be able to fully exploit the benefits of pose information and did not take into consideration the different contributions of different local features. In this paper, we propose a pose guided graph attention network, a multi-branch architecture consisting of one branch for global feature, one branch for mid-granular body features and one branch for fine-granular key point features. We use a pre-trained pose estimator to generate the key-point heatmap for local feature learning and carefully design a graph attention convolution layer to re-evaluate the contribution weights of extracted local features by modeling the similarities relations. Experiments results demonstrate the effectiveness of our approach on discriminative feature learning and we show that our model achieves state-of-the-art performances on several mainstream evaluation datasets. We also conduct a plenty of ablation studies and design different kinds of comparison experiments for our network to prove its effectiveness and robustness, including holistic datasets, partial datasets, occluded datasets and cross-domain tests.
翻訳日:2021-12-01 01:47:10 公開日:2021-11-29
# (参考訳) 患者と永続性:プロファイルアタックにおけるディープラーニングの早期停止戦略の最適化 [全文訳有]

Being Patient and Persistent: Optimizing An Early Stopping Strategy for Deep Learning in Profiled Attacks ( http://arxiv.org/abs/2111.14416v1 )

ライセンス: CC BY 4.0
Servio Paguada, Lejla Batina, Ileana Buhan, Igor Armendariz(参考訳) サイドチャネル攻撃で使用されるディープラーニングモデルを効果的に監視するアルゴリズムがないと、評価の難しさが増す。 攻撃が失敗した場合、私たちは耐性のある実装や欠陥のあるモデルに対処しています。 学習中にモデルの最適状態を確実に認識する早期停止アルゴリズムを提案する。 我々の解の新規性は、推定エントロピー推定の効率的な実装である。 さらに,ディープラーニングモデルが最適であるためには,永続性と忍耐という2つの条件を定式化する。 結果として、モデルはより少ないトレースで収束する。

The absence of an algorithm that effectively monitors deep learning models used in side-channel attacks increases the difficulty of evaluation. If the attack is unsuccessful, the question is if we are dealing with a resistant implementation or a faulty model. We propose an early stopping algorithm that reliably recognizes the model's optimal state during training. The novelty of our solution is an efficient implementation of guessing entropy estimation. Additionally, we formalize two conditions, persistence and patience, for a deep learning model to be optimal. As a result, the model converges with fewer traces.
翻訳日:2021-12-01 01:29:13 公開日:2021-11-29
# (参考訳) ラベルフリッピング攻撃時の実行時間に基づくデバイスモデル同定のためのロバストフェデレーション学習 [全文訳有]

Robust Federated Learning for execution time-based device model identification under label-flipping attack ( http://arxiv.org/abs/2111.14434v1 )

ライセンス: CC BY 4.0
Pedro Miguel S\'anchez S\'anchez, Alberto Huertas Celdr\'an, Jos\'e Rafael Buend\'ia Rubio, G\'er\^ome Bovet, Gregorio Mart\'inez P\'erez(参考訳) 近年、IoT(Internet-of-Thin gs)や5G(5G)といった技術の進歩に動機づけられたコンピューティングデバイスデプロイメントの爆発は、サイバーセキュリティのリスクと脅威の増加という世界的なシナリオにつながった。 その中でも、デバイススプーフィングと偽装サイバー攻撃は、その影響と、通常、打ち上げに必要な複雑さの低下のために際立っている。 この問題を解決するために、行動フィンガープリントとML/DL(Machine/Deep Learning)技術の組み合わせに基づいて、デバイスモデルとタイプを特定するいくつかのソリューションが登場した。 しかし、これらのソリューションは処理にデータ集中化を必要とするため、データのプライバシと保護が必須となるシナリオには適していない。 この文脈では、federated learning(fl)のような新しいアプローチは、特にシナリオ設定に悪意のあるクライアントが存在する場合、まだ完全には検討されていない。 本稿では,集中型DLモデルのデバイスモデル識別性能を,実行時間に基づくイベントを用いてFLモデルと比較する。 実験的な目的で、4つの異なるモデルに属する55のraspberry piの実行時間機能を含むデータセットが収集され、公開された。 このデータセットを使用して、提案したソリューションは、中央集権化とフェデレーションの両方のセットアップにおいて0.9999の精度を達成した。 その後,複数のアグリゲーション機構を対策として,フェデレーションモデルトレーニングにおけるラベルフリッピング攻撃の影響を評価する。 Zenoと座標中心的なアグリゲーションは最高のパフォーマンスを示しているが、そのパフォーマンスは、完全に悪意のあるクライアント(すべてのトレーニングサンプルが毒を盛った)の割合が50%を超えると大幅に低下する。

The computing device deployment explosion experienced in recent years, motivated by the advances of technologies such as Internet-of-Things (IoT) and 5G, has led to a global scenario with increasing cybersecurity risks and threats. Among them, device spoofing and impersonation cyberattacks stand out due to their impact and, usually, low complexity required to be launched. To solve this issue, several solutions have emerged to identify device models and types based on the combination of behavioral fingerprinting and Machine/Deep Learning (ML/DL) techniques. However, these solutions are not appropriated for scenarios where data privacy and protection is a must, as they require data centralization for processing. In this context, newer approaches such as Federated Learning (FL) have not been fully explored yet, especially when malicious clients are present in the scenario setup. The present work analyzes and compares the device model identification performance of a centralized DL model with an FL one while using execution time-based events. For experimental purposes, a dataset containing execution-time features of 55 Raspberry Pis belonging to four different models has been collected and published. Using this dataset, the proposed solution achieved 0.9999 accuracy in both setups, centralized and federated, showing no performance decrease while preserving data privacy. Later, the impact of a label-flipping attack during the federated model training is evaluated, using several aggregation mechanisms as countermeasure. Zeno and coordinate-wise median aggregation show the best performance, although their performance greatly degrades when the percentage of fully malicious clients (all training samples poisoned) grows over 50%.
翻訳日:2021-12-01 01:20:33 公開日:2021-11-29
# (参考訳) k-nearest近傍と動的時間ウォーピングによるオンライン署名検証 [全文訳有]

K-nearest neighbour and dynamic time warping for online signature verification ( http://arxiv.org/abs/2111.14438v1 )

ライセンス: CC0 1.0
Mohammad Saleem, Bence Kovari(参考訳) オンラインシグネチャは最もよく使われるバイオメトリックの1つである。 この分野ではいくつかの検証システムと公開データベースが提示された。 本稿では,最近発表されたDeepSignDBデータベースを用いた検証システムとして,k-nearest 近傍と動的時間ワープアルゴリズムの組み合わせを提案する。 本アルゴリズムは,オフィスシナリオとモバイルシナリオの両方を表す指とスタイラスの入力シグネチャに適用した。 このシステムはデータベースの開発セットで最初にテストされた。 スタイラス入力シグネチャの6.04%、指入力シグネチャの5.20%、両タイプの組み合わせの6.00%のエラー率を達成した。 このシステムはデータベースの評価セットにも適用され、特に指入力シグネチャにおいて非常に有望な結果を得た。

Online signatures are one of the most commonly used biometrics. Several verification systems and public databases were presented in this field. This paper presents a combination of k-nearest neighbor and dynamic time warping algorithms as a verification system using the recently published DeepSignDB database. Our algorithm was applied on both finger and stylus input signatures which represent both office and mobile scenarios. The system was first tested on the development set of the database. It achieved an error rate of 6.04% for the stylus input signatures, 5.20% for the finger input signatures, and 6.00% for a combination of both types. The system was also applied to the evaluation set of the database and achieved very promising results, especially for finger input signatures.
翻訳日:2021-12-01 01:05:46 公開日:2021-11-29
# (参考訳) ビジュアルセマンティック算術のためのゼロショット画像テキスト生成 [全文訳有]

Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic ( http://arxiv.org/abs/2111.14447v1 )

ライセンス: CC BY 4.0
Yoad Tewel, Yoav Shalev, Idan Schwartz, Lior Wolf(参考訳) 最近のテキストと画像のマッチングモデルでは、画像と文の大きなコーパスにコントラスト学習を適用している。 このようなモデルは、マッチングとその後のゼロショットタスクのための強力なスコアを提供するが、画像に与えられたキャプションを生成することはできない。 本研究では,このようなモデルを再利用して,さらなるトレーニングやチューニングのステップを必要とせず,推論時に画像が与えられた記述テキストを生成する。 これは、ビジュアル・セマンティクスモデルと大きな言語モデルを組み合わせたもので、webスケールモデルの両方の知識の恩恵を受ける。 結果として得られるキャプションは、教師付きキャプションによって得られるものよりもはるかに制限が小さい。 さらに,ゼロショット学習法として非常に柔軟であり,入力が画像かテキストかのいずれかであり,出力が文であるような画像演算を行う能力を示す。 これにより、2つの画像の比較や視覚的アナロジーテストの解決など、新たなハイレベルな視覚機能が可能になる。

Recent text-to-image matching models apply contrastive learning to large corpora of uncurated pairs of images and sentences. While such models can provide a powerful score for matching and subsequent zero-shot tasks, they are not capable of generating caption given an image. In this work, we repurpose such models to generate a descriptive text given an image at inference time, without any further training or tuning step. This is done by combining the visual-semantic model with a large language model, benefiting from the knowledge in both web-scale models. The resulting captions are much less restrictive than those obtained by supervised captioning methods. Moreover, as a zero-shot learning method, it is extremely flexible and we demonstrate its ability to perform image arithmetic in which the inputs can be either images or text and the output is a sentence. This enables novel high-level vision capabilities such as comparing two images or solving visual analogy tests.
翻訳日:2021-12-01 00:58:42 公開日:2021-11-29
# (参考訳) AVA-AVD:野生におけるオーディオ・ビジュアル話者ダイアリゼーション [全文訳有]

AVA-AVD: Audio-visual Speaker Diarization in the Wild ( http://arxiv.org/abs/2111.14448v1 )

ライセンス: CC BY 4.0
Eric Zhongcong Xu, Zeyang Song, Chao Feng, Mang Ye, Mike Zheng Shou(参考訳) 音声-視覚的話者ダイアリゼーションは,聴覚信号と視覚信号の両方を用いて発話した音を検出することを目的としている。 既存の音声-視覚のダイアリゼーションデータセットは、主に会議室やニューススタジオのような屋内環境に焦点を当てており、映画、ドキュメンタリー、オーディエンスシットコムといった多くのシナリオにおける、現在進行中のビデオとはかなり異なる。 野生の動画のダイアリゼーション手法を効果的に比較できるテストベッドを作成するために、AVA映画データセット上の話者ダイアリゼーションラベルに注釈を付け、AVA-AVDと呼ばれる新しいベンチマークを作成する。 このベンチマークは、さまざまなシーン、複雑な音響条件、完全にスクリーン外のスピーカーのために難しい。 しかし、オフスクリーンとオンスクリーンのスピーカーを一緒に扱う方法はまだ重要な課題だ。 そこで本研究では,視認性に基づいて識別情報をキャプチャする効果的なモダリティマスクを導入する新しい音声・視覚関連ネットワーク(avr-net)を提案する。 実験により,本手法は最先端の手法に勝るだけでなく,オフスクリーン話者の比率が変化するほど頑健であることがわかった。 アブレーション研究は、提案されたavr-net、特にダイアリゼーションにおけるモダリティマスクの利点を示している。 私たちのデータとコードは公開されます。

Audio-visual speaker diarization aims at detecting ``who spoken when`` using both auditory and visual signals. Existing audio-visual diarization datasets are mainly focused on indoor environments like meeting rooms or news studios, which are quite different from in-the-wild videos in many scenarios such as movies, documentaries, and audience sitcoms. To create a testbed that can effectively compare diarization methods on videos in the wild, we annotate the speaker diarization labels on the AVA movie dataset and create a new benchmark called AVA-AVD. This benchmark is challenging due to the diverse scenes, complicated acoustic conditions, and completely off-screen speakers. Yet, how to deal with off-screen and on-screen speakers together still remains a critical challenge. To overcome it, we propose a novel Audio-Visual Relation Network (AVR-Net) which introduces an effective modality mask to capture discriminative information based on visibility. Experiments have shown that our method not only can outperform state-of-the-art methods but also is more robust as varying the ratio of off-screen speakers. Ablation studies demonstrate the advantages of the proposed AVR-Net and especially the modality mask on diarization. Our data and code will be made publicly available.
翻訳日:2021-12-01 00:39:29 公開日:2021-11-29
# (参考訳) TsFeX:時系列特徴抽出と勾配ブーストを用いた接触追跡モデル [全文訳有]

TsFeX: Contact Tracing Model using Time Series Feature Extraction and Gradient Boosting ( http://arxiv.org/abs/2111.14454v1 )

ライセンス: CC BY 4.0
Manuela Nayantara Jeyaraj, Valerio Antonini, Yingjie Niu, Sonal Santosh Baberwal, Faithful Chiagoziem Onwuegbuche, Robert Foskin(参考訳) 新型コロナウイルス(COVID-19)の感染拡大に伴い、新型コロナウイルスに感染した人たちと接触した可能性がある個人を効果的に特定する必要がある。 この「接触追跡」とも呼ばれる個人を同定するプロセスは、このウイルスの拡散を封じ込め、制御することに大きな影響を及ぼす。 しかし、手動トレーシングは、自動接触トレースアプローチの呼び出しが効果的でないことが証明されている。 そこで本研究では,ハンドヘルドデバイスを介して送信されるセンサデータを用いて,新型コロナウイルスに感染した可能性のある個人を識別する自動機械学習システムを提案する。 本稿では, 勾配促進アルゴリズムと時系列特徴抽出を用いて, 感染した個体に近づいたかどうかを効果的に予測する最適解モデルにたどり着く際のアプローチについて述べる。

With the outbreak of COVID-19 pandemic, a dire need to effectively identify the individuals who may have come in close-contact to others who have been infected with COVID-19 has risen. This process of identifying individuals, also termed as 'Contact tracing', has significant implications for the containment and control of the spread of this virus. However, manual tracing has proven to be ineffective calling for automated contact tracing approaches. As such, this research presents an automated machine learning system for identifying individuals who may have come in contact with others infected with COVID-19 using sensor data transmitted through handheld devices. This paper describes the different approaches followed in arriving at an optimal solution model that effectually predicts whether a person has been in close proximity to an infected individual using a gradient boosting algorithm and time series feature extraction.
翻訳日:2021-12-01 00:19:48 公開日:2021-11-29
# (参考訳) 極小正方形:低生成性内在次元の2成分圧縮サンプリング [全文訳有]

Just Least Squares: Binary Compressive Sampling with Low Generative Intrinsic Dimension ( http://arxiv.org/abs/2111.14486v1 )

ライセンス: CC BY 4.0
Yuling Jiao, Dingwei Li, Min Liu, Xiangliang Lu and Yuanyuan Yang(参考訳) 本稿では、雑音や符号フリップによって劣化した$m$2次測定値からの$n$次元信号の復元を、ターゲット信号が生成固有次元が低いという仮定の下で検討し、ターゲット信号は、$L$-Lipschitz 生成器 $G: \mathbb{R}^k\rightarrow\mathbb{R}^{n}, k\ll n$ でほぼ生成可能である。 二項計測モデルは高度に非線形であるが、最小二乗デコーダを提案すれば、定数 $c$ まで、高い確率で最小二乗デコーダは、$m\geq \mathcal{o}(k\log (ln))$ であるような鋭利な推定誤差 $\mathcal{o} (\sqrt{\frac{k\log (ln)}{m}})$ を達成することを証明できる。 数値シミュレーションと最先端法との比較により,最小二乗デコーダは雑音や符号のフリップに頑健であることが証明された。 適切に選択された深さと幅を持つReLUネットワークを構築することにより、独立した関心を持つ(およそ)深層生成先行を検証できる。

In this paper, we consider recovering $n$ dimensional signals from $m$ binary measurements corrupted by noises and sign flips under the assumption that the target signals have low generative intrinsic dimension, i.e., the target signals can be approximately generated via an $L$-Lipschitz generator $G: \mathbb{R}^k\rightarrow\mathbb{R}^{n}, k\ll n$. Although the binary measurements model is highly nonlinear, we propose a least square decoder and prove that, up to a constant $c$, with high probability, the least square decoder achieves a sharp estimation error $\mathcal{O} (\sqrt{\frac{k\log (Ln)}{m}})$ as long as $m\geq \mathcal{O}( k\log (Ln))$. Extensive numerical simulations and comparisons with state-of-the-art methods demonstrated the least square decoder is robust to noise and sign flips, as indicated by our theory. By constructing a ReLU network with properly chosen depth and width, we verify the (approximately) deep generative prior, which is of independent interest.
翻訳日:2021-12-01 00:09:02 公開日:2021-11-29
# (参考訳) 小型データセットを用いた画像分類におけるニューラルアンサンブルの有効性について [全文訳有]

On the Effectiveness of Neural Ensembles for Image Classification with Small Datasets ( http://arxiv.org/abs/2111.14493v1 )

ライセンス: CC BY 4.0
Lorenzo Brigato and Luca Iocchi(参考訳) ディープニューラルネットワークは、画像分類の金の標準を表す。 しかし、より優れたパフォーマンスを得るためには、通常、大量のデータが必要です。 本研究では,クラスごとのラベル付き例数件による画像分類問題に着目し,比較的小さなネットワークのアンサンブルを用いてデータ効率を向上させる。 私たちの研究は、一般的なデータセットとアーキテクチャを使用した広範な検証を通じて、小さなデータを持つドメインにおけるニューラルアンサンブルという既存の概念を広く研究しました。 我々は,ネットワークのアンサンブルを,計算予算が一定であれば,より深く,より広い競合相手と比較する。 比較的浅いネットワークをセンセンシングすることは、小さなデータセットから学ぶための現在の最先端のアプローチよりも一般的に優れた、シンプルで効果的なテクニックであることを示している。 最後に、より単純な関数を学習するため、どの神経アンサンブルがよりサンプル効率が高いかを解釈する。

Deep neural networks represent the gold standard for image classification. However, they usually need large amounts of data to reach superior performance. In this work, we focus on image classification problems with a few labeled examples per class and improve data efficiency by using an ensemble of relatively small networks. For the first time, our work broadly studies the existing concept of neural ensembling in domains with small data, through extensive validation using popular datasets and architectures. We compare ensembles of networks to their deeper or wider single competitors given a total fixed computational budget. We show that ensembling relatively shallow networks is a simple yet effective technique that is generally better than current state-of-the-art approaches for learning from small datasets. Finally, we present our interpretation according to which neural ensembles are more sample efficient because they learn simpler functions.
翻訳日:2021-11-30 23:41:59 公開日:2021-11-29
# (参考訳) ナイーブ自動機械学習

Naive Automated Machine Learning ( http://arxiv.org/abs/2111.14514v1 )

ライセンス: CC BY 4.0
Felix Mohr, Marcel Wever(参考訳) 自動機械学習(automl)の重要なタスクは、与えられたデータセット上で最適な一般化パフォーマンスでパイプラインを自動的に見つけることだ。 この問題はベイズ最適化、文法ベース遺伝的アルゴリズム、木探索アルゴリズムなどの高度なブラックボックス最適化手法で解決されている。 現在のアプローチのほとんどは、パイプラインのコンポーネントを分離して最適化することで、サブ最適結果が得られるという仮定によって動機付けられている。 我々は,事前定義されたパイプラインスキームの異なるアルゴリズムを分離して最適化する手法であるnaive automlを提案する。 最後に返されるパイプラインは、各スロットの最適なアルゴリズムを取るだけで得られる。 孤立した最適化は検索スペースを大幅に削減し、驚くべきことに、このアプローチは現在の最先端のオプティマイザと同等で、時にはさらに優れたパフォーマンスをもたらす。

An essential task of Automated Machine Learning (AutoML) is the problem of automatically finding the pipeline with the best generalization performance on a given dataset. This problem has been addressed with sophisticated black-box optimization techniques such as Bayesian Optimization, Grammar-Based Genetic Algorithms, and tree search algorithms. Most of the current approaches are motivated by the assumption that optimizing the components of a pipeline in isolation may yield sub-optimal results. We present Naive AutoML, an approach that does precisely this: It optimizes the different algorithms of a pre-defined pipeline scheme in isolation. The finally returned pipeline is obtained by just taking the best algorithm of each slot. The isolated optimization leads to substantially reduced search spaces, and, surprisingly, this approach yields comparable and sometimes even better performance than current state-of-the-art optimizers.
翻訳日:2021-11-30 23:30:41 公開日:2021-11-29
# (参考訳) コンセプトドリフトデータストリームにおけるメタラーナーの多元的ベースモデル選択

Conceptually Diverse Base Model Selection for Meta-Learners in Concept Drifting Data Streams ( http://arxiv.org/abs/2111.14520v1 )

ライセンス: CC BY 4.0
Helen McKay, Nathan Griffiths, Phillip Taylor(参考訳) meta-learnersとアンサンブルは、関連するが多様なベースモデルを組み合わせて予測性能を改善することを目的としている。 しかし、基礎となるデータの分布が時間とともに変化するオンライン環境では、ベースモデルの適切なセットを決定することは困難である。 本稿では,基礎となる部分空間間の主角 (pas) を用いて計算される基本モデルの概念的類似性を評価するための新しい手法を提案する。 基本モデルの関連性はあるが多様な部分集合を得るために、概念的類似性を計量として利用する2つの方法を提案する。 (i)パラメータ化された閾値カリング及び (ii)パラメータレス概念クラスタリング。 本研究では,オンライン転送学習(tl)の文脈における予測性能と相互情報(mi)を用いて,合成データと実世界データの両方を用いて,しきい値に対するしきい値評価を行う。 その結果、概念的類似度閾値は計算オーバーヘッドを低減し、予測性能とMIを用いて閾値に匹敵する予測性能が得られることがわかった。 さらに、概念クラスタリングはパラメータ化を必要とせず、同様の予測性能を達成し、ベースモデル数が大きくなると予測性能とmiを用いてしきい値よりも低い計算オーバーヘッドでこれを達成する。

Meta-learners and ensembles aim to combine a set of relevant yet diverse base models to improve predictive performance. However, determining an appropriate set of base models is challenging, especially in online environments where the underlying distribution of data can change over time. In this paper, we present a novel approach for estimating the conceptual similarity of base models, which is calculated using the Principal Angles (PAs) between their underlying subspaces. We propose two methods that use conceptual similarity as a metric to obtain a relevant yet diverse subset of base models: (i) parameterised threshold culling and (ii) parameterless conceptual clustering. We evaluate these methods against thresholding using common ensemble pruning metrics, namely predictive performance and Mutual Information (MI), in the context of online Transfer Learning (TL), using both synthetic and real-world data. Our results show that conceptual similarity thresholding has a reduced computational overhead, and yet yields comparable predictive performance to thresholding using predictive performance and MI. Furthermore, conceptual clustering achieves similar predictive performances without requiring parameterisation, and achieves this with lower computational overhead than thresholding using predictive performance and MI when the number of base models becomes large.
翻訳日:2021-11-30 23:29:35 公開日:2021-11-29
# (参考訳) データ効率な政策評価のためのロバストなオンラインデータ収集 [全文訳有]

Robust On-Policy Data Collection for Data-Efficient Policy Evaluation ( http://arxiv.org/abs/2111.14552v1 )

ライセンス: CC BY 4.0
Rujie Zhong, Josiah P. Hanna, Lukas Sch\"afer, Stefano V. Albrecht(参考訳) 本稿では,オフライン強化学習(rl)データを,政策評価タスクのための追加データ収集で補完する方法を検討する。 政策評価では、関心のある環境に対する評価政策の期待したリターンを推定する。 オフラインポリシー評価の以前の作業は、通常静的データセットのみを考慮する。 我々は、潜在的に大きなオフラインRLデータセットと組み合わせるために、少量の追加データを収集できる設定を検討します。 我々は、単に評価ポリシー、すなわち、政治データ収集を実行することが、この設定に最適であることを示す。 次に,今後のデータ収集時に予め収集したデータを考慮し,収集したデータセット全体の分散シフト(あるいはサンプリングエラー)を低減させる,ポリシ評価のための2つの新しいデータ収集戦略を提案する。 実証実験の結果, オンラインサンプリングと比較して, サンプリング誤差が低いデータを生成し, 総データセットサイズに対するポリシー評価において平均二乗誤差が低いことを示す。 また、これらの戦略は、初期政治外のデータから始まり、追加データを収集し、初期データと新データの両方を用いて、オフ政治の補正を使わずに、平均二乗誤差ポリシーの評価を低くすることができることを示す。

This paper considers how to complement offline reinforcement learning (RL) data with additional data collection for the task of policy evaluation. In policy evaluation, the task is to estimate the expected return of an evaluation policy on an environment of interest. Prior work on offline policy evaluation typically only considers a static dataset. We consider a setting where we can collect a small amount of additional data to combine with a potentially larger offline RL dataset. We show that simply running the evaluation policy -- on-policy data collection -- is sub-optimal for this setting. We then introduce two new data collection strategies for policy evaluation, both of which consider previously collected data when collecting future data so as to reduce distribution shift (or sampling error) in the entire dataset collected. Our empirical results show that compared to on-policy sampling, our strategies produce data with lower sampling error and generally lead to lower mean-squared error in policy evaluation for any total dataset size. We also show that these strategies can start from initial off-policy data, collect additional data, and then use both the initial and new data to produce low mean-squared error policy evaluation without using off-policy corrections.
翻訳日:2021-11-30 23:28:28 公開日:2021-11-29
# (参考訳) 無人航空機の安全な着陸地点を識別するための画像分割 [全文訳有]

Image Segmentation to Identify Safe Landing Zones for Unmanned Aerial Vehicles ( http://arxiv.org/abs/2111.14557v1 )

ライセンス: CC BY 4.0
Joe Kinahan and Alan F. Smeaton(参考訳) 都市部では配達サービスが著しく増加しており、ジェフ・ベゾス(Jeff Bezos)氏が言うには、Amazonの注文の86%は重量が5ポンド未満である。 アイルランドのスタートアップである 'Manna' や Malta' の ‘Skymax' のような半自律型ドローン配達サービスの出現により、デリバリの最終段階は自動化するのが最も難しいままである。 本稿では,UAV上の1台のRGBカメラで撮影した簡単な画像を用いて,安全ゾーンと安全ゾーンの区別を行う。 安全な着陸ゾーンを識別するための方法として,セマンティックイメージセグメンテーションフレームワークを調査し,必要なセンサ数を最小限にする軽量モデルの精度を示す。 ビデオではなく画像で作業することで、人間の介入なしに、ドローンの安全な着陸ゾーンを特定するのに必要なエネルギーを削減できる。

There is a marked increase in delivery services in urban areas, and with Jeff Bezos claiming that 86% of the orders that Amazon ships weigh less than 5 lbs, the time is ripe for investigation into economical methods of automating the final stage of the delivery process. With the advent of semi-autonomous drone delivery services, such as Irish startup `Manna', and Malta's `Skymax', the final step of the delivery journey remains the most difficult to automate. This paper investigates the use of simple images captured by a single RGB camera on a UAV to distinguish between safe and unsafe landing zones. We investigate semantic image segmentation frameworks as a way to identify safe landing zones and demonstrate the accuracy of lightweight models that minimise the number of sensors needed. By working with images rather than video we reduce the amount of energy needed to identify safe landing zones for a drone, without the need for human intervention.
翻訳日:2021-11-30 23:07:27 公開日:2021-11-29
# (参考訳) MedRDF: 対人攻撃に対する医学事前訓練モデルのためのロバスト・リトレーニングレス診断フレームワーク [全文訳有]

MedRDF: A Robust and Retrain-Less Diagnostic Framework for Medical Pretrained Models Against Adversarial Attack ( http://arxiv.org/abs/2111.14564v1 )

ライセンス: CC BY 4.0
Mengting Xu, Tao Zhang, Daoqiang Zhang(参考訳) 深層ニューラルネットワークは、不可避な敵の例に攻撃されると非ロバストであることが判明し、高い信頼性を必要とする医療診断システムに適用することは危険である。 しかし, 自然画像に優れた防御方法は, 医療診断に適していない可能性がある。 前処理法(例えば、ランダムリサイズ、圧縮)は、医療画像の小さな病変が失われる可能性がある。 拡張データセット上でネットワークを再トレーニングすることは、すでにオンラインにデプロイされている医療モデルにも実用的ではない。 したがって, 医療診断作業の容易かつ効果的な防御枠組みを設計する必要がある。 本稿では, 対人攻撃(MedRDF)に対する医学事前訓練モデルのためのロバスト・リトレイン・レス診断フレームワークを提案する。 それは関連する医療モデルの推測時間に作用する。 具体的には、各テスト画像に対して、medrdfはまず大量のノイズのコピーを作成し、事前訓練された医療診断モデルからこれらのコピーの出力ラベルを取得する。 そして、これらのコピーのラベルに基づいて、MedRDFは多数決によって最終的な堅牢な診断結果を出力する。 診断結果に加えて、MedRDFはロバスト計量(RM)を結果の信頼性として生成する。 したがって、MedRDFを用いて、事前訓練された非ロバスト診断モデルを堅牢なものに変換することは便利で信頼性が高い。 新型コロナウイルス(covid-19)およびdermamnist(dermamnis t)データセットにおける実験結果は,医療診断モデルのロバスト性向上におけるmedrdfの有効性を検証する。

Deep neural networks are discovered to be non-robust when attacked by imperceptible adversarial examples, which is dangerous for it applied into medical diagnostic system that requires high reliability. However, the defense methods that have good effect in natural images may not be suitable for medical diagnostic tasks. The preprocessing methods (e.g., random resizing, compression) may lead to the loss of the small lesions feature in the medical image. Retraining the network on the augmented data set is also not practical for medical models that have already been deployed online. Accordingly, it is necessary to design an easy-to-deploy and effective defense framework for medical diagnostic tasks. In this paper, we propose a Robust and Retrain-Less Diagnostic Framework for Medical pretrained models against adversarial attack (i.e., MedRDF). It acts on the inference time of the pertained medical model. Specifically, for each test image, MedRDF firstly creates a large number of noisy copies of it, and obtains the output labels of these copies from the pretrained medical diagnostic model. Then, based on the labels of these copies, MedRDF outputs the final robust diagnostic result by majority voting. In addition to the diagnostic result, MedRDF produces the Robust Metric (RM) as the confidence of the result. Therefore, it is convenient and reliable to utilize MedRDF to convert pre-trained non-robust diagnostic models into robust ones. The experimental results on COVID-19 and DermaMNIST datasets verify the effectiveness of our MedRDF in improving the robustness of medical diagnostic models.
翻訳日:2021-11-30 22:56:59 公開日:2021-11-29
# (参考訳) Transformerエンコーダに基づく分類器の収束率について

On the rate of convergence of a classifier based on a Transformer encoder ( http://arxiv.org/abs/2111.14574v1 )

ライセンス: CC BY 4.0
Iryna Gurevych, Michael Kohler, G\"ozde G\"ul Sahin(参考訳) 高次元予測器に基づくパターン認識を考える。 分類器はTransformerエンコーダに基づいて定義される。 最適誤分類確率に対する分類器の誤分類確率の収束率を解析する。 この分類器は,アポテリオリ確率が適切な階層的構成モデルを満たす場合,次元性の呪いを回避することができる。 さらに,本論文で理論的に解析したTransformer分類器と,現在使用されているTransformer分類器との差を,自然言語処理における分類問題を考慮し示す。

Pattern recognition based on a high-dimensional predictor is considered. A classifier is defined which is based on a Transformer encoder. The rate of convergence of the misclassification probability of the classifier towards the optimal misclassification probability is analyzed. It is shown that this classifier is able to circumvent the curse of dimensionality provided the aposteriori probability satisfies a suitable hierarchical composition model. Furthermore, the difference between Transformer classifiers analyzed theoretically in this paper and Transformer classifiers used nowadays in practice are illustrated by considering classification problems in natural language processing.
翻訳日:2021-11-30 22:32:51 公開日:2021-11-29
# (参考訳) galaxy: 半教師付き学習と明示的なポリシーインジェクションを伴うタスク指向ダイアログ生成型事前学習モデル [全文訳有]

GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection ( http://arxiv.org/abs/2111.14592v1 )

ライセンス: CC BY 4.0
Wanwei He, Yinpei Dai, Yinhe Zheng, Yuchuan Wu, Zheng Cao, Dermot Liu, Peng Jiang, Min Yang, Fei Huang, Luo Si, Jian Sun, Yongbin Li(参考訳) 事前学習されたモデルはタスク指向のダイアログシステムを強化するのに強力であることが証明された。 しかし,現在の事前学習方法は,対話政策の活用を怠りながら,対話理解と生成タスクの強化に重点を置いている。 本稿では,限定ラベル付きダイアログと,半教師付き学習による大規模ラベルなしダイアログコーパスからダイアログポリシを明示的に学習する,新しい事前学習ダイアログモデルgalaxyを提案する。 具体的には,事前学習中の政策最適化のためのダイアログ行動予測タスクを導入し,ラベルなしダイアログを用いて学習表現を洗練するために一貫性正規化用語を用いる。 また,ラベルなしのダイアログサンプルの重み付けを行うゲーティング機構を実装した。 In-Car,MultiWOZ2.0,M ultiWOZ2.1というベンチマークデータセット上で,GALAXYはタスク指向ダイアログシステムの性能を著しく改善し,それぞれ2.5,5.3,5.5ポイント向上した。 また,GALAXYは,各種低リソース環境下での既存モデルよりも高機能であることを示す。

Pre-trained models have proved to be powerful in enhancing task-oriented dialog systems. However, current pre-training methods mainly focus on enhancing dialog understanding and generation tasks while neglecting the exploitation of dialog policy. In this paper, we propose GALAXY, a novel pre-trained dialog model that explicitly learns dialog policy from limited labeled dialogs and large-scale unlabeled dialog corpora via semi-supervised learning. Specifically, we introduce a dialog act prediction task for policy optimization during pre-training and employ a consistency regularization term to refine the learned representation with the help of unlabeled dialogs. We also implement a gating mechanism to weigh suitable unlabeled dialog samples. Empirical results show that GALAXY substantially improves the performance of task-oriented dialog systems, and achieves new state-of-the-art results on benchmark datasets: In-Car, MultiWOZ2.0 and MultiWOZ2.1, improving their end-to-end combined scores by 2.5, 5.3 and 5.5 points, respectively. We also show that GALAXY has a stronger few-shot ability than existing models under various low-resource settings.
翻訳日:2021-11-30 22:31:59 公開日:2021-11-29
# (参考訳) グラフ畳み込み強化学習によるマルチUAV競合解消 [全文訳有]

Multi-UAV Conflict Resolution with Graph Convolutional Reinforcement Learning ( http://arxiv.org/abs/2111.14598v1 )

ライセンス: CC BY 4.0
Ralvi Isufaj, Marsel Omeri, Miquel Angel Piera(参考訳) 航空交通に関しては安全が主な関心事である。 無人航空機(UAV)間の飛行中の安全性は、衝突検出と分解法を利用して、ペア分離ミニマによって確保される。 既存の手法は主に対の衝突に対処するが、交通密度の増加が予想されるため、2つ以上のUAVとの遭遇が起こる可能性が高い。 本稿では,マルチエージェント強化学習問題として,マルチUAVコンフリクト解決をモデル化する。 協調エージェントが協調して解決操作を生成できるグラフニューラルネットワークに基づくアルゴリズムを実装した。 モデルは3と4のエージェントによるシナリオで評価される。 その結果、エージェントは協調戦略によってマルチuav紛争をうまく解決できることがわかった。

Safety is the primary concern when it comes to air traffic. In-flight safety between Unmanned Aircraft Vehicles (UAVs) is ensured through pairwise separation minima, utilizing conflict detection and resolution methods. Existing methods mainly deal with pairwise conflicts, however due to an expected increase in traffic density, encounters with more than two UAVs are likely to happen. In this paper, we model multi-UAV conflict resolution as a multi-agent reinforcement learning problem. We implement an algorithm based on graph neural networks where cooperative agents can communicate to jointly generate resolution maneuvers. The model is evaluated in scenarios with 3 and 4 present agents. Results show that agents are able to successfully solve the multi-UAV conflicts through a cooperative strategy.
翻訳日:2021-11-30 22:13:04 公開日:2021-11-29
# (参考訳) 創発的磁化ダイナミクスを用いたナノ磁気貯留層計算プラットフォームの計算能力の定量化 [全文訳有]

Quantifying the Computational Capability of a Nanomagnetic Reservoir Computing Platform with Emergent Magnetization Dynamics ( http://arxiv.org/abs/2111.14603v1 )

ライセンス: CC BY 4.0
Ian T Vidamour, Matthew O A Ellis, David Griffin, Guru Venkat, Charles Swindells, Richard W S Dawidek, Thomas J Broomhall, Nina-Juliane Steinke, Joshaniel F K Cooper, Francisco Maccherozzi, Sarnjeet S Dhesi, Susan Stepney, Eleni Vasilaki, Dan A Allwood, Thomas J Hayward(参考訳) 創発的な磁化ダイナミクスを持つ相互接続型磁性ナノリングの配列は、最近貯水池コンピューティングアプリケーションでの使用のために提案されているが、計算的に有用であるためには、それらの動的応答を最適化する必要がある。 本稿では,データのスケーリングと入力レートを制御するハイパーパラメータを回転磁場を用いて調整することにより,これらの貯留層を分類タスクに最適化できることを現象論的モデルを用いて実証する。 我々は、タスクに依存しないメトリクスを用いて、これらのハイパーパラメータの各セットにおけるリングの計算能力を評価し、これらのメトリクスが、音声および文字認識タスクにおけるパフォーマンスと直接相関するかを示す。 次に, リングアレイの磁気状態の複数の同時測定値を含むように, 貯留層の出力を拡大することで, これらの測定値をさらに改善できることを示す。

Arrays of interconnected magnetic nano-rings with emergent magnetization dynamics have recently been proposed for use in reservoir computing applications, but for them to be computationally useful it must be possible to optimise their dynamical responses. Here, we use a phenomenological model to demonstrate that such reservoirs can be optimised for classification tasks by tuning hyperparameters that control the scaling and input-rate of data into the system using rotating magnetic fields. We use task-independent metrics to assess the rings' computational capabilities at each set of these hyperparameters and show how these metrics correlate directly to performance in spoken and written digit recognition tasks. We then show that these metrics can be further improved by expanding the reservoir's output to include multiple, concurrent measures of the ring arrays' magnetic states.
翻訳日:2021-11-30 21:56:48 公開日:2021-11-29
# (参考訳) 一般化類似関数を用いたオフライン強化学習におけるゼロショット一般化の改善 [全文訳有]

Improving Zero-shot Generalization in Offline Reinforcement Learning using Generalized Similarity Functions ( http://arxiv.org/abs/2111.14629v1 )

ライセンス: CC BY 4.0
Bogdan Mazoure, Ilya Kostrikov, Ofir Nachum, Jonathan Tompson(参考訳) 強化学習 (Reinforcement Learning, RL) エージェントは、複雑な逐次意思決定タスクの解決に広く用いられているが、訓練中に見えないシナリオを一般化することは困難である。 以前のオンラインアプローチでは、報酬関数以外の追加信号を使用することで、自己教師付き学習(SSL)を使用するRLエージェントの一般化能力が向上することを示したが、オフラインのRL設定、すなわち静的データセットからの学習では苦労した。 rlにおける一般化のためのオンラインアルゴリズムの性能は、観測間の類似性の推定が不十分なためオフライン環境では妨げられる。 本研究では, コントラスト学習を用いてオフラインのrlエージェントを訓練し, 期待される挙動の類似性に基づいて観測結果を集約し, この類似性を \emph{generalized value function} を用いて定量化する, 一般化類似度関数(gsf)と呼ばれる新しい理論的動機付けフレームワークを提案する。 また,複雑なオフラインRLベンチマークであるオフラインProcgen上でのゼロショットの一般化性能も向上した。

Reinforcement learning (RL) agents are widely used for solving complex sequential decision making tasks, but still exhibit difficulty in generalizing to scenarios not seen during training. While prior online approaches demonstrated that using additional signals beyond the reward function can lead to better generalization capabilities in RL agents, i.e. using self-supervised learning (SSL), they struggle in the offline RL setting, i.e. learning from a static dataset. We show that performance of online algorithms for generalization in RL can be hindered in the offline setting due to poor estimation of similarity between observations. We propose a new theoretically-motiva ted framework called Generalized Similarity Functions (GSF), which uses contrastive learning to train an offline RL agent to aggregate observations based on the similarity of their expected future behavior, where we quantify this similarity using \emph{generalized value functions}. We show that GSF is general enough to recover existing SSL objectives while also improving zero-shot generalization performance on a complex offline RL benchmark, offline Procgen.
翻訳日:2021-11-30 21:46:52 公開日:2021-11-29
# (参考訳) MUNet:モーション不確かさを意識した半教師付きビデオオブジェクトセグメンテーション [全文訳有]

MUNet: Motion Uncertainty-aware Semi-supervised Video Object Segmentation ( http://arxiv.org/abs/2111.14646v1 )

ライセンス: CC BY 4.0
Jiadai Sun, Yuxin Mao, Yuchao Dai, Yiran Zhong, Jianyuan Wang(参考訳) 半教師付きビデオオブジェクトセグメンテーション(VOS)のタスクは大幅に進歩しており、最先端のパフォーマンスは密マッチング方式で実現されている。 最近の手法では、空間時間メモリ(STM)ネットワークを活用し、オブジェクトマスクを持つ過去のフレームが外部メモリを形成し、クエリがメモリ内のマスク情報を使用してセグメント化される現在のフレームであるすべての利用可能なソースから関連情報を検索する。 しかし、メモリを形成してマッチングを行う際には、動作情報を無視しながらのみ外観情報を利用する。 本稿では,emph{motion information} の復活を提唱し,半教師付き VOS のための動作不確実性認識フレームワーク (MUNet) を提案する。 まず,相関コストのボリュームに基づいて,隣接するフレーム間の空間的対応を学習するための暗黙的手法を提案する。 密接な対応を構築する際の咬合やテクスチャのない領域の困難な場合に対処するために, 密一致の不確実性を取り込んで, 動きの不確かさを認識できる特徴表現を実現する。 第2に,動きの特徴と意味的特徴を効果的に融合する,動き認識型空間注意モジュールを提案する。 挑戦的なベンチマークに関する包括的な実験は、少量のデータと強力なモーション情報を組み合わせることで、パフォーマンスが大幅に向上することを示している。 76.5\%}$$$\mathcal{j} \& \mathcal{f}$ トレーニングにdavis17を使用するだけで、ローデータプロトコルの \textit{sota} メソッドを大幅に上回っています。 textit{the codeはリリースされます。 }

The task of semi-supervised video object segmentation (VOS) has been greatly advanced and state-of-the-art performance has been made by dense matching-based methods. The recent methods leverage space-time memory (STM) networks and learn to retrieve relevant information from all available sources, where the past frames with object masks form an external memory and the current frame as the query is segmented using the mask information in the memory. However, when forming the memory and performing matching, these methods only exploit the appearance information while ignoring the motion information. In this paper, we advocate the return of the \emph{motion information} and propose a motion uncertainty-aware framework (MUNet) for semi-supervised VOS. First, we propose an implicit method to learn the spatial correspondences between neighboring frames, building upon a correlation cost volume. To handle the challenging cases of occlusion and textureless regions during constructing dense correspondences, we incorporate the uncertainty in dense matching and achieve motion uncertainty-aware feature representation. Second, we introduce a motion-aware spatial attention module to effectively fuse the motion feature with the semantic feature. Comprehensive experiments on challenging benchmarks show that \textbf{\textit{using a small amount of data and combining it with powerful motion information can bring a significant performance boost}}. We achieve ${76.5\%}$ $\mathcal{J} \& \mathcal{F}$ only using DAVIS17 for training, which significantly outperforms the \textit{SOTA} methods under the low-data protocol. \textit{The code will be released.}
翻訳日:2021-11-30 21:22:26 公開日:2021-11-29
# (参考訳) diffConv:不規則な視点で不規則な点雲を分析する

diffConv: Analyzing Irregular Point Clouds with an Irregular View ( http://arxiv.org/abs/2111.14658v1 )

ライセンス: CC BY 4.0
Manxi Lin and Aasa Feragen(参考訳) 標準空間畳み込みは、通常の近傍構造を持つ入力データを仮定する。 既存の方法は典型的には、通常の「ビュー」を固定された近傍サイズで固定することで、不規則な点のクラウド領域への畳み込みを一般化する。 しかし、点雲は画像ほど構成されていないため、固定隣接数は不運な帰納バイアスを与える。 本稿では,差分グラフ畳み込み(diffConv)と呼ばれる新しいグラフ畳み込みについて述べる。 diffconvは、空間的変動と密度拡大した近傍で動作し、さらに学習されたマスク付き注意機構によって適応される。 modelnet40 point cloud classification benchmarkでモデルを検証し、最先端のパフォーマンスとノイズに対するロバスト性を獲得し、より高速な推論速度を実現しました。

Standard spatial convolutions assume input data with a regular neighborhood structure. Existing methods typically generalize convolution to the irregular point cloud domain by fixing a regular "view" through e.g. a fixed neighborhood size, where the convolution kernel size remains the same for each point. However, since point clouds are not as structured as images, the fixed neighbor number gives an unfortunate inductive bias. We present a novel graph convolution named Difference Graph Convolution (diffConv), which does not rely on a regular view. diffConv operates on spatially-varying and density-dilated neighborhoods, which are further adapted by a learned masked attention mechanism. We validate our model on the ModelNet40 point cloud classification benchmark, obtaining state-of-the-art performance and far more robustness to noise, along with a much faster inference speed.
翻訳日:2021-11-30 21:01:34 公開日:2021-11-29
# (参考訳) ClimART:気象・気候モデルにおける大気放射移動のシミュレーションのためのベンチマークデータセット [全文訳有]

ClimART: A Benchmark Dataset for Emulating Atmospheric Radiative Transfer in Weather and Climate Models ( http://arxiv.org/abs/2111.14671v1 )

ライセンス: CC BY 4.0
Salva R\"uhling Cachay, Venkatesh Ramesh, Jason N. S. Cole, Howard Barker, David Rolnick(参考訳) 地球の気象と気候の数値シミュレーションは、かなりの量の計算を必要とする。 これにより、物理プロセスを明確に計算するサブルーチンを推論時に高速な近似機械学習(ML)メソッドに置き換えることへの関心が高まっている。 気象モデルや気候モデルでは、大気放射移動(RT)計算が特に高価である。 これにより、ニューラルネットワークベースのエミュレータのターゲットとして人気がある。 しかし、MLベンチマークのための包括的なデータセットと標準化されたベストプラクティスがないため、事前の作業を比較するのは難しい。 このギャップを埋めるために、カナダ地球システムモデルに基づいて、現在の、工業以前の、そして将来の気候条件から得られた1000万以上のサンプルを用いて、大規模なデータセットであるClimARTを構築しました。 ClimARTは、複数の配布外テストセット、基礎となるドメイン物理学、精度と推論速度のトレードオフなど、MLコミュニティにいくつかの方法論上の課題を提起している。 また,先行作業で使用されるデータセットやネットワークアーキテクチャの欠点を示す,新たなベースラインをいくつか提示する。 ダウンロード手順、ベースライン、コードは、https://github.com/R olnickLab/climart.co mで入手できる。

Numerical simulations of Earth's weather and climate require substantial amounts of computation. This has led to a growing interest in replacing subroutines that explicitly compute physical processes with approximate machine learning (ML) methods that are fast at inference time. Within weather and climate models, atmospheric radiative transfer (RT) calculations are especially expensive. This has made them a popular target for neural network-based emulators. However, prior work is hard to compare due to the lack of a comprehensive dataset and standardized best practices for ML benchmarking. To fill this gap, we build a large dataset, ClimART, with more than \emph{10 million samples from present, pre-industrial, and future climate conditions}, based on the Canadian Earth System Model. ClimART poses several methodological challenges for the ML community, such as multiple out-of-distribution test sets, underlying domain physics, and a trade-off between accuracy and inference speed. We also present several novel baselines that indicate shortcomings of datasets and network architectures used in prior work. Download instructions, baselines, and code are available at: https://github.com/R olnickLab/climart
翻訳日:2021-11-30 21:00:39 公開日:2021-11-29
# (参考訳) 野生における単眼映像からの人間のパフォーマンスキャプチャ [全文訳有]

Human Performance Capture from Monocular Video in the Wild ( http://arxiv.org/abs/2111.14672v1 )

ライセンス: CC BY 4.0
Chen Guo, Xu Chen, Jie Song and Otmar Hilliges(参考訳) 動的に変形する人間の3D形状をキャプチャすることは、VR/AR、自律運転、人間とコンピュータの相互作用など、多くのアプリケーションにとって不可欠である。 既存の方法は、高価なマルチビューイメージングシステムのような、高度に特殊な撮影装置を必要とするか、または、挑戦的なボディポーズに対する堅牢性に欠ける。 そこで本研究では,身体ポーズに挑戦する単眼映像から,追加の入力をすることなく動的3次元人体形状をキャプチャする手法を提案する。 まず,学習した回帰モデルに基づいて,被験者の3次元テンプレートヒューマンモデルを構築した。 次に,このテンプレートモデルの変形を2次元画像観察に基づく挑戦的な身体調音下で追跡する。 本手法は,人工映像データセット3dpwにおける最先端手法よりも優れている。 さらに,iPERデータセットからの映像に対するロバスト性および一般化性の有効性を示す。

Capturing the dynamically deforming 3D shape of clothed human is essential for numerous applications, including VR/AR, autonomous driving, and human-computer interaction. Existing methods either require a highly specialized capturing setup, such as expensive multi-view imaging systems, or they lack robustness to challenging body poses. In this work, we propose a method capable of capturing the dynamic 3D human shape from a monocular video featuring challenging body poses, without any additional input. We first build a 3D template human model of the subject based on a learned regression model. We then track this template model's deformation under challenging body articulations based on 2D image observations. Our method outperforms state-of-the-art methods on an in-the-wild human video dataset 3DPW. Moreover, we demonstrate its efficacy in robustness and generalizability on videos from iPER datasets.
翻訳日:2021-11-30 20:39:28 公開日:2021-11-29
# (参考訳) ハイパースペクトル画像のための高次元モデル表現によるグラフ埋め込み

Graph Embedding via High Dimensional Model Representation for Hyperspectral Images ( http://arxiv.org/abs/2111.14680v1 )

ライセンス: CC BY 4.0
Gulsen Taskin and Gustau Camps-Valls(参考訳) リモートセンシング画像の多様体構造を学習することは、モデリングと理解のプロセスと、その後の分類、回帰、あるいはアンミックスのための情報的特徴の少ないセットに高次元性をカプセル化することの最も重要な関連性である。 多様体学習法は超スペクトル画像(hsi)解析に優れた性能を示すが、特に設計されていない限り、サンプル外データに容易に適用できる明示的な埋め込みマップを提供できない。 この問題に対処する一般的な仮定は、高次元の入力空間と(典型的には低い)潜在空間の間の変換が線型であるということである。 これは特に強い仮定であり、特にデータのよく知られた非線形性質のため、ハイパースペクトル画像を扱う場合である。 この問題に対処するために, 高次元モデル表現(hdmr)に基づく多様体学習法を提案し, サンプル標本を潜在空間に投影する非線形埋め込み関数を提案する。 提案手法は,その線形学習法とともに多様体学習法と比較し,代表的ハイパースペクトル画像の分類精度の観点から有望な性能を実現する。

Learning the manifold structure of remote sensing images is of paramount relevance for modeling and understanding processes, as well as to encapsulate the high dimensionality in a reduced set of informative features for subsequent classification, regression, or unmixing. Manifold learning methods have shown excellent performance to deal with hyperspectral image (HSI) analysis but, unless specifically designed, they cannot provide an explicit embedding map readily applicable to out-of-sample data. A common assumption to deal with the problem is that the transformation between the high-dimensional input space and the (typically low) latent space is linear. This is a particularly strong assumption, especially when dealing with hyperspectral images due to the well-known nonlinear nature of the data. To address this problem, a manifold learning method based on High Dimensional Model Representation (HDMR) is proposed, which enables to present a nonlinear embedding function to project out-of-sample samples into the latent space. The proposed method is compared to manifold learning methods along with its linear counterparts and achieves promising performance in terms of classification accuracy of a representative set of hyperspectral images.
翻訳日:2021-11-30 20:26:36 公開日:2021-11-29
# (参考訳) 大規模機械学習のための適応1次および2次アルゴリズム [全文訳有]

Adaptive First- and Second-Order Algorithms for Large-Scale Machine Learning ( http://arxiv.org/abs/2111.14761v1 )

ライセンス: CC BY-SA 4.0
Sanae Lotfi, Tiphaine Bonniot de Ruisselet, Dominique Orban, Andrea Lodi(参考訳) 本稿では,機械学習における連続最適化問題に対する一階法と二階法の両方について考察する。 一階の場合、決定論的あるいは半決定論的から確率的二次正規化法への遷移の枠組みを提案する。 確率最適化の2相性を利用して適応サンプリングと適応ステップサイズを備えた新しい一階アルゴリズムを提案する。 2次の場合、深層学習の高度非凸文脈において従来のアルゴリズムを改良した新しい確率的減衰l-bfgs法を提案する。 どちらのアルゴリズムも、よく知られたディープラーニングデータセット上で評価され、有望なパフォーマンスを示す。

In this paper, we consider both first- and second-order techniques to address continuous optimization problems arising in machine learning. In the first-order case, we propose a framework of transition from deterministic or semi-deterministic to stochastic quadratic regularization methods. We leverage the two-phase nature of stochastic optimization to propose a novel first-order algorithm with adaptive sampling and adaptive step size. In the second-order case, we propose a novel stochastic damped L-BFGS method that improves on previous algorithms in the highly nonconvex context of deep learning. Both algorithms are evaluated on well-known deep learning datasets and exhibit promising performance.
翻訳日:2021-11-30 20:13:43 公開日:2021-11-29
# (参考訳) 形状ネットワークにおける確率的部分対応に対するリーマン汎関数写像同期 [全文訳有]

Riemannian Functional Map Synchronization for Probabilistic Partial Correspondence in Shape Networks ( http://arxiv.org/abs/2111.14762v1 )

ライセンス: CC BY 4.0
Faria Huq, Adrish Dey, Sahra Yusuf, Dena Bazazian, Tolga Birdal, Nina Miolane(参考訳) 関数写像は、形状対応の効率的な表現であり、形状対間の実数値関数のマッチングを提供する。 函数写像は、ほぼ等尺形状のリー群 $SO(n)$ の元としてモデル化することができる。 その後の同期は、個々の地図の精度を高めることによって、一連の形状で計算された関数写像間のサイクル一貫性を強制するために用いられる。 同期結果に関連する不確実性を定量化するための確率的フレームワークを導入しながら、$SO(n)$の幾何学的構造を尊重する同期手法の開発に関心がある。 本稿では,関数写像のリーマン的同期のための$so(n)$上のベイズ確率的推論フレームワークを導入し,同期による関数写像の最大ポストエリリ推定を行い,さらに不確実性定量のためのリーマンマルコフ鎖モンテカルロサンプリング器をデプロイする。 我々の実験は、リーマン多様体 $SO(n)$ 上の同期の制約が函数写像の推定を改善することを示し、一方、リーマン MCMC サンプリング器は結果の不確実な定量化を初めて提供する。

Functional maps are efficient representations of shape correspondences, that provide matching of real-valued functions between pairs of shapes. Functional maps can be modelled as elements of the Lie group $SO(n)$ for nearly isometric shapes. Synchronization can subsequently be employed to enforce cycle consistency between functional maps computed on a set of shapes, hereby enhancing the accuracy of the individual maps. There is an interest in developing synchronization methods that respect the geometric structure of $SO(n)$, while introducing a probabilistic framework to quantify the uncertainty associated with the synchronization results. This paper introduces a Bayesian probabilistic inference framework on $SO(n)$ for Riemannian synchronization of functional maps, performs a maximum-a-posteriori estimation of functional maps through synchronization and further deploys a Riemannian Markov-Chain Monte Carlo sampler for uncertainty quantification. Our experiments demonstrate that constraining the synchronization on the Riemannian manifold $SO(n)$ improves the estimation of the functional maps, while our Riemannian MCMC sampler provides for the first time an uncertainty quantification of the results.
翻訳日:2021-11-30 19:46:35 公開日:2021-11-29
# (参考訳) 高レベル合成設計空間探索のためのグラフ深層学習フレームワーク [全文訳有]

A Graph Deep Learning Framework for High-Level Synthesis Design Space Exploration ( http://arxiv.org/abs/2111.14767v1 )

ライセンス: CC BY 4.0
Lorenzo Ferretti, Andrea Cini, Georgios Zacharopoulos, Cesare Alippi, Laura Pozzi(参考訳) 高スループットデータ処理アプリケーション、例えばディープニューラルネットワークのための効率的なハードウェアアクセラレーターの設計は、コンピュータアーキテクチャ設計において難しい課題である。 この点において、高レベル合成(HLS)は、アプリケーション計算フローの振る舞い記述から始まる、アプリケーション固有のハードウェアを高速にプロトタイピングするためのソリューションとして現れる。 この設計空間探索(dse)は、設計空間の次元と合成プロセスの計算コストのため、しばしば排他的探索が不可能となるパレート最適合成構成を特定することを目的としている。 本フレームワークでは,最適化指示を与えられた合成動作仕様の高速化性能とハードウェアコストを共同で予測するグラフニューラルネットワークを,文献で初めて提案することにより,設計問題を効果的かつ効率的に解決する。 学習モデルは、性能とコスト見積を考慮してDSEを導くことで、パレート曲線に迅速にアプローチすることができる。 提案手法は,コンピュータプログラムの任意の長さと入力の不変性を考慮することで,従来の hls 駆動 dse 手法よりも優れる。 本稿では,異なるハードウェアアクセラレータの仕様に基づいて,グラフニューラルネットワークのトレーニングを可能にする,新たなハイブリッド制御とデータフローグラフ表現を提案する。 さらに,提案手法は,HLSコンパイラとFPGAの解析モデルへのアクセスを行なわずに,一般的なシミュレータと同等の精度で予測できることを示す。 最後に、学習された表現は、新しいターゲットドメインから少数のサンプルを微調整することで、未探索の構成空間でdseを活用できる。

The design of efficient hardware accelerators for high-throughput data-processing applications, e.g., deep neural networks, is a challenging task in computer architecture design. In this regard, High-Level Synthesis (HLS) emerges as a solution for fast prototyping application-specific hardware starting from a behavioural description of the application computational flow. This Design-Space Exploration (DSE) aims at identifying Pareto optimal synthesis configurations whose exhaustive search is often unfeasible due to the design-space dimensionality and the prohibitive computational cost of the synthesis process. Within this framework, we effectively and efficiently address the design problem by proposing, for the first time in the literature, graph neural networks that jointly predict acceleration performance and hardware costs of a synthesized behavioral specification given optimization directives. The learned model can be used to rapidly approach the Pareto curve by guiding the DSE, taking into account performance and cost estimates. The proposed method outperforms traditional HLS-driven DSE approaches, by accounting for arbitrary length of computer programs and the invariant properties of the input. We propose a novel hybrid control and data flow graph representation that enables training the graph neural network on specifications of different hardware accelerators; the methodology naturally transfers to unseen data-processing applications too. Moreover, we show that our approach achieves prediction accuracy comparable with that of commonly used simulators without having access to analytical models of the HLS compiler and the target FPGA, while being orders of magnitude faster. Finally, the learned representation can be exploited for DSE in unexplored configuration spaces by fine-tuning on a small number of samples from the new target domain.
翻訳日:2021-11-30 19:32:52 公開日:2021-11-29
# FaceAtlasAR:拡張現実における顔面痛点のアトラス

FaceAtlasAR: Atlas of Facial Acupuncture Points in Augmented Reality ( http://arxiv.org/abs/2111.14755v1 )

ライセンス: Link先を確認
Menghe Zhang, Jurgen Schulze, and Dong Zhang(参考訳) acupunctureは、開業医が身体の特定の点を刺激する技術である。 これらの点(または尖点)は、身体のいくつかのランドマークに対して解剖学的に皮膚の領域を定義する。 伝統的な治療は、経験豊富な治療士がキューポイントの正確な位置決めに頼っている。 初心者は通常、視覚的な手がかりがないため難しいと感じる。 このプロジェクトは、拡張現実(AR)コンテキストで顔のアキューポイントをローカライズし視覚化するプロトタイプシステムであるFaceAtlasARを提示する。 システムは 1) 解剖学的だが実現可能な方法で, 顔面尖点と耳介ゾーンマップを局在させる。 2)要求されたacupointsをarのカテゴリ別にオーバーレイし、 3)耳に耳帯地図を表示する。 クロスプラットフォームの機械学習フレームワークであるMediapipeを採用して、デスクトップとAndroid携帯で動作するパイプラインを構築しています。 我々は、"In-the-wild"やAMI耳データセット、アノテーション付きデータセットなど、さまざまなベンチマークで実験を行います。 その結果, 顔尖点の95%, 耳介帯マップの99%/97% (in-the-wild / ami) , 高ロバスト性が得られた。 このシステムでは、プロではないユーザでも、自己容積治療のために素早くキューポイントを配置できる。

Acupuncture is a technique in which practitioners stimulate specific points on the body. These points, called acupuncture points (or acupoints), anatomically define areas on the skin relative to some landmarks on the body. Traditional acupuncture treatment relies on experienced acupuncturists for precise positioning of acupoints. A novice typically finds it difficult because of the lack of visual cues. This project presents FaceAtlasAR, a prototype system that localizes and visualizes facial acupoints in an augmented reality (AR) context. The system aims to 1) localize facial acupoints and auricular zone map in an anatomical yet feasible way, 2) overlay the requested acupoints by category in AR, and 3) show auricular zone map on the ears. We adopt Mediapipe, a cross-platform machine learning framework, to build the pipeline that runs on desktop and Android phones. We perform experiments on different benchmarks, including "In-the-wild", AMI ear datasets, and our own annotated datasets. Results show the localization accuracy of 95% for facial acupoints, 99% / 97% ("In-the-wild" / AMI) for auricular zone map, and high robustness. With this system, users, even not professionals, can position the acupoints quickly for their self-acupressure treatments.
翻訳日:2021-11-30 19:06:31 公開日:2021-11-29
# 物理インフォームド進化戦略に基づく遅延電圧回復の緩和制御

Physics-informed Evolutionary Strategy based Control for Mitigating Delayed Voltage Recovery ( http://arxiv.org/abs/2111.14352v1 )

ライセンス: Link先を確認
Yan Du, Qiuhua Huang, Renke Huang, Tianzhixi Yin, Jie Tan, Wenhao Yu, Xinya Li(参考訳) 本研究では,物理インフォームド・ガイド付きメタ進化戦略(ES)に基づく,データ駆動型リアルタイム電力系統電圧制御手法を提案する。 主な目的は、故障による遅延電圧回復(FIDVR)問題を緩和するための適応制御戦略を迅速に提供することである。 強化学習法は、同じまたは類似の困難な制御問題に対して開発されてきたが、訓練の非効率性や"コルナー"や"見えない"シナリオに対する堅牢性の欠如に悩まされている。 一方、電力システムでは広範な物理知識が開発されているが、学習に基づくアプローチではほとんど活用されていない。 これらの課題に対処するために,RLモデルに物理知識を柔軟に組み込んで不必要な動作や不都合な動作を排除し,サンプル効率,制御性能,堅牢性において顕著な改善を実現するためのトレーニング可能なアクションマスク技術を導入する。 さらに,過去の学習経験を活かし,サーロゲート勾配を導出し,学習中の探索プロセスを指導し,促進する。 IEEE 300-busシステムに関するケーススタディと、他の最先端ベンチマーク手法との比較により、本手法の有効性と利点が示された。

In this work we propose a novel data-driven, real-time power system voltage control method based on the physics-informed guided meta evolutionary strategy (ES). The main objective is to quickly provide an adaptive control strategy to mitigate the fault-induced delayed voltage recovery (FIDVR) problem. Reinforcement learning methods have been developed for the same or similar challenging control problems, but they suffer from training inefficiency and lack of robustness for "corner or unseen" scenarios. On the other hand, extensive physical knowledge has been developed in power systems but little has been leveraged in learning-based approaches. To address these challenges, we introduce the trainable action mask technique for flexibly embedding physical knowledge into RL models to rule out unnecessary or unfavorable actions, and achieve notable improvements in sample efficiency, control performance and robustness. Furthermore, our method leverages past learning experience to derive surrogate gradient to guide and accelerate the exploration process in training. Case studies on the IEEE 300-bus system and comparisons with other state-of-the-art benchmark methods demonstrate effectiveness and advantages of our method.
翻訳日:2021-11-30 19:01:54 公開日:2021-11-29
# 削除・挿入操作を用いた新しいシンクホーンアルゴリズム

A new Sinkhorn algorithm with Deletion and Insertion operations ( http://arxiv.org/abs/2111.14565v1 )

ライセンス: Link先を確認
Luc Brun, Benoit Ga\"uz\`ere, S\'ebastien Bougleux, Florian Yger(参考訳) この技術的報告は、エプシロン割り当ての連続的な推定に費やされている。 概して、2つの集合 V1 と V2 の間のエプシロンの割り当ては、V1 の部分部分と V2 の部分の間の単射写像として理解することができる。 v1 の残りの要素(この写像には含まれない)は v2 のエプシロン擬元に写像される。 このような要素は削除されます。 逆に、v2 の残りの要素は v1 の epsilon pseudo element のイメージに対応する。 私たちはこれらの要素を挿入すると言う。 その結果、Sinkhornアルゴリズムに類似した結果を提供し、挿入または削除されたいくつかの要素を拒否する機能を追加する。 これにより、異なるサイズの集合 v1 と v2 を自然に処理し、マッピング/インセプション/削除を統一的に決定する。 我々のアルゴリズムは反復的で微分可能であり、人工ニューラルネットワークのようなバックプロパゲーションベースの学習フレームワークに簡単に挿入できる。

This technical report is devoted to the continuous estimation of an epsilon-assignment. Roughly speaking, an epsilon assignment between two sets V1 and V2 may be understood as a bijective mapping between a sub part of V1 and a sub part of V2 . The remaining elements of V1 (not included in this mapping) are mapped onto an epsilon pseudo element of V2 . We say that such elements are deleted. Conversely, the remaining elements of V2 correspond to the image of the epsilon pseudo element of V1. We say that these elements are inserted. As a result our method provides a result similar to the one of the Sinkhorn algorithm with the additional ability to reject some elements which are either inserted or deleted. It thus naturally handles sets V1 and V2 of different sizes and decides mappings/insertions/ deletions in a unified way. Our algorithms are iterative and differentiable and may thus be easily inserted within a backpropagation based learning framework such as artificial neural networks.
翻訳日:2021-11-30 19:01:33 公開日:2021-11-29
# 自動微分によるスペクトル関数の再構成

Reconstructing spectral functions via automatic differentiation ( http://arxiv.org/abs/2111.14760v1 )

ライセンス: Link先を確認
Lingxiao Wang, Shuzhe Shi, Kai Zhou(参考訳) ユークリッドグリーン関数からスペクトル関数を再構成することは、多体物理学において重要な逆問題である。 しかし、ノイズグリーン関数を持つ現実的なシステムでは反転が不適切であることが証明されている。 本稿では,プロパゲータオブザーバからのスペクトル再構成のための汎用ツールとして,自動微分(AD)フレームワークを提案する。 スペクトル関数の非局所スムーズ性レギュレータとしてのニューラルネットワークの正規化を実行し、ニューラルネットワークによるスペクトル関数を表現し、プロパゲータの再構成誤差を用いてネットワークパラメータを教師なしで最適化する。 トレーニングプロセスでは、スペクトル関数の正定値形式を除いて、ニューラルネットワークに埋め込まれた他の明示的な物理前駆体は存在しない。 再構成性能は2つの異なるネットワーク表現に対する相対エントロピーと平均二乗誤差によって評価される。 最大エントロピー法と比較して、ADフレームワークは大きな雑音環境下でより良い性能を達成する。 非局所正規化を導入する自由は、現在のフレームワークの固有の利点であり、逆問題解決の大幅な改善につながる可能性がある。

Reconstructing spectral functions from Euclidean Green's functions is an important inverse problem in many-body physics. However, the inversion is proved to be ill-posed in the realistic systems with noisy Green's functions. In this Letter, we propose an automatic differentiation(AD) framework as a generic tool for the spectral reconstruction from propagator observable. Exploiting the neural networks' regularization as a non-local smoothness regulator of the spectral function, we represent spectral functions by neural networks and use propagator's reconstruction error to optimize the network parameters unsupervisedly. In the training process, except for the positive-definite form for the spectral function, there are no other explicit physical priors embedded into the neural networks. The reconstruction performance is assessed through relative entropy and mean square error for two different network representations. Compared to the maximum entropy method, the AD framework achieves better performance in large-noise situation. It is noted that the freedom of introducing non-local regularization is an inherent advantage of the present framework and may lead to substantial improvements in solving inverse problems.
翻訳日:2021-11-30 19:01:00 公開日:2021-11-29
# (参考訳) 高エネルギー物理のための関数近似:機械学習と補間法の比較 [全文訳有]

Function Approximation for High-Energy Physics: Comparing Machine Learning and Interpolation Methods ( http://arxiv.org/abs/2111.14788v1 )

ライセンス: CC BY 4.0
Ibrahim Chahrour and James D. Wells(参考訳) 関数を近似する必要性は、経験的制約または関数にアクセスする計算コストが高いため、科学においてユビキタスである。 高エネルギー物理学では、プロセスの散乱断面積の正確な計算には計算集約積分の評価が必要である。 機械学習の様々な手法がこの問題に対処するために使われてきたが、ある手法を別の手法で使う動機が欠けていることが多い。 これらの手法の比較は一般に手元にある問題に大きく依存しているため,関数を複数回評価し,その後,迅速かつ正確な評価を行うことが可能である。 4つの補間と3つの機械学習技術を検討し、3つのおもちゃ関数、すなわち4点スカラーパスアリノ・ヴェルトマン$d_0$関数と2ループの自己エネルギーマスター積分$m$と比較する。 低次元(d = 3$)では、ラジアル基底関数のような伝統的な補間技術は非常によく機能するが、高次元(d=5, 6, 9$)では、多層パーセプトロン(すなわちニューラルネットワーク)は次元の呪いにあまり苦しめられず、最も速く、最も正確な予測を提供する。

The need to approximate functions is ubiquitous in science, either due to empirical constraints or high computational cost of accessing the function. In high-energy physics, the precise computation of the scattering cross-section of a process requires the evaluation of computationally intensive integrals. A wide variety of methods in machine learning have been used to tackle this problem, but often the motivation of using one method over another is lacking. Comparing these methods is typically highly dependent on the problem at hand, so we specify to the case where we can evaluate the function a large number of times, after which quick and accurate evaluation can take place. We consider four interpolation and three machine learning techniques and compare their performance on three toy functions, the four-point scalar Passarino-Veltman $D_0$ function, and the two-loop self-energy master integral $M$. We find that in low dimensions ($d = 3$), traditional interpolation techniques like the Radial Basis Function perform very well, but in higher dimensions ($d=5, 6, 9$) we find that multi-layer perceptrons (a.k.a neural networks) do not suffer as much from the curse of dimensionality and provide the fastest and most accurate predictions.
翻訳日:2021-11-30 18:57:12 公開日:2021-11-29
# tsallis-statisticsに基づく行動クローンを用いた小型・騒音データセットによる個人移動の自律運転

Towards Autonomous Driving of Personal Mobility with Small and Noisy Dataset using Tsallis-statistics-b ased Behavioral Cloning ( http://arxiv.org/abs/2111.14294v1 )

ライセンス: Link先を確認
Taisuke Kobayashi and Takahito Enomoto(参考訳) 自動運転は大きな進歩を遂げ、ステップバイステップで実用化されている。 一方、パーソナルモビリティの概念も普及しており、個人運転に特化した自動運転が新たなステップとして期待されている。 しかし、個人の移動手段の個々のドライバから、基本的に自動運転の学習に必要な大規模な運転データセットを収集することは困難である。 さらに、運転者がパーソナルモビリティの操作に慣れていない場合、データセットには最適なデータが含まれます。 そこで本研究では,小型でノイズの多いパーソナル・モビリティ・データセットを用いた自律運転方式に焦点を当てた。 具体的には,tsallis統計に基づく新たな損失関数を導入することで,元の損失関数に応じて勾配を重み付けし,最適化フェーズでノイズデータを排除することができる。 さらに、ドライバとコントローラが同じ関心領域を持つかどうかを検証するために、可視化技術を改善する。 実験結果から,従来の自律運転は個人データセットの誤った操作のために適切に運転できなかったこと,運転者とは異なる関心領域があることが判明した。 対照的に,提案手法は誤りに対して頑健に学習し,運転者と同様の領域に注意を払いながら自動走行を成功させた。 添付ビデオもyoutubeにアップロードされている: https://youtu.be/keq 8-boxyqa

Autonomous driving has made great progress and been introduced in practical use step by step. On the other hand, the concept of personal mobility is also getting popular, and its autonomous driving specialized for individual drivers is expected for a new step. However, it is difficult to collect a large driving dataset, which is basically required for the learning of autonomous driving, from the individual driver of the personal mobility. In addition, when the driver is not familiar with the operation of the personal mobility, the dataset will contain non-optimal data. This study therefore focuses on an autonomous driving method for the personal mobility with such a small and noisy, so-called personal, dataset. Specifically, we introduce a new loss function based on Tsallis statistics that weights gradients depending on the original loss function and allows us to exclude noisy data in the optimization phase. In addition, we improve the visualization technique to verify whether the driver and the controller have the same region of interest. From the experimental results, we found that the conventional autonomous driving failed to drive properly due to the wrong operations in the personal dataset, and the region of interest was different from that of the driver. In contrast, the proposed method learned robustly against the errors and successfully drove automatically while paying attention to the similar region to the driver. Attached video is also uploaded on youtube: https://youtu.be/KEq 8-bOxYQA
翻訳日:2021-11-30 18:33:00 公開日:2021-11-29
# 隣接帯域における不連続成分を含むオンライン公正収益最大化ケーキ部門

Online Fair Revenue Maximizing Cake Division with Non-Contiguous Pieces in Adversarial Bandits ( http://arxiv.org/abs/2111.14387v1 )

ライセンス: Link先を確認
Mohammad Ghodsi, Amirmahdi Mirfakhar(参考訳) 古典的なケーキカット問題は、異なる嗜好を持つエージェント間で分割可能で異質なリソースを公平かつ効率的に割り当てるモデルを提供する。 各エージェントがオフラインでケーキの連続的な部分を受け取らなければならないケーキ切断の標準的な定式化に焦点をあて、代わりに、エージェント間で非連続的なケーキを割り当てることに集中し、公正度対策のためのアルゴリズム的な結果を確立する。 そこで本研究では,古典的対向型マルチアームバンディットを用いて,サブ線形フェアネスと収益レグレットを同時に達成した。 敵の包帯は、敵の強化学習環境をモデル化するための強力なツールであり、探索と搾取の間のスマートなトレードオフを適用することで、各ステップで1つの行動の報奨を観察するだけで、後悔すべきことの強い上限を提供する。 本研究は,時間軸を用いた指数関数wight{-}importance更新確率分布に基づくexp_3アルゴリズムのパワーについて検討する。

The classic cake-cutting problem provides a model for addressing the fair and efficient allocation of a divisible, heterogeneous resource among agents with distinct preferences. Focusing on a standard formulation of cake cutting, in which each agent must receive a contiguous piece of the cake in an offline setting, this work instead focuses on online allocating non-contiguous pieces of cake among agents and establishes algorithmic results for fairness measures. In this regard, we made use of classic adversarial multi-armed bandits to achieve sub-linear Fairness and Revenue Regret at the same time. Adversarial bandits are powerful tools to model the adversarial reinforcement learning environments, that provide strong upper-bounds for regret of learning with just observing one action's reward in each step by applying smart trade-off between exploration and exploitation. This work studies the power of the famous EXP_3 algorithm that is based on exponential wight{-}importance updating probability distribution through time horizon.
翻訳日:2021-11-30 18:31:42 公開日:2021-11-29
# BP-Net: Photoplethysmogram を用いた連続血圧推定のための効率的な深層学習

BP-Net: Efficient Deep Learning for Continuous Arterial Blood Pressure Estimation using Photoplethysmogram ( http://arxiv.org/abs/2111.14558v1 )

ライセンス: Link先を確認
Rishi Vardhan K, Vedanth S, Poojah G, Abhishek K, Nitish Kumar M, Vineeth Vijayaraghavan(参考訳) 血圧 (BP) は心臓血管疾患や脳卒中に最も影響を及ぼすバイオマーカーの1つである。 連続BPモニタリングへの現在のカフレスアプローチは、非侵襲的で控えめだが、指先光胸腺造影(PPG)信号を取り巻く明示的な特徴工学を含んでいる。 これを回避するために,PPG波形を用いてSystolic BP (SBP), Mean Average Pressure (MAP), Diastolic BP (DBP) を中間連続動脈BP (ABP) 波形を介して推定する,エンドツーエンドのディープラーニングソリューションBP-Netを提案する。 British Hypertension Society (BHS) の基準の下では、BP-Net は DBP と MAP のグレード A と SBP のグレード B を達成している。 BP-Netは、DBPとMAP推定のAAMI(Advancedment of Medical Instrumentation)基準を満たし、それぞれ5.16mmHgと2.89mmHgのMAE(Mean Absolute Error)を達成している。 さらに,Raspberry Pi 4 デバイスに BP-Net を配置することで,我々のアプローチのユビキタスな可能性を確立し,PPG 波形を ABP 波形に変換するための4.25 ms の推論時間を実現する。

Blood pressure (BP) is one of the most influential bio-markers for cardiovascular diseases and stroke; therefore, it needs to be regularly monitored to diagnose and prevent any advent of medical complications. Current cuffless approaches to continuous BP monitoring, though non-invasive and unobtrusive, involve explicit feature engineering surrounding fingertip Photoplethysmogram (PPG) signals. To circumvent this, we present an end-to-end deep learning solution, BP-Net, that uses PPG waveform to estimate Systolic BP (SBP), Mean Average Pressure (MAP), and Diastolic BP (DBP) through intermediate continuous Arterial BP (ABP) waveform. Under the terms of the British Hypertension Society (BHS) standard, BP-Net achieves Grade A for DBP and MAP estimation and Grade B for SBP estimation. BP-Net also satisfies Advancement of Medical Instrumentation (AAMI) criteria for DBP and MAP estimation and achieves Mean Absolute Error (MAE) of 5.16 mmHg and 2.89 mmHg for SBP and DBP, respectively. Further, we establish the ubiquitous potential of our approach by deploying BP-Net on a Raspberry Pi 4 device and achieve 4.25 ms inference time for our model to translate the PPG waveform to ABP waveform.
翻訳日:2021-11-30 18:31:22 公開日:2021-11-29
# 確率的二値最適化のための暗黙差分法

Amortized Implicit Differentiation for Stochastic Bilevel Optimization ( http://arxiv.org/abs/2111.14580v1 )

ライセンス: Link先を確認
Michael Arbel and Julien Mairal(参考訳) 本研究では,内部レベルの目標が強凸である場合,確率的および決定論的設定の両方において,二階最適化問題を解決するアルゴリズムのクラスについて検討する。 具体的には, 暗黙的微分に基づくアルゴリズムを考察し, 正確な勾配の推定を償却するためにウォームスタート戦略を利用する。 次に,特異摂動系(habets, 1974)の研究に触発された統一的理論的枠組みを導入し,そのような不定形化アルゴリズムを解析した。 このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセスできるオラクルメソッドの計算複雑性と一致し、2段階最適化のための既存の多くの結果より優れていることを示す。 これらの結果を合成実験で示し,数千変数を含む超パラメータ最適化実験におけるアルゴリズムの有効性を実証する。

We study a class of algorithms for solving bilevel optimization problems in both stochastic and deterministic settings when the inner-level objective is strongly convex. Specifically, we consider algorithms based on inexact implicit differentiation and we exploit a warm-start strategy to amortize the estimation of the exact gradient. We then introduce a unified theoretical framework inspired by the study of singularly perturbed systems (Habets, 1974) to analyze such amortized algorithms. By using this framework, our analysis shows these algorithms to match the computational complexity of oracle methods that have access to an unbiased estimate of the gradient, thus outperforming many existing results for bilevel optimization. We illustrate these findings on synthetic experiments and demonstrate the efficiency of these algorithms on hyper-parameter optimization experiments involving several thousands of variables.
翻訳日:2021-11-30 18:30:55 公開日:2021-11-29
# グラフニューラルネットワークとランダムフォレストを用いた大型磁気モーメント材料の予測

Prediction of Large Magnetic Moment Materials With Graph Neural Networks and Random Forests ( http://arxiv.org/abs/2111.14712v1 )

ライセンス: Link先を確認
S\'ekou-Oumar Kaba, Benjamin Groleau-Par\'e, Marc-Antoine Gauthier, Andr\'e-Marie Tremblay, Simon Verret, Chlo\'e Gauvin-Ndiaye(参考訳) 磁気材料は、電気モーター、風力タービン発電機、磁気冷凍システムなど、生態遷移を駆動する多くの技術の重要な要素である。 したがって、大きな磁気モーメントを持つ物質の発見が優先される。 ここでは、最先端の機械学習手法を用いて、数十万の既存材料の無機結晶構造データベース(ICSD)をスキャンし、強磁性で大きな磁気モーメントを持つ物質を見つける。 結晶グラフ畳み込みニューラルネットワーク(CGCNN)、物質グラフネットワーク(MEGNet)、ランダム森林は、高スループットDFT予測の結果を含むマテリアルプロジェクトデータベース上で訓練される。 ランダムな森林では,化学組成と結晶構造に基づいて,100近い関連する記述子を選択する確率的手法を用いる。 その結果、ニューラルネットワークに匹敵するテストセットの結果が得られました。 これらの異なる機械学習アプローチの比較は、icsdデータベース上での予測の誤りを推定する。

Magnetic materials are crucial components of many technologies that could drive the ecological transition, including electric motors, wind turbine generators and magnetic refrigeration systems. Discovering materials with large magnetic moments is therefore an increasing priority. Here, using state-of-the-art machine learning methods, we scan the Inorganic Crystal Structure Database (ICSD) of hundreds of thousands of existing materials to find those that are ferromagnetic and have large magnetic moments. Crystal graph convolutional neural networks (CGCNN), materials graph network (MEGNet) and random forests are trained on the Materials Project database that contains the results of high-throughput DFT predictions. For random forests, we use a stochastic method to select nearly one hundred relevant descriptors based on chemical composition and crystal structure. This turns out to give results for the test sets that are comparable to those of neural networks. The comparison between these different machine learning approaches gives an estimate of the errors for our predictions on the ICSD database.
翻訳日:2021-11-30 18:30:42 公開日:2021-11-29
# (参考訳) フェデレート学習に対するバックドアアタックによるモデル勾配の異常な局在 [全文訳有]

Anomaly Localization in Model Gradients Under Backdoor Attacks Against Federated Learning ( http://arxiv.org/abs/2111.14683v1 )

ライセンス: CC BY 4.0
Zeki Bilgin(参考訳) 連合学習(FL)のジョイントモデルにバックドアを挿入することは、懸念を引き起こす最近の脅威である。 既存の研究は主にこの脅威に対する効果的な対策の開発に焦点をあてており、もしあるならば、バックドアのローカルモデルがその勾配の異常によって明らかになるであろうと仮定している。 しかし、この仮定は、どの勾配がどの条件の下でアノマリーを示す可能性が高いかを明確に特定することで、詳細化する必要がある。 これは、ニューラルネットワークモデルが通常、巨大なパラメトリック空間を持ち、大量の重みを持つため、重要な問題である。 本研究では,複数のバックドア攻撃シナリオにおけるモデル勾配の予測変動について,深い勾配レベル解析を行う。 我々の主な新しい発見は、ローカルモデル更新におけるバックドアによる異常(重みまたは勾配)が、悪意のあるローカルモデルの最終層バイアス重みに現れることである。 FL設定の理論的および実験的解析により,本研究の成果を裏付け,検証する。 また,悪意のあるクライアント数,学習率,悪意のあるデータレートが観測異常に与える影響についても検討した。 実装はgithub.com/arcelikac ikkaynak/federated_l earning.git}}で公開されている。

Inserting a backdoor into the joint model in federated learning (FL) is a recent threat raising concerns. Existing studies mostly focus on developing effective countermeasures against this threat, assuming that backdoored local models, if any, somehow reveal themselves by anomalies in their gradients. However, this assumption needs to be elaborated by identifying specifically which gradients are more likely to indicate an anomaly to what extent under which conditions. This is an important issue given that neural network models usually have huge parametric space and consist of a large number of weights. In this study, we make a deep gradient-level analysis on the expected variations in model gradients under several backdoor attack scenarios against FL. Our main novel finding is that backdoor-induced anomalies in local model updates (weights or gradients) appear in the final layer bias weights of the malicious local models. We support and validate our findings by both theoretical and experimental analysis in various FL settings. We also investigate the impact of the number of malicious clients, learning rate, and malicious data rate on the observed anomaly. Our implementation is publicly available\footnote{\url{ https://github.com/A rcelikAcikKaynak/Fed erated_Learning.git}}.
翻訳日:2021-11-30 18:27:37 公開日:2021-11-29
# spatl: フェデレーション学習における異種顧客のための有意なパラメータ集約と転送学習

SPATL: Salient Parameter Aggregation and Transfer Learning for Heterogeneous Clients in Federated Learning ( http://arxiv.org/abs/2111.14345v1 )

ライセンス: Link先を確認
Sixing Yu, Phuong Nguyen, Waqwoya Abebe, Ali Anwar, Ali Jannesari(参考訳) 効率的なフェデレーション学習は、エッジデバイス上でAIモデルをトレーニングしデプロイする上で重要な課題のひとつだ。 しかし、フェデレーション学習におけるデータのプライバシの維持は、データの均一性、高価な通信コスト、限られたリソースなど、いくつかの課題を引き起こす。 本稿では,上記の課題について述べる。 (a)ローカルクライアントの深層強化学習に基づく有能なパラメータ選択エージェントを導入し、選択された有能なパラメータを中央サーバに集約し、 (b)共有エンコーダとローカル予測器として通常のディープラーニングモデル(cnnsなど)を分割し、共有エンコーダをフェデレーション学習を通じて訓練し、その知識をローカルカスタマイズ予測器によって非iidクライアントに転送する。 提案手法 (a)フェデレーション学習のコミュニケーションオーバーヘッドを著しく減らし,モデル推論を高速化する一方で,手法 (b)フェデレーション学習におけるデータ不均質性問題に対処する。 さらに,勾配制御機構を利用して,クライアント間の勾配の不均一性を補正する。 これにより、トレーニングプロセスはより安定し、より早く収束します。 実験により,本手法は訓練過程が安定し,最先端手法と比較して顕著な結果が得られた。 VGG-11のトレーニングでは通信コストを最大108GB削減し,ResNet-20のトレーニングでは7.6 \times$通信オーバーヘッドを削減し,VGG-11では最大39.7\%のFLOPを削減した。

Efficient federated learning is one of the key challenges for training and deploying AI models on edge devices. However, maintaining data privacy in federated learning raises several challenges including data heterogeneity, expensive communication cost, and limited resources. In this paper, we address the above issues by (a) introducing a salient parameter selection agent based on deep reinforcement learning on local clients, and aggregating the selected salient parameters on the central server, and (b) splitting a normal deep learning model~(e.g., CNNs) as a shared encoder and a local predictor, and training the shared encoder through federated learning while transferring its knowledge to Non-IID clients by the local customized predictor. The proposed method (a) significantly reduces the communication overhead of federated learning and accelerates the model inference, while method (b) addresses the data heterogeneity issue in federated learning. Additionally, we leverage the gradient control mechanism to correct the gradient heterogeneity among clients. This makes the training process more stable and converge faster. The experiments show our approach yields a stable training process and achieves notable results compared with the state-of-the-art methods. Our approach significantly reduces the communication cost by up to 108 GB when training VGG-11, and needed $7.6 \times$ less communication overhead when training ResNet-20, while accelerating the local inference by reducing up to $39.7\%$ FLOPs on VGG-11.
翻訳日:2021-11-30 18:15:27 公開日:2021-11-29
# 知識蒸留を用いたAIoTアプリケーションのための効果的なフェデレーション学習

Efficient Federated Learning for AIoT Applications Using Knowledge Distillation ( http://arxiv.org/abs/2111.14347v1 )

ライセンス: Link先を確認
Tian Liua, Jun Xiaa, Xian Weia, Ting Wanga, Xin Fub, Mingsong Chen(参考訳) 有望な分散機械学習パラダイムとして、federated learning(fl)は、ユーザのプライバシを損なうことなく、分散データを備えた中央モデルをトレーニングする。 しかし、従来のFLは、データのハードラベルを用いてローカルモデルを訓練し、小さな確率で誤った予測の有用な情報を無視するため、モデル不正確さに悩まされている。 様々なソリューションが従来のflのボトルネックに取り組もうとしているが、そのほとんどは重要な通信とメモリオーバーヘッドをもたらし、大規模なaiotデバイスのデプロイが大きな課題となっている。 本稿では,aiotアプリケーションの効率良く正確なflを実現するために,dfl(dstillation-bas ed federated learning)アーキテクチャを提案する。 モデル精度を向上できる知識蒸留(KD)にインスパイアされた我々の手法は、無視可能なネットワークリソースを占有するFLモデルトレーニングにKDが使用するソフトターゲットを追加する。 ソフトターゲットは、各ローカルトレーニングの各ラウンド後に各AIoTデバイスのローカルサンプル予測によって生成され、次のラウンドのモデルトレーニングに使用される。 dflのローカルトレーニングでは、ソフトターゲットとハードラベルの両方をモデル予測の近似目標として使用し、ソフトターゲットの知識を補足することでモデルの精度を向上させる。 DFLモデルの性能をさらに向上するため、KDで使用される2つの損失関数の比率を調整し、ソフトターゲットとハードラベルの両方の使用を最大化するための動的調整戦略を設計する。 よく知られているベンチマークにおける総合的な実験結果から,本手法は独立分散データと非iidデータの両方を用いて,flのモデルの精度を大幅に向上できることがわかった。

As a promising distributed machine learning paradigm, Federated Learning (FL) trains a central model with decentralized data without compromising user privacy, which has made it widely used by Artificial Intelligence Internet of Things (AIoT) applications. However, the traditional FL suffers from model inaccuracy since it trains local models using hard labels of data and ignores useful information of incorrect predictions with small probabilities. Although various solutions try to tackle the bottleneck of the traditional FL, most of them introduce significant communication and memory overhead, making the deployment of large-scale AIoT devices a great challenge. To address the above problem, this paper presents a novel Distillation-based Federated Learning (DFL) architecture that enables efficient and accurate FL for AIoT applications. Inspired by Knowledge Distillation (KD) that can increase the model accuracy, our approach adds the soft targets used by KD to the FL model training, which occupies negligible network resources. The soft targets are generated by local sample predictions of each AIoT device after each round of local training and used for the next round of model training. During the local training of DFL, both soft targets and hard labels are used as approximation objectives of model predictions to improve model accuracy by supplementing the knowledge of soft targets. To further improve the performance of our DFL model, we design a dynamic adjustment strategy for tuning the ratio of two loss functions used in KD, which can maximize the use of both soft targets and hard labels. Comprehensive experimental results on well-known benchmarks show that our approach can significantly improve the model accuracy of FL with both Independent and Identically Distributed (IID) and non-IID data.
翻訳日:2021-11-30 18:14:59 公開日:2021-11-29
# 球状マトリックス因子化

Spherical Matrix Factorization ( http://arxiv.org/abs/2111.14536v1 )

ライセンス: Link先を確認
Kai Liu(参考訳) 非負の行列因子化、主成分分析、辞書学習などの機械学習において、行列因子化は重要な役割を果たす。 しかしながら、ほとんどの研究はユークリッド距離を測定することで損失を最小化することを目的としているが、いくつかの分野では、角度距離は分析にとってより重要かつ重要であることが知られている。 本稿では,ユークリッド距離と角度距離を統一するための因子の制約を付加する手法を提案する。 しかし、目的と制約の非凸性のため、最適化された解は容易には得られない。 本稿では,様々な制約を満たした証明可能な収束保証によって体系的に解く汎用フレームワークを提案する。

Matrix Factorization plays an important role in machine learning such as Non-negative Matrix Factorization, Principal Component Analysis, Dictionary Learning, etc. However, most of the studies aim to minimize the loss by measuring the Euclidean distance, though in some fields, angle distance is known to be more important and critical for analysis. In this paper, we propose a method by adding constraints on factors to unify the Euclidean and angle distance. However, due to non-convexity of the objective and constraints, the optimized solution is not easy to obtain. In this paper we propose a general framework to systematically solve it with provable convergence guarantee with various constraints.
翻訳日:2021-11-30 18:14:29 公開日:2021-11-29
# GNN予測の多目的説明

Multi-objective Explanations of GNN Predictions ( http://arxiv.org/abs/2111.14651v1 )

ライセンス: Link先を確認
Yifei Liu, Chao Chen, Yazheng Liu, Xi Zhang, Sihong Xie(参考訳) グラフニューラルネットワーク(GNN)は,様々な高精度な予測タスクにおいて最先端のパフォーマンスを達成したが,不規則な構造を持つグラフ上の複数のアグリゲーション層は,GNNを解釈不可能なモデルにしている。 以前の手法では、完全なモデルをシミュレートするために単純なサブグラフを使うか、予測の原因を特定するために偽物を使う。 アプローチの2つのファミリーは「シミュラビリティ」と「数値的関連性」という2つの異なる目的を目標としているが、その目的が説明の人間の理解にどのように影響するかは明らかではない。 このような共同効果を調べるためにユーザスタディを設計し、この結果を用いて多目的最適化(MOO)アルゴリズムを設計し、シミュラビリティと非現実性においてバランスの取れたパレート最適説明を見つける。 対象モデルは任意のGNN変種であり,プライバシー上の懸念からアクセスできない可能性があるため,対象モデルのアーキテクチャやパラメータにアクセスすることなく,ゼロオーダー情報を用いた探索アルゴリズムを設計する。 4つの応用から得られた9つのグラフの定量的実験により、パレートの効率的な説明が一階連続最適化や離散組合せ探索を用いた単目的ベースラインを支配できることが示されている。 説明は強固さと感度においてさらに評価され、説得力のある原因を明らかにする能力を示しながら、共同設立者の可能性に慎重である。 多様な支配的カウンターファクトは、GNNを使用して意思決定に参加するアルゴリズム的公正性を促進するアルゴリズム的会話の実現可能性を証明することができる。

Graph Neural Network (GNN) has achieved state-of-the-art performance in various high-stake prediction tasks, but multiple layers of aggregations on graphs with irregular structures make GNN a less interpretable model. Prior methods use simpler subgraphs to simulate the full model, or counterfactuals to identify the causes of a prediction. The two families of approaches aim at two distinct objectives, "simulatability" and "counterfactual relevance", but it is not clear how the objectives can jointly influence the human understanding of an explanation. We design a user study to investigate such joint effects and use the findings to design a multi-objective optimization (MOO) algorithm to find Pareto optimal explanations that are well-balanced in simulatability and counterfactual. Since the target model can be of any GNN variants and may not be accessible due to privacy concerns, we design a search algorithm using zeroth-order information without accessing the architecture and parameters of the target model. Quantitative experiments on nine graphs from four applications demonstrate that the Pareto efficient explanations dominate single-objective baselines that use first-order continuous optimization or discrete combinatorial search. The explanations are further evaluated in robustness and sensitivity to show their capability of revealing convincing causes while being cautious about the possible confounders. The diverse dominating counterfactuals can certify the feasibility of algorithmic recourse, that can potentially promote algorithmic fairness where humans are participating in the decision-making using GNN.
翻訳日:2021-11-30 18:13:50 公開日:2021-11-29
# 知識空間における前トポロジーの言語

The language of pre-topology in knowledge spaces ( http://arxiv.org/abs/2111.14380v1 )

ライセンス: Link先を確認
Fucai Lin, Xiyan Cao, Jinjin Li(参考訳) 予備基底、部分空間、分離公理、連結性など、前位相空間の理論の基本的な性質を体系的に研究する。 プレトポロジーは知識構造理論における知識空間としても知られている。 知識空間の理論における事前トポロジーの分離の公理の言語、アレクサンドロフ空間と準順序空間の関係、知識空間の一次項目における事前トポロジー空間の密度の応用について論じる。 特に,定性的知識構造が知識空間であるようなスキル・マルチマップの特徴を与え,各項目が有限個の能力を持つ場合,各項目が有限個の知識空間に対して原子一次項目の集合を求めるアルゴリズムを与える。

We systematically study some basic properties of the theory of pre-topological spaces, such as, pre-base, subspace, axioms of separation, connectedness, etc. Pre-topology is also known as knowledge space in the theory of knowledge structures. We discuss the language of axioms of separation of pre-topology in the theory of knowledge spaces, the relation of Alexandroff spaces and quasi ordinal spaces, and the applications of the density of pre-topological spaces in primary items for knowledge spaces. In particular, we give a characterization of a skill multimap such that the delineate knowledge structure is a knowledge space, which gives an answer to a problem in \cite{falmagne2011learning } or \cite{XGLJ} whenever each item with finitely many competencies; moreover, we give an algorithm to find the set of atom primary items for any finite knowledge spaces.
翻訳日:2021-11-30 18:11:03 公開日:2021-11-29
# MDistMult:抗ウイルス薬知識グラフのリンク予測のための多重スコーリング関数モデル

MDistMult: A Multiple Scoring Functions Model for Link Prediction on Antiviral Drugs Knowledge Graph ( http://arxiv.org/abs/2111.14480v1 )

ライセンス: Link先を確認
Weichuan Wang, Zhiwen Xie, Jin Liu, Yucong Duan, Bo Huang, Junsheng Zhang(参考訳) 新型コロナウイルスの研究プロセスを加速するため、知識グラフ(KG)が構築されている。 しかし、特に新型のcovid-19 kgは、常に不完全である。 リンク予測タスクは、(e, r, t) または (h, r, e) の欠落したエンティティを予測することを目的としており、h と t は特定のエンティティであり、e は予測が必要なエンティティであり、r は関係である。 このタスクはまた、covid-19関連のkgsの不完全な問題を解決する可能性を持っている。 リンク予測タスクには様々な知識グラフ埋め込み(KGE)アプローチが提案されているが、既存の手法では単一のスコアリング関数を使用することの制限に悩まされており、COVID-19 KGの豊富な特徴を捉えることができない。 本研究では,複数のスコアリング関数を利用して既存のトリプルからより多くの特徴を抽出するMDistMultモデルを提案する。 我々は、CCKS2020 COVID-19 Antiviral Drugs Knowledge Graph (CADKG)で実験を行っている。 MDistMultがCADKGデータセット上のリンク予測タスクにおける最先端性能を達成することを示す実験結果を得た。

Knowledge graphs (KGs) on COVID-19 have been constructed to accelerate the research process of COVID-19. However, KGs are always incomplete, especially the new constructed COVID-19 KGs. Link prediction task aims to predict missing entities for (e, r, t) or (h, r, e), where h and t are certain entities, e is an entity that needs to be predicted and r is a relation. This task also has the potential to solve COVID-19 related KGs' incomplete problem. Although various knowledge graph embedding (KGE) approaches have been proposed to the link prediction task, these existing methods suffer from the limitation of using a single scoring function, which fails to capture rich features of COVID-19 KGs. In this work, we propose the MDistMult model that leverages multiple scoring functions to extract more features from existing triples. We employ experiments on the CCKS2020 COVID-19 Antiviral Drugs Knowledge Graph (CADKG). The experimental results demonstrate that our MDistMult achieves state-of-the-art performance in link prediction task on the CADKG dataset
翻訳日:2021-11-30 18:10:47 公開日:2021-11-29
# 実環境を走行するロボットのセンサ使用状況と視覚的推論に関する詳細な実験

An in-depth experimental study of sensor usage and visual reasoning of robots navigating in real environments ( http://arxiv.org/abs/2111.14666v1 )

ライセンス: Link先を確認
Assem Sadek, Guillaume Bono, Boris Chidlovskii, Christian Wolf(参考訳) モバイルロボットによるビジュアルナビゲーションは、SLAMと最適な計画、最近ではディープネットワークとして実装されたポリシーのエンドツーエンドトレーニングによって古典的に取り組まれている。 前者はウェイポイント計画に限られることが多いが、実際の物理的環境でも効率が証明されているが、後者の解はシミュレーションでよく用いられるが、複雑な意味論的規則性を含むより複雑な視覚的推論を学べることが示されている。 物理的な環境での実際のロボットによるナビゲーションはまだ未解決の問題だ。 エンド・ツー・エンドのトレーニングアプローチはシミュレーションのみで徹底的にテストされており、実際のロボットは簡易な実験室環境での稀な性能評価に制限されている。 本稿では,実エージェントの性能と推論能力に関する詳細な研究を行い,シミュレーションを実践し,2つの異なる物理環境に展開する。 ベンチマーク以外にも、異なる条件下で訓練する異なるエージェントの一般化能力に関する洞察を提供する。 センサの使用状況と異なる種類の信号の重要性を可視化する。 提案手法では,シミュレーションから実ロボットに直接エージェントを配置することにより,シム2現実の移動をモデル化することなく,多種多様なタスクを事前に訓練し,目標環境のシミュレーション版を微調整したエージェントが競争性能に到達できることを示す。

Visual navigation by mobile robots is classically tackled through SLAM plus optimal planning, and more recently through end-to-end training of policies implemented as deep networks. While the former are often limited to waypoint planning, but have proven their efficiency even on real physical environments, the latter solutions are most frequently employed in simulation, but have been shown to be able learn more complex visual reasoning, involving complex semantical regularities. Navigation by real robots in physical environments is still an open problem. End-to-end training approaches have been thoroughly tested in simulation only, with experiments involving real robots being restricted to rare performance evaluations in simplified laboratory conditions. In this work we present an in-depth study of the performance and reasoning capacities of real physical agents, trained in simulation and deployed to two different physical environments. Beyond benchmarking, we provide insights into the generalization capabilities of different agents training in different conditions. We visualize sensor usage and the importance of the different types of signals. We show, that for the PointGoal task, an agent pre-trained on wide variety of tasks and fine-tuned on a simulated version of the target environment can reach competitive performance without modelling any sim2real transfer, i.e. by deploying the trained agent directly from simulation to a real physical robot.
翻訳日:2021-11-30 18:10:26 公開日:2021-11-29
# ESPnet-SLU:ESPnetによる音声言語理解の促進

ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet ( http://arxiv.org/abs/2111.14706v1 )

ライセンス: Link先を確認
Siddhant Arora, Siddharth Dalmia, Pavel Denisov, Xuankai Chang, Yushi Ueda, Yifan Peng, Yuekai Zhang, Sujay Kumar, Karthik Ganesan, Brian Yan, Ngoc Thang Vu, Alan W Black, Shinji Watanabe(参考訳) 自動音声処理(ASR)システムが向上するにつれて、下流自然言語処理(NLP)タスクにASR出力を使用することへの関心が高まっている。 しかし、異なるSpoken Language Understanding (SLU)ベンチマークで再現可能な結果を生成するために使用できるオープンソースツールキットは少ない。 したがって、slu研究のより高速な開始のために使用できるオープンソース標準を構築する必要がある。 ESPnet-SLUは1つのフレームワークで音声言語理解の迅速な開発を目的としている。 ESPnet-SLUは、ASR、テキスト・トゥ・スピーチ(TTS)、音声翻訳(ST)といった様々な音声処理タスクに広く使われているオープンソースの標準である。 我々は、様々なSLUベンチマークの実装を提供するためのツールキットを強化し、研究者がシームレスに異なるASRとNLUモデルを混合・マッチングできるようにする。 集中的に調整されたハイパーパラメータを持つ事前トレーニングされたモデルも提供しています。 このツールキットはhttps://github.com/e spnet/espnetで公開されている。

As Automatic Speech Processing (ASR) systems are getting better, there is an increasing interest of using the ASR output to do downstream Natural Language Processing (NLP) tasks. However, there are few open source toolkits that can be used to generate reproducible results on different Spoken Language Understanding (SLU) benchmarks. Hence, there is a need to build an open source standard that can be used to have a faster start into SLU research. We present ESPnet-SLU, which is designed for quick development of spoken language understanding in a single framework. ESPnet-SLU is a project inside end-to-end speech processing toolkit, ESPnet, which is a widely used open-source standard for various speech processing tasks like ASR, Text to Speech (TTS) and Speech Translation (ST). We enhance the toolkit to provide implementations for various SLU benchmarks that enable researchers to seamlessly mix-and-match different ASR and NLU models. We also provide pretrained models with intensively tuned hyper-parameters that can match or even outperform the current state-of-the-art performances. The toolkit is publicly available at https://github.com/e spnet/espnet.
翻訳日:2021-11-30 18:10:02 公開日:2021-11-29
# Deblur-NeRF:Blurry画像からのニューラル放射場

Deblur-NeRF: Neural Radiance Fields from Blurry Images ( http://arxiv.org/abs/2111.14292v1 )

ライセンス: Link先を確認
Li Ma and Xiaoyu Li and Jing Liao and Qi Zhang and Xuan Wang and Jue Wang and Pedro V. Sander(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は3次元シーンの再構成や、その顕著な合成品質のために新しいビュー合成に注目されている。 しかし、野生のシーンを撮影する際にしばしば発生するデフォーカスや動きによる画像のぼやけは、その復元品質を著しく低下させる。 この問題に対処するため,我々は,ぼやけた入力から鋭いNeRFを復元する最初の方法であるDeblur-NeRFを提案する。 我々は、ぼかし過程をシミュレートすることで、ぼかしビューを再構築する分析バイシンセプションアプローチを採用し、それによってNeRFはぼかし入力に対して堅牢になる。 このシミュレーションのコアは、空間的に変化するぼやけたカーネルを各空間位置で変形させることでモデル化する、変形可能なスパースカーネル(DSK)モジュールである。 各カーネル点の線源は、物理的ぼやけたプロセスにインスパイアされて、共同最適化される。 このモジュールは、様々なブラータイプに一般化できるMDPとしてパラメータ化されている。 NeRFとDSKモジュールを併用することで、鋭いNeRFを復元することができる。 実写シーンにおいて最もよく見られる2種類のぼかしは、カメラモーションのぼかしとデフォーカスのぼかしの両方で使用できることを示す。 合成データと実世界データの両方における評価結果から,本手法が複数のベースラインを上回ることがわかった。 ソースコードとともに合成および実際のデータセットが公開され、将来の研究が促進される。

Neural Radiance Field (NeRF) has gained considerable attention recently for 3D scene reconstruction and novel view synthesis due to its remarkable synthesis quality. However, image blurriness caused by defocus or motion, which often occurs when capturing scenes in the wild, significantly degrades its reconstruction quality. To address this problem, We propose Deblur-NeRF, the first method that can recover a sharp NeRF from blurry input. We adopt an analysis-by-synthesi s approach that reconstructs blurry views by simulating the blurring process, thus making NeRF robust to blurry inputs. The core of this simulation is a novel Deformable Sparse Kernel (DSK) module that models spatially-varying blur kernels by deforming a canonical sparse kernel at each spatial location. The ray origin of each kernel point is jointly optimized, inspired by the physical blurring process. This module is parameterized as an MLP that has the ability to be generalized to various blur types. Jointly optimizing the NeRF and the DSK module allows us to restore a sharp NeRF. We demonstrate that our method can be used on both camera motion blur and defocus blur: the two most common types of blur in real scenes. Evaluation results on both synthetic and real-world data show that our method outperforms several baselines. The synthetic and real datasets along with the source code will be made publicly available to facilitate future research.
翻訳日:2021-11-30 18:08:31 公開日:2021-11-29
# SwiftSRGAN - 効率的なリアルタイム推論のための超解法を再考する

SwiftSRGAN -- Rethinking Super-Resolution for Efficient and Real-time Inference ( http://arxiv.org/abs/2111.14320v1 )

ライセンス: Link先を確認
Koushik Sivarama Krishnan, Karthik Sivarama Krishnan(参考訳) 近年,Deep Learning-based architectures(Deep Learning-based architectures)の状況を用いて,画像超解像化の課題がいくつか進展している。 これまで公開された超解像ベースの技術の多くは、画像超解像を実行するためにハイエンドかつ最上位のグラフィックス処理ユニット(GPU)を必要とする。 ディープラーニングアプローチの進歩に伴い、ニューラルネットワークはますます計算能力に飢えている。 私たちは一歩後退して、リアルタイムの効率的なソリューションを作ることに集中しました。 本稿では,メモリフットプリントの高速化と小型化を実現したアーキテクチャを提案する。 提案アーキテクチャはDepth-wise Separable Convolutionsを用いて特徴を抽出し,リアルタイム推論とメモリフットプリントの低さを維持しながら,他の超高解像度GAN(Generative Adversarial Networks)と同等に動作する。 リアルタイムの超解像度により、帯域幅の低い条件でも高解像度のメディアコンテンツをストリーミングできる。 精度とレイテンシのトレードオフを効果的に維持しながら,超高分解能GANの1/8の1/8で,超高分解能GANの74倍の速度で計算可能な,同等のパフォーマンスモデルを生成することができる。

In recent years, there have been several advancements in the task of image super-resolution using the state of the art Deep Learning-based architectures. Many super-resolution-bas ed techniques previously published, require high-end and top-of-the-line Graphics Processing Unit (GPUs) to perform image super-resolution. With the increasing advancements in Deep Learning approaches, neural networks have become more and more compute hungry. We took a step back and, focused on creating a real-time efficient solution. We present an architecture that is faster and smaller in terms of its memory footprint. The proposed architecture uses Depth-wise Separable Convolutions to extract features and, it performs on-par with other super-resolution GANs (Generative Adversarial Networks) while maintaining real-time inference and a low memory footprint. A real-time super-resolution enables streaming high resolution media content even under poor bandwidth conditions. While maintaining an efficient trade-off between the accuracy and latency, we are able to produce a comparable performance model which is one-eighth (1/8) the size of super-resolution GANs and computes 74 times faster than super-resolution GANs.
翻訳日:2021-11-30 18:08:07 公開日:2021-11-29
# 周波数領域知識を用いた教師なし画像

Unsupervised Image Denoising with Frequency Domain Knowledge ( http://arxiv.org/abs/2111.14362v1 )

ライセンス: Link先を確認
Nahyun Kim, Donggon Jang, Sunhyeok Lee, Bomi Kim, Dae-Shik Kim(参考訳) 教師あり学習に基づく手法は頑健な分別結果をもたらすが、それらは本質的に、大規模なクリーン/ノイズペアデータセットの必要性によって制限される。 一方、教師なしのデノイザーの使用は、基礎となる画像の統計をより詳細に理解する必要がある。 特に,高周波数帯では,清浄画像と雑音画像の明らかな差が最も顕著であり,従来の画像前処理の一環として低域通過フィルタの使用を正当化することが知られている。 しかし,ほとんどの学習手法では,周波数領域情報を考慮せずに,空間領域からの片側情報のみを利用する。 この制限に対処するため,本研究では周波数に敏感な教師なし復調法を提案する。 この目的のために、ベース構造としてGAN(generative adversarial network)を用いる。 その後、スペクトル判別器と周波数再構成損失を含んで、周波数知識をジェネレータに転送する。 自然および合成データセットを用いた結果から, 周波数情報を付加した教師なし学習手法は, 最先端のデノナイジング性能を実現し, 教師なし学習手法の全体的な性能向上に有効な要因となる可能性が示唆された。

Supervised learning-based methods yield robust denoising results, yet they are inherently limited by the need for large-scale clean/noisy paired datasets. The use of unsupervised denoisers, on the other hand, necessitates a more detailed understanding of the underlying image statistics. In particular, it is well known that apparent differences between clean and noisy images are most prominent on high-frequency bands, justifying the use of low-pass filters as part of conventional image preprocessing steps. However, most learning-based denoising methods utilize only one-sided information from the spatial domain without considering frequency domain information. To address this limitation, in this study we propose a frequency-sensitive unsupervised denoising method. To this end, a generative adversarial network (GAN) is used as a base structure. Subsequently, we include spectral discriminator and frequency reconstruction loss to transfer frequency knowledge into the generator. Results using natural and synthetic datasets indicate that our unsupervised learning method augmented with frequency information achieves state-of-the-art denoising performance, suggesting that frequency domain information could be a viable factor in improving the overall performance of unsupervised learning-based methods.
翻訳日:2021-11-30 18:07:45 公開日:2021-11-29
# デカップリング低光度画像強調

Decoupled Low-light Image Enhancement ( http://arxiv.org/abs/2111.14458v1 )

ライセンス: Link先を確認
Shijie Hao, Xu Han, Yanrong Guo, Meng Wang(参考訳) 不完全な光度条件下で撮影された写真の視覚品質は、低光度、撮像ノイズ、色歪など、複数の要因によって劣化させることができる。 現在の低光度画像強調モデルでは、低光度のみの改善に重点が置かれている。 本稿では,拡張モデルを2つの段階に分離することを提案する。 第1段階は、ピクセル単位の非線形マッピングに基づいて、シーンの可視性を改善することに焦点を当てている。 第2段階は、残りの変性因子を抑えることによって外観の忠実度を改善することに焦点を当てる。 分離されたモデルは2つの側面の強化を促進する。 一方、低照度エンハンスメントは2つの簡単なサブタスクに分割することができる。 最初の1つは、可視性を高めることだけを目的としている。 また、低照度画像と通常照度画像の間の大きな強度ギャップを埋めるのにも役立ちます。 これにより、第2のサブタスクを局所的な外観調整として形成することができる。 一方、第1段階から学習したパラメータ行列は、明度分布とシーン構造を認識しているため、補完情報として第2段階に組み込むことができる。 実験では、他の低光度画像強調モデルと比較して、質的および定量的比較において最先端の性能を示す。 さらに, モデル構造や損失関数など, モデルの有効性についても検討した。 トレーニングされたモデルはhttps://github.com/h anxuhfut/decoupled-l ow-light-image-enhan cementで利用可能である。

The visual quality of photographs taken under imperfect lightness conditions can be degenerated by multiple factors, e.g., low lightness, imaging noise, color distortion and so on. Current low-light image enhancement models focus on the improvement of low lightness only, or simply deal with all the degeneration factors as a whole, therefore leading to a sub-optimal performance. In this paper, we propose to decouple the enhancement model into two sequential stages. The first stage focuses on improving the scene visibility based on a pixel-wise non-linear mapping. The second stage focuses on improving the appearance fidelity by suppressing the rest degeneration factors. The decoupled model facilitates the enhancement in two aspects. On the one hand, the whole low-light enhancement can be divided into two easier subtasks. The first one only aims to enhance the visibility. It also helps to bridge the large intensity gap between the low-light and normal-light images. In this way, the second subtask can be shaped as the local appearance adjustment. On the other hand, since the parameter matrix learned from the first stage is aware of the lightness distribution and the scene structure, it can be incorporated into the second stage as the complementary information. In the experiments, our model demonstrates the state-of-the-art performance in both qualitative and quantitative comparisons, compared with other low-light image enhancement models. In addition, the ablation studies also validate the effectiveness of our model in multiple aspects, such as model structure and loss function. The trained model is available at https://github.com/h anxuhfut/Decoupled-L ow-light-Image-Enhan cement.
翻訳日:2021-11-30 18:07:27 公開日:2021-11-29
# Dual-Path Generative Adversarial Networkを用いたディープビデオ符号化

Deep Video Coding with Dual-Path Generative Adversarial Network ( http://arxiv.org/abs/2111.14474v1 )

ライセンス: Link先を確認
Tiesong Zhao, Weize Feng, Hongji Zeng, Yuzhen Niu, Jiaying Liu(参考訳) 深層学習に基づくビデオ符号化は、ビデオシーケンスの空間的時間的冗長性を取り除く大きな可能性を秘めている。 本稿では,DGVC (Double-path generative adversarial network-based video codec) という効率的なコーデックを提案する。 まず、圧縮された映像の詳細を再構成するために、DPEG(Generative Adversarial Network)を用いたデュアルパス拡張を提案する。 DPEGは、自動エンコーダと畳み込み長短期メモリ(ConvLSTM)の$\alpha$-pathと、大きな受容領域と多フレーム参照による構造的特徴再構成を容易にする$\beta$-pathと、局所的なテクスチャ特徴の再構築を容易にする$\beta$-pathで構成されている。 どちらの経路も融合され、生成的-敵対的プロセスによって訓練される。 第2に、DPEGネットワークを動作補償と品質向上モジュールの両方で再利用し、さらにDGVCフレームワークの動作推定とエントロピー符号化モジュールと組み合わせる。 第3に,レート歪み(RD)性能の向上のために,ディープビデオ圧縮とエンハンスメントの併用トレーニングを実施している。 我々のDGVCは、x265 LDPの非常に高速なモードと比較して、同じPSNR/MS-SSIMで平均ビット/ピクセル(bpp)を39.39%/54.92%削減し、最先端のディープビデオコーデックをかなり上回っている。

The deep-learning-based video coding has attracted substantial attention for its great potential to squeeze out the spatial-temporal redundancies of video sequences. This paper proposes an efficient codec namely dual-path generative adversarial network-based video codec (DGVC). First, we propose a dual-path enhancement with generative adversarial network (DPEG) to reconstruct the compressed video details. The DPEG consists of an $\alpha$-path of auto-encoder and convolutional long short-term memory (ConvLSTM), which facilitates the structure feature reconstruction with a large receptive field and multi-frame references, and a $\beta$-path of residual attention blocks, which facilitates the reconstruction of local texture features. Both paths are fused and co-trained by a generative-adversari al process. Second, we reuse the DPEG network in both motion compensation and quality enhancement modules, which are further combined with motion estimation and entropy coding modules in our DGVC framework. Third, we employ a joint training of deep video compression and enhancement to further improve the rate-distortion (RD) performance. Compared with x265 LDP very fast mode, our DGVC reduces the average bit-per-pixel (bpp) by 39.39%/54.92% at the same PSNR/MS-SSIM, which outperforms the state-of-the art deep video codecs by a considerable margin.
翻訳日:2021-11-30 18:04:44 公開日:2021-11-29
# 都市放射光フィールド

Urban Radiance Fields ( http://arxiv.org/abs/2111.14643v1 )

ライセンス: Link先を確認
Konstantinos Rematas, Andrew Liu, Pratul P. Srinivasan, Jonathan T. Barron, Andrea Tagliasacchi, Thomas Funkhouser, Vittorio Ferrari(参考訳) この研究の目的は、都市の屋外環境(例えばストリートビュー)でワールドマッピングのために一般的にデプロイされるスキャンプラットフォームが取得したデータから、3次元再構成と新しいビュー合成を行うことである。 屋外のシーンを移動するカメラやスキャナーが取得したRGB画像とライダースイープのシーケンスを考慮し、3次元表面を抽出し、新しいRGB画像を合成できるモデルを作成する。 提案手法は,制御された環境下での小さなシーンのリアルな新規画像の合成,非同期にキャプチャされたライダーデータの利用,キャプチャされた画像間の露光変動への対処,および空を向いている光の密度を監視するための予測画像セグメンテーションの活用などを目的として,ニューラルラジアンス場を拡張した。 これら3つのエクステンションはそれぞれ、ストリートビューデータの実験において、大幅なパフォーマンス改善を提供する。 従来の手法(例えば—COLMAP)と最近のニューラル表現(例えば—Mip-NeRF)に比較して,最先端の3D表面再構成を行い,高品質な新規ビューを合成する。

The goal of this work is to perform 3D reconstruction and novel view synthesis from data captured by scanning platforms commonly deployed for world mapping in urban outdoor environments (e.g., Street View). Given a sequence of posed RGB images and lidar sweeps acquired by cameras and scanners moving through an outdoor scene, we produce a model from which 3D surfaces can be extracted and novel RGB images can be synthesized. Our approach extends Neural Radiance Fields, which has been demonstrated to synthesize realistic novel images for small scenes in controlled settings, with new methods for leveraging asynchronously captured lidar data, for addressing exposure variation between captured images, and for leveraging predicted image segmentations to supervise densities on rays pointing at the sky. Each of these three extensions provides significant performance improvements in experiments on Street View data. Our system produces state-of-the-art 3D surface reconstructions and synthesizes higher quality novel views in comparison to both traditional methods (e.g.~COLMAP) and recent neural representations (e.g.~Mip-NeRF).
翻訳日:2021-11-30 18:04:14 公開日:2021-11-29
# メサロビアン抽象学習システム

Mesarovician Abstract Learning Systems ( http://arxiv.org/abs/2111.14766v1 )

ライセンス: Link先を確認
Tyler Cody(参考訳) 人工知能(AGI)を実現するために用いられる解法は、AGIを適切にモデル化し特徴付けるために必要な形式を含まない可能性がある。 特に、現在の学習におけるアプローチは、問題領域と問題タスクの概念を基本的規範としていますが、野生で遭遇したAGIがドメインとタスクのペアリングの集合に識別されることはほとんどありません。 システムにおけるAGIの結果がドメインやタスク、あるいはその結果としてうまく表現できることは明らかではない。 したがって、解法の観点から明示的に表現しない学習のメタ理論には、実用的かつ理論的な用途がある。 一般システム理論はそのようなメタ理論を提供する。 ここで、メサロヴィッチ抽象システム理論は学習の超構造として用いられる。 抽象学習システムは定式化されている。 その後、学習システムの仮定を階層に階層化し、階層化計画のような階層を学習理論に分類する。 提示されたメサロビアン抽象学習システム理論は、人工知能研究の創始動機を、この場合、学習システムにおいて、参加者が解決する問題の現代的焦点とは対照的に、思考参加者に直接焦点をあてることによって呼び戻す。

The solution methods used to realize artificial general intelligence (AGI) may not contain the formalism needed to adequately model and characterize AGI. In particular, current approaches to learning hold notions of problem domain and problem task as fundamental precepts, but it is hardly apparent that an AGI encountered in the wild will be discernable into a set of domain-task pairings. Nor is it apparent that the outcomes of AGI in a system can be well expressed in terms of domain and task, or as consequences thereof. Thus, there is both a practical and theoretical use for meta-theories of learning which do not express themselves explicitly in terms of solution methods. General systems theory offers such a meta-theory. Herein, Mesarovician abstract systems theory is used as a super-structure for learning. Abstract learning systems are formulated. Subsequent elaboration stratifies the assumptions of learning systems into a hierarchy and considers the hierarchy such stratification projects onto learning theory. The presented Mesarovician abstract learning systems theory calls back to the founding motivations of artificial intelligence research by focusing on the thinking participants directly, in this case, learning systems, in contrast to the contemporary focus on the problems thinking participants solve.
翻訳日:2021-11-30 18:03:22 公開日:2021-11-29
# 時間順多体相互作用の推論

Inference of time-ordered multibody interactions ( http://arxiv.org/abs/2111.14611v1 )

ライセンス: Link先を確認
Unai Alvarez-Rodriguez, Luka V. Petrovi\'c, Ingo Scholtes(参考訳) 時間順の多体相互作用を導入し、時間的および多体依存を表わす複雑なシステムを記述する。 まず,多変量マルコフ鎖の動力学を時間順序多体相互作用のアンサンブルに分解する方法を示す。 次に、データから複合的な相互作用を抽出するアルゴリズムと、相互作用アンサンブルの複雑さを特徴付ける尺度を提案する。 最後に,統計誤差に対するアルゴリズムのロバスト性および単純な相互作用アンサンブルの獲得効率を実験的に検証した。

We introduce time-ordered multibody interactions to describe complex systems manifesting temporal as well as multibody dependencies. First, we show how the dynamics of multivariate Markov chains can be decomposed in ensembles of time-ordered multibody interactions. Then, we present an algorithm to extract combined interactions from data and a measure to characterize the complexity of interaction ensembles. Finally, we experimentally validate the robustness of our algorithm against statistical errors and its efficiency at obtaining simple interaction ensembles.
翻訳日:2021-11-30 18:03:01 公開日:2021-11-29
# (参考訳) 視覚言語モデルによる簡便な長尾認識ベースライン [全文訳有]

A Simple Long-Tailed Recognition Baseline via Vision-Language Model ( http://arxiv.org/abs/2111.14745v1 )

ライセンス: CC BY 4.0
Teli Ma, Shijie Geng, Mengmeng Wang, Jing Shao, Jiasen Lu, Hongsheng Li, Peng Gao, Yu Qiao(参考訳) 視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムに大きな課題をもたらしている。 既存のアプローチでは、クラスの再バランス戦略を実行するか、問題に対処するためのネットワークモジュールを直接改善する。 しかし、彼らはまだ有限セットのラベルでモデルを訓練し、監督情報を制限し、新しいインスタンスへの転送可能性を制限する。 視覚認識のための新しい経路における大規模コントラスト言語事前学習の最近の進歩 オープン語彙の監督によって、事前訓練された対照的な視覚言語モデルは、データ不足や目に見えない概念を扱うことを約束する強力なマルチモーダル表現を学ぶ。 視覚入力とテキスト入力のセマンティックな類似性を計算することにより、視覚認識を視覚言語マッチング問題に変換する。 これに触発されたBALLADは、長い尾の認識にコントラッシブな視覚言語モデルを利用する。 まず、特定の長い尾を持つターゲットデータセットの対照的な学習を通じて、視覚言語バックボーンの事前学習を継続する。 その後、バックボーンを凍結し、さらに追加のアダプタ層を用いて、再サンプリング戦略で構築したバランスの取れたトレーニングサンプルのテールクラスの表現を強化する。 3つの一般的なロングテール認識ベンチマークで広範な実験が行われている。 その結果、我々の単純かつ効果的なアプローチは、新しい最先端のパフォーマンスを設定し、大きなマージンで競争ベースラインを上回ります。 コードはhttps://github.com/g aopengcuhk/BALLADで公開されている。

The visual world naturally exhibits a long-tailed distribution of open classes, which poses great challenges to modern visual systems. Existing approaches either perform class re-balancing strategies or directly improve network modules to address the problem. However, they still train models with a finite set of predefined labels, limiting their supervision information and restricting their transferability to novel instances. Recent advances in large-scale contrastive visual-language pretraining shed light on a new pathway for visual recognition. With open-vocabulary supervisions, pretrained contrastive vision-language models learn powerful multimodal representations that are promising to handle data deficiency and unseen concepts. By calculating the semantic similarity between visual and text inputs, visual recognition is converted to a vision-language matching problem. Inspired by this, we propose BALLAD to leverage contrastive vision-language models for long-tailed recognition. We first continue pretraining the vision-language backbone through contrastive learning on a specific long-tailed target dataset. Afterward, we freeze the backbone and further employ an additional adapter layer to enhance the representations of tail classes on balanced training samples built with re-sampling strategies. Extensive experiments have been conducted on three popular long-tailed recognition benchmarks. As a result, our simple and effective approach sets the new state-of-the-art performances and outperforms competitive baselines with a large margin. Code is released at https://github.com/g aopengcuhk/BALLAD.
翻訳日:2021-11-30 18:02:21 公開日:2021-11-29
# オブジェクト視覚ナビゲーションのためのエージェント中心関係グラフ

Agent-Centric Relation Graph for Object Visual Navigation ( http://arxiv.org/abs/2111.14422v1 )

ライセンス: Link先を確認
Hu Xiaobo, Wu Zhihao, Lv Kai, Wang Shuo, Lin Youfang(参考訳) object visual navigationは、エージェントの視覚的な観察に基づいて、ターゲットオブジェクトに向かってエージェントを操ることを目的としている。 環境を合理的に認識し、エージェントを正確に制御することが極めて望ましい。 ナビゲーションタスクでは,環境内の関係に基づいて視覚表現を学習するためのエージェント・中心関係グラフ(ACRG)を導入する。 ACRGは、オブジェクト間の関係とエージェントとターゲットの関係という2つの関係からなる、非常に効果的で合理的な構造である。 一方,オブジェクト間の相対的水平位置を格納するオブジェクト水平関係グラフ(OHRG)を設計する。 垂直関係はOHRGには関与せず、OHRGは制御戦略に適していると論じる。 一方,エージェント・ターゲット深度関係グラフ (ATDRG) では,エージェントがターゲットまでの距離を知覚できる。 ATDRGを実現するために,画像深度を用いて距離を表現する。 上記の関係から、エージェントは環境を認識し、ナビゲーションアクションを出力することができる。 ACRGによって構築された視覚的表現と位置エンコードされたグローバルな特徴を考えると、エージェントは目標位置をキャプチャしてナビゲーションアクションを実行することができる。 人工環境における実験結果 ai2-thor は acrg が未発見のテスト環境において他の最先端手法を大きく上回っていることを証明している。

Object visual navigation aims to steer an agent towards a target object based on visual observations of the agent. It is highly desirable to reasonably perceive the environment and accurately control the agent. In the navigation task, we introduce an Agent-Centric Relation Graph (ACRG) for learning the visual representation based on the relationships in the environment. ACRG is a highly effective and reasonable structure that consists of two relationships, i.e., the relationship among objects and the relationship between the agent and the target. On the one hand, we design the Object Horizontal Relationship Graph (OHRG) that stores the relative horizontal location among objects. Note that the vertical relationship is not involved in OHRG, and we argue that OHRG is suitable for the control strategy. On the other hand, we propose the Agent-Target Depth Relationship Graph (ATDRG) that enables the agent to perceive the distance to the target. To achieve ATDRG, we utilize image depth to represent the distance. Given the above relationships, the agent can perceive the environment and output navigation actions. Given the visual representations constructed by ACRG and position-encoded global features, the agent can capture the target position to perform navigation actions. Experimental results in the artificial environment AI2-Thor demonstrate that ACRG significantly outperforms other state-of-the-art methods in unseen testing environments.
翻訳日:2021-11-30 17:41:52 公開日:2021-11-29
# HDR-NeRF:高ダイナミックレンジニューラル放射場

HDR-NeRF: High Dynamic Range Neural Radiance Fields ( http://arxiv.org/abs/2111.14451v1 )

ライセンス: Link先を確認
Xin Huang, Qi Zhang, Feng Ying, Hongdong Li, Xuan Wang, Qing Wang(参考訳) 我々は、低ダイナミックレンジ(LDR)ビューのセットからHDR放射界を異なる露出で復元するために、HDR-NeRF(High Dynamic Range Neural Radiance Fields)を提案する。 HDR-NeRFを用いて、異なる露出下で、新しいHDRビューと新しいLDRビューの両方を生成することができる。 この方法の鍵は物理イメージングの過程をモデル化することであり、シーンポイントの放射能が2つの暗黙的な機能を持つldr画像の画素値(放射能場とトーンマッパー)に変換されることを示す。 放射場はシーンラディアンス(値が0から+infty)を符号化し、対応する光の起源と光方向を与えることにより、光の密度と放射を出力する。 トーンマッパーは、カメラセンサに照射された光が画素値になるマッピング過程をモデル化する。 放射光と対応する露光時間とをトーンマッパーに供給することにより、光の色を予測する。 我々は、古典的なボリュームレンダリング技術を用いて出力放射率、色、密度をHDRおよびLDR画像に投影し、入力されたLDR画像のみを監督する。 提案手法を評価するために,新しい前方向きHDRデータセットを収集する。 合成および実世界のシーンにおける実験結果は, 合成ビューの露光を正確に制御できるだけでなく, ダイナミックレンジの描画も可能であることを確認した。

We present High Dynamic Range Neural Radiance Fields (HDR-NeRF) to recover an HDR radiance field from a set of low dynamic range (LDR) views with different exposures. Using the HDR-NeRF, we are able to generate both novel HDR views and novel LDR views under different exposures. The key to our method is to model the physical imaging process, which dictates that the radiance of a scene point transforms to a pixel value in the LDR image with two implicit functions: a radiance field and a tone mapper. The radiance field encodes the scene radiance (values vary from 0 to +infty), which outputs the density and radiance of a ray by giving corresponding ray origin and ray direction. The tone mapper models the mapping process that a ray hitting on the camera sensor becomes a pixel value. The color of the ray is predicted by feeding the radiance and the corresponding exposure time into the tone mapper. We use the classic volume rendering technique to project the output radiance, colors, and densities into HDR and LDR images, while only the input LDR images are used as the supervision. We collect a new forward-facing HDR dataset to evaluate the proposed method. Experimental results on synthetic and real-world scenes validate that our method can not only accurately control the exposures of synthesized views but also render views with a high dynamic range.
翻訳日:2021-11-30 17:41:32 公開日:2021-11-29
# 超高解像度画像のための高品質セグメンテーション

High Quality Segmentation for Ultra High-resolution Images ( http://arxiv.org/abs/2111.14482v1 )

ライセンス: Link先を確認
Tiancheng Shen, Yuechen Zhang, Lu Qi, Jason Kuen, Xingyu Xie, Jianlong Wu, Zhe Lin, Jiaya Jia(参考訳) 4Kまたは6Kの超高解像度画像は、画像分割において余分な計算量を必要とする。 ダウンサンプリング、パッチトリミング、カスケードモデルといった一般的な戦略は、精度と計算コストのバランスの問題にうまく対処できない。 超高分解能セグメンテーション精細化タスクにおいて,人間が連続的にオブジェクトを粗いレベルから正確なレベルに区別することから,連続リファインメントモデル~(CRM)を提案する。 crmは機能マップを改良対象と連続的に調整し、これらの画像の詳細を再構築する機能を集約する。 さらに,我々のcrmは,低解像度トレーニング画像と超高解像度テスト画像との解像度ギャップを埋めるための重要な一般化能力を示している。 本稿では,提案手法が高速かつ有効であることを示すため,定量的な性能評価と可視化を行う。 コードはhttps://github.com/d vlab-research/entity でリリースされる。

To segment 4K or 6K ultra high-resolution images needs extra computation consideration in image segmentation. Common strategies, such as down-sampling, patch cropping, and cascade model, cannot address well the balance issue between accuracy and computation cost. Motivated by the fact that humans distinguish among objects continuously from coarse to precise levels, we propose the Continuous Refinement Model~(CRM) for the ultra high-resolution segmentation refinement task. CRM continuously aligns the feature map with the refinement target and aggregates features to reconstruct these images' details. Besides, our CRM shows its significant generalization ability to fill the resolution gap between low-resolution training images and ultra high-resolution testing ones. We present quantitative performance evaluation and visualization to show that our proposed method is fast and effective on image segmentation refinement. Code will be released at https://github.com/d vlab-research/Entity .
翻訳日:2021-11-30 17:41:07 公開日:2021-11-29
# conic:結腸核の同定と計数チャレンジ2022

CoNIC: Colon Nuclei Identification and Counting Challenge 2022 ( http://arxiv.org/abs/2111.14485v1 )

ライセンス: Link先を確認
Simon Graham, Mostafa Jahanifar, Quoc Dang Vu, Giorgos Hadjigeorghiou, Thomas Leech, David Snead, Shan E Ahmed Raza, Fayyaz Minhas, Nasir Rajpoot(参考訳) Haematoxylin & Eosin染色組織像中の核セグメンテーション、分類、定量化は、計算病理学(CPath)において下流で説明可能なモデルで使用できる解釈可能な細胞ベースの特徴の抽出を可能にする。 しかし、異なる原子核の自動認識は、いくつかの異なる種類の原子核が存在するという点で大きな課題に直面している。 CPathにおける自動核認識の先進的な研究と革新を支援するため、我々はColon Nuclei Identification and Counting (CoNIC) Challengeを組織する。 この課題は、約50万個のラベル付き核を含むcpathで現在最大の公に利用可能な核レベルのデータセット内の核のセグメンテーション、分類、計数を行うアルゴリズムの開発を研究者に促すものだ。 そのため、CoNICチャレンジは、これまでの核認識における最大のチャレンジデータセットの10倍以上の核数を利用する。 臨床環境で導入したい場合,アルゴリズムが入力変動に対して堅牢であることは重要である。 したがって、この課題の一環として、各提案アルゴリズムの感度を特定の入力変動に対して検証する。

Nuclear segmentation, classification and quantification within Haematoxylin & Eosin stained histology images enables the extraction of interpretable cell-based features that can be used in downstream explainable models in computational pathology (CPath). However, automatic recognition of different nuclei is faced with a major challenge in that there are several different types of nuclei, some of them exhibiting large intra-class variability. To help drive forward research and innovation for automatic nuclei recognition in CPath, we organise the Colon Nuclei Identification and Counting (CoNIC) Challenge. The challenge encourages researchers to develop algorithms that perform segmentation, classification and counting of nuclei within the current largest known publicly available nuclei-level dataset in CPath, containing around half a million labelled nuclei. Therefore, the CoNIC challenge utilises over 10 times the number of nuclei as the previous largest challenge dataset for nuclei recognition. It is important for algorithms to be robust to input variation if we wish to deploy them in a clinical setting. Therefore, as part of this challenge we will also test the sensitivity of each submitted algorithm to certain input variations.
翻訳日:2021-11-30 17:40:51 公開日:2021-11-29
# SPIN: ニューラルネットワークにおける極性不変性の簡易化と視覚に基づく照度予測への応用

SPIN: Simplifying Polar Invariance for Neural networks Application to vision-based irradiance forecasting ( http://arxiv.org/abs/2111.14507v1 )

ライセンス: Link先を確認
Quentin Paletta, Anthony Hu, Guillaume Arbod, Philippe Blanc, Joan Lasenby(参考訳) プール操作によって誘導される翻訳不変性は畳み込みニューラルネットワークの性質であり、分類などの多くのコンピュータビジョンタスクを促進する。 しかし、回転不変タスクを活用するために、畳み込みアーキテクチャは、与えられた空間構成の様々な回転バージョンから学ぶために、特定の回転不変層や広範なデータ拡張を必要とする。 画像の極座標への展開は、回転不変性が変換されるにつれて、畳み込みアーキテクチャを訓練するためのより明示的な表現を提供する。 衛星画像や地上撮影画像を用いた2つの日射量予測課題を用いて,この前処理により,映像表現の標準化による予測結果が大幅に向上することを示すとともに,回転によるデータ強化に比べて4倍のトレーニング時間を削減できることを示した。 さらに、この変換は回転の中心を取り巻く領域を拡大し、より正確な短期照射予測をもたらす。

Translational invariance induced by pooling operations is an inherent property of convolutional neural networks, which facilitates numerous computer vision tasks such as classification. Yet to leverage rotational invariant tasks, convolutional architectures require specific rotational invariant layers or extensive data augmentation to learn from diverse rotated versions of a given spatial configuration. Unwrapping the image into its polar coordinates provides a more explicit representation to train a convolutional architecture as the rotational invariance becomes translational, hence the visually distinct but otherwise equivalent rotated versions of a given scene can be learnt from a single image. We show with two common vision-based solar irradiance forecasting challenges (i.e. using ground-taken sky images or satellite images), that this preprocessing step significantly improves prediction results by standardising the scene representation, while decreasing training time by a factor of 4 compared to augmenting data with rotations. In addition, this transformation magnifies the area surrounding the centre of the rotation, leading to more accurate short-term irradiance predictions.
翻訳日:2021-11-30 17:40:31 公開日:2021-11-29
# ロバストで正確なスーパークワッドリック回復:確率論的アプローチ

Robust and Accurate Superquadric Recovery: a Probabilistic Approach ( http://arxiv.org/abs/2111.14517v1 )

ライセンス: Link先を確認
Weixiao Liu, Yuwei Wu, Sipu Ruan, Gregory S. Chirikjian(参考訳) 基本的な幾何学的プリミティブによるオブジェクトの解釈は、コンピュータビジョンにおいて長年研究されてきた。 幾何学的プリミティブの中で、スーパークワッドリックは単純な暗黙の表現と、パラメータの少ない幅広い形状を表現する能力でよく知られている。 しかし,第1段階および第1段階として,3dデータから高精度かつロバストにスーパークアドリクスを復元することは依然として困難である。 既存の手法は局所最適であり、実世界のシナリオではノイズや外れ値に敏感であり、幾何学的な形状を捉えるのに頻繁に失敗する。 本稿では,点雲から超量子を回収する最初の確率的手法を提案する。 提案手法は,超立方体のパラメトリック表面上にガウス・ユニフォーム混合モデル(GUM)を構築し,外周および騒音の発生を明示的にモデル化する。 スーパークアッドリックリカバリは、MLE(Maximum Likelihood Estimation)問題として定式化される。 提案手法は,(1)外れ値が後方から予測されるアルゴリズム,(2)超二次パラメータが信頼領域反射アルゴリズムによって最適化されるアルゴリズム,(3)局所最適化は,類似の超二次パラメータをコードするパラメータをグローバルに探索し,切り換えることによって回避される。 本手法は,複合オブジェクトのマルチスーパークアドリカバリに拡張可能であることを示す。 提案手法は, 合成データと実世界のデータセットの両方において, 精度, 効率, 頑健性の観点から, 最先端技術に勝る。 コードはリリースされる。

Interpreting objects with basic geometric primitives has long been studied in computer vision. Among geometric primitives, superquadrics are well known for their simple implicit expressions and capability of representing a wide range of shapes with few parameters. However, as the first and foremost step, recovering superquadrics accurately and robustly from 3D data still remains challenging. The existing methods are subject to local optima and are sensitive to noise and outliers in real-world scenarios, resulting in frequent failure in capturing geometric shapes. In this paper, we propose the first probabilistic method to recover superquadrics from point clouds. Our method builds a Gaussian-uniform mixture model (GUM) on the parametric surface of a superquadric, which explicitly models the generation of outliers and noise. The superquadric recovery is formulated as a Maximum Likelihood Estimation (MLE) problem. We propose an algorithm, Expectation, Maximization, and Switching (EMS), to solve this problem, where: (1) outliers are predicted from the posterior perspective; (2) the superquadric parameter is optimized by the trust-region reflective algorithm; and (3) local optima are avoided by globally searching and switching among parameters encoding similar superquadrics. We show that our method can be extended to the multi-superquadrics recovery for complex objects. The proposed method outperforms the state-of-the-art in terms of accuracy, efficiency, and robustness on both synthetic and real-world datasets. Codes will be released.
翻訳日:2021-11-30 17:40:11 公開日:2021-11-29
# LiVLR:ビデオ質問応答のための軽量ビジュアル言語推論フレームワーク

LiVLR: A Lightweight Visual-Linguistic Reasoning Framework for Video Question Answering ( http://arxiv.org/abs/2111.14547v1 )

ライセンス: Link先を確認
Jingjing Jiang, Ziyi Liu, Yifan Liu, and Nanning Zheng(参考訳) ビデオ質問回答(Video QA)は,マルチモーダルなビデオコンテンツを理解する上で,与えられた質問に正しく答えることを目的としている。 ビデオ理解の観点からは、ビデオQAフレームワークは、様々な意味レベルでビデオコンテンツを理解し、多様なビデオコンテンツを柔軟に統合し、質問関連コンテンツを蒸留する必要がある。 そこで本研究では,軽量な視覚言語推論フレームワークLiVLRを提案する。 特に、LiVLRは、まずグラフベースの視覚および言語エンコーダを使用して、多義的な視覚および言語表現を得る。 その後、得られた表現は、考案された多様性を意識した視覚言語推論モジュール(DaVL)と統合される。 davlは、異なる種類の表現の違いを考慮し、有効で一般的な表現統合法である質問関連表現を生成する際に、異なる種類の表現の重要性を柔軟に調整することができる。 提案したLiVLRは軽量であり、MRSVTT-QAとKnowIT VQAの2つのベンチマークでその優位性を示している。 広範なアブレーション研究はlivlr鍵成分の有効性を示している。

Video Question Answering (VideoQA), aiming to correctly answer the given question based on understanding multi-modal video content, is challenging due to the rich video content. From the perspective of video understanding, a good VideoQA framework needs to understand the video content at different semantic levels and flexibly integrate the diverse video content to distill question-related content. To this end, we propose a Lightweight Visual-Linguistic Reasoning framework named LiVLR. Specifically, LiVLR first utilizes the graph-based Visual and Linguistic Encoders to obtain multi-grained visual and linguistic representations. Subsequently, the obtained representations are integrated with the devised Diversity-aware Visual-Linguistic Reasoning module (DaVL). The DaVL considers the difference between the different types of representations and can flexibly adjust the importance of different types of representations when generating the question-related joint representation, which is an effective and general representation integration method. The proposed LiVLR is lightweight and shows its superiority on two VideoQA benchmarks, MRSVTT-QA and KnowIT VQA. Extensive ablation studies demonstrate the effectiveness of LiVLR key components.
翻訳日:2021-11-30 17:39:44 公開日:2021-11-29
# MeshUDF: 符号なし距離フィールドネットワークの高速かつ微分可能なメッシュ化

MeshUDF: Fast and Differentiable Meshing of Unsigned Distance Field Networks ( http://arxiv.org/abs/2111.14549v1 )

ライセンス: Link先を確認
Benoit Guillard and Federico Stella and Pascal Fua(参考訳) 最近の3Dオープンサーフェスモデリングでは、ディープニューラルネットワークをトレーニングして、Unsigned Distance Fields(UDF)を近似し、形を暗黙的に表現している。 この表現を明示的なメッシュに変換するには、計算コストのかかる方法を使用して表面の高密度点雲サンプリングをメッシュするか、あるいはそれを符号距離場(Signed Distance Field, SDF)に膨らませることで表面を歪ませる。 対照的に, 深層udfを, 局所的に表面交差を検出することにより, マーチングキューブを拡張したオープンサーフェスとして直接接続することを提案する。 本手法は高密度の点雲のメッシュよりも桁違いに高速であり,開面の膨張よりも高精度である。 さらに, 表面抽出を微分可能とし, 疎い監視信号に適合することを示す。

Recent work modelling 3D open surfaces train deep neural networks to approximate Unsigned Distance Fields (UDFs) and implicitly represent shapes. To convert this representation to an explicit mesh, they either use computationally expensive methods to mesh a dense point cloud sampling of the surface, or distort the surface by inflating it into a Signed Distance Field (SDF). By contrast, we propose to directly mesh deep UDFs as open surfaces with an extension of marching cubes, by locally detecting surface crossings. Our method is order of magnitude faster than meshing a dense point cloud, and more accurate than inflating open surfaces. Moreover, we make our surface extraction differentiable, and show it can help fit sparse supervision signals.
翻訳日:2021-11-30 17:39:26 公開日:2021-11-29
# 自己意識と畳み込みの統合について

On the Integration of Self-Attention and Convolution ( http://arxiv.org/abs/2111.14556v1 )

ライセンス: Link先を確認
Xuran Pan, Chunjiang Ge, Rui Lu, Shiji Song, Guanfu Chen, Zeyi Huang, Gao Huang(参考訳) 畳み込みと自己意識は表現学習の2つの強力な手法であり、通常は互いに異なる2つのピアアプローチと見なされる。 本稿では,これらの2つのパラダイムの計算の大部分が実際に同じ操作で行われているという意味で,両者の間に強い基礎的関係があることを述べる。 具体的には、カーネルサイズ k x k の伝統的な畳み込みを k^2 個の 1x1 畳み込みに分解し、次にシフト演算と和算演算を示す。 次に,クエリ,キー,値のプロジェクションを複数の1x1畳み込みとして解釈し,次に注目重みの計算と値の集約を行う。 したがって、2つのモジュールの第一段階は同様の操作を含む。 さらに重要なことに、第1段階は第2段階と比較して計算の複雑さ(チャネルの大きさの2乗)に大きく貢献する。 この観察は自然にこれら2つの際立ったパラダイムのエレガントな統合につながります。すなわち、自己意図と畳み込み(ACmix)の両方の利点を享受する混合モデルであり、純粋な畳み込みや自己意図のどちらよりも計算オーバーヘッドが最小であるのです。 大規模な実験により,画像認識と下流タスクの競争ベースラインよりも連続的に改善された結果が得られた。 コードと事前トレーニングされたモデルはhttps://github.com/p anxuran/acmixとhttps://gitee.com/mi ndspore/modelsでリリースされる。

Convolution and self-attention are two powerful techniques for representation learning, and they are usually considered as two peer approaches that are distinct from each other. In this paper, we show that there exists a strong underlying relation between them, in the sense that the bulk of computations of these two paradigms are in fact done with the same operation. Specifically, we first show that a traditional convolution with kernel size k x k can be decomposed into k^2 individual 1x1 convolutions, followed by shift and summation operations. Then, we interpret the projections of queries, keys, and values in self-attention module as multiple 1x1 convolutions, followed by the computation of attention weights and aggregation of the values. Therefore, the first stage of both two modules comprises the similar operation. More importantly, the first stage contributes a dominant computation complexity (square of the channel size) comparing to the second stage. This observation naturally leads to an elegant integration of these two seemingly distinct paradigms, i.e., a mixed model that enjoys the benefit of both self-Attention and Convolution (ACmix), while having minimum computational overhead compared to the pure convolution or self-attention counterpart. Extensive experiments show that our model achieves consistently improved results over competitive baselines on image recognition and downstream tasks. Code and pre-trained models will be released at https://github.com/P anxuran/ACmix and https://gitee.com/mi ndspore/models.
翻訳日:2021-11-30 17:39:10 公開日:2021-11-29
# リカレントビジョン変換器による視覚推論問題の解法

Recurrent Vision Transformer for Solving Visual Reasoning Problems ( http://arxiv.org/abs/2111.14576v1 )

ライセンス: Link先を確認
Nicola Messina, Giuseppe Amato, Fabio Carrara, Claudio Gennaro, Fabrizio Falchi(参考訳) 畳み込みニューラルネットワーク(cnns)は多くの視覚タスクで顕著な結果を示したが、単純で挑戦的な視覚推論問題によってはまだ緊張している。 本稿では,最近のコンピュータビジョンにおけるトランスフォーマネットワークの成功に触発されて,recurrent vision transformer (rvit)モデルを提案する。 再帰接続の影響と推論タスクにおける空間的注意の影響により、このネットワークはsvrtデータセットと異なる視覚的推論問題に対して競合的な結果が得られる。 空間次元と深さ次元の両方の重量共有はモデルを正規化し、28kのトレーニングサンプルを使用して、はるかに少ない自由パラメータで学習することができる。 包括的アブレーション研究により、ハイブリッドCNN+トランスフォーマーアーキテクチャの重要性とフィードバック接続の役割が確認され、安定した予測が得られるまで内部表現を反復的に洗練する。 最後に,視覚的抽象的推論タスクを解く上での注意と繰り返し接続の役割について,より深く理解するための基礎となるものと考えられる。

Although convolutional neural networks (CNNs) showed remarkable results in many vision tasks, they are still strained by simple yet challenging visual reasoning problems. Inspired by the recent success of the Transformer network in computer vision, in this paper, we introduce the Recurrent Vision Transformer (RViT) model. Thanks to the impact of recurrent connections and spatial attention in reasoning tasks, this network achieves competitive results on the same-different visual reasoning problems from the SVRT dataset. The weight-sharing both in spatial and depth dimensions regularizes the model, allowing it to learn using far fewer free parameters, using only 28k training samples. A comprehensive ablation study confirms the importance of a hybrid CNN + Transformer architecture and the role of the feedback connections, which iteratively refine the internal representation until a stable prediction is obtained. In the end, this study can lay the basis for a deeper understanding of the role of attention and recurrent connections for solving visual abstract reasoning tasks.
翻訳日:2021-11-30 17:38:32 公開日:2021-11-29
# 効率的な対応クラスタリングによるマルチインスタンスポイントクラウド登録

Multi-instance Point Cloud Registration by Efficient Correspondence Clustering ( http://arxiv.org/abs/2111.14582v1 )

ライセンス: Link先を確認
Weixuan Tang and Danping Zou(参考訳) 我々は、ターゲットポイントクラウド内のソースポイントクラウドの複数のインスタンスのポーズを推定する問題に対処する。 既存のソリューションでは、可能なインスタンスを検出して、例外を拒否するために多くの仮説をサンプリングする必要がある。 距離不変行列に基づいて,雑音対応の集合を異なるクラスタにグループ化することを提案する。 インスタンスとアウトリーチはクラスタリングによって自動的に識別される。 私たちの方法は頑丈で速い。 本手法を合成データと実世界データの両方で評価した。 その結果、70%の異常値が存在する場合に、最大20インスタンスを90.46%のf1スコアで正しく登録できることがわかった。

We address the problem of estimating the poses of multiple instances of the source point cloud within a target point cloud. Existing solutions require sampling a lot of hypotheses to detect possible instances and reject the outliers, whose robustness and efficiency degrade notably when the number of instances and outliers increase. We propose to directly group the set of noisy correspondences into different clusters based on a distance invariance matrix. The instances and outliers are automatically identified through clustering. Our method is robust and fast. We evaluated our method on both synthetic and real-world datasets. The results show that our approach can correctly register up to 20 instances with an F1 score of 90.46% in the presence of 70% outliers, which performs significantly better and at least 10x faster than existing methods
翻訳日:2021-11-30 17:38:15 公開日:2021-11-29
# 神経行動表現の対比学習における領域ギャップの克服

Overcoming the Domain Gap in Contrastive Learning of Neural Action Representations ( http://arxiv.org/abs/2111.14595v1 )

ライセンス: Link先を確認
Semih G\"unel and Florian Aymanns and Sina Honari and Pavan Ramdya and Pascal Fua(参考訳) 神経科学の基本的な目標は、神経活動と行動の関係を理解することである。 例えば、神経データや神経デコードから行動意図を抽出する能力は、効果的な脳機械インターフェイスを開発する上で重要である。 単純な線形モデルはこの問題に応用されてきたが、重要な非線形関係を特定できない。 このように、神経動力学と行動の間の非線形関係を同定する自己教師付き手段は、神経表現を計算するために重要な未解決問題である。 この課題に対処するために,キイロショウジョウバエが生成する自発的な行動からなる,ニューロサイエンス研究で人気のあるモデル生物であるキイロショウジョウバエ(drosophila melanogaster)のマルチモーダルデータセットを作成した。 このデータセットには、動物が自発的に行動を起こす6つのカメラビューからの3Dマーカーレスモーションキャプチャーデータと、行動を起こすと考えられる下降ニューロンの活動を撮影する2光子顕微鏡画像が含まれる。 標準のコントラスト学習と教師なしドメイン適応技術は、神経と行動のモダリティに大きな動物間差があるため、神経行動表現(行動ラベルを記述する神経データから計算された埋め込み)を学ぶのに苦労している。 この欠損を克服するため、動物間ドメインギャップを塞ぐシンプルで効果的な拡張法を開発し、神経データから行動に関連があるがドメインに依存しない情報を抽出した。 このマルチモーダルデータセットと新しい拡張セットは、神経科学における自己教師あり学習手法の適用を加速することを約束します。

A fundamental goal in neuroscience is to understand the relationship between neural activity and behavior. For example, the ability to extract behavioral intentions from neural data, or neural decoding, is critical for developing effective brain machine interfaces. Although simple linear models have been applied to this challenge, they cannot identify important non-linear relationships. Thus, a self-supervised means of identifying non-linear relationships between neural dynamics and behavior, in order to compute neural representations, remains an important open problem. To address this challenge, we generated a new multimodal dataset consisting of the spontaneous behaviors generated by fruit flies, Drosophila melanogaster -- a popular model organism in neuroscience research. The dataset includes 3D markerless motion capture data from six camera views of the animal generating spontaneous actions, as well as synchronously acquired two-photon microscope images capturing the activity of descending neuron populations that are thought to drive actions. Standard contrastive learning and unsupervised domain adaptation techniques struggle to learn neural action representations (embeddings computed from the neural data describing action labels) due to large inter-animal differences in both neural and behavioral modalities. To overcome this deficiency, we developed simple yet effective augmentations that close the inter-animal domain gap, allowing us to extract behaviorally relevant, yet domain agnostic, information from neural data. This multimodal dataset and our new set of augmentations promise to accelerate the application of self-supervised learning methods in neuroscience.
翻訳日:2021-11-30 17:38:03 公開日:2021-11-29
# transmvsnet:トランスフォーマーを用いたグローバルコンテキストアウェアマルチビューステレオネットワーク

TransMVSNet: Global Context-aware Multi-view Stereo Network with Transformers ( http://arxiv.org/abs/2111.14600v1 )

ライセンス: Link先を確認
Yikang Ding, Wentao Yuan, Qingtian Zhu, Haotian Zhang, Xiangyue Liu, Yuanjiang Wang, Xiao Liu(参考訳) 本稿では,マルチビューステレオ(MVS)における特徴マッチングの探索に基づき,TransMVSNetを提案する。 我々は、MVSを特徴マッチングタスクの性質に類似させ、画像内および画像間の長距離コンテキスト情報を集約するために、自己内および相互の注意を利用する強力な特徴マッチング変換器(FMT)を提案する。 fmtの適応性を高めるために,適応受容場(adaptive receptive field, arf)モジュールを用いて,特徴範囲の円滑な移動を保証し,異なる段階を橋渡しし,変形した特徴や勾配を異なるスケールで通過させる。 さらに、特徴間の類似度を測定するためにペアワイズ特徴相関を適用し、アンビグニティ低減焦点損失を採用して監督を強化する。 我々の知る限り、TransMVSNetはTransformerをMVSのタスクに活用する最初の試みである。 その結果,DTUデータセット,タンク・アンド・テンプルベンチマーク,およびBlendedMVSデータセット上での最先端性能が得られた。 私たちのメソッドのコードはhttps://github.com/M egviiRobot/TransMVSN etで公開されます。

In this paper, we present TransMVSNet, based on our exploration of feature matching in multi-view stereo (MVS). We analogize MVS back to its nature of a feature matching task and therefore propose a powerful Feature Matching Transformer (FMT) to leverage intra- (self-) and inter- (cross-) attention to aggregate long-range context information within and across images. To facilitate a better adaptation of the FMT, we leverage an Adaptive Receptive Field (ARF) module to ensure a smooth transit in scopes of features and bridge different stages with a feature pathway to pass transformed features and gradients across different scales. In addition, we apply pair-wise feature correlation to measure similarity between features, and adopt ambiguity-reducing focal loss to strengthen the supervision. To the best of our knowledge, TransMVSNet is the first attempt to leverage Transformer into the task of MVS. As a result, our method achieves state-of-the-art performance on DTU dataset, Tanks and Temples benchmark, and BlendedMVS dataset. The code of our method will be made available at https://github.com/M egviiRobot/TransMVSN et .
翻訳日:2021-11-30 17:37:38 公開日:2021-11-29
# 医用画像分類のための弱教師付きジェネレーティブ・アドバイサル・ネットワーク

Weakly-supervised Generative Adversarial Networks for medical image classification ( http://arxiv.org/abs/2111.14605v1 )

ライセンス: Link先を確認
Jiawei Mao, Xuesong Yin, Yuanqi Chang, Qi Huang, Daoqiang Zhang, Jieyue Yu, Yigang Wang(参考訳) 弱い教師付き学習は近年、一般的な技術となっている。 本稿では,偽画像やマスク画像を生成するためにラベル無しで少数の実画像しか使用せず,トレーニングセットのサンプルサイズを拡大する,weakly supervised generative adversarial networks(wsgan)と呼ばれる新しい医用画像分類アルゴリズムを提案する。 まず,mixmatchと組み合わせて偽画像とラベルなし画像の擬似ラベルを生成し,分類を行う。 第2に, 分類精度を高めるために, コントラスト学習と自己着脱機構を導入する。 第三に、モード崩壊の問題は循環的一貫性損失によってよく解決される。 最後に,グローバルおよびローカルな分類器を設計し,分類に必要な重要な情報と相互に補完する。 4つの医用画像データセットによる実験結果から,WSGANはラベル付きおよびラベルなしの少ないデータを用いて比較的高い学習性能を得ることができることが示された。 例えば、WSGANの分類精度は、OCTデータセット上の100のラベル付き画像と1000のラベルなし画像を持つ第2級MIXMATCHの分類精度よりも11%高い。 また,本アルゴリズムの有効性を検証するため,アブレーション実験を行った。

Weakly-supervised learning has become a popular technology in recent years. In this paper, we propose a novel medical image classification algorithm, called Weakly-Supervised Generative Adversarial Networks (WSGAN), which only uses a small number of real images without labels to generate fake images or mask images to enlarge the sample size of the training set. First, we combine with MixMatch to generate pseudo labels for the fake images and unlabeled images to do the classification. Second, contrastive learning and self-attention mechanism are introduced into the proposed problem to enhance the classification accuracy. Third, the problem of mode collapse is well addressed by cyclic consistency loss. Finally, we design global and local classifiers to complement each other with the key information needed for classification. The experimental results on four medical image datasets show that WSGAN can obtain relatively high learning performance by using few labeled and unlabeled data. For example, the classification accuracy of WSGAN is 11% higher than that of the second-ranked MIXMATCH with 100 labeled images and 1000 unlabeled images on the OCT dataset. In addition, we also conduct ablation experiments to verify the effectiveness of our algorithm.
翻訳日:2021-11-30 17:37:17 公開日:2021-11-29
# iLabel:インタラクティブなニューラルシーンラベリング

iLabel: Interactive Neural Scene Labelling ( http://arxiv.org/abs/2111.14637v1 )

ライセンス: Link先を確認
Shuaifeng Zhi and Edgar Sucar and Andre Mouton and Iain Haughton and Tristan Laidlow and Andrew J. Davison(参考訳) ユーザがハンドヘルドrgb-dセンサーを使用してシーンをリアルタイムに再構築することで,3次元ニューラルフィールドを用いた幾何学,色彩,セマンティクスの結合表現により,超疎相互作用による高精度な高密度ラベリングが可能になる。 当社のiLabelシステムは、トレーニングデータを必要としないが、大規模で高価なラベル付き画像データセットでトレーニングされた標準的な方法よりも、より正確にシーンをラベル付けすることができる。 さらには、ユーザがオンザフライで定義したセマンティッククラスを使って、'オープンセット'形式で機能する。 ilabelの基盤となるモデルは、リアルタイムにスクラッチから訓練された多層パーセプトロン(mlp)で、ジョイントニューラルネットワークのシーン表現を学ぶ。 シーンモデルはリアルタイムで更新および視覚化され、ユーザは対話に集中して効率的なラベリングを実現することができる。 部屋や似たようなシーンは、数クリックで10以上のセマンティックカテゴリに正確にラベル付けできる。 量的ラベリング精度はクリック数で強力にスケールし、標準の事前学習されたセマンティクスセグメンテーション法を急速に超えている。 また階層的なラベル付けの変種を示す。

Joint representation of geometry, colour and semantics using a 3D neural field enables accurate dense labelling from ultra-sparse interactions as a user reconstructs a scene in real-time using a handheld RGB-D sensor. Our iLabel system requires no training data, yet can densely label scenes more accurately than standard methods trained on large, expensively labelled image datasets. Furthermore, it works in an 'open set' manner, with semantic classes defined on the fly by the user. iLabel's underlying model is a multilayer perceptron (MLP) trained from scratch in real-time to learn a joint neural scene representation. The scene model is updated and visualised in real-time, allowing the user to focus interactions to achieve efficient labelling. A room or similar scene can be accurately labelled into 10+ semantic categories with only a few tens of clicks. Quantitative labelling accuracy scales powerfully with the number of clicks, and rapidly surpasses standard pre-trained semantic segmentation methods. We also demonstrate a hierarchical labelling variant.
翻訳日:2021-11-30 17:36:55 公開日:2021-11-29
# 超高解像度衛星画像を用いた建物分類

Buildings Classification using Very High Resolution Satellite Imagery ( http://arxiv.org/abs/2111.14650v1 )

ライセンス: Link先を確認
Mohammad Dimassi, Abed Ellatif Samhat, Mohammad Zaraket, Jamal Haidar, Mustafa Shukor, Ali J. Ghandour(参考訳) 衛星画像を用いた建物の分類は, 被害評価, 資源配分, 人口推定などの応用において重要になっている。 本研究は, 住宅・非住宅の建物被害評価(BDA)とビルタイプ分類(BTC)に着目した。 本稿では,rgb衛星画像のみを頼りに2段階の深層学習に基づくアプローチを提案し,まず,意味的セグメンテーションモデルを用いて建物の足跡を抽出し,次に切り抜いた画像の分類を行う。 住宅・非住宅ビル分類に適切なデータセットがないため,高解像度衛星画像の新しいデータセットを導入する。 我々は,最も優れたハイパーパラメータ,モデルアーキテクチャ,トレーニングパラダイムを選択するための広範な実験を行い,古典的手法を上回る新しいトランスファー学習ベースのアプローチを提案する。 最後に、優れた精度とf1-scoreメトリックを示す2つのアプリケーションについて提案手法を検証する。

Buildings classification using satellite images is becoming more important for several applications such as damage assessment, resource allocation, and population estimation. We focus, in this work, on buildings damage assessment (BDA) and buildings type classification (BTC) of residential and non-residential buildings. We propose to rely solely on RGB satellite images and follow a 2-stage deep learning-based approach, where first, buildings' footprints are extracted using a semantic segmentation model, followed by classification of the cropped images. Due to the lack of an appropriate dataset for the residential/non-resi dential building classification, we introduce a new dataset of high-resolution satellite images. We conduct extensive experiments to select the best hyper-parameters, model architecture, and training paradigm, and we propose a new transfer learning-based approach that outperforms classical methods. Finally, we validate the proposed approach on two applications showing excellent accuracy and F1-score metrics.
翻訳日:2021-11-30 17:36:38 公開日:2021-11-29
# Decompositional Consensusを用いた3次元ゼロショット学習

3D Compositional Zero-shot Learning with DeCompositional Consensus ( http://arxiv.org/abs/2111.14673v1 )

ライセンス: Link先を確認
Muhammad Ferjad Naeem, Evin P{\i}nar \"Ornek, Yongqin Xian, Luc Van Gool, Federico Tombari(参考訳) 部品は、異なる対象にまたがる幾何学的および意味的類似性の基本的な単位を表す。 我々は、部分的知識は観察されたオブジェクトクラスを超えて構成可能であるべきだと論じる。 そこで本研究では、3次元合成ゼロショット学習を視覚から見えないオブジェクトクラスへのセグメンテーションへの部分一般化の問題として提示する。 提案するコンポジション・パートネットデータセットでタスクをベンチマークして構造化研究を行う。 このデータセットは、元のpartnetを処理して、異なるオブジェクト間の部分重なりを最大化する。 既存のポイントクラウド部分のセグメンテーションメソッドは、この設定で見えないオブジェクトクラスに一般化できない。 そこで本研究では,部分分割ネットワークと部分スコアリングネットワークを組み合わせたDeCompositional Consensusを提案する。 このアプローチに対する重要な直感は、部分の分割マスクが、各部分の分解時にその部分のスコアとコンセンサスを持つべきだということです。 2つのネットワークは、最も適切なセグメンテーションマスクを生成する前に、オブジェクトごとの異なる組み合わせを推論する。 提案手法は, 合成ゼロショット分割と一般化ゼロショット分類を可能にし, 両タスクにおける技術状態を確立する。

Parts represent a basic unit of geometric and semantic similarity across different objects. We argue that part knowledge should be composable beyond the observed object classes. Towards this, we present 3D Compositional Zero-shot Learning as a problem of part generalization from seen to unseen object classes for semantic segmentation. We provide a structured study through benchmarking the task with the proposed Compositional-PartNe t dataset. This dataset is created by processing the original PartNet to maximize part overlap across different objects. The existing point cloud part segmentation methods fail to generalize to unseen object classes in this setting. As a solution, we propose DeCompositional Consensus, which combines a part segmentation network with a part scoring network. The key intuition to our approach is that a segmentation mask over some parts should have a consensus with its part scores when each part is taken apart. The two networks reason over different part combinations defined in a per-object part prior to generate the most suitable segmentation mask. We demonstrate that our method allows compositional zero-shot segmentation and generalized zero-shot classification, and establishes the state of the art on both tasks.
翻訳日:2021-11-30 17:35:21 公開日:2021-11-29
# dancetrack: 均一な外観と多様な動きのマルチオブジェクトトラッキング

DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion ( http://arxiv.org/abs/2111.14690v1 )

ライセンス: Link先を確認
Peize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, Ping Luo(参考訳) マルチオブジェクトトラッキング(MOT)の典型的なパイプラインは、オブジェクトのローカライゼーションに検出器を使用し、オブジェクトの関連付けにre-ID(re-identificat ion)を使用する。 このパイプラインは、オブジェクト検出とre-idの両方の最近の進歩によって部分的に動機付けられており、既存のトラッキングデータセットにおける偏りによって部分的に動機づけられている。 このようなバイアスに対応するため、オブジェクトの出現が十分に判別できない場合には、マルチオブジェクトトラッキングのメソッドも動作するべきだと再強調したい。 そこで本研究では,人間が類似した外観,多様な動き,極端な明瞭度を持つマルチヒューマントラッキングのための大規模データセットを提案する。 データセットにはグループダンスビデオがほとんど含まれているので、dancetrackと名付けます。 dancetrackは、視覚的な識別に頼らず、より動き分析に依存するmotアルゴリズムを開発するためのより良いプラットフォームを提供することを期待している。 当社のデータセット上でいくつかの最先端トラッカーをベンチマークし、既存のベンチマークと比較した場合、DanceTrackの大幅なパフォーマンス低下を観察します。 データセット、プロジェクトコード、コンペティションサーバは以下の形でリリースされる。

A typical pipeline for multi-object tracking (MOT) is to use a detector for object localization, and following re-identification (re-ID) for object association. This pipeline is partially motivated by recent progress in both object detection and re-ID, and partially motivated by biases in existing tracking datasets, where most objects tend to have distinguishing appearance and re-ID models are sufficient for establishing associations. In response to such bias, we would like to re-emphasize that methods for multi-object tracking should also work when object appearance is not sufficiently discriminative. To this end, we propose a large-scale dataset for multi-human tracking, where humans have similar appearance, diverse motion and extreme articulation. As the dataset contains mostly group dancing videos, we name it "DanceTrack". We expect DanceTrack to provide a better platform to develop more MOT algorithms that rely less on visual discrimination and depend more on motion analysis. We benchmark several state-of-the-art trackers on our dataset and observe a significant performance drop on DanceTrack when compared against existing benchmarks. The dataset, project code and competition server are released at: \url{https://github.com/D anceTrack}.
翻訳日:2021-11-30 17:35:05 公開日:2021-11-29
# オンライン教育におけるリアルタイム注意スパントラッキング

Real-time Attention Span Tracking in Online Education ( http://arxiv.org/abs/2111.14707v1 )

ライセンス: Link先を確認
Rahul RK, Shanthakumar S, Vykunth P, Sairamnath K(参考訳) 過去10年間で、eラーニングは学生がいつでもどこでも質の高い教育を受けられるようにして学習方法に革命をもたらした。 しかし、学生は様々な理由で気を散らすことが多く、学習能力に大きな影響を与えている。 多くの研究者がオンライン教育の質を高めようとしているが、この問題に対処するには総合的なアプローチが必要だ。 本稿では,オンライン授業中の学生のリアルタイム注意レベルを監視するために,カメラフィードとマイク入力を用いたメカニズムを提案する。 本研究では,様々な画像処理手法と機械学習アルゴリズムについて検討する。 我々は,5つの異なる非言語機能を用いて,コンピュータによるタスク中の学生の注意スコアを計算し,学生と組織の両方に対してリアルタイムフィードバックを生成するシステムを提案する。 得られたフィードバックをヒューリスティックな価値として利用することで,学生の総合的なパフォーマンスと講師の指導基準を分析することができる。

Over the last decade, e-learning has revolutionized how students learn by providing them access to quality education whenever and wherever they want. However, students often get distracted because of various reasons, which affect the learning capacity to a great extent. Many researchers have been trying to improve the quality of online education, but we need a holistic approach to address this issue. This paper intends to provide a mechanism that uses the camera feed and microphone input to monitor the real-time attention level of students during online classes. We explore various image processing techniques and machine learning algorithms throughout this study. We propose a system that uses five distinct non-verbal features to calculate the attention score of the student during computer based tasks and generate real-time feedback for both students and the organization. We can use the generated feedback as a heuristic value to analyze the overall performance of students as well as the teaching standards of the lecturers.
翻訳日:2021-11-30 17:34:46 公開日:2021-11-29
# 視覚トランスフォーマの探索空間の探索

Searching the Search Space of Vision Transformer ( http://arxiv.org/abs/2111.14725v1 )

ライセンス: Link先を確認
Minghao Chen, Kan Wu, Bolin Ni, Houwen Peng, Bei Liu, Jianlong Fu, Hongyang Chao, Haibin Ling(参考訳) 視覚変換器は、認識や検出などの視覚的なタスクにおいて大きな視覚的表現力を示しており、より効果的なアーキテクチャを手動で設計する取り組みが急速に進んでいる。 本稿では,このプロセスを自動化するために,アーキテクチャだけでなく検索空間も探索することでニューラルアーキテクチャ検索を提案する。 中心となる考え方は、ウェイトシェアリングスーパーネットを用いて計算されたE-Tエラーによって導かれる様々な探索次元を徐々に進化させることである。 さらに,視覚トランスフォーマの理解を促進するため,空間探索プロセスに応じた広範囲な解析を行い,一般視覚トランスフォーマの設計ガイドラインを提供する。 驚くべきことに、検索空間から s3 ( search space の略) と呼ばれる検索されたモデルは、imagenet で評価すると、最近提案された swin、deit、vit などのモデルよりも優れた性能を発揮する。 S3の有効性は、オブジェクトの検出、セマンティックセグメンテーション、視覚的質問応答にも説明され、下流の視覚と視覚言語タスクへの一般化を示す。 コードとモデルはhttps://github.com/m icrosoft/creamで入手できる。

Vision Transformer has shown great visual representation power in substantial vision tasks such as recognition and detection, and thus been attracting fast-growing efforts on manually designing more effective architectures. In this paper, we propose to use neural architecture search to automate this process, by searching not only the architecture but also the search space. The central idea is to gradually evolve different search dimensions guided by their E-T Error computed using a weight-sharing supernet. Moreover, we provide design guidelines of general vision transformers with extensive analysis according to the space searching process, which could promote the understanding of vision transformer. Remarkably, the searched models, named S3 (short for Searching the Search Space), from the searched space achieve superior performance to recently proposed models, such as Swin, DeiT and ViT, when evaluated on ImageNet. The effectiveness of S3 is also illustrated on object detection, semantic segmentation and visual question answering, demonstrating its generality to downstream vision and vision-language tasks. Code and models will be available at https://github.com/m icrosoft/Cream.
翻訳日:2021-11-30 17:34:31 公開日:2021-11-29
# カメラポーズ推定のためのネットワークのドメイン適応--ポーズラベルのないカメラポーズ推定の学習

Domain Adaptation of Networks for Camera Pose Estimation: Learning Camera Pose Estimation Without Pose Labels ( http://arxiv.org/abs/2111.14741v1 )

ライセンス: Link先を確認
Jack Langerman, Ziming Qiu, G\'abor S\"or\"os, D\'avid Seb\H{o}k, Yao Wang, Howard Huang(参考訳) ディープラーニングの重要な批判の1つは、高いパフォーマンスと優れた一般化能力を持つモデルをトレーニングするために、大量の高価で取得が難しいトレーニングデータが必要であることである。 本研究では,シーン座標回帰(scr)による単眼カメラポーズ推定の課題に着目し,カメラポーズ推定(dance)のためのネットワークのドメイン適応手法を提案する。 DANCEは、未表示の画像(ポーズ、順序付け、シーン座標ラベルなしで)と空間の3D表現(例えば、スキャンされた点雲)を必要とするが、どちらも市販のコモディティハードウェアを使って最小限の努力で撮影することができる。 DANCEは3Dモデルからラベル付き合成画像を描画し、教師なし画像レベル領域適応技術(未ペア画像から画像への変換)を適用して、合成画像と実画像の間の避けられない領域ギャップを埋める。 実画像でテストすると、DANCEで訓練されたSCRモデルは、完全に監督された(どちらの場合も、最終的なポーズ推定にPnP-RANSACを使用する)モデルと同等の性能をコストのごく一部で達成した。 私たちのコードとデータセットはhttps://github.com/j acklangerman/danceで利用可能です。

One of the key criticisms of deep learning is that large amounts of expensive and difficult-to-acquire training data are required in order to train models with high performance and good generalization capabilities. Focusing on the task of monocular camera pose estimation via scene coordinate regression (SCR), we describe a novel method, Domain Adaptation of Networks for Camera pose Estimation (DANCE), which enables the training of models without access to any labels on the target task. DANCE requires unlabeled images (without known poses, ordering, or scene coordinate labels) and a 3D representation of the space (e.g., a scanned point cloud), both of which can be captured with minimal effort using off-the-shelf commodity hardware. DANCE renders labeled synthetic images from the 3D model, and bridges the inevitable domain gap between synthetic and real images by applying unsupervised image-level domain adaptation techniques (unpaired image-to-image translation). When tested on real images, the SCR model trained with DANCE achieved comparable performance to its fully supervised counterpart (in both cases using PnP-RANSAC for final pose estimation) at a fraction of the cost. Our code and dataset are available at https://github.com/J ackLangerman/dance
翻訳日:2021-11-30 17:34:13 公開日:2021-11-29
# 確率的正常-異常輸送のための深部分解

Deep Decomposition for Stochastic Normal-Abnormal Transport ( http://arxiv.org/abs/2111.14777v1 )

ライセンス: Link先を確認
Peirong Liu, Yueh Lee, Stephen Aylward, Marc Niethammer(参考訳) 対流拡散方程式は、流体の流れ、熱伝達、風輸送など、多くの自然輸送過程を記述している。 また、光学的流れや灌流画像計算にも用いられる。 2d/3d画像の時系列移動を駆動する速度場と拡散場を予測する確率的アドベクション・ディフフュージョン方程式に基づく機械学習モデルd^2-sonataを開発した。 特に,本モデルでは,期待される正常輸送挙動と観測された輸送の異常な差異を分離する輸送非定型性をモデル化した。 医学的な文脈では、そのような正常な異常な分解は、例えば病理を定量化するために用いられる。 具体的には,輸送時系列からの対流と拡散の寄与を同定し,異常値場を同時に予測し,正規および異常な対流と拡散の挙動を分解する。 適応拡散過程に基づく速度・拡散テンソル場の推定性能の向上と異常場の推定のために,教師あり学習が可能な2D/3D異常符号化型対流拡散シミュレータを作成する。 さらに,脳卒中患者の脳灌流データセットにトランスファーラーニングを用いたモデルを適用した。 本モデルでは,脳卒中病変と正常脳領域との鑑別に成功し,基礎となる速度と拡散テンソル場を再構成した。

Advection-diffusion equations describe a large family of natural transport processes, e.g., fluid flow, heat transfer, and wind transport. They are also used for optical flow and perfusion imaging computations. We develop a machine learning model, D^2-SONATA, built upon a stochastic advection-diffusion equation, which predicts the velocity and diffusion fields that drive 2D/3D image time-series of transport. In particular, our proposed model incorporates a model of transport atypicality, which isolates abnormal differences between expected normal transport behavior and the observed transport. In a medical context such a normal-abnormal decomposition can be used, for example, to quantify pathologies. Specifically, our model identifies the advection and diffusion contributions from the transport time-series and simultaneously predicts an anomaly value field to provide a decomposition into normal and abnormal advection and diffusion behavior. To achieve improved estimation performance for the velocity and diffusion-tensor fields underlying the advection-diffusion process and for the estimation of the anomaly fields, we create a 2D/3D anomaly-encoded advection-diffusion simulator, which allows for supervised learning. We further apply our model on a brain perfusion dataset from ischemic stroke patients via transfer learning. Extensive comparisons demonstrate that our model successfully distinguishes stroke lesions (abnormal) from normal brain regions, while reconstructing the underlying velocity and diffusion tensor fields.
翻訳日:2021-11-30 17:33:53 公開日:2021-11-29
# チャート理解のための分類回帰

Classification-Regre ssion for Chart Comprehension ( http://arxiv.org/abs/2111.14792v1 )

ライセンス: Link先を確認
Matan Levy, Rami Ben-Ari, Dani Lischinski(参考訳) チャートは、データビジュアライゼーションのポピュラーで効果的な形式です。 CQA(Chart Question answering)は、自然画像の理解と根本的に異なる、チャート理解を評価するためのタスクである。 CQAは、一般的な質問に答えたり、数値を推測するために、チャートのテキストとビジュアルコンポーネントの関係を分析する必要がある。 既存のCQAデータセットとモデルのほとんどは、人間のパフォーマンスを越えられるような仮定の単純化に基づいている。 本研究では,この結果の背景にある理由をさらに探究し,分類と回帰を共同で学習する新しいモデルを提案する。 我々の言語ビジョンとコアテンション変換器は、現実世界のチャートによく見られる質問とテキスト要素の間の複雑な相互作用を捉えます。 我々はこれらの結論を、現実的なPlotQAデータセットに関する広範な実験とブレークダウンで検証し、従来のアプローチを大きなマージンで上回り、図QA上での競合性能を示した。 我々のモデルのエッジは特に、語彙外回答の質問に重点を置いており、その多くが回帰を必要とする。 この研究がさらなる研究を刺激し、チャート理解の挑戦的で実践的な課題を解決することを期待している。

Charts are a popular and effective form of data visualization. Chart question answering (CQA) is a task used for assessing chart comprehension, which is fundamentally different from understanding natural images. CQA requires analyzing the relationships between the textual and the visual components of a chart, in order to answer general questions or infer numerical values. Most existing CQA datasets and it models are based on simplifying assumptions that often enable surpassing human performance. In this work, we further explore the reasons behind this outcome and propose a new model that jointly learns classification and regression. Our language-vision set up with co-attention transformers captures the complex interactions between the question and the textual elements, which commonly exist in real-world charts. We validate these conclusions with extensive experiments and breakdowns on the realistic PlotQA dataset, outperforming previous approaches by a large margin, while showing competitive performance on FigureQA. Our model's edge is particularly emphasized on questions with out-of-vocabulary answers, many of which require regression. We hope that this work will stimulate further research towards solving the challenging and highly practical task of chart comprehension.
翻訳日:2021-11-30 17:33:29 公開日:2021-11-29
# スパースLiDARからの半教師付きインシシットシーン補完

Semi-supervised Implicit Scene Completion from Sparse LiDAR ( http://arxiv.org/abs/2111.14798v1 )

ライセンス: Link先を確認
Pengfei Li, Yongliang Shi, Tianyu Liu, Hao Zhao, Guyue Zhou, Ya-Qin Zhang(参考訳) 近年の進歩は、半教師付き暗黙的表現学習は、アイコン方程式のような物理的制約によって達成できることを示している。 しかし、このスキームは空間的に異なるため、LiDAR点雲データにはまだ使われていない。 本稿では,局所的な形状の埋め込みに対して半教師付き暗黙関数を条件付ける新しい定式化を開発する。 スパース畳み込みネットワークの強い表現学習能力を利用して、形状認識された密集した特徴量を生成する一方で、自由空間における正確な値を知ることなく半教師付き符号付き距離関数学習を可能にする。 そこで本研究では,本システムの本質的特性と実世界の道路シーンにおける有用性を示す。 特に,SemanticKITTIではIoUを26.3%から51.0%に改善する。 さらに,意味的ラベル予測を統合し,暗黙的な意味的補完を実現するための2つのパラダイムを検討する。 コードとモデルはhttps://github.com/O PEN-AIR-SUN/SISCでアクセスできる。

Recent advances show that semi-supervised implicit representation learning can be achieved through physical constraints like Eikonal equations. However, this scheme has not yet been successfully used for LiDAR point cloud data, due to its spatially varying sparsity. In this paper, we develop a novel formulation that conditions the semi-supervised implicit function on localized shape embeddings. It exploits the strong representation learning power of sparse convolutional networks to generate shape-aware dense feature volumes, while still allows semi-supervised signed distance function learning without knowing its exact values at free space. With extensive quantitative and qualitative results, we demonstrate intrinsic properties of this new learning system and its usefulness in real-world road scenes. Notably, we improve IoU from 26.3% to 51.0% on SemanticKITTI. Moreover, we explore two paradigms to integrate semantic label predictions, achieving implicit semantic completion. Code and models can be accessed at https://github.com/O PEN-AIR-SUN/SISC.
翻訳日:2021-11-30 17:33:09 公開日:2021-11-29
# TransWeather: 逆気象条件で劣化した画像のトランスフォーマーによる復元

TransWeather: Transformer-based Restoration of Images Degraded by Adverse Weather Conditions ( http://arxiv.org/abs/2111.14813v1 )

ライセンス: Link先を確認
Jeya Maria Jose Valanarasu, Rajeev Yasarla, and Vishal M. Patel(参考訳) 画像から雨、霧、雪などの悪条件を取り除くことは、多くのアプリケーションにおいて重要な問題である。 文献で提案されているほとんどの手法は、ただ一つのタイプの劣化を取り除くだけのために設計されている。 近年,ニューラルアーキテクチャサーチ(All-in-One)を用いたCNNベースの手法が提案されている。 しかし、複数のエンコーダを使用して各天候除去タスクに対応し、性能改善のためのスコープがまだあるため、多くのパラメータがある。 本研究は,悪天候除去問題に対する効率的な解決策の開発に焦点をあてる。 この目的のために,トランスウェザー (TransWeather) を提案する。トランスウェザー (TransWeather) は1つのエンコーダとデコーダのみで,任意の気象条件で劣化した画像を復元できる。 具体的には,パッチ内トランスフォーマーブロックを用いた新しいトランスコーダを用いて,パッチ内の注意力を高め,より小さな気象劣化を効果的に除去する。 また,学習可能な気象タイプを組み込んだ変圧器デコーダを導入し,気象劣化の調整を行う。 TransWeatherは、All-in-Oneネットワークと特定のタスク用に微調整されたメソッドの両方で、複数のテストデータセット間で大幅に改善されている。 特にTransWeatherは、Test1(rain+fog)データセットで+6.34 PSNR、SnowTest100K-Lデータセットで+4.93 PSNR、RainDropテストデータセットで+3.11 PSNRで現在の最先端をプッシュする。 TransWeatherは実世界のテスト画像でも検証され、従来の方法よりも効果的であることが判明した。 実装コードと事前トレーニングされたウェイトは、https://github.com/j eya-maria-jose/Trans Weather.orgでアクセスすることができる。

Removing adverse weather conditions like rain, fog, and snow from images is an important problem in many applications. Most methods proposed in the literature have been designed to deal with just removing one type of degradation. Recently, a CNN-based method using neural architecture search (All-in-One) was proposed to remove all the weather conditions at once. However, it has a large number of parameters as it uses multiple encoders to cater to each weather removal task and still has scope for improvement in its performance. In this work, we focus on developing an efficient solution for the all adverse weather removal problem. To this end, we propose TransWeather, a transformer-based end-to-end model with just a single encoder and a decoder that can restore an image degraded by any weather condition. Specifically, we utilize a novel transformer encoder using intra-patch transformer blocks to enhance attention inside the patches to effectively remove smaller weather degradations. We also introduce a transformer decoder with learnable weather type embeddings to adjust to the weather degradation at hand. TransWeather achieves significant improvements across multiple test datasets over both All-in-One network as well as methods fine-tuned for specific tasks. In particular, TransWeather pushes the current state-of-the-art by +6.34 PSNR on the Test1 (rain+fog) dataset, +4.93 PSNR on the SnowTest100K-L dataset and +3.11 PSNR on the RainDrop test dataset. TransWeather is also validated on real world test images and found to be more effective than previous methods. Implementation code and pre-trained weights can be accessed at https://github.com/j eya-maria-jose/Trans Weather .
翻訳日:2021-11-30 17:32:19 公開日:2021-11-29
# 適応可能なモデルを学ぶ

Learning to Fit Morphable Models ( http://arxiv.org/abs/2111.14824v1 )

ライセンス: Link先を確認
Vasileios Choutas, Federica Bogo, Jingjing Shen, Julien Valentin(参考訳) 人体、手、顔のパラメトリックモデルを用いて、正確な、堅牢で高速な方法で入力信号を分離することで、ARおよびVRシナリオにおける没入性を大幅に改善する、という約束がある。 これらの問題に取り組むシステムにおける一般的な第1ステップは、入力データから直接パラメトリックモデルのパラメータを後退させることである。 このアプローチは高速で堅牢であり、反復最小化アルゴリズムにとって良い出発点である。 後者は、典型的にはデータ項と問題の構造に関する我々の知識をエンコードする事前からなるエネルギー関数の最小値を求める。 これは非常に成功したレシピであることは間違いないが、前者は手作業で定義されるヒューリスティックスであり、高品質な結果を達成するために異なる用語間の適切なバランスを見つけることは、簡単ではない。 さらに、これらのシステムをパフォーマンスの高い方法で動作させるには、エンジニアとドメインの専門家の両方にかなりの時間的投資を必要とするカスタム実装が必要です。 本研究では,近年の学習最適化の進歩と,レベンベルク・マーカルトアルゴリズムに触発された更新規則を提案する。 提案したニューラルオプティマイザが頭部装着装置からの3次元体表面推定と2次元ランドマークからの顔の嵌合に及ぼす影響を示す。 本手法は,新しいモデルフィッティング問題に容易に適用でき,精度と速度の両面で,よく調整された「伝統的な」モデルフィッティングパイプラインの代替手段を提供する。

Fitting parametric models of human bodies, hands or faces to sparse input signals in an accurate, robust, and fast manner has the promise of significantly improving immersion in AR and VR scenarios. A common first step in systems that tackle these problems is to regress the parameters of the parametric model directly from the input data. This approach is fast, robust, and is a good starting point for an iterative minimization algorithm. The latter searches for the minimum of an energy function, typically composed of a data term and priors that encode our knowledge about the problem's structure. While this is undoubtedly a very successful recipe, priors are often hand defined heuristics and finding the right balance between the different terms to achieve high quality results is a non-trivial task. Furthermore, converting and optimizing these systems to run in a performant way requires custom implementations that demand significant time investments from both engineers and domain experts. In this work, we build upon recent advances in learned optimization and propose an update rule inspired by the classic Levenberg-Marquardt algorithm. We show the effectiveness of the proposed neural optimizer on the problems of 3D body surface estimation from a head-mounted device and face fitting from 2D landmarks. Our method can easily be applied to new model fitting problems and offers a competitive alternative to well tuned 'traditional' model fitting pipelines, both in terms of accuracy and speed.
翻訳日:2021-11-30 17:31:46 公開日:2021-11-29
# (参考訳) グラフニューラルネットワークと多変量正規分布を用いた犯罪予測 [全文訳有]

Crime Prediction with Graph Neural Networks and Multivariate Normal Distributions ( http://arxiv.org/abs/2111.14733v1 )

ライセンス: CC BY 4.0
Selim Furkan Tekin, Suleyman Serdar Kozat(参考訳) 犯罪予測問題に対する既存のアプローチは、大きな領域に確率値を割り当てるため、詳細を表現するのに失敗している。 本稿では,グラフ畳み込みネットワーク(gcn)と多変量ガウス分布を用いて,時空間データに適用可能な高分解能予測を行う新しいアーキテクチャを提案する。 我々はGCNのフレキシブルな構造を活用し、分割アルゴリズムを提供することにより、高分解能で空間幅の問題に取り組む。 グラフ畳み込みGated Recurrent Units (Graph-ConvGRU) を用いてモデルを構築し,空間的・時間的・カテゴリー的関係を学習する。 グラフの各ノードにおいて,GCNの抽出した特徴から多変量確率分布を学習する。 実生活および合成データセットの実験を行い、本モデルでは、ベースラインモデルの中で最高の検証結果と最適なテストスコアを得られた。 我々のモデルは生成性だけでなく正確性も示している。

Existing approaches to the crime prediction problem are unsuccessful in expressing the details since they assign the probability values to large regions. This paper introduces a new architecture with the graph convolutional networks (GCN) and multivariate Gaussian distributions to perform high-resolution forecasting that applies to any spatiotemporal data. We tackle the sparsity problem in high resolution by leveraging the flexible structure of GCNs and providing a subdivision algorithm. We build our model with Graph Convolutional Gated Recurrent Units (Graph-ConvGRU) to learn spatial, temporal, and categorical relations. In each node of the graph, we learn a multivariate probability distribution from the extracted features of GCNs. We perform experiments on real-life and synthetic datasets, and our model obtains the best validation and the best test score among the baseline models with significant improvements. We show that our model is not only generative but also precise.
翻訳日:2021-11-30 17:28:40 公開日:2021-11-29
# tal: 一般化可能な人物再識別のための2ストリーム適応学習

TAL: Two-stream Adaptive Learning for Generalizable Person Re-identification ( http://arxiv.org/abs/2111.14290v1 )

ライセンス: Link先を確認
Yichao Yan, Junjie Li, Shengcai Liao, Jie Qin, Bingbing Ni, Xiaokang Yang(参考訳) ドメイン一般化された人物再識別は、未発見のドメインに訓練されたモデルを適用することを目的としている。 以前の作業では、すべてのトレーニングドメインのデータを組み合わせてドメイン不変の機能をキャプチャするか、あるいはドメイン固有の情報を調べるために専門家の混在を採用しています。 本研究では、ドメイン固有性とドメイン不変性の両方が、re-idモデルの一般化能力を向上するために重要であると論じる。 そこで我々は,これら2種類の情報を同時にモデル化するために,2ストリーム適応学習(TAL)という新しいフレームワークを設計する。 具体的には、バッチ正規化(bn)パラメータによるトレーニングドメイン統計をキャプチャするためにドメイン固有ストリームが提案され、ドメインレベルの情報を動的に集約するために適応マッチング層が設計されている。 その間、ドメイン不変ストリームに適応的なBN層を設計し、様々な未知領域の統計を近似する。 これら2つのストリームは適応的で協調的に動作し、一般化可能なre-id機能を学ぶ。 我々のフレームワークは、単一ソースと複数ソースの両方のドメイン一般化タスクに適用でき、実験結果から、我々のフレームワークが最先端の手法よりも優れていることが分かる。

Domain generalizable person re-identification aims to apply a trained model to unseen domains. Prior works either combine the data in all the training domains to capture domain-invariant features, or adopt a mixture of experts to investigate domain-specific information. In this work, we argue that both domain-specific and domain-invariant features are crucial for improving the generalization ability of re-id models. To this end, we design a novel framework, which we name two-stream adaptive learning (TAL), to simultaneously model these two kinds of information. Specifically, a domain-specific stream is proposed to capture training domain statistics with batch normalization (BN) parameters, while an adaptive matching layer is designed to dynamically aggregate domain-level information. In the meantime, we design an adaptive BN layer in the domain-invariant stream, to approximate the statistics of various unseen domains. These two streams work adaptively and collaboratively to learn generalizable re-id features. Our framework can be applied to both single-source and multi-source domain generalization tasks, where experimental results show that our framework notably outperforms the state-of-the-art methods.
翻訳日:2021-11-30 17:06:34 公開日:2021-11-29
# シーンテキスト検出のための注意型特徴分解再構成ネットワーク

Attention-based Feature Decomposition-Recons truction Network for Scene Text Detection ( http://arxiv.org/abs/2111.14340v1 )

ライセンス: Link先を確認
Qi Zhao, Yufei Wang, Shuchang Lyu, Lijiang Chen(参考訳) 近年,シーンのテキスト検出が課題となっている。 任意の形や大きなアスペクト比を持つテキストは通常、検出が難しい。 従来のセグメンテーションベース手法では、曲線テキストをより正確に記述できるが、セグメンテーションやテキストの密着性に苦しむ。 本稿では,文脈情報と低レベル特徴を利用してセグメンテーションに基づくテキスト検出の性能を向上させるシーンテキスト検出のための注目型特徴分解再構成ネットワークを提案する。 機能融合の段階では,マルチスケール機能への注目機構を付加することにより,テキストの文脈情報を強化するクロスレベルアテンションモジュールを導入する。 確率マップ生成の段階において,高アスペクト比テキストのオーバセグメンテーション問題を緩和する特徴分解再構成モジュールを提案し,その周波数特性に応じてテキスト特徴を分解し,低レベル特徴を加えて再構成する。 2つのベンチマークデータセットで実験を行い,提案手法が最先端の性能を実現することを示す。

Recently, scene text detection has been a challenging task. Texts with arbitrary shape or large aspect ratio are usually hard to detect. Previous segmentation-based methods can describe curve text more accurately but suffer from over segmentation and text adhesion. In this paper, we propose attention-based feature decomposition-recons truction network for scene text detection, which utilizes contextual information and low-level feature to enhance the performance of segmentation-based text detector. In the phase of feature fusion, we introduce cross level attention module to enrich contextual information of text by adding attention mechanism on fused multi-scaled feature. In the phase of probability map generation, a feature decomposition-recons truction module is proposed to alleviate the over segmentation problem of large aspect ratio text, which decomposes text feature according to their frequency characteristic and then reconstructs it by adding low-level feature. Experiments have been conducted on two public benchmark datasets and results show that our proposed method achieves state-of-the-art performance.
翻訳日:2021-11-30 17:04:19 公開日:2021-11-29
# 合成未知データを利用した異常認識セマンティックセマンティックセグメンテーション

Anomaly-Aware Semantic Segmentation by Leveraging Synthetic-Unknown Data ( http://arxiv.org/abs/2111.14343v1 )

ライセンス: Link先を確認
Guan-Rong Lu, Yueh-Cheng Liu, Tung-I Chen, Hung-Ting Su, Tsung-Han Wu, Winston H. Hsu(参考訳) 自律運転のような安全クリティカルなアプリケーションにとって、異常認識は必須の能力である。 近年,ロボット工学やコンピュータビジョンの進歩により画像分類の異常検出が可能になっているが,意味セグメンテーションにおける異常検出は少ない。 既存のクラスをアウトオブディストリビューション (pseudo-unknown) クラスとしてモデルトレーニングに想定する従来のアノマリーアウェアシステムは、2つの欠点をもたらす。 1)アプリケーションが対応する必要のある未知のクラスは,トレーニング期間中に実際に存在しない可能性がある。 (2) モデルのパフォーマンスはクラスの選択に大きく依存します。 そこで本研究では, 意味セグメンテーション課題に対処すべく, 新たな合成未知データ生成手法を提案する。 我々は,分布内データ点の境界に沿って補助データを生成するMasked Gradient Update (MGU) モジュールを新たに設計した。 さらに,従来のクロスエントロピー損失を補正して,境界データポイントを強調する。 2つの異常セグメンテーションデータセットの最先端性能に到達する。 アブレーション研究は、提案されたモジュールの有効性も示している。

Anomaly awareness is an essential capability for safety-critical applications such as autonomous driving. While recent progress of robotics and computer vision has enabled anomaly detection for image classification, anomaly detection on semantic segmentation is less explored. Conventional anomaly-aware systems assuming other existing classes as out-of-distribution (pseudo-unknown) classes for training a model will result in two drawbacks. (1) Unknown classes, which applications need to cope with, might not actually exist during training time. (2) Model performance would strongly rely on the class selection. Observing this, we propose a novel Synthetic-Unknown Data Generation, intending to tackle the anomaly-aware semantic segmentation task. We design a new Masked Gradient Update (MGU) module to generate auxiliary data along the boundary of in-distribution data points. In addition, we modify the traditional cross-entropy loss to emphasize the border data points. We reach the state-of-the-art performance on two anomaly segmentation datasets. Ablation studies also demonstrate the effectiveness of proposed modules.
翻訳日:2021-11-30 17:04:02 公開日:2021-11-29
# 符号付き第1パワーリニアユニット

First Power Linear Unit with Sign ( http://arxiv.org/abs/2111.14349v1 )

ライセンス: Link先を確認
Boxi Duan(参考訳) ポーラサインを形式化した数学的パワー関数を利用するFPLUSという,新規で洞察に富んだアクティベーション手法を提案する。 ビオニクスの直感的な意味を与えながら、共通の逆操作によって啓蒙される。 この定式化は、理論上、いくつかの事前知識と予測特性の条件の下で導出され、その実現可能性は、典型的なベンチマークデータセットを用いた一連の実験によって検証される。 さらに,より一般化されたpfplus型に対して,固定あるいは学習可能なパラメータを2つ備えた関数を拡張し,その表現能力を高め,同一テストの結果がこの改善を検証した。

This paper proposes a novel and insightful activation method termed FPLUS, which exploits mathematical power function with polar signs in form. It is enlightened by common inverse operation while endowed with an intuitive meaning of bionics. The formulation is derived theoretically under conditions of some prior knowledge and anticipative properties, and then its feasibility is verified through a series of experiments using typical benchmark datasets, whose results indicate our approach owns superior competitiveness among numerous activation functions, as well as compatible stability across many CNN architectures. Furthermore, we extend the function presented to a more generalized type called PFPLUS with two parameters that can be fixed or learnable, so as to augment its expressive capacity, and outcomes of identical tests validate this improvement.
翻訳日:2021-11-30 17:03:45 公開日:2021-11-29
# サンプルからサンプルへの自己蒸留による半教師付きドメイン適応

Semi-supervised Domain Adaptation via Sample-to-Sample Self-Distillation ( http://arxiv.org/abs/2111.14353v1 )

ライセンス: Link先を確認
Jeongbeen Yoon, Dahyun Kang, Minsu Cho(参考訳) 半教師付きドメイン適応 (ssda) は、ソースドメインに大きなラベル付きデータセットが与えられたとき、ラベル付きサンプルの小さなセットだけで学習者を新しいドメインに適応させることである。 本稿では,サンプル対を用いた自己蒸留を用いて,対象領域にモデルを適応させるSSDA法を提案する。 各サンプルペアはラベル付きデータセット(ソースまたはラベル付きターゲット)からの教師サンプルとそのラベル付きデータセット(ラベル付きターゲット)からの学生サンプルで構成されている。 本手法は,教師と生徒の間で中間的なスタイルを伝達し,学生と助手の出力差を最小限に抑えてモデルを訓練することで,支援機能を生成する。 訓練中、アシスタントは2つのドメイン間の相違を徐々に橋渡しし、生徒は教師から容易に学ぶことができる。 評価実験の結果,本手法はドメイン間差とドメイン内差を効果的に最小化し,近年の手法に比べて大幅な改善が得られた。

Semi-supervised domain adaptation (SSDA) is to adapt a learner to a new domain with only a small set of labeled samples when a large labeled dataset is given on a source domain. In this paper, we propose a pair-based SSDA method that adapts a model to the target domain using self-distillation with sample pairs. Each sample pair is composed of a teacher sample from a labeled dataset (i.e., source or labeled target) and its student sample from an unlabeled dataset (i.e., unlabeled target). Our method generates an assistant feature by transferring an intermediate style between the teacher and the student, and then train the model by minimizing the output discrepancy between the student and the assistant. During training, the assistants gradually bridge the discrepancy between the two domains, thus allowing the student to easily learn from the teacher. Experimental evaluation on standard benchmarks shows that our method effectively minimizes both the inter-domain and intra-domain discrepancies, thus achieving significant improvements over recent methods.
翻訳日:2021-11-30 17:03:31 公開日:2021-11-29
# 逆境協調による知識蒸留の改善

Improved Knowledge Distillation via Adversarial Collaboration ( http://arxiv.org/abs/2111.14356v1 )

ライセンス: Link先を確認
Zhiqiang Liu, Chengkai Huang, Yanxia Liu(参考訳) 知識蒸留はコンパクトで効果的なモデルを得るための重要なアプローチとなっている。 この目的を達成するために、小規模の学生モデルを訓練し、大規模に訓練された教師モデルの知識を活用する。 しかし,教師と生徒の能力格差のため,生徒の成績が教師のレベルに達することは困難である。 この問題に関して,既存の手法では,教師の知識の難易度をプロキシ方式で低減することを提案する。 これらのプロキシベースの手法は教師の知識喪失を見落としているため、生徒は能力のボトルネックに遭遇する可能性がある。 本稿では,知識喪失を回避することを目的として,新たな視点からキャパシティギャップ問題を緩和する。 教師の知識の一部を犠牲にする代わりに、対戦型協調学習を通じてより強力な学生を構築することを提案する。 この目的のために,本研究では,知識蒸留の性能を効果的に向上するadversarial Collaborative Knowledge Distillation (ACKD)法を提案する。 具体的には,複数の補助学習者を用いた学生モデルを構築する。 一方,学生の能力を高めるために,注意機構と対人学習を導入した対人協調モジュール(ACM)を考案した。 4つの分類タスクに関する大規模な実験は、提案したACKDの優位性を示している。

Knowledge distillation has become an important approach to obtain a compact yet effective model. To achieve this goal, a small student model is trained to exploit the knowledge of a large well-trained teacher model. However, due to the capacity gap between the teacher and the student, the student's performance is hard to reach the level of the teacher. Regarding this issue, existing methods propose to reduce the difficulty of the teacher's knowledge via a proxy way. We argue that these proxy-based methods overlook the knowledge loss of the teacher, which may cause the student to encounter capacity bottlenecks. In this paper, we alleviate the capacity gap problem from a new perspective with the purpose of averting knowledge loss. Instead of sacrificing part of the teacher's knowledge, we propose to build a more powerful student via adversarial collaborative learning. To this end, we further propose an Adversarial Collaborative Knowledge Distillation (ACKD) method that effectively improves the performance of knowledge distillation. Specifically, we construct the student model with multiple auxiliary learners. Meanwhile, we devise an adversarial collaborative module (ACM) that introduces attention mechanism and adversarial learning to enhance the capacity of the student. Extensive experiments on four classification tasks show the superiority of the proposed ACKD.
翻訳日:2021-11-30 17:03:12 公開日:2021-11-29
# IDR:イテレーティブデータリファインメントによる自己監視画像デノーミング

IDR: Self-Supervised Image Denoising via Iterative Data Refinement ( http://arxiv.org/abs/2111.14358v1 )

ライセンス: Link先を確認
Yi Zhang, Dasong Li, Ka Lung Law, Xiaogang Wang, Hongwei Qin, Hongsheng Li(参考訳) 大規模ノイズとクリーンなイメージペアの欠如は、実際のアプリケーションにおける教師付きdenoisingメソッドのデプロイメントを制限する。 既存の教師なしの手法では、地味なクリーンなイメージを使わずに画像の復調を学べるが、パフォーマンスが悪いか、非現実的な設定(例えばペアのノイズのある画像)で作業する。 本稿では,最先端のデノージング性能を実現するための実用的な非教師なし画像デノージング手法を提案する。 本手法では,単一のノイズ画像とノイズモデルのみが必要であり,実際の生画像から容易にアクセス可能である。 1)ノイズモデルからランダムノイズでノイズの多いデータセットを構築すること,(2)ノイズの多いデータセット上でモデルをトレーニングすること,およびトレーニングされたモデルを用いてノイズの多い画像を洗練し,次のラウンドで使用するターゲットを得る。 さらに,本手法を高速なアルゴリズムで近似し,元の高性能を保ちながら,より効率的なトレーニングを行う。 実世界, 合成, 相関雑音実験の結果, 提案手法は, 既存の非教師付き手法よりも優れた性能を示し, 教師付き手法との競合性能を示す。 さらに、既存の復調データセットは低品質であり、少数のシーンしか含まないと主張する。 実世界のアプリケーションにおける生画像のデノージング性能を評価するため,500シーンを含む高品質な生画像データセットsensenoise-500を構築した。 このデータセットは、生画像のノイズ評価を改善するための強力なベンチマークとして機能する。 コードとデータセットはhttps://github.com/z hangyi-3/idrでリリースされる。

The lack of large-scale noisy-clean image pairs restricts supervised denoising methods' deployment in actual applications. While existing unsupervised methods are able to learn image denoising without ground-truth clean images, they either show poor performance or work under impractical settings (e.g., paired noisy images). In this paper, we present a practical unsupervised image denoising method to achieve state-of-the-art denoising performance. Our method only requires single noisy images and a noise model, which is easily accessible in practical raw image denoising. It performs two steps iteratively: (1) Constructing a noisier-noisy dataset with random noise from the noise model; (2) training a model on the noisier-noisy dataset and using the trained model to refine noisy images to obtain the targets used in the next round. We further approximate our full iterative method with a fast algorithm for more efficient training while keeping its original high performance. Experiments on real-world, synthetic, and correlated noise show that our proposed unsupervised denoising approach has superior performances over existing unsupervised methods and competitive performance with supervised methods. In addition, we argue that existing denoising datasets are of low quality and contain only a small number of scenes. To evaluate raw image denoising performance in real-world applications, we build a high-quality raw image dataset SenseNoise-500 that contains 500 real-life scenes. The dataset can serve as a strong benchmark for better evaluating raw image denoising. Code and dataset will be released at https://github.com/z hangyi-3/IDR
翻訳日:2021-11-30 17:02:55 公開日:2021-11-29
# VPFNet:仮想ポイントベースLiDARとステレオデータ融合による3次元物体検出の改善

VPFNet: Improving 3D Object Detection with Virtual Point based LiDAR and Stereo Data Fusion ( http://arxiv.org/abs/2111.14382v1 )

ライセンス: Link先を確認
Hanqi Zhu, Jiajun Deng, Yu Zhang, Jianmin Ji, Qiuyu Mao, Houqiang Li, Yanyong Zhang(参考訳) 奥行きを認識できるlidar点雲と意味に富んだステレオ画像からの補完情報を融合することは3dオブジェクト検出に有用であると認識されている。 それでも、スパース3D点と密度2Dピクセルの間の本質的に不自然な相互作用を探索することは簡単ではない。 この困難を解消するため、最近の提案では一般的に3Dポイントを2次元画像平面に投影し、画像データをサンプリングし、その点にデータを集約する。 しかし、このアプローチはポイントクラウドの解像度とRGBイメージのミスマッチに悩まされ、亜最適性能をもたらすことが多い。 具体的には、スパースポイントをマルチモーダルデータ集約位置として捉えると、高解像度画像に対して深刻な情報損失が生じ、それによってマルチセンサ融合の有効性が損なわれる。 本稿では、"仮想"ポイントでポイントクラウドとイメージデータを巧みに調整し、集約する新しいアーキテクチャであるVPFNetを紹介します。 特に、その密度が3Dポイントと2Dピクセルの間にあることにより、仮想ポイントは2つのセンサー間の解像度ギャップをうまくブリッジし、処理のためのより多くの情報を保持することができる。 さらに,3次元物体検出装置への非無視的な貢献により,点雲とRGB画像の両方に適用可能なデータ拡張技術についても検討した。 我々は、KITTIデータセットに関する広範な実験を行い、最先端の手法と比較して優れた性能を示した。 注目すべきは、当社のVPFNetがKITTIテストセットで83.21\%中等度3D APと91.86\%中等度BEV APを達成したことだ。 ネットワーク設計は計算効率も考慮に入れています -- 単一のnvidia rtx 2080ti gpuで15fpsを実現できます。 コードは再生およびさらなる調査のために利用可能になる。

It has been well recognized that fusing the complementary information from depth-aware LiDAR point clouds and semantic-rich stereo images would benefit 3D object detection. Nevertheless, it is not trivial to explore the inherently unnatural interaction between sparse 3D points and dense 2D pixels. To ease this difficulty, the recent proposals generally project the 3D points onto the 2D image plane to sample the image data and then aggregate the data at the points. However, this approach often suffers from the mismatch between the resolution of point clouds and RGB images, leading to sub-optimal performance. Specifically, taking the sparse points as the multi-modal data aggregation locations causes severe information loss for high-resolution images, which in turn undermines the effectiveness of multi-sensor fusion. In this paper, we present VPFNet -- a new architecture that cleverly aligns and aggregates the point cloud and image data at the `virtual' points. Particularly, with their density lying between that of the 3D points and 2D pixels, the virtual points can nicely bridge the resolution gap between the two sensors, and thus preserve more information for processing. Moreover, we also investigate the data augmentation techniques that can be applied to both point clouds and RGB images, as the data augmentation has made non-negligible contribution towards 3D object detectors to date. We have conducted extensive experiments on KITTI dataset, and have observed good performance compared to the state-of-the-art methods. Remarkably, our VPFNet achieves 83.21\% moderate 3D AP and 91.86\% moderate BEV AP on the KITTI test set, ranking the 1st since May 21th, 2021. The network design also takes computation efficiency into consideration -- we can achieve a FPS of 15 on a single NVIDIA RTX 2080Ti GPU. The code will be made available for reproduction and further investigation.
翻訳日:2021-11-30 17:02:25 公開日:2021-11-29
# MPI補正と過渡的再構成のための軽量ディープラーニングアーキテクチャ

Lightweight Deep Learning Architecture for MPI Correction and Transient Reconstruction ( http://arxiv.org/abs/2111.14396v1 )

ライセンス: Link先を確認
Adriano Simonetto, Gianluca Agresti, Pietro Zanuttigh and Henrik Sch\"afer(参考訳) 間接飛行時間カメラ(iToF)は、フレームレートで深度画像を提供する安価な装置である。 しかし、それらは異なるエラーソースの影響を受けており、マルチパス干渉(MPI)によるスポットライトは、この技術の重要な課題である。 一般的なデータ駆動型アプローチは、シーン内の光の過渡伝播を無視して出力深さ値の直接推定に焦点を当てる傾向がある。 そこで本研究では,MPIの除去と過渡情報自体の再構築のために,過渡情報の直接部分分割を利用する,非常にコンパクトなアーキテクチャを提案する。 提案したモデルは,合成データと実データの両方で最先端のMPI補正性能に到達し,超高レベルのノイズでも非常に競合することを示すと同時に,多周波iToFデータから過渡的な情報を再構成するステップも進めている。

Indirect Time-of-Flight cameras (iToF) are low-cost devices that provide depth images at an interactive frame rate. However, they are affected by different error sources, with the spotlight taken by Multi-Path Interference (MPI), a key challenge for this technology. Common data-driven approaches tend to focus on a direct estimation of the output depth values, ignoring the underlying transient propagation of the light in the scene. In this work instead, we propose a very compact architecture, leveraging on the direct-global subdivision of transient information for the removal of MPI and for the reconstruction of the transient information itself. The proposed model reaches state-of-the-art MPI correction performances both on synthetic and real data and proves to be very competitive also at extreme levels of noise; at the same time, it also makes a step towards reconstructing transient information from multi-frequency iToF data.
翻訳日:2021-11-30 17:01:50 公開日:2021-11-29
# IB-MVS:二項決定に基づく深層多視点ステレオの反復アルゴリズム

IB-MVS: An Iterative Algorithm for Deep Multi-View Stereo based on Binary Decisions ( http://arxiv.org/abs/2111.14420v1 )

ライセンス: Link先を確認
Christian Sormann (1), Mattia Rossi (2), Andreas Kuhn (2), Friedrich Fraundorfer (1) ((1) Graz University of Technology, (2) Sony Europe B.V.)(参考訳) マルチビューステレオの新しいディープラーニング手法を提案する。 本手法は,各画素における可逆深度値の連続空間を二元決定方法でトラバースすることにより,高分解能かつ高精度な深度マップを反復的に推定する。 決定プロセスはディープネットワークアーキテクチャを利用する。これはピクセルワイズバイナリマスクを計算し、各ピクセルの実際の深さが前か、現在のイテレーションの個々の深さ仮説の背後にあるかを決定する。 さらに、隠蔽領域を扱うために、各イテレーションで異なるソース画像の結果を第2のネットワークで推定した画素単位の重みで融合する。 深度空間を効率的に探索できる2値決定方式を採用することにより,高解像度画像の処理を高精度に行うことが可能となる。 これは、多くの学習ベースの多視点ステレオ法と異なり、深度空間の明示的な離散化は、大きなコストボリュームの処理を必要とする。 提案手法をDTU, タンク, テンプル上の最先端のマルチビューステレオ手法とETH3Dベンチマークを用いて比較し, 競争結果を示す。

We present a novel deep-learning-based method for Multi-View Stereo. Our method estimates high resolution and highly precise depth maps iteratively, by traversing the continuous space of feasible depth values at each pixel in a binary decision fashion. The decision process leverages a deep-network architecture: this computes a pixelwise binary mask that establishes whether each pixel actual depth is in front or behind its current iteration individual depth hypothesis. Moreover, in order to handle occluded regions, at each iteration the results from different source images are fused using pixelwise weights estimated by a second network. Thanks to the adopted binary decision strategy, which permits an efficient exploration of the depth space, our method can handle high resolution images without trading resolution and precision. This sets it apart from most alternative learning-based Multi-View Stereo methods, where the explicit discretization of the depth space requires the processing of large cost volumes. We compare our method with state-of-the-art Multi-View Stereo methods on the DTU, Tanks and Temples and the challenging ETH3D benchmarks and show competitive results.
翻訳日:2021-11-30 17:01:34 公開日:2021-11-29
# (参考訳) 動的推論 [全文訳有]

Dynamic Inference ( http://arxiv.org/abs/2111.14746v1 )

ライセンス: CC BY 4.0
Aolin Xu(参考訳) 従来の統計的推定、あるいは一般に統計的推測は、興味の量の推定が将来の量の進化を変えないという意味で静的である。 しかし、いくつかの逐次推定問題では、推定される量の将来値がその現在の値の推定に依存する状況に遭遇する。 例えば、大手投資家による株価予測、インタラクティブな製品推奨、マルチエージェントシステムの行動予測などだ。 動的推論のような問題を呼ぶことができる。 本研究では,ベイズ確率的枠組みの下でこの問題の定式化を行い,全体の推測損失を最小化するための最適推定戦略を導出する。 最適推定戦略の動作は,ストックトレンド予測と車両挙動予測の2つの例から説明される。 動的推論の基盤となるモデルが未知である場合、動的推論の学習の問題を考えることができる。 この学習問題は、教師付き学習、模倣学習、強化学習など、よく知られた機械学習問題を統一する可能性がある。

Traditional statistical estimation, or statistical inference in general, is static, in the sense that the estimate of the quantity of interest does not change the future evolution of the quantity. In some sequential estimation problems however, we encounter the situation where the future values of the quantity to be estimated depend on the estimate of its current value. Examples include stock price prediction by big investors, interactive product recommendation, and behavior prediction in multi-agent systems. We may call such problems as dynamic inference. In this work, a formulation of this problem under a Bayesian probabilistic framework is given, and the optimal estimation strategy is derived as the solution to minimize the overall inference loss. How the optimal estimation strategy works is illustrated through two examples, stock trend prediction and vehicle behavior prediction. When the underlying models for dynamic inference are unknown, we can consider the problem of learning for dynamic inference. This learning problem can potentially unify several familiar machine learning problems, including supervised learning, imitation learning, and reinforcement learning.
翻訳日:2021-11-30 17:00:19 公開日:2021-11-29
# 後継表現による経験リプレイの改善

Improving Experience Replay with Successor Representation ( http://arxiv.org/abs/2111.14331v1 )

ライセンス: Link先を確認
Yizhi Yuan, Marcelo Mattar(参考訳) priorityd experience replayは、エージェントがより頻繁に有用な過去の体験を再生できるようにすることで、学習をスピードアップするための強化学習テクニックである。 この有用性は、経験の再生による期待値として定量化され、対応する経験中に観測される予測誤差(td-error)として近似されることが多い。 しかし、予測誤差は唯一可能な優先順位付け基準である。 神経科学における最近の研究は、生物ではリプレイが利得とニーズの両方によって優先されることを示唆している。 ニーズ項は、現在の状況に関する各経験の期待される妥当性を測るものであり、より重要なことは、現在ディープQネットワーク(DQN)のようなアルゴリズムでは考慮されていない。 そこで本稿では,利得とニーズの両方を考慮したリプレイ体験の優先順位付け手法を提案する。 我々は,異なる強化学習アルゴリズムのサンプリングプロセスにおいて,後継表現として定量化される必要項を考慮し,本手法を検証した。 提案アルゴリズムは,Dyna-Q迷路やアタリゲームの選択など,ベンチマークのパフォーマンスが著しく向上していることを示す。

Prioritized experience replay is a reinforcement learning technique shown to speed up learning by allowing agents to replay useful past experiences more frequently. This usefulness is quantified as the expected gain from replaying the experience, and is often approximated as the prediction error (TD-error) observed during the corresponding experience. However, prediction error is only one possible prioritization metric. Recent work in neuroscience suggests that, in biological organisms, replay is prioritized by both gain and need. The need term measures the expected relevance of each experience with respect to the current situation, and more importantly, this term is not currently considered in algorithms such as deep Q-network (DQN). Thus, in this paper we present a new approach for prioritizing experiences for replay that considers both gain and need. We test our approach by considering the need term, quantified as the Successor Representation, into the sampling process of different reinforcement learning algorithms. Our proposed algorithms show a significant increase in performance in benchmarks including the Dyna-Q maze and a selection of Atari games.
翻訳日:2021-11-30 16:38:02 公開日:2021-11-29
# fedhm:低ランク因子分解によるヘテロジニアスモデルの効率的なフェデレート学習

FedHM: Efficient Federated Learning for Heterogeneous Models via Low-rank Factorization ( http://arxiv.org/abs/2111.14655v1 )

ライセンス: Link先を確認
Dezhong Yao, Wanning Pan, Yao Wan, Hai Jin, Lichao Sun(参考訳) 最近のフェデレートラーニング(FL)パラダイムの根底にある前提は、ローカルモデルは一般的にグローバルモデルと同じネットワークアーキテクチャを共有しており、ハードウェアとインフラの異なるモバイルとIoTデバイスでは実用的ではない、というものである。 スケーラブルな連合学習フレームワークは、異なる計算能力と通信能力を備えた異種クライアントに対処する必要がある。 そこで本稿では,ヘテロジニアスな低ランクモデルをクライアントに分散し,それらをグローバルフルランクモデルに集約する,新しいフェデレーションモデル圧縮フレームワークfederated modelについて述べる。 我々のソリューションは、計算複雑性の異なる異種局所モデルのトレーニングを可能にし、単一のグローバルモデルを集約する。 さらに、FedHMはデバイスの計算複雑性を低減させるだけでなく、低ランクモデルを使用することで通信コストを低減させる。 実験結果から,提案手法はTop-1の精度(平均4.6%の精度向上),モデルサイズ(平均1.5倍の精度向上)において,様々な不均一なFL設定下で,現在のフラニングベースFLアプローチよりも優れた性能を示した。

The underlying assumption of recent federated learning (FL) paradigms is that local models usually share the same network architecture as the global model, which becomes impractical for mobile and IoT devices with different setups of hardware and infrastructure. A scalable federated learning framework should address heterogeneous clients equipped with different computation and communication capabilities. To this end, this paper proposes FedHM, a novel federated model compression framework that distributes the heterogeneous low-rank models to clients and then aggregates them into a global full-rank model. Our solution enables the training of heterogeneous local models with varying computational complexities and aggregates a single global model. Furthermore, FedHM not only reduces the computational complexity of the device, but also reduces the communication cost by using low-rank models. Extensive experimental results demonstrate that our proposed \system outperforms the current pruning-based FL approaches in terms of test Top-1 accuracy (4.6% accuracy gain on average), with smaller model size (1.5x smaller on average) under various heterogeneous FL settings.
翻訳日:2021-11-30 16:37:43 公開日:2021-11-29
# 陰性サンプリングを伴わない計算薬物再配置

The Computational Drug Repositioning without Negative Sampling ( http://arxiv.org/abs/2111.14696v1 )

ライセンス: Link先を確認
Xinxing Yang and Genke Yang and Jian Chu(参考訳) 薬物再配置技術は薬物開発を加速する有効なツールである。 この手法はここ数十年で広く使われ、成功を収めてきたが、多くの既存モデルは、大量の非有毒薬物放出関連や行列分解モデルにおける内積など、多くの欠点に悩まされている。 これらの研究の限界は、主に次の2つの理由による: 先行研究は、非有毒な薬物放出関連を負のサンプルとして扱うために負のサンプリング技術を使用しており、これは現実の環境では無効である; 第二に、内積は潜伏因子の寸法間の交叉情報に関するモデリングを欠いている。 本稿では,本研究の成果を生かした新しいPUONフレームワークを提案する。このフレームワークは,陰性サンプリング手法を使わずに,検証済みおよび未検証の薬物放出関連体を用いた薬物放出連関の連関分布をモデル化する。 プーンはまた、外製品操作を用いて薬物や疾患の潜在因子のクロス情報をモデル化した。 総合的な比較では、7つの人気のあるベースラインを検討した。 2つの実世界のデータセットの大規模な実験により、PUONは6つの一般的な評価基準に基づいて最高のパフォーマンスを達成した。

Computational drug repositioning technology is an effective tool to accelerate drug development. Although this technique has been widely used and successful in recent decades, many existing models still suffer from multiple drawbacks such as the massive number of unvalidated drug-disease associations and inner product in the matrix factorization model. The limitations of these works are mainly due to the following two reasons: first, previous works used negative sampling techniques to treat unvalidated drug-disease associations as negative samples, which is invalid in real-world settings; Second, the inner product lacks modeling on the crossover information between dimensions of the latent factor. In this paper, we propose a novel PUON framework for addressing the above deficiencies, which models the joint distribution of drug-disease associations using validated and unvalidated drug-disease associations without employing negative sampling techniques. The PUON also modeled the cross-information of the latent factor of drugs and diseases using the outer product operation. For a comprehensive comparison, we considered 7 popular baselines. Extensive experiments in two real-world datasets showed that PUON achieved the best performance based on 6 popular evaluation metrics.
翻訳日:2021-11-30 16:37:22 公開日:2021-11-29
# ガウス過程を満足するコンビネータ型揮発性バンディット

Contextual Combinatorial Volatile Bandits with Satisfying via Gaussian Processes ( http://arxiv.org/abs/2111.14778v1 )

ライセンス: Link先を確認
Sepehr Elahi, Baran Atalar, Sevda \"O\u{g}\"ut, Cem Tekin(参考訳) コンテントキャッシングのような組合せバンディットの現実世界の多くのアプリケーションでは、最小限のサービス要件を満たしながら報酬を最大化しなければならない。 加えて、ベースアームの有効性は時間とともに変化し、報酬を最大化するために状況に適応する必要がある。 我々は,これらの課題に対処するために,グループ閾値を持つContextual Combinatorial Volatile Banditsと呼ばれる新しいバンディットモデルを提案する。 我々のモデルは、スーパーアームをベースアームのグループのサブセットと考えることで、組合せ帯域を仮定する。 スーパーアームを構成する全てのベースアームグループのしきい値を満たしつつ、スーパーアーム報酬の最大化を目指す。 この目的のために,超アーム報酬の最大化とグループ報酬の満足度を融合する新たな後悔概念を定義する。 学習を容易にするために、ベースアームの平均結果はコンテキストセット${\cal X}$でインデックスされたガウス過程のサンプルであり、期待される報酬は期待されるベースアームの結果においてリプシッツ連続である。 We propose an algorithm, called Thresholded Combinatorial Gaussian Process Upper Confidence Bounds (TCGP-UCB), that balances between maximizing cumulative reward and satisfying group reward thresholds and prove that it incurs $\tilde{O}(K\sqrt{T\overline{\gamma}_{T}} )$ regret with high probability, where $\overline{\gamma}_{T}$ is the maximum information gain associated with the set of base arm contexts that appeared in the first $T$ rounds and $K$ is the maximum super arm cardinality of any feasible action over all rounds. 実験では,本アルゴリズムが最先端のコンビネータ型バンディットアルゴリズムに匹敵する報酬を蓄積し,群が閾値を満たしている動作を選択する。

In many real-world applications of combinatorial bandits such as content caching, rewards must be maximized while satisfying minimum service requirements. In addition, base arm availabilities vary over time, and actions need to be adapted to the situation to maximize the rewards. We propose a new bandit model called Contextual Combinatorial Volatile Bandits with Group Thresholds to address these challenges. Our model subsumes combinatorial bandits by considering super arms to be subsets of groups of base arms. We seek to maximize super arm rewards while satisfying thresholds of all base arm groups that constitute a super arm. To this end, we define a new notion of regret that merges super arm reward maximization with group reward satisfaction. To facilitate learning, we assume that the mean outcomes of base arms are samples from a Gaussian Process indexed by the context set ${\cal X}$, and the expected reward is Lipschitz continuous in expected base arm outcomes. We propose an algorithm, called Thresholded Combinatorial Gaussian Process Upper Confidence Bounds (TCGP-UCB), that balances between maximizing cumulative reward and satisfying group reward thresholds and prove that it incurs $\tilde{O}(K\sqrt{T\overline{\gamma}_{T}} )$ regret with high probability, where $\overline{\gamma}_{T}$ is the maximum information gain associated with the set of base arm contexts that appeared in the first $T$ rounds and $K$ is the maximum super arm cardinality of any feasible action over all rounds. We show in experiments that our algorithm accumulates a reward comparable with that of the state-of-the-art combinatorial bandit algorithm while picking actions whose groups satisfy their thresholds.
翻訳日:2021-11-30 16:34:04 公開日:2021-11-29
# ジェネレーティブ・ディバイサル・ネットワークを用いた医用MR画像のためのデータ拡張

Data Augmentation For Medical MR Image Using Generative Adversarial Networks ( http://arxiv.org/abs/2111.14297v1 )

ライセンス: Link先を確認
Panjian Huang, Xu Liu and Yongzhen Huang(参考訳) 深層学習に基づくコンピュータ支援診断(cad)は医療産業において重要な診断技術となり,診断精度を効果的に向上している。 しかし、脳腫瘍磁気共鳴(MR)画像データセットの不足は、ディープラーニングアルゴリズムの性能を低下させる。 従来のデータ拡張(DA)によって生成された変換画像の分布は、本質的に元のものと似ているため、一般化能力の面では限定的なパフォーマンスとなる。 本研究は,構造類似性損失関数(PGGAN-SSIM)を用いたGANの進行的成長を改善し,画像のぼかし問題とモデル崩壊を解決する。 また,提案モデルの有効性を示すために,他のganベースのデータ拡張についても検討する。 その結果,PGGAN-SSIMは256×256個の脳腫瘍MR画像を生成することができた。 さらに,PGGAN-SSIMは他のGAN法を超越し,Frechet Inception Distance(FID)とMulti-scale Structure similarity(MS-SSIM)の性能向上を実現している。

Computer-assisted diagnosis (CAD) based on deep learning has become a crucial diagnostic technology in the medical industry, effectively improving diagnosis accuracy. However, the scarcity of brain tumor Magnetic Resonance (MR) image datasets causes the low performance of deep learning algorithms. The distribution of transformed images generated by traditional data augmentation (DA) intrinsically resembles the original ones, resulting in a limited performance in terms of generalization ability. This work improves Progressive Growing of GANs with a structural similarity loss function (PGGAN-SSIM) to solve image blurriness problems and model collapse. We also explore other GAN-based data augmentation to demonstrate the effectiveness of the proposed model. Our results show that PGGAN-SSIM successfully generates 256x256 realistic brain tumor MR images which fill the real image distribution uncovered by the original dataset. Furthermore, PGGAN-SSIM exceeds other GAN-based methods, achieving promising performance improvement in Frechet Inception Distance (FID) and Multi-scale Structural Similarity (MS-SSIM).
翻訳日:2021-11-30 16:31:03 公開日:2021-11-29
# 部分注釈付きグループラベルを用いた公正分類器の学習

Learning Fair Classifiers with Partially Annotated Group Labels ( http://arxiv.org/abs/2111.14581v1 )

ライセンス: Link先を確認
Sangwon Jung, Sanghyuk Chun, Taesup Moon(参考訳) 近年、公正な学習がますます重要になっているが、これらの手法の多くは、完全に注釈付けされたグループラベルが利用できると仮定して運用されている。 グループラベルアノテーションは高価であり、プライバシー問題と衝突する可能性があるため、現実のアプリケーションではそのような仮定は非現実的であることを強調する。 本稿では,部分注釈付きグループラベル(Fair-PG)を用いたアルゴリズムフェアネスという,より実用的なシナリオについて考察する。 グループラベル付きデータのみを使用する既存のフェアネス法は,fair-pg下では,単に対象ラベルのみをフルデータとして使用するバニラトレーニングよりもさらに悪い結果が得られている。 この問題に対処するために,フェアネスを意識した任意の学習手法に適用可能な,シンプルな信頼に基づくグループラベル割り当て(CGL)戦略を提案する。 我々のCGLは、疑似グループラベルを割り当てる補助グループ分類器を使用し、ランダムラベルを低信頼度サンプルに割り当てる。 まず, 公平性基準の観点から, 提案手法がバニラ擬似ラベル戦略よりも優れていることを理論的に示す。 そして, UTKFace, CelebA, COMPASデータセットに対して, CGLと最先端のフェアネス対応のインプロセッシング手法を組み合わせることで, 目標精度とフェアネス指標をベースライン手法と比較して共同的に改善できることを実証的に示す。 さらに、我々のCGLは、与えられたグループラベル付きデータセットを、ターゲットラベルのみで自然に拡張することで、精度と公平性の両方を向上できることを示す。 今後の研究成果を再現するために、実装を公開します。

Recently, fairness-aware learning have become increasingly crucial, but we note that most of those methods operate by assuming the availability of fully annotated group-labels. We emphasize that such assumption is unrealistic for real-world applications since group label annotations are expensive and can conflict with privacy issues. In this paper, we consider a more practical scenario, dubbed as Algorithmic Fairness with the Partially annotated Group labels (Fair-PG). We observe that the existing fairness methods, which only use the data with group-labels, perform even worse than the vanilla training, which simply uses full data only with target labels, under Fair-PG. To address this problem, we propose a simple Confidence-based Group Label assignment (CGL) strategy that is readily applicable to any fairness-aware learning method. Our CGL utilizes an auxiliary group classifier to assign pseudo group labels, where random labels are assigned to low confident samples. We first theoretically show that our method design is better than the vanilla pseudo-labeling strategy in terms of fairness criteria. Then, we empirically show for UTKFace, CelebA and COMPAS datasets that by combining CGL and the state-of-the-art fairness-aware in-processing methods, the target accuracies and the fairness metrics are jointly improved compared to the baseline methods. Furthermore, we convincingly show that our CGL enables to naturally augment the given group-labeled dataset with external datasets only with target labels so that both accuracy and fairness metrics can be improved. We will release our implementation publicly to make future research reproduce our results.
翻訳日:2021-11-30 16:30:42 公開日:2021-11-29
# 自然画像のテキスト駆動編集のためのブレンド拡散

Blended Diffusion for Text-driven Editing of Natural Images ( http://arxiv.org/abs/2111.14818v1 )

ライセンス: Link先を確認
Omri Avrahami, Dani Lischinski, Ohad Fried(参考訳) 自然言語は画像編集のための非常に直感的なインターフェースを提供する。 本稿では、ROIマスクとともに自然言語記述に基づいて、局所的な(地域をベースとした)編集を行うための最初のソリューションを提案する。 我々は,事前学習した言語画像モデル(clip)を利用して,ユーザの入力したテキストプロンプトに対して編集を制御し,ddpm(denoising diffusion probabilistic model)を用いて自然な結果を生成する。 画像の異なる部分で編集された領域をシームレスに融合させるため、入力画像のノイズバージョンと局所テキスト誘導拡散潜時をノイズレベルの進行時に空間的にブレンドする。 さらに,拡散過程に拡張を加えることで,敵対的な結果が軽減されることを示す。 本手法は,いくつかのベースラインと関連する手法と,質的および定量的に比較し,全体的なリアリズム,背景保存能力,テキストマッチング能力において,これらの解よりも優れていることを示す。 最後に,画像への新しいオブジェクトの追加,既存オブジェクトの削除・更新・変更,背景の置換,画像の補間など,テキスト駆動の編集アプリケーションをいくつか紹介する。

Natural language offers a highly intuitive interface for image editing. In this paper, we introduce the first solution for performing local (region-based) edits in generic natural images, based on a natural language description along with an ROI mask. We achieve our goal by leveraging and combining a pretrained language-image model (CLIP), to steer the edit towards a user-provided text prompt, with a denoising diffusion probabilistic model (DDPM) to generate natural-looking results. To seamlessly fuse the edited region with the unchanged parts of the image, we spatially blend noised versions of the input image with the local text-guided diffusion latent at a progression of noise levels. In addition, we show that adding augmentations to the diffusion process mitigates adversarial results. We compare against several baselines and related methods, both qualitatively and quantitatively, and show that our method outperforms these solutions in terms of overall realism, ability to preserve the background and matching the text. Finally, we show several text-driven editing applications, including adding a new object to an image, removing/replacing/a ltering existing objects, background replacement, and image extrapolation.
翻訳日:2021-11-30 16:30:14 公開日:2021-11-29
# GAN画像編集のためのニューラルネットワークによる潜時変換

Latent Transformations via NeuralODEs for GAN-based Image Editing ( http://arxiv.org/abs/2111.14825v1 )

ライセンス: Link先を確認
Valentin Khrulkov, Leyla Mirvakhabova, Ivan Oseledets, Artem Babenko(参考訳) 近年の高忠実度セマンティック画像編集の進歩は、スタイルガンのような最先端生成モデルの不連続な潜在空間に大きく依存している。 特に,近年の研究では,潜在方向とともに線形シフトによって顔画像の属性を適切に制御できることが示されている。 いくつかの最近の手法はそのような方向の発見に対処し、最先端のGANが本質的に線形に分離可能な属性分布と意味的ベクトル的性質を持つ潜在空間を学習すると暗黙的に仮定している。 本研究では,学習可能なニューラルodeの流れとして実現される非線形潜在コード操作が,より複雑な非テクスチャ要素を持つ非顔画像領域の多くに有効であることを示す。 特に、既知の属性を持つ多数のデータセットを調査し、特定の属性操作が線形シフトのみで取得することが困難であることを実証する。

Recent advances in high-fidelity semantic image editing heavily rely on the presumably disentangled latent spaces of the state-of-the-art generative models, such as StyleGAN. Specifically, recent works show that it is possible to achieve decent controllability of attributes in face images via linear shifts along with latent directions. Several recent methods address the discovery of such directions, implicitly assuming that the state-of-the-art GANs learn the latent spaces with inherently linearly separable attribute distributions and semantic vector arithmetic properties. In our work, we show that nonlinear latent code manipulations realized as flows of a trainable Neural ODE are beneficial for many practical non-face image domains with more complex non-textured factors of variation. In particular, we investigate a large number of datasets with known attributes and demonstrate that certain attribute manipulations are challenging to obtain with linear shifts only.
翻訳日:2021-11-30 16:29:53 公開日:2021-11-29
# 一般ゲームにおける最適非回帰学習:クラリボイアンMWUによる非有界ステップサイズ境界

Optimal No-Regret Learning in General Games: Bounded Regret with Unbounded Step-Sizes via Clairvoyant MWU ( http://arxiv.org/abs/2111.14737v1 )

ライセンス: Link先を確認
Georgios Piliouras, Ryann Sim, Stratis Skoulakis(参考訳) 本稿では,一般ゲームにおける非regret学習の課題を解決する。 具体的には,固定ステップサイズで一定の後悔を達成する,単純かつ実用的なアルゴリズムを提案する。 ステップサイズの増加に伴い,アルゴリズムの累積後悔は線形的に減少する。 我々の発見は、現在まですべての最先端の手法が支持しているように、ステップサイズを消滅させることが、低い後悔の前提条件である、という一般的なパラダイムから逸脱している。 我々は、Clairvoyant Multiplicative Weights Updates (CMWU)と呼ばれる新しいアルゴリズムを定義することで、このパラダイムから脱却する。 CMWUはMultiplelicative Weights Updates (MWU)であり、次の期間におけるシステムの状態に関するメンタルモデル(すべてのエージェント間で共同で共有される)を備えている。 それぞれのエージェントは、その混合戦略、すなわち、次の期間に何がプレーするかという信念を、実際の行動が均衡するまで変化することなくMWUを用いて内部的に更新されるこの共有精神モデルに記録し、次の日の現実的な結果と整合性を示す。 その時、エージェントが現実世界で行動し、翌日のシステムの状態の「完全な知識」を効果的に行うのは、その時である。 CMWUは事実上MWUとして機能し、一日の視線で後悔の種となる。 技術的レベルでは、ステップサイズの選択には自己整合性精神モデルが存在し、その特異性と線形時間計算が契約写像の引数によって保証されるステップサイズに境界が与えられる。 我々の議論は、ほとんど努力することなく、通常の形式のゲームにかなり及ばない。

In this paper we solve the problem of no-regret learning in general games. Specifically, we provide a simple and practical algorithm that achieves constant regret with fixed step-sizes. The cumulative regret of our algorithm provably decreases linearly as the step-size increases. Our findings depart from the prevailing paradigm that vanishing step-sizes are a prerequisite for low regret as championed by all state-of-the-art methods to date. We shift away from this paradigm by defining a novel algorithm that we call Clairvoyant Multiplicative Weights Updates (CMWU). CMWU is Multiplicative Weights Updates (MWU) equipped with a mental model (jointly shared across all agents) about the state of the system in its next period. Each agent records its mixed strategy, i.e., its belief about what it expects to play in the next period, in this shared mental model which is internally updated using MWU without any changes to the real-world behavior up until it equilibrates, thus marking its consistency with the next day's real-world outcome. It is then and only then that agents take action in the real-world, effectively doing so with the ``full knowledge" of the state of the system on the next day, i.e., they are clairvoyant. CMWU effectively acts as MWU with one day look-ahead, achieving bounded regret. At a technical level, we establish that self-consistent mental models exist for any choice of step-sizes and provide bounds on the step-size under which their uniqueness and linear-time computation are guaranteed via contraction mapping arguments. Our arguments extend well beyond normal-form games with little effort.
翻訳日:2021-11-30 16:29:36 公開日:2021-11-29
# 対話型質問改革のための行動ベースネットワーク

Action based Network for Conversation Question Reformulation ( http://arxiv.org/abs/2111.14445v1 )

ライセンス: Link先を確認
Zheyu Ye, Jiangning Liu, Qian Yu, Jianxun Ju(参考訳) 会話質問応答には、質問を正しく解釈する能力が必要である。 しかし、現在のモデルは日々の会話におけるコレファレンスや楕円性を理解するのが難しいため、まだ満足できない。 生成的アプローチは顕著な進歩を遂げたが、それでも意味的不完全性に閉じ込められている。 本稿では,質問の完全表現を回復するためのアクションベースアプローチを提案する。 具体的には、まず、各候補に対応するアクションを割り当てながら、質問の共参照やエリプシスの位置を特定する。 次に、会話コンテキストにおける候補の手がかりに関連する一致する句を探す。 最後に、予測された行動に基づき、共参照を置き換えるか、一致した情報で楕円を補うかを決定する。 本手法が英語と中国語の音声の書き直し作業に有効であることを示すとともに, ROUGE-Lを3.9 %改善し, ROUGE-Lを1.0 %改善した。

Conversation question answering requires the ability to interpret a question correctly. Current models, however, are still unsatisfactory due to the difficulty of understanding the co-references and ellipsis in daily conversation. Even though generative approaches achieved remarkable progress, they are still trapped by semantic incompleteness. This paper presents an action-based approach to recover the complete expression of the question. Specifically, we first locate the positions of co-reference or ellipsis in the question while assigning the corresponding action to each candidate span. We then look for matching phrases related to the candidate clues in the conversation context. Finally, according to the predicted action, we decide whether to replace the co-reference or supplement the ellipsis with the matched information. We demonstrate the effectiveness of our method on both English and Chinese utterance rewrite tasks, improving the state-of-the-art EM (exact match) by 3.9\% and ROUGE-L by 1.0\% respectively on the Restoration-200K dataset.
翻訳日:2021-11-30 16:24:53 公開日:2021-11-29
# ディープトランスファー学習による眠気関連音声課題の検討

Speech Tasks Relevant to Sleepiness Determined with Deep Transfer Learning ( http://arxiv.org/abs/2111.14684v1 )

ライセンス: Link先を確認
Bang Tran, Youxiang Zhu, Xiaohui Liang, James W. Schwoebel, Lindsay A. Warrenburg(参考訳) 注意を要する文脈での過度な眠気は、自動車事故などの有害事象を引き起こすことがある。 眠気の検出とモニタリングは、これらの有害事象の発生を防ぐのに役立つ。 本稿では,1,828名の参加者から音声を抽出し,隠れ単位のbert(hubert)音声表現を用いた深層伝達学習モデルを構築し,個人から眠気を検知する。 音声は睡眠検出において未利用のデータ源であるが、音声収集は簡単で費用対効果が高く、非侵襲であるため、睡眠検出のための有望なリソースを提供する。 個別の発話課題の重要性に関するエビデンスをまとめるために、2つの補完的手法が実施された。 最初の手法であるマスキングは、全ての音声タスクを組み合わせ、選択された音声応答をマスキングし、モデル精度の体系的変化を観察することでタスクの重要性を評価する。 第2のテクニックである分離トレーニングでは,複数のモデルの精度を比較して,それぞれが同じアーキテクチャを使用していたが,音声タスクの異なるサブセットでトレーニングした。 評価の結果,ボストン・ネーミング・テストにおけるメモリリコール・タスクとカテゴリ名付けのタスクは,それぞれ80.07% (f1-score: 0.85) と81.13% (f1-score: 0.89) の精度を達成した。

Excessive sleepiness in attention-critical contexts can lead to adverse events, such as car crashes. Detecting and monitoring sleepiness can help prevent these adverse events from happening. In this paper, we use the Voiceome dataset to extract speech from 1,828 participants to develop a deep transfer learning model using Hidden-Unit BERT (HuBERT) speech representations to detect sleepiness from individuals. Speech is an under-utilized source of data in sleep detection, but as speech collection is easy, cost-effective, and non-invasive, it provides a promising resource for sleepiness detection. Two complementary techniques were conducted in order to seek converging evidence regarding the importance of individual speech tasks. Our first technique, masking, evaluated task importance by combining all speech tasks, masking selected responses in the speech, and observing systematic changes in model accuracy. Our second technique, separate training, compared the accuracy of multiple models, each of which used the same architecture, but was trained on a different subset of speech tasks. Our evaluation shows that the best-performing model utilizes the memory recall task and categorical naming task from the Boston Naming Test, which achieved an accuracy of 80.07% (F1-score of 0.85) and 81.13% (F1-score of 0.89), respectively.
翻訳日:2021-11-30 16:24:40 公開日:2021-11-29
# 自然言語処理のためのデータ拡張における言語知識:中国語質問マッチングの例

Linguistic Knowledge in Data Augmentation for Natural Language Processing: An Example on Chinese Question Matching ( http://arxiv.org/abs/2111.14709v1 )

ライセンス: Link先を確認
Zhengxiang Wang(参考訳) データ拡張(da)は、自然言語処理(nlp)コミュニティから注目を集めている領域であるデータ不足と不均衡問題に対する一般的な解決策である。 NLP研究で様々なDA技術が用いられているが、NLPにおけるDAにおける言語知識の役割についてはほとんど知られていない。 そこで本研究では,2つの適応型daプログラムを設計し,二分法中国語質問マッチング分類タスクのlcqmc(大規模中国語質問マッチングコーパス)に適用した。 2つのDAプログラムは、言語生成規則によらず、5つの単純なテキスト編集操作によって拡張テキストを生成するが、1つはn-gram言語モデルで拡張され、余分な言語知識と融合させる。 次に,4つのニューラルネットワークモデルとLCQMCトレインセットの事前学習モデルと,それに対応する2つのDAプログラムによって生成された強化トレーニングセットを訓練した。 5種類の分類モデルのテストセット性能は,2種類の強化列車群で訓練されたモデル間には明らかな性能差がないため,確率的言語知識を制約として付加しても基礎DAプログラムは向上しないことを示している。 代わりに、追加の言語知識が拡張テキストの多様性を低下させるため、訓練されたモデルの一般化が妨げられる。 さらに、強化されたトレーニングセットの両タイプで訓練されたモデルは、パラフラスティックな拡張テキストを作成するための基礎となるテキスト編集操作ができないため、関連する未拡張のセットで直接訓練されたモデルよりも優れていた。 拡張テキストの有効性と多様性は,daアプローチや効果的な手法の2つの重要な要素であり,テキスト拡張のパラダイムシフトの可能性を提案した。

Data augmentation (DA) is a common solution to data scarcity and imbalance problems, which is an area getting increasing attentions from the Natural Language Processing (NLP) community. While various DA techniques have been used in NLP research, little is known about the role of linguistic knowledge in DA for NLP; in particular, whether more linguistic knowledge leads to a better DA approach. To investigate that, we designed two adapted DA programs and applied them to LCQMC (a Large-scale Chinese Question Matching Corpus) for a binary Chinese question matching classification task. The two DA programs produce augmented texts by five simple text editing operations, largely irrespective of language generation rules, but one is enhanced with a n-gram language model to make it fused with extra linguistic knowledge. We then trained four neural network models and a pre-trained model on the LCQMC train sets of varying size as well as the corresponding augmented trained sets produced by the two DA programs. The test set performances of the five classification models show that adding probabilistic linguistic knowledge as constrains does not make the base DA program better, since there are no discernible performance differences between the models trained on the two types of augmented train sets. Instead, since the added linguistic knowledge decreases the diversity of the augmented texts, the trained models generalizability is hampered. Moreover, models trained on both types of the augmented trained sets were found to be outperformed by those directly trained on the associated un-augmented train sets, due to the inability of the underlying text editing operations to make paraphrastic augmented texts. We concluded that the validity and diversity of the augmented texts are two important factors for a DA approach or technique to be effective and proposed a possible paradigm shift for text augmentation.
翻訳日:2021-11-30 16:24:14 公開日:2021-11-29
# ベイズ型ニューラルネットワークユニットの依存性

Dependence between Bayesian neural network units ( http://arxiv.org/abs/2111.14397v1 )

ライセンス: Link先を確認
Mariia Vladimirova (STATIFY), Julyan Arbel (STATIFY), St\'ephane Girard (STATIFY)(参考訳) ベイズニューラルネットワークとガウス過程の接続はここ数年で注目され、層幅が無限大になる傾向にあるとき、隠れた単位がガウス過程の限界に収束するというフラッグシップの結果が得られた。 この結果の根底にあるのは、隠れた単位が無限幅の極限で独立になるという事実である。 我々の目標は、実用的な有限幅ベイズニューラルネットワークにおける隠れた単位依存特性に光を当てることである。 理論的結果に加えて,隠れた単位依存特性に対する深さと幅の影響を実験的に評価した。

The connection between Bayesian neural networks and Gaussian processes gained a lot of attention in the last few years, with the flagship result that hidden units converge to a Gaussian process limit when the layers width tends to infinity. Underpinning this result is the fact that hidden units become independent in the infinite-width limit. Our aim is to shed some light on hidden units dependence properties in practical finite-width Bayesian neural networks. In addition to theoretical results, we assess empirically the depth and width impacts on hidden units dependence properties.
翻訳日:2021-11-30 16:23:44 公開日:2021-11-29
# (参考訳) ハイパーパラメータオプティマイザの自動ベンチマーク駆動設計と説明 [全文訳有]

Automated Benchmark-Driven Design and Explanation of Hyperparameter Optimizers ( http://arxiv.org/abs/2111.14756v1 )

ライセンス: CC BY 4.0
Julia Moosbauer, Martin Binder, Lennart Schneider, Florian Pfisterer, Marc Becker, Michel Lang, Lars Kotthoff, Bernd Bischl(参考訳) 自動ハイパーパラメータ最適化(automated hyperparameter optimization, hpo)は、多くの自動機械学習フレームワークの重要な要素である。 しかし、hpoアルゴリズムを設計するプロセスは、まだ体系的で手作業のプロセスであり、事前作業の制限が特定され、提案された改善は、専門家の知識によって導かれるものの、いまだに任意である。 これにより、どのアルゴリズムコンポーネントがパフォーマンスを駆動しているかの全体的な理解を得ることができなくなり、優れたアルゴリズム設計選択を見渡すリスクが生じる。 まず、一般的なHPOアルゴリズムに限らず、MF-HPO候補の豊富な空間を定式化し、この領域をカバーする構成可能なフレームワークを提案する。 最適な候補を自動かつ体系的に見つけるためには,プログラム・バイ・最適化のアプローチに従い,ベイズ最適化を用いてアルゴリズム候補の空間を探索する。 我々は, アブレーション解析を行うことで, 設計選択が必要か, より単純で単純なものに置き換えられるかに疑問を呈する。 確立されたメソッドよりも単純な比較的単純な設定を使用することで、重要な設定パラメータが正しい値を持つ限り、非常によく機能します。

Automated hyperparameter optimization (HPO) has gained great popularity and is an important ingredient of most automated machine learning frameworks. The process of designing HPO algorithms, however, is still an unsystematic and manual process: Limitations of prior work are identified and the improvements proposed are -- even though guided by expert knowledge -- still somewhat arbitrary. This rarely allows for gaining a holistic understanding of which algorithmic components are driving performance, and carries the risk of overlooking good algorithmic design choices. We present a principled approach to automated benchmark-driven algorithm design applied to multifidelity HPO (MF-HPO): First, we formalize a rich space of MF-HPO candidates that includes, but is not limited to common HPO algorithms, and then present a configurable framework covering this space. To find the best candidate automatically and systematically, we follow a programming-by-optim ization approach and search over the space of algorithm candidates via Bayesian optimization. We challenge whether the found design choices are necessary or could be replaced by more naive and simpler ones by performing an ablation analysis. We observe that using a relatively simple configuration, in some ways simpler than established methods, performs very well as long as some critical configuration parameters have the right value.
翻訳日:2021-11-30 16:21:45 公開日:2021-11-29
# 曲率によるグラフの過剰探索とボトルネックの理解

Understanding over-squashing and bottlenecks on graphs via curvature ( http://arxiv.org/abs/2111.14522v1 )

ライセンス: Link先を確認
Jake Topping, Francesco Di Giovanni, Benjamin Paul Chamberlain, Xiaowen Dong, Michael M. Bronstein(参考訳) ほとんどのグラフニューラルネットワーク(GNN)は、入力グラフ上にノードの特徴が伝播するメッセージパッシングパラダイムを使用している。 近年の研究では、長距離インタラクションに依存するタスクのメッセージパッシング効率を制限する要因として、遠方のノードから流れる情報の歪みが指摘されている。 オーバー・スカッシング」と呼ばれるこの現象は、$k$ホップの隣人の数が$k$で急速に増加するグラフボトルネックに起因する。 我々は,gnnにおける過剰スキャッシング現象の正確な説明と,グラフのボトルネックから発生する現象の分析を行う。 この目的のために,新しいエッジベースの組合せ曲率を導入し,負に曲がった辺が過剰な探索問題の原因であることを証明した。 また,オーバースワッシングを緩和する曲線型グラフリワイリング手法の提案と実験を行った。

Most graph neural networks (GNNs) use the message passing paradigm, in which node features are propagated on the input graph. Recent works pointed to the distortion of information flowing from distant nodes as a factor limiting the efficiency of message passing for tasks relying on long-distance interactions. This phenomenon, referred to as 'over-squashing', has been heuristically attributed to graph bottlenecks where the number of $k$-hop neighbors grows rapidly with $k$. We provide a precise description of the over-squashing phenomenon in GNNs and analyze how it arises from bottlenecks in the graph. For this purpose, we introduce a new edge-based combinatorial curvature and prove that negatively curved edges are responsible for the over-squashing issue. We also propose and experimentally test a curvature-based graph rewiring method to alleviate the over-squashing.
翻訳日:2021-11-30 15:41:23 公開日:2021-11-29
# Causal Macrovariables の符号化

Encoding Causal Macrovariables ( http://arxiv.org/abs/2111.14724v1 )

ライセンス: Link先を確認
Benedikt H\"oltgen(参考訳) 多くの科学分野において、よりきめ細かいシステムの力学を説明し予測するために粗粒因果モデルが用いられる。 当然、そのようなモデルは適切なマクロ変数を必要とする。 適切な変数を検出する自動手順は、利用可能な高次元の観測データセットを活用するのに有用である。 本研究は,マイクロステート間の情報ボトルネックとして,因果的マクロ変数の新たな特徴付けに着想を得た,新しいアルゴリズム的アプローチを提案する。 その一般的な形態は、異なる科学的目標の個々のニーズに適応することができる。 さらなる変換ステップの後、学習変数間の因果関係は付加雑音モデルを用いて調べることができる。 シミュレーションデータと実際の気候データセットの両方の実験を報告する。 合成データセットにおいて、アルゴリズムは基底変数をロバストに検出し、それらの間の因果関係を正しく推測する。 実際の気候データセットでは、アルゴリズムはエルニーニョ現象の既知の2つの変種に対応する2つの変数を頑健に検出する。

In many scientific disciplines, coarse-grained causal models are used to explain and predict the dynamics of more fine-grained systems. Naturally, such models require appropriate macrovariables. Automated procedures to detect suitable variables would be useful to leverage increasingly available high-dimensional observational datasets. This work introduces a novel algorithmic approach that is inspired by a new characterisation of causal macrovariables as information bottlenecks between microstates. Its general form can be adapted to address individual needs of different scientific goals. After a further transformation step, the causal relationships between learned variables can be investigated through additive noise models. Experiments on both simulated data and on a real climate dataset are reported. In a synthetic dataset, the algorithm robustly detects the ground-truth variables and correctly infers the causal relationships between them. In a real climate dataset, the algorithm robustly detects two variables that correspond to the two known variations of the El Nino phenomenon.
翻訳日:2021-11-30 15:41:09 公開日:2021-11-29
# sparse detr: 学習可能なスパースを持つ効率的なエンドツーエンドオブジェクト検出

Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity ( http://arxiv.org/abs/2111.14330v1 )

ライセンス: Link先を確認
Byungseok Roh, JaeWoong Shin, Wuhyun Shin, Saehoon Kim(参考訳) DETRは変換器エンコーダ・デコーダアーキテクチャを用いた最初のエンドツーエンドのオブジェクト検出器であり、高解像度の特徴マップ上では競争性能は高いが計算効率は低い。 その後のDeformable DETRは、高密度な注意を変形可能な注意に置き換えることで、DeTRの効率を向上し、10倍の高速化と性能向上を実現した。 変形可能なDETRは、マルチスケール機能を用いて性能を向上するが、エンコーダトークンの数はDECに比べて20倍増加し、エンコーダアテンションの計算コストはボトルネックのままである。 予備実験では,エンコーダトークンの一部のみを更新しても検出性能が低下することがほとんどないことを確認した。 この観察に触発されて、デコーダで参照されると思われるトークンのみを選択的に更新するスパースdetrを提案し、モデルがオブジェクトを効果的に検出するのに役立つ。 さらに,エンコーダ内の選択したトークンに補助的な検出損失を適用することにより,計算オーバーヘッドを最小限に抑えながら性能を向上させることを示す。 我々は、COCOデータセット上に10%エンコーダトークンしか持たなくても、Sparse DETRがDeformable DETRよりも優れたパフォーマンスを実現することを検証する。 エンコーダトークンのみがスパース化されているが、計算コストは38%減少し、フレーム毎秒(fps)は変形可能なdetrと比較して42%増加した。 コードはhttps://github.com/k akaobrain/sparse-det rで入手できる。

DETR is the first end-to-end object detector using a transformer encoder-decoder architecture and demonstrates competitive performance but low computational efficiency on high resolution feature maps. The subsequent work, Deformable DETR, enhances the efficiency of DETR by replacing dense attention with deformable attention, which achieves 10x faster convergence and improved performance. Deformable DETR uses the multiscale feature to ameliorate performance, however, the number of encoder tokens increases by 20x compared to DETR, and the computation cost of the encoder attention remains a bottleneck. In our preliminary experiment, we observe that the detection performance hardly deteriorates even if only a part of the encoder token is updated. Inspired by this observation, we propose Sparse DETR that selectively updates only the tokens expected to be referenced by the decoder, thus help the model effectively detect objects. In addition, we show that applying an auxiliary detection loss on the selected tokens in the encoder improves the performance while minimizing computational overhead. We validate that Sparse DETR achieves better performance than Deformable DETR even with only 10% encoder tokens on the COCO dataset. Albeit only the encoder tokens are sparsified, the total computation cost decreases by 38% and the frames per second (FPS) increases by 42% compared to Deformable DETR. Code is available at https://github.com/k akaobrain/sparse-det r
翻訳日:2021-11-30 15:40:03 公開日:2021-11-29
# アクティブ検索による交通標識認識の改善

Improving traffic sign recognition by active search ( http://arxiv.org/abs/2111.14426v1 )

ライセンス: Link先を確認
S. Jaghouar, H. Gustafsson, B. Mehlig, E. Werner, N.Gustafsson(参考訳) 稀な交通標識を認識するための反復能動学習アルゴリズムについて述べる。 標準のResNetは、レアクラスの単一のサンプルのみを含むトレーニングセットでトレーニングされる。 希少クラスに属する確率の推定値によってラベルのない大きな集合のサンプルを分類することにより,レアクラスから効率的にサンプルを同定できることを実証する。 これは、この推定確率が通常非常に低いという事実にもかかわらず機能する。 トレーニングセットに含まれるこれらの候補サンプルをラベル付けし、手順を反復することにより、信頼できるアクティブラーニングループが得られる。 さらに,1つの合成試料から同様の結果が得られることを示した。 この結果は,自動走行システムにおける交通信号認識の容易な改善方法として重要である。 さらに、信頼度の低い出力に隠された情報を活用できることも示しています。

We describe an iterative active-learning algorithm to recognise rare traffic signs. A standard ResNet is trained on a training set containing only a single sample of the rare class. We demonstrate that by sorting the samples of a large, unlabeled set by the estimated probability of belonging to the rare class, we can efficiently identify samples from the rare class. This works despite the fact that this estimated probability is usually quite low. A reliable active-learning loop is obtained by labeling these candidate samples, including them in the training set, and iterating the procedure. Further, we show that we get similar results starting from a single synthetic sample. Our results are important as they indicate a straightforward way of improving traffic-sign recognition for automated driving systems. In addition, they show that we can make use of the information hidden in low confidence outputs, which is usually ignored.
翻訳日:2021-11-30 15:39:37 公開日:2021-11-29
# テキスト・画像合成のためのベクトル量子拡散モデル

Vector Quantized Diffusion Model for Text-to-Image Synthesis ( http://arxiv.org/abs/2111.14822v1 )

ライセンス: Link先を確認
Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo Zhang, Dongdong Chen, Lu Yuan, Baining Guo(参考訳) テキスト・画像生成のためのベクトル量子化拡散(VQ-Diffusion)モデルを提案する。 本手法は,最近開発されたDenoising Diffusion Probabilistic Model (DDPM) の条件変分により潜在空間をモデル化したベクトル量子化変分オートエンコーダ (VQ-VAE) に基づく。 この潜在空間法は,既存の手法と一方向のバイアスを取り除くだけでなく,誤りの蓄積を避けるためにマスク・アンド・リプレース拡散戦略を組み込むことができるため,テキスト対画像生成タスクに適している。 実験により, VQ-Diffusion は, パラメータ数に類似する従来の自己回帰モデルと比較して, テキスト・画像生成の精度を著しく向上することが示された。 従来のganベースのテキスト対画像法と比較して、vq-diffusionはより複雑なシーンを処理し、合成画像の品質を大きなマージンで改善できる。 最後に,本手法における画像生成計算を再パラメータ化により高効率に行えることを示す。 従来のAR手法では、出力画像の解像度によってテキスト・画像生成時間は線形に増加し、通常のサイズの画像でもかなり時間がかかる。 VQ-Diffusionによって、品質とスピードのトレードオフを改善できます。 実験の結果,再パラメータ化によるVQ拡散モデルは従来のAR手法よりも15倍高速であり,画質が向上した。

We present the vector quantized diffusion (VQ-Diffusion) model for text-to-image generation. This method is based on a vector quantized variational autoencoder (VQ-VAE) whose latent space is modeled by a conditional variant of the recently developed Denoising Diffusion Probabilistic Model (DDPM). We find that this latent-space method is well-suited for text-to-image generation tasks because it not only eliminates the unidirectional bias with existing methods but also allows us to incorporate a mask-and-replace diffusion strategy to avoid the accumulation of errors, which is a serious problem with existing methods. Our experiments show that the VQ-Diffusion produces significantly better text-to-image generation results when compared with conventional autoregressive (AR) models with similar numbers of parameters. Compared with previous GAN-based text-to-image methods, our VQ-Diffusion can handle more complex scenes and improve the synthesized image quality by a large margin. Finally, we show that the image generation computation in our method can be made highly efficient by reparameterization. With traditional AR methods, the text-to-image generation time increases linearly with the output image resolution and hence is quite time consuming even for normal size images. The VQ-Diffusion allows us to achieve a better trade-off between quality and speed. Our experiments indicate that the VQ-Diffusion model with the reparameterization is fifteen times faster than traditional AR methods while achieving a better image quality.
翻訳日:2021-11-30 15:38:15 公開日:2021-11-29
# 単位クラス損失とクロスモダリティ判別器を用いた不均一な可視熱・可視赤外顔認識

Heterogeneous Visible-Thermal and Visible-Infrared Face Recognition using Unit-Class Loss and Cross-Modality Discriminator ( http://arxiv.org/abs/2111.14339v1 )

ライセンス: Link先を確認
Usman Cheema, Mobeen Ahmad, Dongil Han, and Seungbin Moon(参考訳) 可視から熱への顔画像マッチングは、クロスモダリティ認識の難しい変種である。 課題は、大きなモダリティギャップと可視性と熱的モダリティの相関の低さにある。 既存のアプローチでは、イメージ前処理、特徴抽出、共通部分空間投影が採用されている。 本稿では,クロスモーダル顔認識のためのエンドツーエンドフレームワークを提案する。 提案手法は,未処理の顔画像から識別特徴を学習し,クロスモーダル画像対を同定することを目的としている。 モダリティ情報を捨てつつアイデンティティ情報を保存するための新しい単位クラス損失を提案する。 さらに,ネットワークに画像ペア分類機能を統合するために,クロスモダリティ判別ブロックを提案する。 提案するネットワークは、モダリティ非依存なベクトル表現やテスト画像のマッチングペア分類を抽出できる。 5つの独立データベースにおけるクロスモダリティ顔認識実験により,提案手法が既存の最先端手法よりも大幅に改善できることが証明された。

Visible-to-thermal face image matching is a challenging variate of cross-modality recognition. The challenge lies in the large modality gap and low correlation between visible and thermal modalities. Existing approaches employ image preprocessing, feature extraction, or common subspace projection, which are independent problems in themselves. In this paper, we propose an end-to-end framework for cross-modal face recognition. The proposed algorithm aims to learn identity-discriminat ive features from unprocessed facial images and identify cross-modal image pairs. A novel Unit-Class Loss is proposed for preserving identity information while discarding modality information. In addition, a Cross-Modality Discriminator block is proposed for integrating image-pair classification capability into the network. The proposed network can be used to extract modality-independent vector representations or a matching-pair classification for test images. Our cross-modality face recognition experiments on five independent databases demonstrate that the proposed method achieves marked improvement over existing state-of-the-art methods.
翻訳日:2021-11-30 15:37:51 公開日:2021-11-29
# (参考訳) UBoCo : イベント境界検出のための教師なし境界コントラスト学習 [全文訳有]

UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event Boundary Detection ( http://arxiv.org/abs/2111.14799v1 )

ライセンス: CC BY 4.0
Hyolim Kang, Jinwoo Kim, Taehyun Kim, Seon Joo Kim(参考訳) ジェネリックイベント境界検出(GEBD)は、イベントのより深いセマンティック境界を見つけることを目的とした、新しく提案されたビデオ理解タスクである。 自然な人間の知覚とビデオ理解のギャップを埋めるため、解釈可能で意味的に有効なビデオ解析など、さまざまな応用が考えられる。 まだ開発の初期段階では、既存のGABDソルバは、GABDの特徴を無視して、関連ビデオ理解タスクの単純な拡張である。 本稿では,時間的自己相似行列(TSM)を映像表現として用いて,教師なし・教師なしGEBDのための新しいフレームワークを提案する。 新しいRecursive TSM Parsing (RTP)アルゴリズムは、TSMの局所対角パターンを利用して境界を検出する。 我々のフレームワークは教師なし設定と教師なし設定の両方に適用でき、GEBDベンチマークで最先端の性能を達成することができる。 特に, 教師なし手法は, 従来の教師なしモデルよりも優れており, その効果が示唆されている。

Generic Event Boundary Detection (GEBD) is a newly suggested video understanding task that aims to find one level deeper semantic boundaries of events. Bridging the gap between natural human perception and video understanding, it has various potential applications, including interpretable and semantically valid video parsing. Still at an early development stage, existing GEBD solvers are simple extensions of relevant video understanding tasks, disregarding GEBD's distinctive characteristics. In this paper, we propose a novel framework for unsupervised/supervi sed GEBD, by using the Temporal Self-similarity Matrix (TSM) as the video representation. The new Recursive TSM Parsing (RTP) algorithm exploits local diagonal patterns in TSM to detect boundaries, and it is combined with the Boundary Contrastive (BoCo) loss to train our encoder to generate more informative TSMs. Our framework can be applied to both unsupervised and supervised settings, with both achieving state-of-the-art performance by a huge margin in GEBD benchmark. Especially, our unsupervised method outperforms the previous state-of-the-art "supervised" model, implying its exceptional efficacy.
翻訳日:2021-11-30 15:34:44 公開日:2021-11-29
# マスアート・ミスラベル雑音モデルによる一般化保証付き半空間の自己学習

Self-Training of Halfspaces with Generalization Guarantees under Massart Mislabeling Noise Model ( http://arxiv.org/abs/2111.14427v1 )

ライセンス: Link先を確認
Lies Hadjadj, Massih Reza-Amini, Sana Louhichi, Alexis Deschamps(参考訳) 半空間を持つ自己学習アルゴリズムの一般化特性について検討する。 このアプローチでは、ラベル付きおよびラベルなしのトレーニングデータから、ハーフスペースのリストを反復的に学習する。 探索フェーズでは、符号なしマージンをラベルなしの例の中で最大化し、擬似ラベルを現在のしきい値よりも高い距離を持つものに割り当てることで、ハーフスペースが順次発見される。 擬似ラベル付きサンプルがトレーニングセットに追加され、新しい分類器が学習される。 このプロセスは、偽のラベル付けのための未ラベルの例が残るまで繰り返される。 プルーニングフェーズでは、関連する符号なしマージンよりも大きい最後のハーフスペースまでの距離を持つ擬似ラベル付きサンプルを廃棄する。 得られた分類器列の誤分類誤差が有界であることを証明し、得られた半教師付きアプローチが初期ラベル付きトレーニングセットのみを用いて学習した分類器と比較して性能を劣化させないことを示す。 様々なベンチマークで実施した実験は、最先端手法と比較して提案手法の有効性を示している。

We investigate the generalization properties of a self-training algorithm with halfspaces. The approach learns a list of halfspaces iteratively from labeled and unlabeled training data, in which each iteration consists of two steps: exploration and pruning. In the exploration phase, the halfspace is found sequentially by maximizing the unsigned-margin among unlabeled examples and then assigning pseudo-labels to those that have a distance higher than the current threshold. The pseudo-labeled examples are then added to the training set, and a new classifier is learned. This process is repeated until no more unlabeled examples remain for pseudo-labeling. In the pruning phase, pseudo-labeled samples that have a distance to the last halfspace greater than the associated unsigned-margin are then discarded. We prove that the misclassification error of the resulting sequence of classifiers is bounded and show that the resulting semi-supervised approach never degrades performance compared to the classifier learned using only the initial labeled training set. Experiments carried out on a variety of benchmarks demonstrate the efficiency of the proposed approach compared to state-of-the-art methods.
翻訳日:2021-11-30 15:15:54 公開日:2021-11-29
# (参考訳) アウトオブディストリビューションの理解:データダイナミクスの視点 [全文訳有]

Understanding Out-of-distribution: A Perspective of Data Dynamics ( http://arxiv.org/abs/2111.14730v1 )

ライセンス: CC BY 4.0
Dyah Adila and Dongyeop Kang(参考訳) 自然言語処理(nlp)タスクにおける機械学習モデルの成功にもかかわらず、これらのモデルからの予測は、しばしばout-of-distribution( ood)サンプルで失敗する。 これまでの研究は、OODを検出する最先端の方法の開発に重点を置いてきた。 OODサンプルと流通サンプルの違いに関する根本的な問題は未解決のままである。 本稿では,oodと分布内サンプルの基本的な違いを詳細に理解するために,トレーニングモデルにおけるデータダイナミクスの活用について検討する。 その結果,OOD,in-distribution の両ケースにおいて,モデルが不正確に予測するデータサンプルの構文的特性が直接矛盾していることが判明した。 さらに,OODサンプル上で予測を行う場合,モデルが自明な構文的ヒューリスティック(2つの文間の単語の重複など)にひっかかる可能性が高いという仮説を裏付ける予備的証拠を観察した。 この予備的な研究が、さまざまな機械学習現象のデータ中心分析を加速させることを願っている。

Despite machine learning models' success in Natural Language Processing (NLP) tasks, predictions from these models frequently fail on out-of-distribution (OOD) samples. Prior works have focused on developing state-of-the-art methods for detecting OOD. The fundamental question of how OOD samples differ from in-distribution samples remains unanswered. This paper explores how data dynamics in training models can be used to understand the fundamental differences between OOD and in-distribution samples in extensive detail. We found that syntactic characteristics of the data samples that the model consistently predicts incorrectly in both OOD and in-distribution cases directly contradict each other. In addition, we observed preliminary evidence supporting the hypothesis that models are more likely to latch on trivial syntactic heuristics (e.g., overlap of words between two sentences) when making predictions on OOD samples. We hope our preliminary study accelerates the data-centric analysis on various machine learning phenomena.
翻訳日:2021-11-30 15:13:59 公開日:2021-11-29
# マルチモーダル変換器を用いたビデオオブジェクト分割のエンドツーエンド参照

End-to-End Referring Video Object Segmentation with Multimodal Transformers ( http://arxiv.org/abs/2111.14821v1 )

ライセンス: Link先を確認
Adam Botach, Evgenii Zheltonozhskii, Chaim Baskin(参考訳) 参照ビデオオブジェクトセグメンテーションタスク(RVOS)は、所定のビデオのフレーム内のテキスト参照オブジェクトインスタンスのセグメンテーションを含む。 テキスト推論、ビデオ理解、インスタンスのセグメンテーションとトラッキングを組み合わせたこのマルチモーダルタスクの複雑な性質のため、既存のアプローチは通常、それに取り組むために洗練されたパイプラインに依存している。 本稿では, RVOS に対する簡単な Transformer ベースのアプローチを提案する。 我々のフレームワークはMTTR(Multimodal Tracking Transformer)と呼ばれ、RVOSタスクをシーケンス予測問題としてモデル化している。 近年のコンピュータビジョンと自然言語処理の進歩に続いて、MTTRは、ビデオとテキストの両方を単一のマルチモーダルトランスフォーマーモデルで効果的かつエレガントに処理できることの認識に基づいている。 MTTRはエンドツーエンドのトレーニングが可能で、テキスト関連の帰納バイアスコンポーネントが不要で、追加のマスクリファインメント後処理ステップを必要としない。 そのため、既存の方法に比べてRVOSパイプラインを大幅に単純化する。 標準ベンチマークの評価では、MTTRは複数の指標で過去の技術よりも大幅に優れていた。 特にMTTRは、A2D-Sentences と JHMDB-Sentences のデータセットに対して、毎秒76フレームを処理しながら、印象的な +5.7 と +5.0 mAP のゲインを示している。 さらに,研究者の注目をまだ受けていないRVOSデータセットであるRefer-YouTube-VOSの公開検証セットについて,強い結果を報告する。 実験を再現するコードはhttps://github.com/m ttr2021/MTTRで公開されている。

The referring video object segmentation task (RVOS) involves segmentation of a text-referred object instance in the frames of a given video. Due to the complex nature of this multimodal task, which combines text reasoning, video understanding, instance segmentation and tracking, existing approaches typically rely on sophisticated pipelines in order to tackle it. In this paper, we propose a simple Transformer-based approach to RVOS. Our framework, termed Multimodal Tracking Transformer (MTTR), models the RVOS task as a sequence prediction problem. Following recent advancements in computer vision and natural language processing, MTTR is based on the realization that video and text can both be processed together effectively and elegantly by a single multimodal Transformer model. MTTR is end-to-end trainable, free of text-related inductive bias components and requires no additional mask-refinement post-processing steps. As such, it simplifies the RVOS pipeline considerably compared to existing methods. Evaluation on standard benchmarks reveals that MTTR significantly outperforms previous art across multiple metrics. In particular, MTTR shows impressive +5.7 and +5.0 mAP gains on the A2D-Sentences and JHMDB-Sentences datasets respectively, while processing 76 frames per second. In addition, we report strong results on the public validation set of Refer-YouTube-VOS, a more challenging RVOS dataset that has yet to receive the attention of researchers. The code to reproduce our experiments is available at https://github.com/m ttr2021/MTTR
翻訳日:2021-11-30 15:03:13 公開日:2021-11-29
# 非対称決定点過程に対するオンラインMAP推論と学習

Online MAP Inference and Learning for Nonsymmetric Determinantal Point Processes ( http://arxiv.org/abs/2111.14674v1 )

ライセンス: Link先を確認
Aravind Reddy, Ryan A. Rossi, Zhao Song, Anup Rao, Tung Mai, Nedim Lipka, Gang Wu, Eunyee Koh, Nesreen Ahmed(参考訳) 本稿では,データポイントが任意の順序で到着する非対称行列点プロセス (ndpps) に対するオンラインおよびストリーミングマップの推論と学習の問題について紹介する。 オンライン設定には、任意の時点で有効なソリューションを維持するという追加の要件がある。 これらの新しい問題を解決するために、理論的保証のあるアルゴリズムを提案し、いくつかの実世界のデータセットでそれらを評価し、それらが、全データをメモリに格納し、複数のパスを取る最先端のオフラインアルゴリズムに匹敵するパフォーマンスを提供することを示す。

In this paper, we introduce the online and streaming MAP inference and learning problems for Non-symmetric Determinantal Point Processes (NDPPs) where data points arrive in an arbitrary order and the algorithms are constrained to use a single-pass over the data as well as sub-linear memory. The online setting has an additional requirement of maintaining a valid solution at any point in time. For solving these new problems, we propose algorithms with theoretical guarantees, evaluate them on several real-world datasets, and show that they give comparable performance to state-of-the-art offline algorithms that store the entire data in memory and take multiple passes over it.
翻訳日:2021-11-30 15:02:31 公開日:2021-11-29
# csiro starfish 検出データセット

The CSIRO Crown-of-Thorn Starfish Detection Dataset ( http://arxiv.org/abs/2111.14311v1 )

ライセンス: Link先を確認
Jiajun Liu, Brano Kusy, Ross Marchant, Brendan Do, Torsten Merz, Joey Crosswell, Andy Steven, Nic Heaney, Karl von Richter, Lachlan Tychsen-Smith, David Ahmedt-Aristizabal, Mohammad Ali Armin, Geoffrey Carlin, Russ Babcock, Peyman Moghadam, Daniel Smith, Tim Davis, Kemal El Moujahid, Martin Wicke, Megha Malpani(参考訳) ソーン・オブ・ソーン・スターフィッシュ(COTS)のアウトブレイクはグレートバリアリーフ(GBR)におけるサンゴの喪失の大きな原因であり、COTSの個体群を生態的に持続可能なレベルまで管理するために、かなりの監視と管理プログラムが進行中である。 我々は,gbr上のcots発生地域から,大規模で注釈付きの水中画像データセットをリリースし,機械学習とai駆動技術の研究を奨励し,サンゴ礁規模のcots集団の検出,監視,管理を改善する。 データセットはKaggleコンペティションでリリースされ、これらの水中画像からのCOTS検出のタスクで、国際的な機械学習コミュニティに挑戦する。

Crown-of-Thorn Starfish (COTS) outbreaks are a major cause of coral loss on the Great Barrier Reef (GBR) and substantial surveillance and control programs are underway in an attempt to manage COTS populations to ecologically sustainable levels. We release a large-scale, annotated underwater image dataset from a COTS outbreak area on the GBR, to encourage research on Machine Learning and AI-driven technologies to improve the detection, monitoring, and management of COTS populations at reef scale. The dataset is released and hosted in a Kaggle competition that challenges the international Machine Learning community with the task of COTS detection from these underwater images.
翻訳日:2021-11-30 14:59:21 公開日:2021-11-29
# TinyDefectNet:高出力ビジュアル品質検査のための超小型ディープニューラルネットワークアーキテクチャ

TinyDefectNet: Highly Compact Deep Neural Network Architecture for High-Throughput Manufacturing Visual Quality Inspection ( http://arxiv.org/abs/2111.14319v1 )

ライセンス: Link先を確認
Mohammad Javad Shafiee, Mahmoud Famouri, Gautam Bathla, Francis Li, and Alexander Wong(参考訳) 製造プロセスにおける重要な側面は、欠陥や欠陥に対する製造部品の視覚的品質検査である。 人間のみの視覚検査は非常に時間と労力がかかり、特に高スループットの製造シナリオにおいて重要なボトルネックとなる。 ディープラーニングの分野における著しい進歩を考えると、自動化された視覚品質検査は、製造プロセス中に欠陥や欠陥を高度に効率的かつ信頼性の高い検出に繋がる可能性がある。 しかし、ディープラーニング駆動の視覚検査手法は、しばしば重要な計算資源を必要とするため、スループットを制限し、スマートファクトリの実現に広く採用されるボトルネックとして機能する。 本研究では,高スループットな視覚品質検査に適した高コンパクトな深層畳み込みネットワークアーキテクチャであるtinydefectnetを作成するための,機械駆動設計探索手法の活用について検討した。 tinydefectnet は ~427k のパラメータで構成され、計算量 97m のフロップを持つが、neu 欠陥ベンチマークデータセットの表面欠陥検出タスクのための最先端アーキテクチャの検出精度を達成している。 このように、TinyDefectNetは同じレベルの検出性能を52$\times$低いアーキテクチャ複雑性と11倍低い計算複雑性で達成することができる。 さらに、TinyDefectNetはAMD EPYC 7R32にデプロイされ、ネイティブのTensorflow環境を使って7.6倍、AMD ZenDNNアクセラレーターライブラリを使って9倍高速スループットを達成した。 最後に、tinydefectnetによって、オペレータとインスペクタによる使用に対する信頼を高めるために、正しい意思決定行動を保証するために、説明可能性駆動のパフォーマンス検証戦略が実行された。

A critical aspect in the manufacturing process is the visual quality inspection of manufactured components for defects and flaws. Human-only visual inspection can be very time-consuming and laborious, and is a significant bottleneck especially for high-throughput manufacturing scenarios. Given significant advances in the field of deep learning, automated visual quality inspection can lead to highly efficient and reliable detection of defects and flaws during the manufacturing process. However, deep learning-driven visual inspection methods often necessitate significant computational resources, thus limiting throughput and act as a bottleneck to widespread adoption for enabling smart factories. In this study, we investigated the utilization of a machine-driven design exploration approach to create TinyDefectNet, a highly compact deep convolutional network architecture tailored for high-throughput manufacturing visual quality inspection. TinyDefectNet comprises of just ~427K parameters and has a computational complexity of ~97M FLOPs, yet achieving a detection accuracy of a state-of-the-art architecture for the task of surface defect detection on the NEU defect benchmark dataset. As such, TinyDefectNet can achieve the same level of detection performance at 52$\times$ lower architectural complexity and 11x lower computational complexity. Furthermore, TinyDefectNet was deployed on an AMD EPYC 7R32, and achieved 7.6x faster throughput using the native Tensorflow environment and 9x faster throughput using AMD ZenDNN accelerator library. Finally, explainability-drive n performance validation strategy was conducted to ensure correct decision-making behaviour was exhibited by TinyDefectNet to improve trust in its usage by operators and inspectors.
翻訳日:2021-11-30 14:59:07 公開日:2021-11-29
# ブラルからの運動:映像中の3次元形状と動色物体の運動推定

Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred Objects in Videos ( http://arxiv.org/abs/2111.14465v1 )

ライセンス: Link先を確認
Denys Rozumnyi, Martin R. Oswald, Vittorio Ferrari, Marc Pollefeys(参考訳) 本研究では,映像から高精度な物体の3次元運動,3次元形状,外観を同時推定する手法を提案する。 この目的のために,複数のフレームにまたがる事前定義された時間窓の期間に3次元位置,回転,速度,加速度,バウンス,形状,テクスチャをパラメトリすることで,高速移動物体のぼやけた外観を生成的にモデル化する。 可変レンダリングを用いて、短時間でグラフィックス出力を平均化することで、動きのぼやけを考慮に入れたレンダリングパイプラインを通して、入力ビデオへの画素ワイズ再投影誤差を最小化することにより、全てのパラメータを推定できる。 その目的のために、同じ最適化内でカメラの露出ギャップ時間を推定する。 バウンスのような急激な動きの変化を考慮し、動作軌跡を片回り多項式としてモデル化し、サブフレーム精度でバウンスの特定の時刻を推定できる。 提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。

We propose a method for jointly estimating the 3D motion, 3D shape, and appearance of highly motion-blurred objects from a video. To this end, we model the blurred appearance of a fast moving object in a generative fashion by parametrizing its 3D position, rotation, velocity, acceleration, bounces, shape, and texture over the duration of a predefined time window spanning multiple frames. Using differentiable rendering, we are able to estimate all parameters by minimizing the pixel-wise reprojection error to the input video via backpropagating through a rendering pipeline that accounts for motion blur by averaging the graphics output over short time intervals. For that purpose, we also estimate the camera exposure gap time within the same optimization. To account for abrupt motion changes like bounces, we model the motion trajectory as a piece-wise polynomial, and we are able to estimate the specific time of the bounce at sub-frame accuracy. Experiments on established benchmark datasets demonstrate that our method outperforms previous methods for fast moving object deblurring and 3D reconstruction.
翻訳日:2021-11-30 14:58:38 公開日:2021-11-29
# 自己教師付きソフトコントラスト学習における類似性コントラスト推定

Similarity Contrastive Estimation for Self-Supervised Soft Contrastive Learning ( http://arxiv.org/abs/2111.14585v1 )

ライセンス: Link先を確認
Julien Denize, Jaonary Rabarisoa, Astrid Orcesi, Romain H\'erault, St\'ephane Canu(参考訳) コントラスト表現学習は効果的な自己指導型学習法であることが証明されている。 最も成功したアプローチは、ノイズコントラスト推定(NCE)パラダイムに基づいており、インスタンスの異なるビューをポジティブとみなし、他のインスタンスをポジティブと対比すべきノイズとみなしている。 しかしながら、データセットのすべてのインスタンスは、同じディストリビューションから引き出され、ノイズと見なすべきでない基礎となるセマンティック情報を共有する。 優れたデータ表現は、インスタンス間の関係性、あるいは意味的類似性を含むと主張する。 対照的な学習は暗黙的に関係を学習するが、否定性は学習した関係の品質とそれゆえ表現の質に有害な雑音であると考える。 この問題を回避するために,SCE(Simisity Contrastive Estimation)と呼ばれるインスタンス間の意味的類似性を用いたコントラスト学習の新たな定式化を提案する。 我々の訓練目標はソフトコントラスト学習と見なすことができる。 ポジティクスと負の分類を困難にするのではなく、セマンティックな類似性に基づいてインスタンスをプッシュまたはプルする継続的分布を提案する。 ターゲットの類似度分布は弱い拡張インスタンスから計算され、無関係な関係を排除するためにシャープ化される。 各弱い拡張インスタンスは、ターゲットの類似度分布を維持しながら、その正と対照的な強い拡張インスタンスとペアリングされる。 実験の結果,提案したSCEは様々なデータセット上でMoCov2とReSSLのベースラインよりも優れており,ImageNet線形評価プロトコルの最先端アルゴリズムと競合することがわかった。

Contrastive representation learning has proven to be an effective self-supervised learning method. Most successful approaches are based on the Noise Contrastive Estimation (NCE) paradigm and consider different views of an instance as positives and other instances as noise that positives should be contrasted with. However, all instances in a dataset are drawn from the same distribution and share underlying semantic information that should not be considered as noise. We argue that a good data representation contains the relations, or semantic similarity, between the instances. Contrastive learning implicitly learns relations but considers the negatives as noise which is harmful to the quality of the learned relations and therefore the quality of the representation. To circumvent this issue we propose a novel formulation of contrastive learning using semantic similarity between instances called Similarity Contrastive Estimation (SCE). Our training objective can be considered as soft contrastive learning. Instead of hard classifying positives and negatives, we propose a continuous distribution to push or pull instances based on their semantic similarities. The target similarity distribution is computed from weak augmented instances and sharpened to eliminate irrelevant relations. Each weak augmented instance is paired with a strong augmented instance that contrasts its positive while maintaining the target similarity distribution. Experimental results show that our proposed SCE outperforms its baselines MoCov2 and ReSSL on various datasets and is competitive with state-of-the-art algorithms on the ImageNet linear evaluation protocol.
翻訳日:2021-11-30 14:58:16 公開日:2021-11-29
# SAGCI-System: サンプル効率, 一般化, 構成, インクリメンタルロボット学習を目指して

SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional, and Incremental Robot Learning ( http://arxiv.org/abs/2111.14693v1 )

ライセンス: Link先を確認
Jun Lv, Qiaojun Yu, Lin Shao, Wenhai Liu, Wenqiang Xu, Cewu Lu(参考訳) 人間レベルで様々な環境で膨大なタスクをこなす汎用ロボットを作ることは、非常に複雑である。 ロボットの学習には、サンプル効率、一般化、構成、インクリメンタルが必要である。 本研究では,これらの4つの要件を満たすために,SAGCIシステムと呼ばれる体系的な学習フレームワークを導入する。 本システムはまず,ロボットの手首に搭載されたカメラによって収集された生点雲を入力とし,URDFに代表される周囲環境の初期モデリングを生成する。 本システムはURDFをロードする学習拡張型微分可能シミュレーションを採用する。 ロボットは対話的な知覚を利用して環境と対話し、URDFのオンライン検証と修正を行う。 このシミュレーションを利用して,オブジェクト中心とロボット中心の手法を組み合わせた新しいモデルベースrlアルゴリズムを提案する。 本システムは,シミュレーションと実世界の両方において,調音オブジェクト操作を行うために応用する。 広範な実験により,提案手法の有効性が実証された。 補足資料とビデオはhttps://sites.google .com/view/egci.comで入手できる。

Building general-purpose robots to perform an enormous amount of tasks in a large variety of environments at the human level is notoriously complicated. It requires the robot learning to be sample-efficient, generalizable, compositional, and incremental. In this work, we introduce a systematic learning framework called SAGCI-system towards achieving these above four requirements. Our system first takes the raw point clouds gathered by the camera mounted on the robot's wrist as the inputs and produces initial modeling of the surrounding environment represented as a URDF. Our system adopts a learning-augmented differentiable simulation that loads the URDF. The robot then utilizes the interactive perception to interact with the environments to online verify and modify the URDF. Leveraging the simulation, we propose a new model-based RL algorithm combining object-centric and robot-centric approaches to efficiently produce policies to accomplish manipulation tasks. We apply our system to perform articulated object manipulation, both in the simulation and the real world. Extensive experiments demonstrate the effectiveness of our proposed learning framework. Supplemental materials and videos are available on https://sites.google .com/view/egci.
翻訳日:2021-11-30 14:57:51 公開日:2021-11-29
# 人間の知覚による表現のアライメントの探索

Exploring Alignment of Representations with Human Perception ( http://arxiv.org/abs/2111.14726v1 )

ライセンス: Link先を確認
Vedant Nanda and Ayan Majumdar and Camila Kolling and John P. Dickerson and Krishna P. Gummadi and Bradley C. Love and Adrian Weller(参考訳) 我々は、モデルが \textit{good} 表現を学ぶときの貴重な視点として、モデルによって類似した表現にマッピングされる入力は、人間によっても同様に知覚されるべきである、と論じる。 我々は、同じモデル表現にマップする複数の入力を生成するために、textit{representation inversion}を使用し、その入力の知覚的類似性を人間のサーベイを通して定量化する。 我々のアプローチは、モデルが人間の知覚と一致している程度を測定する。 このアライメント尺度を用いて,様々な学習パラダイム(教師付き学習と自己教師付き学習)と異なるトレーニング損失(標準的かつ堅牢なトレーニング)で訓練されたモデルを評価する。 以上の結果から,人間の知覚と表現のアライメントは,モデルの性質に有用な洞察を与えることが示唆された。 例えば、人間の知覚との整合性は、異なるモデルの出力が矛盾する入力に対するモデルの予測に対する信頼の尺度として利用することができる。 また,モデルのさまざまな特性として,そのアーキテクチャ,トレーニングパラダイム,トレーニング損失,データ拡張が,人間の知覚に合わせた学習表現において重要な役割を担っていることもわかりました。

We argue that a valuable perspective on when a model learns \textit{good} representations is that inputs that are mapped to similar representations by the model should be perceived similarly by humans. We use \textit{representation inversion} to generate multiple inputs that map to the same model representation, then quantify the perceptual similarity of these inputs via human surveys. Our approach yields a measure of the extent to which a model is aligned with human perception. Using this measure of alignment, we evaluate models trained with various learning paradigms (\eg~supervised and self-supervised learning) and different training losses (standard and robust training). Our results suggest that the alignment of representations with human perception provides useful additional insights into the qualities of a model. For example, we find that alignment with human perception can be used as a measure of trust in a model's prediction on inputs where different models have conflicting outputs. We also find that various properties of a model like its architecture, training paradigm, training loss, and data augmentation play a significant role in learning representations that are aligned with human perception.
翻訳日:2021-11-30 14:57:33 公開日:2021-11-29
# 3次元医用画像解析のためのスイム変圧器の自己監督前訓練

Self-Supervised Pre-Training of Swin Transformers for 3D Medical Image Analysis ( http://arxiv.org/abs/2111.14791v1 )

ライセンス: Link先を確認
Yucheng Tang, Dong Yang, Wenqi Li, Holger Roth, Bennett Landman, Daguang Xu, Vishwesh Nath and Ali Hatamizadeh(参考訳) 視覚変換器(ViT)は、下流アプリケーションに転送可能なグローバルおよびローカル表現の自己教師型学習において、優れた性能を示している。 これらの結果に触発されて,医療画像解析のためのプロキシタスクをカスタマイズした自己教師付き学習フレームワークを提案する。 具体的には 提案します (i)自己教師付き事前学習のための階層エンコーダを備えたswain unet transformers(swin unetr)と呼ばれる新しい3dトランスフォーマモデル (ii)ヒト解剖学の基盤となるパターンを学ぶための調整されたプロキシタスク。 様々な臓器から5,050個のct画像に対して,提案モデルの事前学習が成功していることを示す。 本手法の有効性は,13の腹部臓器とMSDデータセットからのセグメンテーションタスクを用いたBTCV(Beyond the Cranial Vault)セグメンテーションチャレンジにおいて,トレーニング済みモデルの微調整により検証した。 私たちのモデルは現在、MSDとBTCV両方のデータセットの公開テストリーダーボードで最先端(すなわち第1位)です。 コード: https://monai.io/res earch/swin-unetr

Vision Transformers (ViT)s have shown great performance in self-supervised learning of global and local representations that can be transferred to downstream applications. Inspired by these results, we introduce a novel self-supervised learning framework with tailored proxy tasks for medical image analysis. Specifically, we propose: (i) a new 3D transformer-based model, dubbed Swin UNEt TRansformers (Swin UNETR), with a hierarchical encoder for self-supervised pre-training; (ii) tailored proxy tasks for learning the underlying pattern of human anatomy. We demonstrate successful pre-training of the proposed model on 5,050 publicly available computed tomography (CT) images from various body organs. The effectiveness of our approach is validated by fine-tuning the pre-trained models on the Beyond the Cranial Vault (BTCV) Segmentation Challenge with 13 abdominal organs and segmentation tasks from the Medical Segmentation Decathlon (MSD) dataset. Our model is currently the state-of-the-art (i.e. ranked 1st) on the public test leaderboards of both MSD and BTCV datasets. Code: https://monai.io/res earch/swin-unetr
翻訳日:2021-11-30 14:56:57 公開日:2021-11-29
# Point-BERT: Masked Point Modeling を用いた3Dポイントクラウドトランスの事前学習

Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling ( http://arxiv.org/abs/2111.14819v1 )

ライセンス: Link先を確認
Xumin Yu, Lulu Tang, Yongming Rao, Tiejun Huang, Jie Zhou, Jiwen Lu(参考訳) BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。 BERTにインスパイアされた我々は,masked Point Modeling (MPM) タスクを,事前トレーニングポイントクラウドトランスフォーマーに展開する。 具体的には、まず点雲を複数の局所点パッチに分割し、離散変分オートエンコーダ(dVAE)を備えた点雲Tokenizerは、意味のある局所情報を含む離散点トークンを生成するように設計されている。 次に、入力ポイントクラウドのパッチをランダムにマスクして、バックボーントランスフォーマーに供給します。 事前訓練の目的は、Tokenizerが取得したポイントトークンの監督の下で、マスクされた場所で元のポイントトークンを復元することである。 提案したBERTスタイルの事前学習戦略が,標準点雲変換器の性能を著しく向上することを示した。 プリトレーニング戦略を備えることにより,純トランスフォーマーアーキテクチャは,modelnet40では93.8%,最も難しいscanobjectnnでは83.1%の精度を達成し,手作り設計がはるかに少ない注意深く設計されたポイントクラウドモデルを上回ることを示した。 私たちはまた、Point-BERTが学んだ表現が新しいタスクやドメインにうまく移行していることを示し、そこでは、我々のモデルは、ほとんどショットされていないポイントクラウド分類タスクの最先端に大きく前進している。 コードと事前訓練されたモデルはhttps://github.com/l ulutang0608/Point-BE RTで入手できる。

We present Point-BERT, a new paradigm for learning Transformers to generalize the concept of BERT to 3D point cloud. Inspired by BERT, we devise a Masked Point Modeling (MPM) task to pre-train point cloud Transformers. Specifically, we first divide a point cloud into several local point patches, and a point cloud Tokenizer with a discrete Variational AutoEncoder (dVAE) is designed to generate discrete point tokens containing meaningful local information. Then, we randomly mask out some patches of input point clouds and feed them into the backbone Transformers. The pre-training objective is to recover the original point tokens at the masked locations under the supervision of point tokens obtained by the Tokenizer. Extensive experiments demonstrate that the proposed BERT-style pre-training strategy significantly improves the performance of standard point cloud Transformers. Equipped with our pre-training strategy, we show that a pure Transformer architecture attains 93.8% accuracy on ModelNet40 and 83.1% accuracy on the hardest setting of ScanObjectNN, surpassing carefully designed point cloud models with much fewer hand-made designs. We also demonstrate that the representations learned by Point-BERT transfer well to new tasks and domains, where our models largely advance the state-of-the-art of few-shot point cloud classification task. The code and pre-trained models are available at https://github.com/l ulutang0608/Point-BE RT
翻訳日:2021-11-30 14:56:40 公開日:2021-11-29
# ロバストと適応運動予測に向けて:因果表現の視点から

Towards Robust and Adaptive Motion Forecasting: A Causal Representation Perspective ( http://arxiv.org/abs/2111.14820v1 )

ライセンス: Link先を確認
Yuejiang Liu, Riccardo Cadei, Jonas Schweizer, Sherwin Bahmani, Alexandre Alahi(参考訳) 観測データから行動パターンを学習することは、運動予測のデファクトアプローチである。 しかし、現在のパラダイムは2つの欠点に悩まされている。 本研究では,これらの課題を因果表現の観点から解決することを提案する。 まず,運動予測の因果形式を導入し,不変機構,共起体,散発的特徴の3つの潜在変数群からなる動的プロセスとして問題を取り上げる。 次に、各グループを別々に扱う学習フレームワークを紹介します。 (i)異なる場所から収集されたデータセットをマージするという一般的な慣行とは異なり、その微妙な区別を、モデルにスプリアス相関を抑制するよう促す不分散損失によって活用する。 (ii)因果グラフを近似するために不変機構とスタイル共起者の表現を分解するモジュラーアーキテクチャを考案する。 (iii)スタイル表現の構造を強制するだけでなく,テスト時間の改良のための自己スーパーバイザリー信号としても機能するスタイル一貫性損失を導入する。 合成および実データを用いた実験結果から,提案した3つのコンポーネントは,学習した動き表現の堅牢性と再利用性を大幅に向上し,分布外一般化と低ショット転送のための最先端動作予測モデルよりも優れていた。

Learning behavioral patterns from observational data has been a de-facto approach to motion forecasting. Yet, the current paradigm suffers from two shortcomings: brittle under covariate shift and inefficient for knowledge transfer. In this work, we propose to address these challenges from a causal representation perspective. We first introduce a causal formalism of motion forecasting, which casts the problem as a dynamic process with three groups of latent variables, namely invariant mechanisms, style confounders, and spurious features. We then introduce a learning framework that treats each group separately: (i) unlike the common practice of merging datasets collected from different locations, we exploit their subtle distinctions by means of an invariance loss encouraging the model to suppress spurious correlations; (ii) we devise a modular architecture that factorizes the representations of invariant mechanisms and style confounders to approximate a causal graph; (iii) we introduce a style consistency loss that not only enforces the structure of style representations but also serves as a self-supervisory signal for test-time refinement on the fly. Experiment results on synthetic and real datasets show that our three proposed components significantly improve the robustness and reusability of the learned motion representations, outperforming prior state-of-the-art motion forecasting models for out-of-distribution generalization and low-shot transfer.
翻訳日:2021-11-30 14:56:12 公開日:2021-11-29
# 非一様から一様への量子化:一般化されたストレートスルー推定による高精度量子化に向けて

Nonuniform-to-Unifor m Quantization: Towards Accurate Quantization via Generalized Straight-Through Estimation ( http://arxiv.org/abs/2111.14826v1 )

ライセンス: Link先を確認
Zechun Liu and Kwang-Ting Cheng and Dong Huang and Eric Xing and Zhiqiang Shen(参考訳) ニューラルネットワークを圧縮する非一様量子化戦略は、通常、その表現能力の優れたため、その一様戦略よりも優れた性能を達成する。 しかし、多くの非一様量子化法は、ハードウェア展開において非一様量子化ウェイト/アクティベーションを実装する際に複雑なプロジェクションプロセスを見落としている。 本研究では,モデル推論のための一様量子化としてハードウェアフレンドリーかつ効率的でありながら,非一様メソッドの強い表現能力を維持する手法であるn2uqを提案する。 これらの実数値入力を等価な出力レベルに定量化しながら、柔軟な等価な入力しきい値を学習し、基盤となる分布に適合させることで、これを達成する。 学習可能な入力しきい値を持つ量子化ネットワークを訓練するために、難解な後方微分型計算w.r.t.しきい値パラメータのための一般化ストレートスルー推定器(g-ste)を導入する。 さらに,重み量子化における情報損失をさらに低減するためにエントロピー保存正規化を検討する。 我々のN2UQは、均一に量子化された重みとアクティベーションを課すこの有害な制約の下でも、ImageNet上で最先端の非一様量子化法を0.7〜1.8%上回り、N2UQ設計の貢献を示す。 コードは公開される予定だ。

The nonuniform quantization strategy for compressing neural networks usually achieves better performance than its counterpart, i.e., uniform strategy, due to its superior representational capacity. However, many nonuniform quantization methods overlook the complicated projection process in implementing the nonuniformly quantized weights/activations, which incurs non-negligible time and space overhead in hardware deployment. In this study, we propose Nonuniform-to-Unifor m Quantization (N2UQ), a method that can maintain the strong representation ability of nonuniform methods while being hardware-friendly and efficient as the uniform quantization for model inference. We achieve this through learning the flexible in-equidistant input thresholds to better fit the underlying distribution while quantizing these real-valued inputs into equidistant output levels. To train the quantized network with learnable input thresholds, we introduce a generalized straight-through estimator (G-STE) for intractable backward derivative calculation w.r.t. threshold parameters. Additionally, we consider entropy preserving regularization to further reduce information loss in weight quantization. Even under this adverse constraint of imposing uniformly quantized weights and activations, our N2UQ outperforms state-of-the-art nonuniform quantization methods by 0.7~1.8% on ImageNet, demonstrating the contribution of N2UQ design. Code will be made publicly available.
翻訳日:2021-11-30 14:55:49 公開日:2021-11-29
# PSG: 頭字語抽出のためのプロンプトに基づくシーケンス生成

PSG: Prompt-based Sequence Generation for Acronym Extraction ( http://arxiv.org/abs/2111.14301v1 )

ライセンス: Link先を確認
Bin Li, Fei Xia, Yixuan Weng, Xiusheng Huang, Bin Sun, Shutao Li(参考訳) 頭字語抽出は、学術文書理解(SDU@AAAI-22)タスクにおいて重要な文書から頭字語(短文)とその意味(長文)を見つけることを目的としている。 以前の仕事は、このタスクを段落レベルのシーケンスラベリング問題としてモデル化することに専念している。 しかし、特にデータセットが低リソース環境にある場合、外部知識の効果的な利用は欠如している。 近年,大規模な事前学習型言語モデルを用いたプロンプトベース手法は,低リソースの下流タスクの性能を大幅に向上させることができる。 本稿では,頭字語抽出タスクのための Prompt-based Sequence Generation (PSG) 手法を提案する。 具体的には,抽出された頭字語テキストを自動応答で促すテンプレートをデザインする。 生成した回答の位置を抽出する位置抽出アルゴリズムを設計する。 低資源環境でのベトナム語とペルシャ語の頭字語抽出の結果,提案手法は,他のSOTA法よりも優れていた。

Acronym extraction aims to find acronyms (i.e., short-forms) and their meanings (i.e., long-forms) from the documents, which is important for scientific document understanding (SDU@AAAI-22) tasks. Previous works are devoted to modeling this task as a paragraph-level sequence labeling problem. However, it lacks the effective use of the external knowledge, especially when the datasets are in a low-resource setting. Recently, the prompt-based method with the vast pre-trained language model can significantly enhance the performance of the low-resourced downstream tasks. In this paper, we propose a Prompt-based Sequence Generation (PSG) method for the acronym extraction task. Specifically, we design a template for prompting the extracted acronym texts with auto-regression. A position extraction algorithm is designed for extracting the position of the generated answers. The results on the acronym extraction of Vietnamese and Persian in a low-resource setting show that the proposed method outperforms all other competitive state-of-the-art (SOTA) methods.
翻訳日:2021-11-30 14:53:31 公開日:2021-11-29
# simclad: acronym disambiguationのコントラスト学習のためのシンプルなフレームワーク

SimCLAD: A Simple Framework for Contrastive Learning of Acronym Disambiguation ( http://arxiv.org/abs/2111.14306v1 )

ライセンス: Link先を確認
Bin Li, Fei Xia, Yixuan Weng, Xiusheng Huang, Bin Sun, Shutao Li(参考訳) acronym disambiguationとは、辞書から与えられた文中の曖昧な頭文字の正しい意味を見つけることであり、科学的文書理解の要点の一つである(sdu@aaai-22)。 近年,事前学習されたマスク言語モデル(mlms)を微調整して,頭字語表現の改善を図る試みが数多く行われている。 しかし、頭字語の意味は、対応する文表現が表現空間全体の狭い部分集合が占める異方性分布である異なる文脈下で変化する。 事前訓練されたMLMからのこのような表現は、与えられた辞書の頭字語的曖昧さには理想的ではない。 本稿では,頭字語意味をよりよく理解するために,頭字語不明瞭化のコントラスト学習のための簡易フレームワーク(SimCLAD)を提案する。 具体的には,頭字語表現の等方的・判別的分布を学習することにより,事前学習モデルの一般化能力を高める新しい連続的コントラスト前訓練法を設計する。 英語の科学領域の頭字語的曖昧さに関する結果は、提案手法が他の競争的最先端(SOTA)手法よりも優れていることを示している。

Acronym disambiguation means finding the correct meaning of an ambiguous acronym in a given sentence from the dictionary, which is one of the key points for scientific document understanding (SDU@AAAI-22). Recently, many attempts have tried to solve this problem via fine-tuning the pre-trained masked language models (MLMs) in order to obtain a better acronym representation. However, the acronym meaning is varied under different contexts, whose corresponded sentence representation is the anisotropic distribution occupied with a narrow subset of the entire representation space. Such representations from pre-trained MLMs are not ideal for the acronym disambiguation from the given dictionary. In this paper, we propose a Simple framework for Contrastive Learning of Acronym Disambiguation (SimCLAD) method to better understand the acronym meanings. Specifically, we design a novel continual contrastive pre-training method that enhances the pre-trained model's generalization ability by learning the isotropic and discriminative distribution of the acronym sentence representations. The results on the acronym disambiguation of the scientific domain in English show that the proposed method outperforms all other competitive state-of-the-art (SOTA) methods.
翻訳日:2021-11-30 14:53:14 公開日:2021-11-29
# ROBIN : 実世界のアウト・オブ・ディストリビューションシフトに対するロバストネスのベンチマーク

ROBIN : A Benchmark for Robustness to Individual Nuisancesin Real-World Out-of-Distribution Shifts ( http://arxiv.org/abs/2111.14341v1 )

ライセンス: Link先を確認
Bingchen Zhao, Shaozuo Yu, Wufei Ma, Mingxin Yu, Shenxiao Mei, Angtian Wang, Ju He, Alan Yuille, Adam Kortylewski(参考訳) 実世界のシナリオにおける堅牢性の向上は、非常に困難であることが証明されている。 というのも、既存のロバスト性ベンチマークは、合成データに依存するか、データセット間の一般化としてロバスト性を測定するだけで、個々の迷惑要因の影響を無視するからである。 本研究では,実世界の画像における個々のニュアンスに対して,視覚アルゴリズムの堅牢性を診断するためのベンチマークデータセットであるROBINを紹介する。 ROBINは、PASCAL VOC 2012とImageNetデータセットから10の厳格なカテゴリを構築し、オブジェクトの3Dポーズ、形状、テクスチャ、コンテキスト、気象条件のアウト・オブ・ディストリビューションの例を含む。 ROBINは、画像分類、オブジェクト検出、および3Dポーズ推定のためのベンチマークモデルを可能にするために、豊富な注釈が付けられている。 私たちは、多くの人気のあるベースラインに対して結果を提供し、いくつかの興味深い観察を行います。 1. ニュアンス要因によっては, 性能に悪影響を及ぼす要因も少なくない。 さらに,oodnuisanceの負の効果は下流視タスクに依存する。 2. 強データ拡張によるOODの堅牢性向上に向けた最近のアプローチは, 現実のOODシナリオに限らず, 時にはOOD性能を低下させる。 3) OODの堅牢性の観点からは, 畳み込みアーキテクチャと変圧器アーキテクチャの間に有意な差異はみられない。 私たちのデータセットは、視覚アルゴリズムのOODロバスト性を研究するための豊富なテストベッドを提供し、この分野の研究を大幅に進める助けになるだろうと考えています。

Enhancing the robustness in real-world scenarios has been proven very challenging. One reason is that existing robustness benchmarks are limited, as they either rely on synthetic data or they simply measure robustness as generalization between datasets and hence ignore the effects of individual nuisance factors. In this work, we introduce ROBIN, a benchmark dataset for diagnosing the robustness of vision algorithms to individual nuisances in real-world images. ROBIN builds on 10 rigid categories from the PASCAL VOC 2012 and ImageNet datasets and includes out-of-distribution examples of the objects 3D pose, shape, texture, context and weather conditions. ROBIN is richly annotated to enable benchmark models for image classification, object detection, and 3D pose estimation. We provide results for a number of popular baselines and make several interesting observations: 1. Some nuisance factors have a much stronger negative effect on the performance compared to others. Moreover, the negative effect of an OODnuisance depends on the downstream vision task. 2. Current approaches to enhance OOD robustness using strong data augmentation have only marginal effects in real-world OOD scenarios, and sometimes even reduce the OOD performance. 3. We do not observe any significant differences between convolutional and transformer architectures in terms of OOD robustness. We believe our dataset provides a rich testbed to study the OOD robustness of vision algorithms and will help to significantly push forward research in this area.
翻訳日:2021-11-30 14:52:06 公開日:2021-11-29
# 自然場面におけるケースワイズ排除と深度順序

Instance-wise Occlusion and Depth Orders in Natural Scenes ( http://arxiv.org/abs/2111.14562v1 )

ライセンス: Link先を確認
Hyunmin Lee and Jaesik Lee(参考訳) 本稿では、3次元空間におけるインスタンスの空間的関係を理解するために使用できるinstaorderという新しいデータセットを提案する。 データセットは、101kの自然シーンにおけるクラスラベルインスタンスの幾何順序付けの2.9mアノテーションで構成されている。 シーンは,(1)咬合・咬合を識別する閉塞順序と,(2)カメラから相対距離を考慮した順序関係を記述する深さ順序について,3,659人の群集労働者によって注釈された。 データセットは同じインスタンスに対して2種類の順序の合同アノテーションを提供し、閉塞順序と深さ順序が相補的であることを発見した。 また,最先端手法よりも優れているinstaordernetと呼ばれる幾何学的順序予測ネットワークも導入する。 さらに,MiDaSのインスタンス単位の深度予測精度を高めるために,幾何的順序損失を用いたInstaDepthNetを提案する。 これらの幾何学的シーン理解への貢献は、様々なコンピュータビジョンタスクの精度を向上させるのに役立つ。

In this paper, we introduce a new dataset, named InstaOrder, that can be used to understand the spatial relationships of instances in a 3D space. The dataset consists of 2.9M annotations of geometric orderings for class-labeled instances in 101K natural scenes. The scenes were annotated by 3,659 crowd-workers regarding (1) occlusion order that identifies occluder/occludee and (2) depth order that describes ordinal relations that consider relative distance from the camera. The dataset provides joint annotation of two kinds of orderings for the same instances, and we discover that the occlusion order and depth order are complementary. We also introduce a geometric order prediction network called InstaOrderNet, which is superior to state-of-the-art approaches. Moreover, we propose InstaDepthNet that uses auxiliary geometric order loss to boost the instance-wise depth prediction accuracy of MiDaS. These contributions to geometric scene understanding will help to improve the accuracy of various computer vision tasks.
翻訳日:2021-11-30 14:51:41 公開日:2021-11-29
# (参考訳) NeSF:3次元シーンの汎用セマンティックセマンティックセグメンテーションのためのニューラルセマンティックフィールド [全文訳有]

NeSF: Neural Semantic Fields for Generalizable Semantic Segmentation of 3D Scenes ( http://arxiv.org/abs/2111.13260v2 )

ライセンス: CC BY 4.0
Suhani Vora and Noha Radwan and Klaus Greff and Henning Meyer and Kyle Genova and Mehdi S. M. Sajjadi and Etienne Pot and Andrea Tagliasacchi and Daniel Duckworth(参考訳) 提案するNeSFは,RGB画像のみから3Dセマンティックフィールドを生成する手法である。 従来の3D表現の代わりに、3D構造をポイントワイズ関数で捉えた暗黙のニューラルシーン表現の最近の研究に基づいている。 この手法を用いて3次元密度場を復元し,ポーズ付き2次元意味マップを用いて3次元意味セグメンテーションモデルを学習する。 2D信号だけで訓練されているにもかかわらず、新しいカメラのポーズから3D一貫性のあるセマンティックマップを生成することができ、任意の3Dポイントでクエリできる。 特に、NeSFは密度場を生成する方法と互換性があり、密度場の品質が向上するにつれて精度が向上する。 実験結果から,複雑でリアルに表現された合成シーンにおいて,競合する2次元および3次元意味セグメンテーションベースラインと同等の品質を示す。 本手法は,真に高密度な3dシーンセグメンテーションを提供する最初の方法であり,新たなシーンにおける推論のための意味的入力は不要である。 私たちは読者にプロジェクトのウェブサイトを訪れるよう勧めます。

We present NeSF, a method for producing 3D semantic fields from posed RGB images alone. In place of classical 3D representations, our method builds on recent work in implicit neural scene representations wherein 3D structure is captured by point-wise functions. We leverage this methodology to recover 3D density fields upon which we then train a 3D semantic segmentation model supervised by posed 2D semantic maps. Despite being trained on 2D signals alone, our method is able to generate 3D-consistent semantic maps from novel camera poses and can be queried at arbitrary 3D points. Notably, NeSF is compatible with any method producing a density field, and its accuracy improves as the quality of the density field improves. Our empirical analysis demonstrates comparable quality to competitive 2D and 3D semantic segmentation baselines on complex, realistically rendered synthetic scenes. Our method is the first to offer truly dense 3D scene segmentations requiring only 2D supervision for training, and does not require any semantic input for inference on novel scenes. We encourage the readers to visit the project website.
翻訳日:2021-11-30 14:18:25 公開日:2021-11-29
# (参考訳) 人物画像生成のための自己教師付き相関マイニングネットワーク [全文訳有]

Self-supervised Correlation Mining Network for Person Image Generation ( http://arxiv.org/abs/2111.13307v2 )

ライセンス: CC0 1.0
Zijian Wang, Xingqun Qi, Kun Yuan, Muyi Sun(参考訳) 人物画像生成は、トレーニングに不整合データペアを必要とするソースイメージに対して、非剛性変形を行うことを目的としている。 近年, 自己再建のための不整合表現を融合させることにより, 自己管理手法は, この課題における大きな展望を表現している。 しかし, この手法は, 絡み合った特徴間の空間的相関をうまく利用できない。 本稿では,DSE(Decomposed Style Encoder)とCMM(Reference Mining Module)という2つのコラボレーティブモジュールを統合した,特徴空間のソースコードを再構成する自己監督型相関マイニングネットワーク(SCM-Net)を提案する。 具体的には、DSEはまず、機能レベルで不整合ペアを生成する。 そして、CMMは特徴再構成のための空間相関場を確立する。 最終的に、翻訳モジュールは再配置された特徴を現実的な結果に変換する。 一方,クロススケールポーズ変換の忠実度を向上させるため,半体から全体生成までの合理的な身体構造を維持するために,グラフベースの身体構造保持損失(BSR損失)を提案する。 DeepFashionデータセット上で行った大規模な実験は、他の教師なしおよび教師なしのアプローチと比較して、我々の手法の優位性を示している。 また, 顔生成結果の満足度は, 他の変形課題における本手法の汎用性を示す。

Person image generation aims to perform non-rigid deformation on source images, which generally requires unaligned data pairs for training. Recently, self-supervised methods express great prospects in this task by merging the disentangled representations for self-reconstruction. However, such methods fail to exploit the spatial correlation between the disentangled features. In this paper, we propose a Self-supervised Correlation Mining Network (SCM-Net) to rearrange the source images in the feature space, in which two collaborative modules are integrated, Decomposed Style Encoder (DSE) and Correlation Mining Module (CMM). Specifically, the DSE first creates unaligned pairs at the feature level. Then, the CMM establishes the spatial correlation field for feature rearrangement. Eventually, a translation module transforms the rearranged features to realistic results. Meanwhile, for improving the fidelity of cross-scale pose transformation, we propose a graph based Body Structure Retaining Loss (BSR Loss) to preserve reasonable body structures on half body to full body generation. Extensive experiments conducted on DeepFashion dataset demonstrate the superiority of our method compared with other supervised and unsupervised approaches. Furthermore, satisfactory results on face generation show the versatility of our method in other deformation tasks.
翻訳日:2021-11-30 13:25:56 公開日:2021-11-29
# (参考訳) 空間騒音カリキュラム学習によるオブジェクトレベル事前学習 [全文訳有]

Contrastive Object-level Pre-training with Spatial Noise Curriculum Learning ( http://arxiv.org/abs/2111.13651v2 )

ライセンス: CC BY-SA 4.0
Chenhongyi Yang, Lichao Huang, Elliot J. Crowley(参考訳) 対照的な学習に基づく事前学習の目標は、大量のラベルのないデータを活用して、下流に容易に適応可能なモデルを作成することである。 現在のアプローチでは、アンカー画像、その画像の強化された対応する画像、その他の画像が与えられたとき、アンカーとアンカーの間の距離が小さく、アンカーと他の画像との間の距離が大きくなるような表現を生成する必要がある。 このアプローチには2つの大きな問題があります。 (i)画像レベルでの表現を対比することにより、インスタンスセグメンテーションのような下流のオブジェクトレベルのタスクに有益な、詳細なオブジェクト感性機能を生成することは困難である。 (ii)増補版を作るための増補戦略は固定されており、事前学習の後半段階では学習が効果的ではない。 本稿では,これらの問題に取り組むために,ccop(curricular contrastive object-level pre-training)を導入する。 (i)粗い対象領域の探索に選択的検索を使用し、それらを画像間オブジェクトレベルのコントラスト損失と画像内オブジェクトレベルの識別損失を事前学習対象に組み込む。 2) 学習前段階の後期においても, モデルが一貫して有用な学習信号を取得することができるように, 生成領域を適応的に増強するカリキュラム学習機構を提案する。 実験の結果,マルチオブジェクトシーン画像データセットを事前トレーニングする場合,複数のオブジェクトレベルのタスクに対して大きなマージンでmoco v2ベースラインを改善することができた。 コードはhttps://github.com/C henhongyiYang/CCOPで公開されている。

The goal of contrastive learning based pre-training is to leverage large quantities of unlabeled data to produce a model that can be readily adapted downstream. Current approaches revolve around solving an image discrimination task: given an anchor image, an augmented counterpart of that image, and some other images, the model must produce representations such that the distance between the anchor and its counterpart is small, and the distances between the anchor and the other images are large. There are two significant problems with this approach: (i) by contrasting representations at the image-level, it is hard to generate detailed object-sensitive features that are beneficial to downstream object-level tasks such as instance segmentation; (ii) the augmentation strategy of producing an augmented counterpart is fixed, making learning less effective at the later stages of pre-training. In this work, we introduce Curricular Contrastive Object-level Pre-training (CCOP) to tackle these problems: (i) we use selective search to find rough object regions and use them to build an inter-image object-level contrastive loss and an intra-image object-level discrimination loss into our pre-training objective; (ii) we present a curriculum learning mechanism that adaptively augments the generated regions, which allows the model to consistently acquire a useful learning signal, even in the later stages of pre-training. Our experiments show that our approach improves on the MoCo v2 baseline by a large margin on multiple object-level tasks when pre-training on multi-object scene image datasets. Code is available at https://github.com/C henhongyiYang/CCOP.
翻訳日:2021-11-30 13:14:04 公開日:2021-11-29
# ManiFest:Few-shot画像翻訳のためのマニフォールド変形

ManiFest: Manifold Deformation for Few-shot Image Translation ( http://arxiv.org/abs/2111.13681v2 )

ライセンス: Link先を確認
Fabio Pizzati, Jean-Fran\c{c}ois Lalonde, Raoul de Charette(参考訳) ほとんどの画像から画像への変換には大量のトレーニング画像が必要であるため、適用性が制限される。 マニフェスト(ManiFest)は、少数の画像のみからターゲットドメインのコンテキスト認識表現を学習する、少数の画像翻訳のためのフレームワークである。 特徴整合性を実現するため,我々のフレームワークはソースとプロキシアンカードメイン間のスタイル多様体を学習する(多数の画像からなると仮定される)。 学習された多様体は、パッチベースの逆境および特徴統計アライメント損失を介して、補間され、少数ショットのターゲット領域に向かって変形する。 これらのコンポーネントはすべて、単一のエンドツーエンドループで同時にトレーニングされる。 一般的な翻訳タスクに加えて、このアプローチは、特定のスタイルを再現するために単一の例示画像で条件付けすることができる。 広範囲な実験によって、複数のタスクにおけるマニフェストの有効性が示され、すべてのメトリクスと一般的なシナリオと例題ベースのシナリオで最先端を上回っている。 私たちのコードはhttps://github.com/c v-rits/Manifestで利用可能です。

Most image-to-image translation methods require a large number of training images, which restricts their applicability. We instead propose ManiFest: a framework for few-shot image translation that learns a context-aware representation of a target domain from a few images only. To enforce feature consistency, our framework learns a style manifold between source and proxy anchor domains (assumed to be composed of large numbers of images). The learned manifold is interpolated and deformed towards the few-shot target domain via patch-based adversarial and feature statistics alignment losses. All of these components are trained simultaneously during a single end-to-end loop. In addition to the general few-shot translation task, our approach can alternatively be conditioned on a single exemplar image to reproduce its specific style. Extensive experiments demonstrate the efficacy of ManiFest on multiple tasks, outperforming the state-of-the-art on all metrics and in both the general- and exemplar-based scenarios. Our code is available at https://github.com/c v-rits/Manifest .
翻訳日:2021-11-30 12:59:47 公開日:2021-11-29
# シーン表現変換:集合相対的シーン表現によるジオメトリフリー新規ビュー合成

Scene Representation Transformer: Geometry-Free Novel View Synthesis Through Set-Latent Scene Representations ( http://arxiv.org/abs/2111.13152v2 )

ライセンス: Link先を確認
Mehdi S. M. Sajjadi and Henning Meyer and Etienne Pot and Urs Bergmann and Klaus Greff and Noha Radwan and Suhani Vora and Mario Lucic and Daniel Duckworth and Alexey Dosovitskiy and Jakob Uszkoreit and Thomas Funkhouser and Andrea Tagliasacchi(参考訳) コンピュータビジョンにおける古典的な問題は、インタラクティブなレートで新しいビューを描画するのに使用できる少数の画像から3Dシーン表現を推論することである。 以前の研究では、テクスチャメッシュのような事前定義された3d表現や、ラミアンスフィールドのような暗黙的な表現を再構築することに焦点を当てており、多くの場合、新しいシーンごとに正確なカメラポーズと長い処理時間を持つ入力画像を必要とする。 本研究では,SRT(Scene Representation Transformer)を提案する。SRT(Scene Representation Transformer)は,新しい領域のRGB画像のポーズやアンポーズを処理し,"セットラテントなシーン表現"を推論し,新しいビューを合成する。 シーン表現を計算するため,視覚変換器を画像集合に一般化し,グローバルな情報統合を実現し,従って3次元推論を行う。 効率的なデコーダトランスフォーマは、シーン表現に参加して光フィールドをパラメータ化し、新しいビューを描画する。 学習は、新しいビュー再構成誤差を最小限に抑えて、エンドツーエンドで教師される。 この手法は,psnrと合成データセットの速度の点で,最近のベースラインよりも優れており,論文用に作成された新しいデータセットも含まれている。 さらに,srtがストリートビュー画像を用いた実世界の屋外環境のインタラクティブな可視化と意味セグメンテーションをサポートすることを実証する。

A classical problem in computer vision is to infer a 3D scene representation from few images that can be used to render novel views at interactive rates. Previous work focuses on reconstructing pre-defined 3D representations, e.g. textured meshes, or implicit representations, e.g. radiance fields, and often requires input images with precise camera poses and long processing times for each novel scene. In this work, we propose the Scene Representation Transformer (SRT), a method which processes posed or unposed RGB images of a new area, infers a "set-latent scene representation", and synthesises novel views, all in a single feed-forward pass. To calculate the scene representation, we propose a generalization of the Vision Transformer to sets of images, enabling global information integration, and hence 3D reasoning. An efficient decoder transformer parameterizes the light field by attending into the scene representation to render novel views. Learning is supervised end-to-end by minimizing a novel-view reconstruction error. We show that this method outperforms recent baselines in terms of PSNR and speed on synthetic datasets, including a new dataset created for the paper. Further, we demonstrate that SRT scales to support interactive visualization and semantic segmentation of real-world outdoor environments using Street View imagery.
翻訳日:2021-11-30 12:59:28 公開日:2021-11-29
# マルチアノテータを用いた医用画像分割のための人間の嗜好と確率誤差のモデル化

Modeling Human Preference and Stochastic Error for Medical Image Segmentation with Multiple Annotators ( http://arxiv.org/abs/2111.13410v2 )

ライセンス: Link先を確認
Zehui Liao, Shishuai Hu, Yutong Xie, Yong Xia(参考訳) 医用画像の手動アノテーションは非常に主観的であり、必然的かつ巨大なアノテーションバイアスをもたらす。 ディープラーニングモデルは、さまざまなタスクにおいて人間のパフォーマンスを上回るかもしれないが、これらのバイアスを模倣または増幅することもある。 複数のアノテータを持ち、それらのアノテーションを融合させて確率的エラーを減らすことができるが、アノテータの好みによるバイアスを処理するためにこの戦略は利用できない。 本稿では,医用画像のセグメンテーションタスクにおけるアノテーション関連バイアスの問題を取り上げ,アノテーションの好みを確率的エラーから切り離して,メタセグメンテーションだけでなく,各アノテーションによって可能となるセグメンテーションを生成するという観点から,その問題に対処するためのpide-involved annotation distribution learning(padl)フレームワークを提案する。 この枠組みの下では、確率的エラーモデリング(sem)モジュールは、メタセグメンテーションマップと平均確率的エラーマップを推定し、一連の人間選好モデリング(hpm)モジュールは、各アノテーションのセグメンテーションと対応する確率的エラーを推定する。 われわれは,複数の医療専門家が注釈を付した2つの画像モダリティの異なる医用画像ベンチマークを用いてPADLフレームワークを評価し,5つの医用画像セグメンテーションタスクで有望なパフォーマンスを達成した。

Manual annotation of medical images is highly subjective, leading to inevitable and huge annotation biases. Deep learning models may surpass human performance on a variety of tasks, but they may also mimic or amplify these biases. Although we can have multiple annotators and fuse their annotations to reduce stochastic errors, we cannot use this strategy to handle the bias caused by annotators' preferences. In this paper, we highlight the issue of annotator-related biases on medical image segmentation tasks, and propose a Preference-involved Annotation Distribution Learning (PADL) framework to address it from the perspective of disentangling an annotator's preference from stochastic errors using distribution learning so as to produce not only a meta segmentation but also the segmentation possibly made by each annotator. Under this framework, a stochastic error modeling (SEM) module estimates the meta segmentation map and average stochastic error map, and a series of human preference modeling (HPM) modules estimate each annotator's segmentation and the corresponding stochastic error. We evaluated our PADL framework on two medical image benchmarks with different imaging modalities, which have been annotated by multiple medical professionals, and achieved promising performance on all five medical image segmentation tasks.
翻訳日:2021-11-30 12:59:00 公開日:2021-11-29
# 変分推論によるガンマハイパープライアーの逆問題へのアプローチ

A Variational Inference Approach to Inverse Problems with Gamma Hyperpriors ( http://arxiv.org/abs/2111.13329v2 )

ライセンス: Link先を確認
Shiv Agrawal, Hwanwoo Kim, Daniel Sanz-Alonso, and Alexander Strang(参考訳) ガンマハイパープライアーを持つ階層モデルは、逆問題に対するベイズ式における$L^1$および$L^2$正規化をブリッジする柔軟なスパースプロモーティングフレームワークを提供する。 これらのモデルに対するベイズ的動機にもかかわらず、既存の方法論は \textit{maximum a reari} 推定に限られる。 不確実性定量化の可能性はまだ実現されていない。 本稿では,ガンマハイパープリアーを用いた階層的逆問題に対する変分反復交代スキームを提案する。 提案する変分推論手法は正確な再構成を導き、有意義な不確かさの定量化を提供し、実装が容易である。 さらに、ハイパーパラメータの選択のためのモデル選択を行うのに自然に役立ちます。 本手法は,時系列データから解畳問題や動的システムのスパース同定など,いくつかの計算例で性能を示す。

Hierarchical models with gamma hyperpriors provide a flexible, sparse-promoting framework to bridge $L^1$ and $L^2$ regularizations in Bayesian formulations to inverse problems. Despite the Bayesian motivation for these models, existing methodologies are limited to \textit{maximum a posteriori} estimation. The potential to perform uncertainty quantification has not yet been realized. This paper introduces a variational iterative alternating scheme for hierarchical inverse problems with gamma hyperpriors. The proposed variational inference approach yields accurate reconstruction, provides meaningful uncertainty quantification, and is easy to implement. In addition, it lends itself naturally to conduct model selection for the choice of hyperparameters. We illustrate the performance of our methodology in several computed examples, including a deconvolution problem and sparse identification of dynamical systems from time series data.
翻訳日:2021-11-30 12:57:55 公開日:2021-11-29
# telegramのダークサイドを明らかにする - 偽物、クローン、詐欺、陰謀運動

Uncovering the Dark Side of Telegram: Fakes, Clones, Scams, and Conspiracy Movements ( http://arxiv.org/abs/2111.13530v2 )

ライセンス: Link先を確認
Massimo La Morgia, Alessandro Mei, Alberto Maria Mongardini, Jie Wu(参考訳) Telegramは、世界でもっとも使われているインスタントメッセージングアプリの一つだ。 その成功の要因は、高いプライバシー保護とソーシャルネットワーク機能を提供することにある。チャンネルは、管理者だけが全購読者にメッセージを投稿し、ブロードキャストできる仮想ルームだ。 しかし、これらの特徴は境界線活動の出現に寄与し、オンラインソーシャルネットワークと共通するように、偽アカウントの存在感が強かった。 Telegramは、チャネルの認証済みおよび詐欺マークを導入して、これらの問題に対処し始めた。 残念ながら、問題は解決されるには程遠い。 本研究では,35,382の異なるチャネルと130,000,000以上のメッセージを収集し,テレグラムの大規模解析を行う。 我々は、テレグラムが認証または詐欺とマークするチャンネルを調査し、類似点と相違点を強調する。 そして、マークのないチャンネルに移動します。 ここでは、暗黒ウェブのプライバシー保護サービス(カード、違法成人の共有、著作権保護コンテンツなど)にも、悪名高い活動がいくつか見られる。 さらに、クローンとフェイクの2種類のチャンネルを特定し、分析する。 clonesは、他のチャンネルの正確なコンテンツを公開し、購読者を獲得し、サービスを宣伝するチャンネルだ。 その代わり、フェイクは有名人や有名サービスを偽装しようとするチャンネルだ。 偽物は、最も高度なユーザーでさえ識別しにくい。 フェイクチャネルを自動的に検出するために,86%の精度で識別可能な機械学習モデルを提案する。 最後に、Sabmykは、偽物やクローンを悪用してプラットフォーム上に急速に普及させた陰謀理論だ。

Telegram is one of the most used instant messaging apps worldwide. Some of its success lies in providing high privacy protection and social network features like the channels -- virtual rooms in which only the admins can post and broadcast messages to all its subscribers. However, these same features contributed to the emergence of borderline activities and, as is common with Online Social Networks, the heavy presence of fake accounts. Telegram started to address these issues by introducing the verified and scam marks for the channels. Unfortunately, the problem is far from being solved. In this work, we perform a large-scale analysis of Telegram by collecting 35,382 different channels and over 130,000,000 messages. We study the channels that Telegram marks as verified or scam, highlighting analogies and differences. Then, we move to the unmarked channels. Here, we find some of the infamous activities also present on privacy-preserving services of the Dark Web, such as carding, sharing of illegal adult and copyright protected content. In addition, we identify and analyze two other types of channels: the clones and the fakes. Clones are channels that publish the exact content of another channel to gain subscribers and promote services. Instead, fakes are channels that attempt to impersonate celebrities or well-known services. Fakes are hard to identify even by the most advanced users. To detect the fake channels automatically, we propose a machine learning model that is able to identify them with an accuracy of 86%. Lastly, we study Sabmyk, a conspiracy theory that exploited fakes and clones to spread quickly on the platform reaching over 1,000,000 users.
翻訳日:2021-11-30 12:57:40 公開日:2021-11-29