このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211007となっている論文です。

PDF登録状況(公開日: 20211007)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 非コーサル畳み込みを用いたストリーミングトランスデューサに基づく音声認識 [全文訳有]

Streaming Transformer Transducer Based Speech Recognition Using Non-Causal Convolution ( http://arxiv.org/abs/2110.05241v1 )

ライセンス: CC BY 4.0
Yangyang Shi, Chunyang Wu, Dilin Wang, Alex Xiao, Jay Mahadeokar, Xiaohui Zhang, Chunxi Liu, Ke Li, Yuan Shangguan, Varun Nagaraja, Ozlem Kalinli, Mike Seltzer(参考訳) 本稿では,非因果畳み込みを用いた音声認識のためのストリーミングトランスデューサの改良を行った。 多くの作品が因果畳み込みを適用し、ルックアヘッドコンテキストを無視してストリーミングトランスフォーマーを改善する。 中心ブロックとルックアヘッドコンテキストを別々に処理するために,非コーサル畳み込みを用いることを提案する。 この方法は畳み込みにおいてルックアヘッドコンテキストを活用し、同様のトレーニングと復号効率を維持する。 同様のレイテンシを考えると、lookaheadコンテキストと非causal畳み込みを使用することは因果畳み込みよりも精度が向上する。 また,本論文では,対話的頭部注意と新しい履歴コンテキスト圧縮手法を適用し,さらに性能を向上させる。 トーキングヘッドアテンションは、異なるヘッド間で情報を転送することで、マルチヘッド自己注意を改善する。 履歴コンテキスト圧縮法は、より拡張された履歴コンテキストをコンパクトに導入する。 提案手法は, 内部データに基づいて, 相対的WERR 5.1\%, 14.5\%, 8.4\%のオープンドメイン予測, アシスタントジェネラルシナリオ, アシスタントコールシナリオにより, ルックアヘッドコンテキストによる小さなEmformerベースラインを改善する。

This paper improves the streaming transformer transducer for speech recognition by using non-causal convolution. Many works apply the causal convolution to improve streaming transformer ignoring the lookahead context. We propose to use non-causal convolution to process the center block and lookahead context separately. This method leverages the lookahead context in convolution and maintains similar training and decoding efficiency. Given the similar latency, using the non-causal convolution with lookahead context gives better accuracy than causal convolution, especially for open-domain dictation scenarios. Besides, this paper applies talking-head attention and a novel history context compression scheme to further improve the performance. The talking-head attention improves the multi-head self-attention by transferring information among different heads. The history context compression method introduces more extended history context compactly. On our in-house data, the proposed methods improve a small Emformer baseline with lookahead context by relative WERR 5.1\%, 14.5\%, 8.4\% on open-domain dictation, assistant general scenarios, and assistant calling scenarios, respectively.
翻訳日:2021-10-17 12:12:17 公開日:2021-10-07
# 脳波機能接続と深層学習による脳疾患の自動診断 : アルツハイマー病と統合失調症

EEG functional connectivity and deep learning for automatic diagnosis of brain disorders: Alzheimer's disease and schizophrenia ( http://arxiv.org/abs/2110.06140v1 )

ライセンス: Link先を確認
Caroline L. Alves, Aruane M. Pineda, Kirstin Roster, Christiane Thielemann, and Francisco A. Rodrigues(参考訳) 精神障害は世界中で障害の主な原因の一つである。 これらの疾患の治療の最初のステップは正確な診断を得ることであるが、確立された臨床検査がないことは、この課題を困難にする。 機械学習アルゴリズムは、この研究で説明したように、この問題に対する可能な解決策を提供することができる。 本稿では,脳波時系列と深層学習から得られた接続のマトリクスに基づいて精神疾患の自動診断を行う方法を提案する。 我々は,アルツハイマー病と統合失調症の患者を高い精度で分類できることを示した。 生の脳波時系列を用いた従来の事例との比較から,本手法が最も精度が高いことを示す。 したがって、深層ニューラルネットワークを脳接続データに適用することは、神経疾患の診断に非常に有望な方法である。

Mental disorders are among the leading causes of disability worldwide. The first step in treating these conditions is to obtain an accurate diagnosis, but the absence of established clinical tests makes this task challenging. Machine learning algorithms can provide a possible solution to this problem, as we describe in this work. We present a method for the automatic diagnosis of mental disorders based on the matrix of connections obtained from EEG time series and deep learning. We show that our approach can classify patients with Alzheimer's disease and schizophrenia with a high level of accuracy. The comparison with the traditional cases, that use raw EEG time series, shows that our method provides the highest precision. Therefore, the application of deep neural networks on data from brain connections is a very promising method to the diagnosis of neurological disorders.
翻訳日:2021-10-17 05:12:46 公開日:2021-10-07
# 強化学習を用いた最適ヤング率を有する複合材料の設計

Designing Composites with Target Effective Young's Modulus using Reinforcement Learning ( http://arxiv.org/abs/2110.05260v1 )

ライセンス: Link先を確認
Aldair E. Gongora, Siddharth Mysore, Beichen Li, Wan Shou, Wojciech Matusik, Elise F. Morgan, Keith A. Brown, Emily Whiting(参考訳) 添加性製造の進歩は、これまで実現できなかった材料や構造物の設計と製造を可能にした。 特に、複合材料や構造物の設計空間は大きく拡大し、結果として生じる大きさと複雑さは、ブラト力探索や1度に1つの要素(OFAT)探索といった伝統的な設計手法に挑戦し、最適な設計や調整された設計を見いだした。 この課題に対処するために、教師付き機械学習アプローチが登場し、キュレートされたトレーニングデータを使用して設計空間をモデル化するが、トレーニングデータの選択はしばしばユーザによって決定される。 本研究では,ユーザが選択したトレーニングデータを必要としない複合構造設計のための強化学習(rl)ベースのフレームワークを開発し,活用する。 5ドルの$\times$ 5の複合設計スペースは、ソフトでコンプライアントな構成材料のブロックで構成されており、このアプローチを用いることで、設計スペース全体の2.78%を2^{25}$の設計可能性でトレーニングできることがわかった。 さらに、RLベースのフレームワークは90%を超える成功率で設計を見つけることができる。 このアプローチの成功は、コンポジットやその他の材料システムの設計にRLを利用するための将来の学習フレームワークを動機付けている。

Advancements in additive manufacturing have enabled design and fabrication of materials and structures not previously realizable. In particular, the design space of composite materials and structures has vastly expanded, and the resulting size and complexity has challenged traditional design methodologies, such as brute force exploration and one factor at a time (OFAT) exploration, to find optimum or tailored designs. To address this challenge, supervised machine learning approaches have emerged to model the design space using curated training data; however, the selection of the training data is often determined by the user. In this work, we develop and utilize a Reinforcement learning (RL)-based framework for the design of composite structures which avoids the need for user-selected training data. For a 5 $\times$ 5 composite design space comprised of soft and compliant blocks of constituent material, we find that using this approach, the model can be trained using 2.78% of the total design space consists of $2^{25}$ design possibilities. Additionally, the developed RL-based framework is capable of finding designs at a success rate exceeding 90%. The success of this approach motivates future learning frameworks to utilize RL for the design of composites and other material systems.
翻訳日:2021-10-12 20:52:03 公開日:2021-10-07
# (参考訳) キーポイントシグナチャを用いた対象IDラベルのキュレーション [全文訳有]

Curating Subject ID Labels using Keypoint Signatures ( http://arxiv.org/abs/2110.04055v1 )

ライセンス: CC BY-SA 4.0
Laurent Chauvin, Matthew Toews(参考訳) 被写体IDラベルは、匿名性を維持しながら被写体の全画像をグループ化するために使用できる、ユニークな匿名コードである。 IDエラーは、入学中に手動でエラーを発生させる可能性があり、機械学習の評価(ダブルダイッピングによる)や臨床的文脈における潜在的な患者誤診に体系的なエラーをもたらす可能性がある。 本稿では、3次元画像キーポイント表現に基づく大規模医用画像データセットにおける被写体idラベルのキュレーションを高度に効率的に行うシステムについて述べる。

Subject ID labels are unique, anonymized codes that can be used to group all images of a subject while maintaining anonymity. ID errors may be inadvertently introduced manually error during enrollment and may lead to systematic error into machine learning evaluation (e.g. due to double-dipping) or potential patient misdiagnosis in clinical contexts. Here we describe a highly efficient system for curating subject ID labels in large generic medical image datasets, based on the 3D image keypoint representation, which recently led to the discovery of previously unknown labeling errors in widely-used public brain MRI datasets
翻訳日:2021-10-12 09:29:12 公開日:2021-10-07
# (参考訳) 心臓異常検出のための生成前訓練トランス [全文訳有]

Generative Pre-Trained Transformer for Cardiac Abnormality Detection ( http://arxiv.org/abs/2110.04071v1 )

ライセンス: CC BY 4.0
Pierre Louis Gaudilliere, Halla Sigurthorsdottir, Cl\'ementine Aguet, J\'er\^ome Van Zaen, Mathieu Lemay, Ricard Delgado-Gonzalo(参考訳) 心不整脈の診断には心電図の心拍分類が重要である。 Physionet/CinC 2021の課題は,12,6,4,3,2誘導心電図記録に基づいて臨床診断を正確に分類し,心臓疾患の診断に役立てることであった。 過去数年間、トランスフォーマーは自然言語処理の分野で大きな成功を収めてきた。 cincsemでは,反復周期を単語として,信号全体をそれらの単語の列として見ることにより,テキストと周期時系列信号の平行線を描くことを提案する。 これにより、周期的時系列信号に変換器の注意機構を適用することができる。 実装では,複数のエンコーダ層と高密度層を組み合わせたTransformer Encoderアーキテクチャを,それぞれに線形あるいはシグモイドのアクティベーションを付加して生成前トレーニングや分類を行う。 本研究のユースケースは,心電図記録における心拍異常のマルチラベル分類である。 ベストエントリーは、ハードウェアの限界を超えず、それぞれ12リード、6リード、4リード、3リード、および2リードのテストセットで0.12、0.07、0.10、0.10、0.07を達成しました。 残念ながら、私たちのチームはプレプリントの欠如のためにランク付けできなかったのです。

ECG heartbeat classification plays a vital role in diagnosis of cardiac arrhythmia. The goal of the Physionet/CinC 2021 challenge was to accurately classify clinical diagnosis based on 12, 6, 4, 3 or 2-lead ECG recordings in order to aid doctors in the diagnoses of different heart conditions. Transformers have had great success in the field of natural language processing in the past years. Our team, CinCSEM, proposes to draw the parallel between text and periodic time series signals by viewing the repeated period as words and the whole signal as a sequence of such words. In this way, the attention mechanisms of the transformers can be applied to periodic time series signals. In our implementation, we follow the Transformer Encoder architecture, which combines several encoder layers followed by a dense layer with linear or sigmoid activation for generative pre-training or classification, respectively. The use case presented here is multi-label classification of heartbeat abnormalities of ECG recordings shared by the challenge. Our best entry, not exceeding the challenge's hardware limitations, achieved a score of 0.12, 0.07, 0.10, 0.10 and 0.07 on 12-lead, 6-lead, 4-lead, 3-lead and 2-lead test set respectively. Unfortunately, our team was unable to be ranked because of a missing pre-print.
翻訳日:2021-10-12 09:25:05 公開日:2021-10-07
# (参考訳) DeepECMP:ディープラーニングによる細胞外マトリックスタンパク質の予測 [全文訳有]

DeepECMP: Predicting Extracellular Matrix Proteins using Deep Learning ( http://arxiv.org/abs/2110.03689v1 )

ライセンス: CC BY 4.0
Mohamed Ghafoor, Anh Nguyen(参考訳) 導入:細胞外マトリックス(ECM)は構造的および生化学的機能を有するタンパク質と炭水化物のネットワークである。 ECMは、ディフフェレントレーション、マイグレーション、シグナル伝達において重要な役割を果たしている。 ランダムフォレスト、k-ネアレストの隣人、サポートベクターマシンなどの機械学習アルゴリズムを使用してecmタンパク質を予測している研究もあるが、深層学習を用いてはまだ検討されていない。 方法:deepecmpは11個のフィードフォワードニューラルネットワークの非対称アンサンブルとアンサンブルである、事前使用済みのecmデータセットを使用して開発された。 結果: DeepECMPの性能は83.6%で、いくつかのアルゴリズムより優れていた。 さらに、DeepECMPのパイプラインは高効率であることが示されている。 結論:本稿は,ecm予測における深層学習の活用に最初に焦点をあてた。 DeepECMPによるいくつかの制限、例えば計算費用、一般への利用可能性、およびヒト種以外のユーザビリティなどである。

Introduction: The extracellular matrix (ECM) is a networkof proteins and carbohydrates that has a structural and bio-chemical function. The ECM plays an important role in dif-ferentiation, migration and signaling. Several studies havepredicted ECM proteins using machine learning algorithmssuch as Random Forests, K-nearest neighbours and supportvector machines but is yet to be explored using deep learn-ing. Method: DeepECMP was developed using several previ-ously used ECM datasets, asymmetric undersampling andan ensemble of 11 feed-forward neural networks. Results: The performance of DeepECMP was 83.6% bal-anced accuracy which outperformed several algorithms. Inaddition, the pipeline of DeepECMP has been shown to behighly efficient. Conclusion: This paper is the first to focus on utilizingdeep learning for ECM prediction. Several limitations areovercome by DeepECMP such as computational expense,availability to the public and usability outside of the humanspecies
翻訳日:2021-10-12 09:18:59 公開日:2021-10-07
# (参考訳) 軌道のガウス過程 [全文訳有]

Gaussian Process for Trajectories ( http://arxiv.org/abs/2110.03712v1 )

ライセンス: CC BY 4.0
Kien Nguyen, John Krumm, Cyrus Shahabi(参考訳) ガウス過程は時空間データを補間するための強力で柔軟な手法であり、特に入力信号から複雑な傾向や不確かさを捉えることができる。 本章ではガウス過程を地理空間軌道の補間技法として記述する。 ガウス過程は多次元ガウス分布から来る軌跡の測定をモデル化し、各タイムスタンプに対してガウス分布を予測として生成する。 ガウス過程を軌跡に適用する際に考慮すべき要素、それらの要素に対する共通の選択、ガウス過程を実装する具体的な例について論じる。

The Gaussian process is a powerful and flexible technique for interpolating spatiotemporal data, especially with its ability to capture complex trends and uncertainty from the input signal. This chapter describes Gaussian processes as an interpolation technique for geospatial trajectories. A Gaussian process models measurements of a trajectory as coming from a multidimensional Gaussian, and it produces for each timestamp a Gaussian distribution as a prediction. We discuss elements that need to be considered when applying Gaussian process to trajectories, common choices for those elements, and provide a concrete example of implementing a Gaussian process.
翻訳日:2021-10-12 09:12:55 公開日:2021-10-07
# (参考訳) 貯留層計算のためのメタラーニングアプローチ:限られたデータを用いた時系列予測 [全文訳有]

A Meta-learning Approach to Reservoir Computing: Time Series Prediction with Limited Data ( http://arxiv.org/abs/2110.03722v1 )

ライセンス: CC BY 4.0
Daniel Canaday, Andrew Pomerance, and Michelle Girvan(参考訳) 最近の研究は、カオスシステムを含む未知の力学系の将来の進化をデータ駆動で予測するための機械学習の有効性を確立している。 しかし、これらの手法は予測されるプロセスからの大量の時系列データを必要とする。 限られたデータしか利用できない場合、予測者は関心のプロセスを正確に表現する可能性のある、あるいはそうでないような重要なモデル構造を強制される。 本研究では,予測モデルの学習に要するデータ量を大幅に削減できる実験的な「関連する」プロセスから適切なモデル構造を自動的に抽出するデータ駆動手法である,貯水池コンピューティング(marc)へのメタラーニング手法を提案する。 我々は、簡単なベンチマーク問題に対するアプローチを実証し、アートメタラーニングテクニックの状態を打破し、挑戦的なカオス問題に対処する。

Recent research has established the effectiveness of machine learning for data-driven prediction of the future evolution of unknown dynamical systems, including chaotic systems. However, these approaches require large amounts of measured time series data from the process to be predicted. When only limited data is available, forecasters are forced to impose significant model structure that may or may not accurately represent the process of interest. In this work, we present a Meta-learning Approach to Reservoir Computing (MARC), a data-driven approach to automatically extract an appropriate model structure from experimentally observed "related" processes that can be used to vastly reduce the amount of data required to successfully train a predictive model. We demonstrate our approach on a simple benchmark problem, where it beats the state of the art meta-learning techniques, as well as a challenging chaotic problem.
翻訳日:2021-10-12 09:04:02 公開日:2021-10-07
# (参考訳) ニューラルネットワークの低減のためのシミュレーション

Bisimulations for Neural Network Reduction ( http://arxiv.org/abs/2110.03726v1 )

ライセンス: CC BY 4.0
Pavithra Prabhakar(参考訳) 本稿では,与えられたニューラルネットワークと意味的に等価な縮小ネットワークを誘導するバイシミュレーションの概念を提案する。 最小のバイシミュレーション等価ネットワークを構成する最小化アルゴリズムを提案する。 シミュレーション等価ニューラルネットワークを構成するリダクションは、リダクションのスケールで制限される。 本稿では,ほぼ類似するニューラルネットワーク間の意味的偏差を定量化するために,意味的同値ではなく,意味的近接性を提供するバイシミュレーションの近似概念を提案する。 後者は意味論における減量と偏差の間のトレードオフを提供する。

We present a notion of bisimulation that induces a reduced network which is semantically equivalent to the given neural network. We provide a minimization algorithm to construct the smallest bisimulation equivalent network. Reductions that construct bisimulation equivalent neural networks are limited in the scale of reduction. We present an approximate notion of bisimulation that provides semantic closeness, rather than, semantic equivalence, and quantify semantic deviation between the neural networks that are approximately bisimilar. The latter provides a trade-off between the amount of reduction and deviations in the semantics.
翻訳日:2021-10-12 08:47:09 公開日:2021-10-07
# (参考訳) UoB at SemEval-2021 Task 5: Toxic Span Predictionのためのタスクとドメイン特化情報を含む事前学習言語モデルの拡張 [全文訳有]

UoB at SemEval-2021 Task 5: Extending Pre-Trained Language Models to Include Task and Domain-Specific Information for Toxic Span Prediction ( http://arxiv.org/abs/2110.03730v1 )

ライセンス: CC BY 4.0
Erik Yan and Harish Tayyar Madabushi(参考訳) Toxicityはソーシャルメディアで広く普及しており、オンラインコミュニティの健康に大きな脅威をもたらす。 近年,多くのNLPタスクにおいて最先端の成果を得た事前学習型言語モデルの導入により,自然言語処理へのアプローチ方法が変化した。 しかし、事前学習の本質は、タスク固有の統計情報を捉えたり、ドメイン固有の知識を学ぶことは不可能であることを意味する。 さらに、これらのモデルのほとんどの実装は、通常、同時トークン分類の方法である条件付きランダムフィールドを使用しない。 これらの修正により,semeval-2021における有毒スパン検出タスクにおけるモデル性能が向上し,上位チームの4ポイント以内のスコアを得ることができた。

Toxicity is pervasive in social media and poses a major threat to the health of online communities. The recent introduction of pre-trained language models, which have achieved state-of-the-art results in many NLP tasks, has transformed the way in which we approach natural language processing. However, the inherent nature of pre-training means that they are unlikely to capture task-specific statistical information or learn domain-specific knowledge. Additionally, most implementations of these models typically do not employ conditional random fields, a method for simultaneous token classification. We show that these modifications can improve model performance on the Toxic Spans Detection task at SemEval-2021 to achieve a score within 4 percentage points of the top performing team.
翻訳日:2021-10-12 08:41:37 公開日:2021-10-07
# (参考訳) 有限点雲表面改質による対向攻撃 [全文訳有]

Adversarial Attack by Limited Point Cloud Surface Modifications ( http://arxiv.org/abs/2110.03745v1 )

ライセンス: CC BY 4.0
Atrin Arya, Hanieh Naderi and Shohreh Kasaei(参考訳) 近年の研究では、3Dポイントクラウドを直接処理してオブジェクトを分類するディープニューラルネットワークのセキュリティが、敵のサンプルによって脅かされる可能性があることが明らかになった。 既存の攻撃手法は高い成功率を達成しているが、ポイントクラウドの外観を維持するのに十分なポイント変更を制限していない。 この欠点を克服するため、2つの制約が提案されている。 これには、修正点の数と点摂動ノルムにハード境界制約を適用することが含まれる。 問題の制限性のため、探索空間は多くの局所最大値を含んでいる。 提案手法は,アルゴリズムの初めのステップサイズを用いて,点雲の主表面を高速かつ効率的に探索することでこの問題に対処する。 そして、所望の出力に収束するために、ステップサイズを徐々に小さくする。 提案手法の性能を評価するために,ポイントネット,ポイントネット++,DGCNNを含む最先端のクラウド分類モデルを用いて,ModelNet40およびScanObjectNNデータセット上で動作する。 その結果,ポイントクラウドの出現を保ちつつ,限られた数のポイント修正だけで,攻撃を成功させ,最先端の成果を得ることができた。 さらに,効率的な探索アルゴリズムにより,わずか数ステップで攻撃を成功させることができる。 さらに,提案するステップサイズスケジューリングアルゴリズムは,他の手法でも適用した場合に最大14.5\%$の改善を示す。 提案手法は,一般的な防御手法に対して効果的に機能する。

Recent research has revealed that the security of deep neural networks that directly process 3D point clouds to classify objects can be threatened by adversarial samples. Although existing adversarial attack methods achieve high success rates, they do not restrict the point modifications enough to preserve the point cloud appearance. To overcome this shortcoming, two constraints are proposed. These include applying hard boundary constraints on the number of modified points and on the point perturbation norms. Due to the restrictive nature of the problem, the search space contains many local maxima. The proposed method addresses this issue by using a high step-size at the beginning of the algorithm to search the main surface of the point cloud fast and effectively. Then, in order to converge to the desired output, the step-size is gradually decreased. To evaluate the performance of the proposed method, it is run on the ModelNet40 and ScanObjectNN datasets by employing the state-of-the-art point cloud classification models; including PointNet, PointNet++, and DGCNN. The obtained results show that it can perform successful attacks and achieve state-of-the-art results by only a limited number of point modifications while preserving the appearance of the point cloud. Moreover, due to the effective search algorithm, it can perform successful attacks in just a few steps. Additionally, the proposed step-size scheduling algorithm shows an improvement of up to $14.5\%$ when adopted by other methods as well. The proposed method also performs effectively against popular defense methods.
翻訳日:2021-10-12 08:33:26 公開日:2021-10-07
# (参考訳) 確率的グラフィカルモデルにおける大域的感度解析 [全文訳有]

Global sensitivity analysis in probabilistic graphical models ( http://arxiv.org/abs/2110.03749v1 )

ライセンス: CC BY 4.0
Rafael Ballester-Ripoll, Manuele Leonelli(参考訳) ベイズネットワークによって表現される関心の量に対するノードの証拠の集合が与える影響を測定するために,Sobolのグローバル感度解析法を適用する方法を示す。 提案手法は,ソボル指数推定の問題を限界化推定に変換するために,ネットワーク構造を利用する。 これにより、分散に基づく感度分析のためにブルートフォースやモンテカルロベースの推定器が必要となるネットワークのインデックスを効率的に計算することができる。 さらに,本手法は,正確な推論を行う際に正確な結果を与えるとともに,相関入力の場合もサポートする。 提案アルゴリズムはテンソルネットワークの分野にインスパイアされ,非循環型から巡回型までの初期テンソル感度の手法を一般化する。 本手法は,プロジェクトリスク管理と信頼性工学の領域をカバーする3つの媒体から大規模ベイズネットワーク上で実証する。

We show how to apply Sobol's method of global sensitivity analysis to measure the influence exerted by a set of nodes' evidence on a quantity of interest expressed by a Bayesian network. Our method exploits the network structure so as to transform the problem of Sobol index estimation into that of marginalization inference. This way, we can efficiently compute indices for networks where brute-force or Monte Carlo based estimators for variance-based sensitivity analysis would require millions of costly samples. Moreover, our method gives exact results when exact inference is used, and also supports the case of correlated inputs. The proposed algorithm is inspired by the field of tensor networks, and generalizes earlier tensor sensitivity techniques from the acyclic to the cyclic case. We demonstrate the method on three medium to large Bayesian networks that cover the areas of project risk management and reliability engineering.
翻訳日:2021-10-12 08:21:56 公開日:2021-10-07
# (参考訳) テキストからのプロセス抽出:技術の現状と今後の課題 [全文訳有]

Process Extraction from Text: state of the art and challenges for the future ( http://arxiv.org/abs/2110.03754v1 )

ライセンス: CC BY 4.0
Patrizio Bellan, Mauro Dragoni, Chiara Ghidini(参考訳) 自動プロセス探索は、データに記述されたプロセスモデルの抽出と導出のためのアルゴリズム手法の開発を目標としている。 イベントログデータからのプロセス発見は、すでに研究から成熟した方法での具体的な採用へと移行した、確立された領域であるが、テキストからのプロセス発見は、まだ開発の初期段階にある研究領域であり、現実のドキュメントにはほとんどスケールしない。 本稿では, 比較的に, 最先端文献, 特に使用する技術, プロセス要素の抽出, 評価について分析する。 分析の結果,近年の自然言語処理技術の活用を妨げる重要な限界について議論し,今後,データセット,技術,実験評価,パイプラインが現在採用され,将来開発される上での根本的な限界と課題について考察する。

Automatic Process Discovery aims at developing algorithmic methodologies for the extraction and elicitation of process models as described in data. While Process Discovery from event-log data is a well established area, that has already moved from research to concrete adoption in a mature manner, Process Discovery from text is still a research area at an early stage of development, which rarely scales to real world documents. In this paper we analyze, in a comparative manner, reference state-of-the-art literature, especially for what concerns the techniques used, the process elements extracted and the evaluations performed. As a result of the analysis we discuss important limitations that hamper the exploitation of recent Natural Language Processing techniques in this field and we discuss fundamental limitations and challenges for the future concerning the datasets, the techniques, the experimental evaluations, and the pipelines currently adopted and to be developed in the future.
翻訳日:2021-10-12 08:01:29 公開日:2021-10-07
# (参考訳) 方言の異なる話者を区別するソノラントスペクトルと調音

Sonorant spectra and coarticulation distinguish speakers with different dialects ( http://arxiv.org/abs/2110.03756v1 )

ライセンス: CC BY 4.0
Charalambos Themistocleous, Valantis Fyndanis, Kyrana Tsapkini(参考訳) 本研究の目的は,ストレス・非ストレスソノリタント(nasals /m, n/, lateral approximants /l/, rhotics /r/)のスペクトル分布および隣接音に対する調音効果に及ぼす言語品種の影響を明らかにすることである。 スペクトル分布の形状を定量化するために,アテナイ語話者とキプロス語話者が生成する鼻音/m,n/,側方近似音/l/,韻律/r/からのスペクトルモーメントを算出した。 隣接母音のF1 - F4フォルマント周波数に対する共調効果を推定するために,隣接母音のフォルマント輪郭の多項式モデルを開発した。 音節/m/,/n/,/l/,/r/(/m/と/n/を除く)のスペクトルモーメントと隣接母音のフォルマント輪郭に対する言語多様性(社会言語情報)の有意な影響が認められた。 すべての子音(/m/および/n/を含む)は、隣接する母音のフォルマント輪郭、特にf3およびf4に対して異なる効果を示した。 この研究は、音素のスペクトルモーメントと調音効果の組み合わせが、音素の言語的特徴(強勢と音韻カテゴリー)と社会言語的特徴(言語多様性)を決定することを強調する。 また、アテナイのギリシア語とキプロス語の最初の音響分析も行っている。

The aim of this study is to determine the effect of language varieties on the spectral distribution of stressed and unstressed sonorants (nasals /m, n/, lateral approximants /l/, and rhotics /r/) and on their coarticulatory effects on adjacent sounds. To quantify the shape of the spectral distribution, we calculated the spectral moments from the sonorant spectra of nasals /m, n/, lateral approximants /l/, and rhotics /r/ produced by Athenian Greek and Cypriot Greek speakers. To estimate the co-articulatory effects of sonorants on the adjacent vowels' F1 - F4 formant frequencies, we developed polynomial models of the adjacent vowel's formant contours. We found significant effects of language variety (sociolinguistic information) on the spectral moments of each sonorant /m/, /n/, /l/, /r/ (except between /m/ and /n/) and on the formant contours of the adjacent vowel. All sonorants (including /m/ and /n/) had distinct effects on adjacent vowel's formant contours, especially for F3 and F4. The study highlights that the combination of spectral moments and coarticulatory effects of sonorants determines linguistic (stress and phonemic category) and sociolinguistic (language variety) characteristics of sonorants. It also provides the first comparative acoustic analysis of Athenian Greek and Cypriot Greek sonorants.
翻訳日:2021-10-12 07:34:00 公開日:2021-10-07
# (参考訳) 畳み込み変圧器を用いた一般航空の予測保守 [全文訳有]

Predictive Maintenance for General Aviation Using Convolutional Transformers ( http://arxiv.org/abs/2110.03757v1 )

ライセンス: CC BY-SA 4.0
Hong Yang, Aidan LaBella, Travis Desell(参考訳) 予測メンテナンスシステムは、航空機のメンテナンスのコストを大幅に削減する可能性があり、また、メンテナンス上の問題を検出することで安全性を向上させることができる。 しかし、mts(multivariate time series)センサーデータがないため、このようなシステムの開発は制限されている。 MTS分類は過去10年間に大きく進歩してきたが、新しい手法の十分なベンチマークが不足している。 本研究はNGAFID保守分類(NGAFID-MC)データセットを,難易度,サンプル数,シーケンス長の新たなベンチマークとして導入する。 ngafid-mcは7,500以上のラベル付き飛行で、1秒あたり11,500時間以上の飛行データレコーダーと23のセンサーパラメータで構成されている。 このベンチマークを用いて,リカレントニューラルネットワーク(recurrent neural network, rnn)手法は時間的距離関係を捉えるのにはあまり適さないことを示すとともに,計算効率の高い分類性能を実現する畳み込み型多頭型自己注意(convolutional multiheaded self attention, conv-mhsa)と呼ばれる新しいアーキテクチャを提案する。 また,画像にインスパイアされたカットアウト,ミックスアップ,カットミックスの強化により,過剰フィッティングを低減し,mts分類の一般化を改善できることを実証した。 私たちの最高のトレーニングモデルがNGAFIDに組み込まれており、メンテナンスが必要なフライトを検出したり、NGAFID-MCデータセットをさらに拡張して改善するためのフィードバックを提供することができます。

Predictive maintenance systems have the potential to significantly reduce costs for maintaining aircraft fleets as well as provide improved safety by detecting maintenance issues before they come severe. However, the development of such systems has been limited due to a lack of publicly labeled multivariate time series (MTS) sensor data. MTS classification has advanced greatly over the past decade, but there is a lack of sufficiently challenging benchmarks for new methods. This work introduces the NGAFID Maintenance Classification (NGAFID-MC) dataset as a novel benchmark in terms of difficulty, number of samples, and sequence length. NGAFID-MC consists of over 7,500 labeled flights, representing over 11,500 hours of per second flight data recorder readings of 23 sensor parameters. Using this benchmark, we demonstrate that Recurrent Neural Network (RNN) methods are not well suited for capturing temporally distant relationships and propose a new architecture called Convolutional Multiheaded Self Attention (Conv-MHSA) that achieves greater classification performance at greater computational efficiency. We also demonstrate that image inspired augmentations of cutout, mixup, and cutmix, can be used to reduce overfitting and improve generalization in MTS classification. Our best trained models have been incorporated back into the NGAFID to allow users to potentially detect flights that require maintenance as well as provide feedback to further expand and refine the NGAFID-MC dataset.
翻訳日:2021-10-12 07:31:42 公開日:2021-10-07
# (参考訳) プロセスとしての説明:マルチレベルおよびマルチモーダル説明のユーザ中心構成 [全文訳有]

Explanation as a process: user-centric construction of multi-level and multi-modal explanations ( http://arxiv.org/abs/2110.03759v1 )

ライセンス: CC BY 4.0
Bettina Finzel, David E. Tafler, Stephan Scheele and Ute Schmid(参考訳) 近年、XAI研究は主にディープラーニングモデルを説明するための新しい技術アプローチの開発に取り組んできた。 つい最近の研究は、利害関係者の異なるコンテキストと要件に説明を合わせる必要性を認識し始めた。 説明はモデルの開発者だけでなく、ドメインの専門家やエンドユーザにも当てはまる必要があります。 したがって、異なる利害関係者を満たすためには、説明方法を組み合わせる必要がある。 モデル予測をより透明にするために、マルチモーダルな説明が使われているが、ある時点で得られた理解レベルに応じて情報を求めるプロセスとして説明を扱う研究は少ない。 したがって、多モードな説明以外に、様々な抽象化のレベルを説明する機会を提供する必要がある。 マルチレベルとマルチモーダルな説明を組み合わせたプロセスベースアプローチを提案する。 ユーザーは、対話的な対話を通じて、ドリルダウン方式でテキストの説明や視覚化を求めることができる。 私たちは、解釈可能な機械学習アプローチであるインダクティブロジックプログラミングを使用して、理解可能なモデルを学びます。 さらに,分類器決定が説明される各例について説明木を作成するアルゴリズムを提案する。 説明ツリーはユーザがナビゲートして、さまざまなレベルの詳細の回答を得ることができる。 生活に関する意味ネットから誘導される概念の概念実証実装を提供する。

In the last years, XAI research has mainly been concerned with developing new technical approaches to explain deep learning models. Just recent research has started to acknowledge the need to tailor explanations to different contexts and requirements of stakeholders. Explanations must not only suit developers of models, but also domain experts as well as end users. Thus, in order to satisfy different stakeholders, explanation methods need to be combined. While multi-modal explanations have been used to make model predictions more transparent, less research has focused on treating explanation as a process, where users can ask for information according to the level of understanding gained at a certain point in time. Consequently, an opportunity to explore explanations on different levels of abstraction should be provided besides multi-modal explanations. We present a process-based approach that combines multi-level and multi-modal explanations. The user can ask for textual explanations or visualizations through conversational interaction in a drill-down manner. We use Inductive Logic Programming, an interpretable machine learning approach, to learn a comprehensible model. Further, we present an algorithm that creates an explanatory tree for each example for which a classifier decision is to be explained. The explanatory tree can be navigated by the user to get answers of different levels of detail. We provide a proof-of-concept implementation for concepts induced from a semantic net about living beings.
翻訳日:2021-10-12 07:20:32 公開日:2021-10-07
# (参考訳) 食品科学分光モデルトレーニング: アクティブラーニングと半教師付き学習によるデータ効率の向上 [全文訳有]

Food Science Spectroscopy Model Training: Improving Data Efficiency Using Active Learning and Semi-Supervised Learning ( http://arxiv.org/abs/2110.03765v1 )

ライセンス: CC BY 4.0
Huanle Zhang and Nicharee Wisuthiphaet and Hemiao Cui and Nitin Nitin and Xin Liu(参考訳) 過去10年間、食品科学の計測とモニタリング技術は急速に発展してきた。 これらの技術のうち、分光は食品の品質、安全性、栄養特性の分析に広く使われている。 食品システムの複雑さと包括的予測モデルの欠如により、食品システムの複雑な性質を予測するための迅速かつ単純な測定がほとんど失われている。 機械学習(ML)は、これらの特性の分類と予測を改善する大きな可能性を示している。 しかし、MLアプリケーションの大規模なデータセットを収集する障壁はまだ残っている。 本稿では、MLアプリケーションのデータ効率を改善するために、データアノテーションとモデルトレーニングの異なるアプローチを検討する。 具体的には、アクティブラーニング(AL)とセミスーパービジョンラーニング(SSL)を活用し、ベースライン受動的ラーニング、AL、SSL、ALとSSLのハイブリッドの4つのアプローチを調査します。 これらの手法を評価するために,プラズマ量予測と食品由来病原体検出という2つの分光分析データセットを収集した。 実験の結果,実受動的学習手法と比較して,AL法とSSL法は各MLアプリケーションにおいて,ラベル付きサンプルの数を50%,25%削減することがわかった。

The past decade witnesses a rapid development in the measurement and monitoring technologies for food science. Among these technologies, spectroscopy has been widely used for the analysis of food quality, safety, and nutritional properties. Due to the complexity of food systems and the lack of comprehensive predictive models, rapid and simple measurements to predict complex properties in food systems are largely missing. Machine Learning (ML) has shown great potential to improve classification and prediction of these properties. However, the barriers to collect large datasets for ML applications still persists. In this paper, we explore different approaches of data annotation and model training to improve data efficiency for ML applications. Specifically, we leverage Active Learning (AL) and Semi-Supervised Learning (SSL) and investigate four approaches: baseline passive learning, AL, SSL, and a hybrid of AL and SSL. To evaluate these approaches, we collect two spectroscopy datasets: predicting plasma dosage and detecting foodborne pathogen. Our experimental results show that, compared to the de facto passive learning approach, AL and SSL methods reduce the number of labeled samples by 50% and 25% for each ML application, respectively.
翻訳日:2021-10-12 07:07:15 公開日:2021-10-07
# (参考訳) wake-cough: パーソナライズされた長期coughモニタリングのためのcough spottingとcougher identification [全文訳有]

Wake-Cough: cough spotting and cougher identification for personalised long-term cough monitoring ( http://arxiv.org/abs/2110.03771v1 )

ライセンス: CC BY 4.0
Madhurananda Pahar, Marisa Klopper, Byron Reeve, Rob Warren, Grant Theron, Andreas Diacon, Thomas Niesler(参考訳) Resnet50を用いてコークスにウェイクワードスポッティングを施し,iベクターを用いてコークスを識別する「ウェイクカフ」を長期の個人化コークスモニタリングシステムのために提案する。 静かな (73$\pm$5 db) 環境と騒がしい (34$\pm$17 db) 環境で記録されたcoughsは、分類器の特徴として使われるi-vectors、x-vectors、d-vectorsの抽出に用いられた。 本システムでは,騒音環境下において,mlpから2秒のコウセグメントを用いて51カウを判別する90.02\%の精度を達成している。 静かな環境では、より長い(100秒)セグメントで5と14を識別すると、それぞれ99.78\%と98.39\%となる。 音声とは異なり、i-vectorsはx-vectorsとd-vectorsを上回っている。 これらのcoughsは、google speech commandデータセットの余分なクラスとして追加され、イベントのエンドツーエンドのタイムドメイン情報を保存して機能を抽出する。 88.58\%の最高精度は、Resnet50を使用した35の他のトリガーフレーズのコーズを発見できる。 wake-coughはパーソナライズされた非意図的なcough監視システムであり、wake-word検出方法を使うことでスマートフォンベースの監視デバイスをほとんど休眠状態に保つことができる。 これは多層病床環境において、結核やCOVID-19などの肺疾患からの長期の回復を監視するために非常に魅力的である。

We present 'wake-cough', an application of wake-word spotting to coughs using Resnet50 and identifying coughers using i-vectors, for the purpose of a long-term, personalised cough monitoring system. Coughs, recorded in a quiet (73$\pm$5 dB) and noisy (34$\pm$17 dB) environment, were used to extract i-vectors, x-vectors and d-vectors, used as features to the classifiers. The system achieves 90.02\% accuracy from an MLP to discriminate 51 coughers using 2-sec long cough segments in the noisy environment. When discriminating between 5 and 14 coughers using longer (100 sec) segments in the quiet environment, this accuracy rises to 99.78\% and 98.39\% respectively. Unlike speech, i-vectors outperform x-vectors and d-vectors in identifying coughers. These coughs were added as an extra class in the Google Speech Commands dataset and features were extracted by preserving the end-to-end time-domain information in an event. The highest accuracy of 88.58\% is achieved in spotting coughs among 35 other trigger phrases using a Resnet50. Wake-cough represents a personalised, non-intrusive, cough monitoring system, which is power efficient as using wake-word detection method can keep a smartphone-based monitoring device mostly dormant. This makes wake-cough extremely attractive in multi-bed ward environments to monitor patient's long-term recovery from lung ailments such as tuberculosis and COVID-19.
翻訳日:2021-10-12 06:49:36 公開日:2021-10-07
# (参考訳) コンポーザブルオートエンコーダに基づく数値シミュレーション高速化のための反復アルゴリズム

A composable autoencoder-based iterative algorithm for accelerating numerical simulations ( http://arxiv.org/abs/2110.03780v1 )

ライセンス: CC BY 4.0
Rishikesh Ranade, Chris Hill, Haiyang He, Amir Maleki, Norman Chang and Jay Pathak(参考訳) 工学応用のための数値シミュレーションは、様々な物理過程をモデル化するために偏微分方程式(PDE)を解く。 従来のPDEソルバは非常に正確だが計算コストが高い。 一方、機械学習(ML)手法は、計算速度が大幅に向上するが、幾何、境界条件、初期条件、PDEソース項など、異なるPDE条件への精度と一般化を伴う課題に直面している。 本研究では,商用pdeソルバにおける重要なアイデアを動機とする,教師なし,低次元,局所的な手法であるcoae-mlsim(composabl e autoencoder machine learning simulation)を提案する。 これにより、PDEソリューションのサンプルを比較的少なくして、よりよく学習することが可能になります。 提案されたML-approachは、より良いベンチマークのための商用のソルバと、PDEを解決するための最新のML-approacheと比較される。 計算速度、精度、スケーラビリティ、様々なPDE条件に対する一般化を実証するために、様々な複雑なエンジニアリングケースでテストされている。 その結果,提案手法は,全比較指標(セクションカットやラインの計測結果などを含む)を正確に捉えていることがわかった。

Numerical simulations for engineering applications solve partial differential equations (PDE) to model various physical processes. Traditional PDE solvers are very accurate but computationally costly. On the other hand, Machine Learning (ML) methods offer a significant computational speedup but face challenges with accuracy and generalization to different PDE conditions, such as geometry, boundary conditions, initial conditions and PDE source terms. In this work, we propose a novel ML-based approach, CoAE-MLSim (Composable AutoEncoder Machine Learning Simulation), which is an unsupervised, lower-dimensional, local method, that is motivated from key ideas used in commercial PDE solvers. This allows our approach to learn better with relatively fewer samples of PDE solutions. The proposed ML-approach is compared against commercial solvers for better benchmarks as well as latest ML-approaches for solving PDEs. It is tested for a variety of complex engineering cases to demonstrate its computational speed, accuracy, scalability, and generalization across different PDE conditions. The results show that our approach captures physics accurately across all metrics of comparison (including measures such as results on section cuts and lines).
翻訳日:2021-10-12 06:36:55 公開日:2021-10-07
# (参考訳) 時系列解析による5G交通予測 [全文訳有]

5G Traffic Prediction with Time Series Analysis ( http://arxiv.org/abs/2110.03781v1 )

ライセンス: CC BY 4.0
Nikhil Nayak, Rujula Singh R(参考訳) 今日では、携帯電話は誰もが成長するために必要な基本的な要件になっている。 セルラートラフィックの需要が劇的に増加する中、セルラーネットワークのユーザトラフィックを正確に予測し、資源割り当てや利用の観点から性能を向上させる必要がある。 機械学習のパワーを活用し、セルラーネットワークの分野における有用性を識別することにより、トラフィックを生成するアプリケーションの分類、パケット到着強度の予測、バースト発生の3つの主な目的を達成する。 予測・分類システムの設計は,Long Short Term Memory Modelを用いて行う。 この実験で開発されたLSTM予測器は、アップリンクパケットの個数を返却し、指定された将来時間間隔におけるバースト発生確率を推定する。 LSTM予測モデルの回帰層をソフトマックス分類器に置き換え, セルトラフィックを生成するアプリケーションを, サーフィン, ビデオ通話, 音声通話, ビデオストリーミングを含む4つのアプリケーションのうちの1つに分類する。

In todays day and age, a mobile phone has become a basic requirement needed for anyone to thrive. With the cellular traffic demand increasing so dramatically, it is now necessary to accurately predict the user traffic in cellular networks, so as to improve the performance in terms of resource allocation and utilisation. By leveraging the power of machine learning and identifying its usefulness in the field of cellular networks we try to achieve three main objectives classification of the application generating the traffic, prediction of packet arrival intensity and burst occurrence. The design of the prediction and classification system is done using Long Short Term Memory model. The LSTM predictor developed in this experiment would return the number of uplink packets and also estimate the probability of burst occurrence in the specified future time interval. For the purpose of classification, the regression layer in our LSTM prediction model is replaced by a softmax classifier which is used to classify the application generating the cellular traffic into one of the four applications including surfing, video calling, voice calling, and video streaming.
翻訳日:2021-10-12 06:34:49 公開日:2021-10-07
# (参考訳) ハイブリッドクエリ戦略によるアクティブラーニングの実践的課題の解決 [全文訳有]

Addressing practical challenges in Active Learning via a hybrid query strategy ( http://arxiv.org/abs/2110.03785v1 )

ライセンス: CC BY 4.0
Deepesh Agarwal, Pravesh Srivastava, Sergio Martin-del-Campo, Balasubramaniam Natarajan, Babji Srinivasan(参考訳) アクティブラーニング(al)は、ラベル付きトレーニングインスタンスが大幅に少ない現代の機械学習問題に対処する強力なツールである。 しかし、実践シナリオにおける従来のAL手法の実装には、固有の仮定による複数の課題が伴う。 当初、ALアルゴリズムのラベルが利用できないこと、クエリプロセス中にラベルの信頼できない外部ソース、Active Learnerのパフォーマンスを評価するための互換性のないメカニズムなど、いくつかの障害がある。 これらの実践的課題に触発されて,コールドスタート,オラクルの不確実性,アクティブラーナーの性能評価という3つの実践的課題を同時に解決する,ハイブリッドクエリ戦略に基づくALフレームワークを提案する。 コールドスタート問題に対処するために、事前クラスタリングアプローチを採用する一方で、ラベルの専門知識とラベルの信頼性を取り巻く不確実性は、オラクルの不確実性を扱うために組み込まれている。 クエリプロセス中に得られたヒューリスティックは、アクティブラーナのパフォーマンスにアクセスするための基本的な前提となる。 提案するALフレームワークの堅牢性は,3つの異なる環境と産業環境で評価される。 その結果,実世界のシナリオにおけるAL実装における実践的課題に対処するためのフレームワークの有効性が示された。

Active Learning (AL) is a powerful tool to address modern machine learning problems with significantly fewer labeled training instances. However, implementation of traditional AL methodologies in practical scenarios is accompanied by multiple challenges due to the inherent assumptions. There are several hindrances, such as unavailability of labels for the AL algorithm at the beginning; unreliable external source of labels during the querying process; or incompatible mechanisms to evaluate the performance of Active Learner. Inspired by these practical challenges, we present a hybrid query strategy-based AL framework that addresses three practical challenges simultaneously: cold-start, oracle uncertainty and performance evaluation of Active Learner in the absence of ground truth. While a pre-clustering approach is employed to address the cold-start problem, the uncertainty surrounding the expertise of labeler and confidence in the given labels is incorporated to handle oracle uncertainty. The heuristics obtained during the querying process serve as the fundamental premise for accessing the performance of Active Learner. The robustness of the proposed AL framework is evaluated across three different environments and industrial settings. The results demonstrate the capability of the proposed framework to tackle practical challenges during AL implementation in real-world scenarios.
翻訳日:2021-10-12 06:29:06 公開日:2021-10-07
# (参考訳) 深層特徴直交性とハイブリッドスウィン変換器を用いた高能率大規模画像検索 [全文訳有]

Efficient large-scale image retrieval with deep feature orthogonality and Hybrid-Swin-Transfor mers ( http://arxiv.org/abs/2110.03786v1 )

ライセンス: CC BY 4.0
Christof Henkel(参考訳) 大規模ランドマーク認識と検索のための効率的なエンドツーエンドパイプラインを提案する。 画像検索における最近の研究から概念を組み合わせ,拡張する方法を示し,特に大規模ランドマーク識別に適した2つのアーキテクチャを提案する。 EfficientNetバックボーンとHybrid-Swin-Transfor merを用いた局所的・大域的特徴(DOLG)の深層直交融合モデルについて論じ、動的マージンを持つステップワイズアプローチとサブセンターアークフェイス損失を用いて、両方のアーキテクチャを効率的に訓練する方法を詳述する。 さらに,画像検索のための識別的再分類手法についても検討した。 このアプローチの優位性は、google landmark competition 2021の認識と検索トラックを勝ち取ることで実証された。

We present an efficient end-to-end pipeline for largescale landmark recognition and retrieval. We show how to combine and enhance concepts from recent research in image retrieval and introduce two architectures especially suited for large-scale landmark identification. A model with deep orthogonal fusion of local and global features (DOLG) using an EfficientNet backbone as well as a novel Hybrid-Swin-Transfor mer is discussed and details how to train both architectures efficiently using a step-wise approach and a sub-center arcface loss with dynamic margins are provided. Furthermore, we elaborate a novel discriminative re-ranking methodology for image retrieval. The superiority of our approach was demonstrated by winning the recognition and retrieval track of the Google Landmark Competition 2021.
翻訳日:2021-10-12 06:16:53 公開日:2021-10-07
# (参考訳) knowledge sheaves: 知識グラフ埋め込みのための層理論フレームワーク [全文訳有]

Knowledge Sheaves: A Sheaf-Theoretic Framework for Knowledge Graph Embedding ( http://arxiv.org/abs/2110.03789v1 )

ライセンス: CC BY 4.0
Thomas Gebhart, Jakob Hansen, Paul Schrater(参考訳) ナレッジグラフ埋め込みは、グラフの頂点とグラフの縁であるエンティティの表現を学習することで、ナレッジグラフで表される既知の事実情報をエンコードした表現は内部的に一貫性があり、新しい関係の推論に使用できる。 知識グラフ埋め込みの学習は、特定の制約の下で、グラフ上で \textit{knowledge sheaf} を学習することに対応する。 知識グラフ埋め込みモデルに関する推論のための一般化されたフレームワークを提供するのに加えて、このせん断理論的な観点は、埋め込みに対する事前制約の幅広いクラスを表現し、新しい推論能力を提供する。 我々は最近開発された層ラプラシアンのスペクトル理論を利用して、埋め込みの局所的および大域的一貫性を理解し、層ラプラシアンのハーモニック拡張を通じて合成関係を推論する新しい方法を開発した。 そして、この新しい視点に触発された拡張の利点を強調するために、これらのアイデアを実装します。

Knowledge graph embedding involves learning representations of entities -- the vertices of the graph -- and relations -- the edges of the graph -- such that the resulting representations encode the known factual information represented by the knowledge graph are internally consistent and can be used in the inference of new relations. We show that knowledge graph embedding is naturally expressed in the topological and categorical language of \textit{cellular sheaves}: learning a knowledge graph embedding corresponds to learning a \textit{knowledge sheaf} over the graph, subject to certain constraints. In addition to providing a generalized framework for reasoning about knowledge graph embedding models, this sheaf-theoretic perspective admits the expression of a broad class of prior constraints on embeddings and offers novel inferential capabilities. We leverage the recently developed spectral theory of sheaf Laplacians to understand the local and global consistency of embeddings and develop new methods for reasoning over composite relations through harmonic extension with respect to the sheaf Laplacian. We then implement these ideas to highlight the benefits of the extensions inspired by this new perspective.
翻訳日:2021-10-12 06:11:06 公開日:2021-10-07
# (参考訳) ゲーム理論によるベイズ最適化のスケーリング [全文訳有]

Scaling Bayesian Optimization With Game Theory ( http://arxiv.org/abs/2110.03790v1 )

ライセンス: CC BY 4.0
L. Mathesen, G. Pedrielli, R.L. Smith(参考訳) 本稿では,高次元ブラックボックス関数の最適化のために,Factitious Play (BOFiP) を用いたベイズ最適化アルゴリズムを提案する。 BOFiP は元の高次元空間を、重複しない次元の集合によって定義されるいくつかの部分空間に分解する。 これらの集合はアルゴリズムの開始時にランダムに生成され、元の空間の次元の分割を形成する。 BOFiPは、サブスペース内のBOを交互に検索し、サブスペース間の情報交換を行い、サブスペース関数の評価を更新する。 基本的な考え方は、低次元部分空間をまたいで高次元最適化を分配することであり、各部分空間は等しい利得ゲームにおけるプレイヤーである。 各イテレーションでBOは、プレイヤーの信念分布を更新する近似したベストリプライを生成する。 信念更新とBOは、停止条件が満たされるまで交互に行う。 高次元問題は実際の応用では一般的な問題であり、BO文学におけるいくつかの貢献は、モデルハイパーパラメータの推定に伴う計算複雑性に起因する高次元へのスケーリングの難しさを強調している。 このような複雑さは問題次元において指数関数的であり、入力次元が増加するにつれてほとんどの技術の性能が著しく低下する。 BOFiPを高次元ブラックボックス最適化の分野における最先端のアプローチと比較する。 数値実験により、20次元から1000次元までの3つのベンチマーク対象関数のパフォーマンスが示された。 ニューラルネットワークアーキテクチャ設計の問題は、それぞれ6層から92層までの42から911ノードでテストされ、結果として500から10,000の重みを持つネットワークとなる。 これらの実験は、BOFiPが競合より優れており、異なる問題に対して一貫した性能を示し、問題次元を増大させていることを実証的に示している。

We introduce the algorithm Bayesian Optimization (BO) with Fictitious Play (BOFiP) for the optimization of high dimensional black box functions. BOFiP decomposes the original, high dimensional, space into several sub-spaces defined by non-overlapping sets of dimensions. These sets are randomly generated at the start of the algorithm, and they form a partition of the dimensions of the original space. BOFiP searches the original space with alternating BO, within sub-spaces, and information exchange among sub-spaces, to update the sub-space function evaluation. The basic idea is to distribute the high dimensional optimization across low dimensional sub-spaces, where each sub-space is a player in an equal interest game. At each iteration, BO produces approximate best replies that update the players belief distribution. The belief update and BO alternate until a stopping condition is met. High dimensional problems are common in real applications, and several contributions in the BO literature have highlighted the difficulty in scaling to high dimensions due to the computational complexity associated to the estimation of the model hyperparameters. Such complexity is exponential in the problem dimension, resulting in substantial loss of performance for most techniques with the increase of the input dimensionality. We compare BOFiP to several state-of-the-art approaches in the field of high dimensional black box optimization. The numerical experiments show the performance over three benchmark objective functions from 20 up to 1000 dimensions. A neural network architecture design problem is tested with 42 up to 911 nodes in 6 up to 92 layers, respectively, resulting into networks with 500 up to 10,000 weights. These sets of experiments empirically show that BOFiP outperforms its competitors, showing consistent performance across different problems and increasing problem dimensionality.
翻訳日:2021-10-12 05:47:01 公開日:2021-10-07
# (参考訳) 目標達成: コストベース最適化によるアクティブラーニングの停止

Hitting the Target: Stopping Active Learning at the Cost-Based Optimum ( http://arxiv.org/abs/2110.03802v1 )

ライセンス: CC BY 4.0
Zac Pullar-Strecker, Katharina Dost, Eibe Frank, J\"org Wicker(参考訳) アクティブラーニングによって、従来の完全教師付き学習と同様のパフォーマンスを維持しながら、少ないラベルで機械学習モデルをトレーニングすることが可能になる。 アクティブな学習者は最も有益なデータポイントを選択し、ラベルをリクエストし、自らをリトレーニングする。 このアプローチは有望だが、従来の評価に必要なラベルを追加することなく、モデルが"十分に良い"タイミングを決定する方法について、オープンな問題を残している。 これまで、最適な停止点を特定するために異なる停止基準が提案されてきた。 しかし、最適性は精度とラベル数の間のドメイン依存のトレードオフとしてしか表現できず、全てのアプリケーションにおいて基準が優れているわけではない。 本論文は,実世界のシナリオで使用する基準の停止について,実践者に実用的なアドバイスを初めて行ったものである。 本研究は, 停止基準の大規模比較として, 精度・ラベルトレードオフの定量化のためのコスト尺度, 評価したすべての停止基準の公開実装, 停止基準の評価のためのオープンソースフレームワークを用いた。 本研究は,ドメインに最も適合する停止基準を利用することで,ラベル付けコストを大幅に削減することを可能にする。

Active learning allows machine learning models to be trained using fewer labels while retaining similar performance to traditional fully supervised learning. An active learner selects the most informative data points, requests their labels, and retrains itself. While this approach is promising, it leaves an open problem of how to determine when the model is `good enough' without the additional labels required for traditional evaluation. In the past, different stopping criteria have been proposed aiming to identify the optimal stopping point. However, optimality can only be expressed as a domain-dependent trade-off between accuracy and the number of labels, and no criterion is superior in all applications. This paper is the first to give actionable advice to practitioners on what stopping criteria they should use in a given real-world scenario. We contribute the first large-scale comparison of stopping criteria, using a cost measure to quantify the accuracy/label trade-off, public implementations of all stopping criteria we evaluate, and an open-source framework for evaluating stopping criteria. Our research enables practitioners to substantially reduce labelling costs by utilizing the stopping criterion which best suits their domain.
翻訳日:2021-10-12 05:24:09 公開日:2021-10-07
# (参考訳) FOCUS: 共通および非共通設定における親しみやすいオブジェクト [全文訳有]

FOCUS: Familiar Objects in Common and Uncommon Settings ( http://arxiv.org/abs/2110.03804v1 )

ライセンス: CC BY-SA 4.0
Priyatham Kattakinda, Soheil Feizi(参考訳) ディープラーニングのための標準的なトレーニングデータセットは、通常、ウェブをランダムにスクラップすることで収集されるため、共通の設定(例えば「草の上の馬」や「水中の船」など)のオブジェクトを含むことが多い。 そのため、トレーニングデータでは、まれで珍しい設定(例:「水上飛行機」「雪の天候の車」など)が著しく不足している。 これにより、共通の設定に対するモデル予測が望ましくないバイアスを生じさせ、誤った正確性を生み出す可能性がある。 本稿では,深部画像分類器の一般化力をストレステストするためのデータセットであるfocus (familiar objects in common and uncommon settings) を紹介する。 現代の検索エンジンの力を生かして、広範囲の場所、気象条件、日時において、一般的で珍しい設定のオブジェクトを含むデータを意図的に収集する。 本稿では,データセット上での各種画像分類器の性能を詳細に分析し,異常な設定で画像の分類を行う際の性能低下を示す。 これらのモデルの深い特徴を解析することにより、モデル予測における突発的特徴の利用により、そのような誤りが生じる可能性があることを示す。 私たちのデータセットは、ディープモデルが一般的でない設定にうまく一般化できないことを理解し、分散ロバスト性を改善するための将来の取り組みを促進するのに役立つと信じています。

Standard training datasets for deep learning often contain objects in common settings (e.g., "a horse on grass" or "a ship in water") since they are usually collected by randomly scraping the web. Uncommon and rare settings (e.g., "a plane on water", "a car in snowy weather") are thus severely under-represented in the training data. This can lead to an undesirable bias in model predictions towards common settings and create a false sense of accuracy. In this paper, we introduce FOCUS (Familiar Objects in Common and Uncommon Settings), a dataset for stress-testing the generalization power of deep image classifiers. By leveraging the power of modern search engines, we deliberately gather data containing objects in common and uncommon settings in a wide range of locations, weather conditions, and time of day. We present a detailed analysis of the performance of various popular image classifiers on our dataset and demonstrate a clear drop in performance when classifying images in uncommon settings. By analyzing deep features of these models, we show that such errors can be due to the use of spurious features in model predictions. We believe that our dataset will aid researchers in understanding the inability of deep models to generalize well to uncommon settings and drive future work on improving their distributional robustness.
翻訳日:2021-10-12 05:22:48 公開日:2021-10-07
# (参考訳) 逆問題に対するStyleGANによるデータ駆動正規化 [全文訳有]

StyleGAN-induced data-driven regularization for inverse problems ( http://arxiv.org/abs/2110.03814v1 )

ライセンス: CC BY 4.0
Arthur Conmy, Subhadip Mukherjee, and Carola-Bibiane Sch\"onlieb(参考訳) GAN(Generative Adversarial Network)の最近の進歩は、これまで生成できなかった高解像度のフォトリアリスティック画像を生成する可能性を開いた。 高次元分布からganをサンプリングする能力は、自然に研究者が逆問題に先立って画像のモデリングにそのパワーを活用する動機となった。 我々は、現在支配的なGANアーキテクチャであるStyleGAN2ジェネレータの潜在能力を生かしたベイズ画像再構成フレームワークを開発し、基礎画像上の事前分布を構築することにより、この研究線を拡張した。 提案手法は, 生成モデル (l-brgm) を用いたベイズ復元を学習し, スタイルコードと入力潜在コードとの協調最適化を伴い, スタイルコードが異なるジェネレータ層で異なるスタイルコードを生成することによって, 事前学習されたstylegan2ジェネレータの表現力を高める。 画像インペインティングと超解像の逆問題を考えると,提案手法は最先端のganベース画像再構成法と競合し,時には優れていることを示す。

Recent advances in generative adversarial networks (GANs) have opened up the possibility of generating high-resolution photo-realistic images that were impossible to produce previously. The ability of GANs to sample from high-dimensional distributions has naturally motivated researchers to leverage their power for modeling the image prior in inverse problems. We extend this line of research by developing a Bayesian image reconstruction framework that utilizes the full potential of a pre-trained StyleGAN2 generator, which is the currently dominant GAN architecture, for constructing the prior distribution on the underlying image. Our proposed approach, which we refer to as learned Bayesian reconstruction with generative models (L-BRGM), entails joint optimization over the style-code and the input latent code, and enhances the expressive power of a pre-trained StyleGAN2 generator by allowing the style-codes to be different for different generator layers. Considering the inverse problems of image inpainting and super-resolution, we demonstrate that the proposed approach is competitive with, and sometimes superior to, state-of-the-art GAN-based image reconstruction methods.
翻訳日:2021-10-12 04:41:37 公開日:2021-10-07
# (参考訳) 逆ロバストなディープニューラルネットワークのアーキテクチャ要素の検討 [全文訳有]

Exploring Architectural Ingredients of Adversarially Robust Deep Neural Networks ( http://arxiv.org/abs/2110.03825v1 )

ライセンス: CC BY 4.0
Hanxun Huang, Yisen Wang, Sarah Monazam Erfani, Quanquan Gu, James Bailey, Xingjun Ma(参考訳) ディープニューラルネットワーク(DNN)は敵の攻撃に弱いことが知られている。 敵の強いDNNを訓練するための防衛手法が提案されており、その中から敵の訓練が有望な結果を示している。 しかし、敵対的な訓練のために開発された予備的な理解にもかかわらず、アーキテクチャの観点からは、どの構成がより堅牢なDNNに繋がるかは明らかになっていない。 本稿では,ネットワーク幅と深度がDNNの強靭性に与える影響を網羅的に調査することで,このギャップに対処する。 具体的には、以下の重要な観察を行う。 1) より多くのパラメータ(より高いモデル容量)は、必ずしも敵の堅牢性に役立ちません。 2)ネットワークの最終段階(ブロック群)におけるキャパシティの削減は,実際に敵のロバスト性を改善することができる。 3)同じパラメータ予算の下では、敵の堅牢性に最適なアーキテクチャ構成が存在する。 また,このようなネットワーク構成がロバスト性に寄与する理由を説明する理論的解析を行う。 これらのアーキテクチャ上の洞察は、反対に堅牢なDNNの設計に役立つ。 コードは \url{https://github.com/H anxunH/RobustWRN} で入手できる。

Deep neural networks (DNNs) are known to be vulnerable to adversarial attacks. A range of defense methods have been proposed to train adversarially robust DNNs, among which adversarial training has demonstrated promising results. However, despite preliminary understandings developed for adversarial training, it is still not clear, from the architectural perspective, what configurations can lead to more robust DNNs. In this paper, we address this gap via a comprehensive investigation on the impact of network width and depth on the robustness of adversarially trained DNNs. Specifically, we make the following key observations: 1) more parameters (higher model capacity) does not necessarily help adversarial robustness; 2) reducing capacity at the last stage (the last group of blocks) of the network can actually improve adversarial robustness; and 3) under the same parameter budget, there exists an optimal architectural configuration for adversarial robustness. We also provide a theoretical analysis explaning why such network configuration can help robustness. These architectural insights can help design adversarially robust DNNs. Code is available at \url{https://github.com/H anxunH/RobustWRN}.
翻訳日:2021-10-12 04:31:58 公開日:2021-10-07
# ランダム多項式サンプリングによる深層学習付きバイカッドフィルタカスケードの直接設計

Direct design of biquad filter cascades with deep learning by sampling random polynomials ( http://arxiv.org/abs/2110.03691v1 )

ライセンス: Link先を確認
Joseph T. Colonel, Christian J. Steinmetz, Marcus Michelen and Joshua D. Reiss(参考訳) 任意の大きさの応答に対応する無限インパルス応答フィルタの設計には特別な技術が必要である。 修正ユール・ウォーカーのような手法は比較的効率的であるが、高次応答のマッチングには十分正確ではない可能性がある。 一方、反復最適化技術は、しばしば優れたパフォーマンスを実現するが、より長い実行時間と初期条件に敏感であり、手動のチューニングを必要とする。 本研究では,数百万のランダムフィルタ上でトレーニングされたニューラルネットワークを用いて,フィルタ係数空間に対する目標等級の応答から直接マッピングを学習することで,これらの制限に対処する。 提案手法は,所望の応答に対するフィルタ係数の高速かつ高精度な推定を可能にする。 実世界のフィルタを推定する際に,頭部伝達関数とギターキャビネットをケーススタディとして用い,様々なフィルタファミリを用いたトレーニングを行ない,よりよい一般化を実現する。 修正Yule-Walkerや勾配降下などの既存手法と比較し,IIRNetが平均的に高速かつ高精度であることを示す。

Designing infinite impulse response filters to match an arbitrary magnitude response requires specialized techniques. Methods like modified Yule-Walker are relatively efficient, but may not be sufficiently accurate in matching high order responses. On the other hand, iterative optimization techniques often enable superior performance, but come at the cost of longer run-times and are sensitive to initial conditions, requiring manual tuning. In this work, we address some of these limitations by learning a direct mapping from the target magnitude response to the filter coefficient space with a neural network trained on millions of random filters. We demonstrate our approach enables both fast and accurate estimation of filter coefficients given a desired response. We investigate training with different families of random filters, and find training with a variety of filter families enables better generalization when estimating real-world filters, using head-related transfer functions and guitar cabinets as case studies. We compare our method against existing methods including modified Yule-Walker and gradient descent and show IIRNet is, on average, both faster and more accurate.
翻訳日:2021-10-11 16:54:35 公開日:2021-10-07
# アンサンブルニューラルネットワーク

Ensemble Neural Representation Networks ( http://arxiv.org/abs/2110.04124v1 )

ライセンス: Link先を確認
Milad Soltany Kadarvish, Hesam Mojtahedi, Hossein Entezari Zarch, Amirhossein Kazerouni, Alireza Morsali, Azra Abtahi, Farokh Marvasti(参考訳) Inlicit Neural Representation (INR) は、最近、様々な種類の信号を連続した形で保存するために大きな注目を集めている。 既存のINRネットワークは、長いトレーニングプロセスと高性能な計算資源を必要とする。 本稿では、上記の問題を解決するINRのための新しいサブ最適アンサンブルアーキテクチャを提案する。 このアーキテクチャでは、表現タスクは独立したサブネットワークによって実行されるいくつかのサブタスクに分割される。 提案するアンサンブルINRアーキテクチャの性能は,サブネットワークの寸法が大きくなると低下する可能性がある。 したがって,本論文では,アンサンブルネットワークのサブ最適構造を求める最適化アルゴリズムを提案することが重要である。 シミュレーション結果によると,提案手法は浮動小数点演算 (flops) が著しく少なく, 訓練時間も少ないだけでなく, ピーク信号と雑音比 (psnr) の点で, 性能も向上した。

Implicit Neural Representation (INR) has recently attracted considerable attention for storing various types of signals in continuous forms. The existing INR networks require lengthy training processes and high-performance computational resources. In this paper, we propose a novel sub-optimal ensemble architecture for INR that resolves the aforementioned problems. In this architecture, the representation task is divided into several sub-tasks done by independent sub-networks. We show that the performance of the proposed ensemble INR architecture may decrease if the dimensions of sub-networks increase. Hence, it is vital to suggest an optimization algorithm to find the sub-optimal structure of the ensemble network, which is done in this paper. According to the simulation results, the proposed architecture not only has significantly fewer floating-point operations (FLOPs) and less training time, but it also has better performance in terms of Peak Signal to Noise Ratio (PSNR) compared to those of its counterparts.
翻訳日:2021-10-11 16:52:06 公開日:2021-10-07
# 構造・運動問題に対する確率論的グラフィカルモデルアプローチ

A Probabilistic Graphical Model Approach to the Structure-and-Motion Problem ( http://arxiv.org/abs/2110.03792v1 )

ライセンス: Link先を確認
Simon Streicher, Willie Brink and Johan du Preez(参考訳) 本稿では,確率的グラフィカルモデルを用いたコンピュータビジョンにおけるよく知られた構造・動き問題の定式化と解法を提案する。 未知のカメラポーズと3次元特徴座標と観測された2次元投影をガウス確率変数としてモデル化し、シグマ点パラメータ化を用いてこれらの変数間の非線形関係を効果的に線形化する。 すべてのプロジェクションに関わる変数はクラスタにグループ化され、クラスタグラフ内のクラスタを接続します。 このグラフ上でループ的信念伝播を反復的な初期化と推定の手順で実施し,シミュレーションと実世界のデータの両方において有望性を示す。 pgmは追加のパラメータや制約を含むように簡単に拡張できる。

We present a means of formulating and solving the well known structure-and-motion problem in computer vision with probabilistic graphical models. We model the unknown camera poses and 3D feature coordinates as well as the observed 2D projections as Gaussian random variables, using sigma point parameterizations to effectively linearize the nonlinear relationships between these variables. Those variables involved in every projection are grouped into a cluster, and we connect the clusters in a cluster graph. Loopy belief propagation is performed over this graph, in an iterative re-initialization and estimation procedure, and we find that our approach shows promise in both simulation and on real-world data. The PGM is easily extendable to include additional parameters or constraints.
翻訳日:2021-10-11 16:30:20 公開日:2021-10-07
# SkullEngine: CBCT画像分割とランドマーク検出のための多段階CNNフレームワーク

SkullEngine: A Multi-stage CNN Framework for Collaborative CBCT Image Segmentation and Landmark Detection ( http://arxiv.org/abs/2110.03828v1 )

ライセンス: Link先を確認
Qin Liu, Han Deng, Chunfeng Lian, Xiaoyang Chen, Deqiang Xiao, Lei Ma, Xu Chen, Tianshu Kuang, Jaime Gateno, Pew-Thian Yap, James J. Xia(参考訳) 協調的,統合的でスケーラブルなJSDモデルと3つのセグメンテーションとランドマーク検出精細化モデルを用いて,高分解能セグメンテーションと大規模ランドマーク検出のための多段粗粒度CNNベースのフレームワークSkullEngineを提案する。 170個のCBCT/CT画像による2つの骨(中下顎骨)の分画と175個の骨・歯・軟部組織に共通するランドマークを検出するための臨床データセットについて検討した。

We propose a multi-stage coarse-to-fine CNN-based framework, called SkullEngine, for high-resolution segmentation and large-scale landmark detection through a collaborative, integrated, and scalable JSD model and three segmentation and landmark detection refinement models. We evaluated our framework on a clinical dataset consisting of 170 CBCT/CT images for the task of segmenting 2 bones (midface and mandible) and detecting 175 clinically common landmarks on bones, teeth, and soft tissues.
翻訳日:2021-10-11 16:30:06 公開日:2021-10-07
# 機械学習による分類学的ハザード予測

Predicting Chemical Hazard across Taxa through Machine Learning ( http://arxiv.org/abs/2110.03688v1 )

ライセンス: Link先を確認
Jimeng Wu, Simone D'Ambrosi, Lorenz Ammann, Julita Stadnicka-Michalak, Kristin Schirmer, Marco Baity-Jesi(参考訳) 魚の急性毒性に焦点をあてた化学物質害予測に機械学習を適用した。 分類学と実験的な設定の関連性を分析し,それらを考慮に入れると分類性能が大幅に向上することを示す。 分類学および実験情報の導入により得られた利得を化学情報のみに基づく分類と比較して定量化する。 我々は、化学類似性に基づいて哺乳類に対する化学的危険を予測するのに非常に成功した標準的な機械学習モデル(K-nearest neighbors、ランダムフォレスト、ディープニューラルネットワーク)と、最近提案されたリード・アクロス構造活動関係(RASAR)モデルを用いています。 データセット上で0.93以上の精度を得ることができ、データ中のノイズのため、達成可能な最大精度は0.95以下と予測され、有効精度は0.98となる。 最高のパフォーマンスはランダム森林とRASARモデルによって得られる。 我々は,実験結果と動物実験再現性を比較し,最近提案した指標から得られた「動物実験再現性に優れる」モデルがほとんどであるにもかかわらず,機械学習性能と動物実験再現性の比較は,特定のケアで扱うべきであることを示す。 魚の死亡率に焦点を当てているが、適切なデータが利用可能であれば、化学物質、効果、分類のあらゆる組み合わせに有効である。

We apply machine learning methods to predict chemical hazards focusing on fish acute toxicity across taxa. We analyze the relevance of taxonomy and experimental setup, and show that taking them into account can lead to considerable improvements in the classification performance. We quantify the gain obtained by introducing the taxonomic and experimental information, compared to classifying based on chemical information alone. We use our approach with standard machine learning models (K-nearest neighbors, random forests and deep neural networks), as well as the recently proposed Read-Across Structure Activity Relationship (RASAR) models, which were very successful in predicting chemical hazards to mammals based on chemical similarity. We are able to obtain accuracies of over 0.93 on datasets where, due to noise in the data, the maximum achievable accuracy is expected to be below 0.95, which results in an effective accuracy of 0.98. The best performances are obtained by random forests and RASAR models. We analyze metrics to compare our results with animal test reproducibility, and despite most of our models 'outperform animal test reproducibility' ; as measured through recently proposed metrics, we show that the comparison between machine learning performance and animal test reproducibility should be addressed with particular care. While we focus on fish mortality, our approach, provided that the right data is available, is valid for any combination of chemicals, effects and taxa.
翻訳日:2021-10-11 16:25:34 公開日:2021-10-07
# グラフにまたがるラベル伝搬:グラフ神経接核を用いたノード分類

Label Propagation across Graphs: Node Classification using Graph Neural Tangent Kernels ( http://arxiv.org/abs/2110.03763v1 )

ライセンス: Link先を確認
Artun Bayer, Arindam Chowdhury, and Santiago Segarra(参考訳) グラフニューラルネットワーク(GNN)はここ数年,ノード分類タスクにおいて優れたパフォーマンスを実現している。 一般的に、これはトランスダクティブな半教師付き学習設定でフレーム化されており、対象ノードを含むグラフ全体がトレーニング用に利用できる。 スケーラビリティによって部分的に駆動される最近の研究は、グラフのラベル付き部分のみをトレーニングに使用可能な帰納的ケースに焦点を当てている。 この文脈では、ラベル付きグラフのセットがトレーニング用に利用可能であり、ラベル付き対象グラフは完全に分離されている、すなわちラベル付きノードとラベルなしノードの間には接続がない、という困難な帰納的設定が検討されている。 テストグラフとトレーニンググラフが類似した分布から来るという暗黙の仮定の下で、我々のゴールは、観測されていない接続構造に一般化するラベリング関数を開発することである。 そこで我々は,GNTK (Graph Neural Tangent kernel) を用いて,無限に広いGNNに対応し,トポロジとノードの特徴の両方に基づいて,異なるグラフ内のノード間の対応関係を求める。 残差接続によるGNTKの性能向上と,標準ベンチマークにおける性能向上を実証的に示す。

Graph neural networks (GNNs) have achieved superior performance on node classification tasks in the last few years. Commonly, this is framed in a transductive semi-supervised learning setup wherein the entire graph, including the target nodes to be labeled, is available for training. Driven in part by scalability, recent works have focused on the inductive case where only the labeled portion of a graph is available for training. In this context, our current work considers a challenging inductive setting where a set of labeled graphs are available for training while the unlabeled target graph is completely separate, i.e., there are no connections between labeled and unlabeled nodes. Under the implicit assumption that the testing and training graphs come from similar distributions, our goal is to develop a labeling function that generalizes to unobserved connectivity structures. To that end, we employ a graph neural tangent kernel (GNTK) that corresponds to infinitely wide GNNs to find correspondences between nodes in different graphs based on both the topology and the node features. We augment the capabilities of the GNTK with residual connections and empirically illustrate its performance gains on standard benchmarks.
翻訳日:2021-10-11 16:25:08 公開日:2021-10-07
# リカレントニューラルネットワークを用いたQRS検出のための学習後処理

Learning post-processing for QRS detection using Recurrent Neural Network ( http://arxiv.org/abs/2110.04130v1 )

ライセンス: Link先を確認
Ahsan Habib, Chandan Karmakar, John Yearwood(参考訳) ディープラーニングに基づくQRS検出アルゴリズムは、R-peakローカライゼーションのための予測ストリームを洗練するために必要不可欠な後処理を必要とすることが多い。 後処理は信号処理タスクをシンプルに行い、予測ストリーム内の孤立した0または1を除去し、QRS複雑な範囲の最小しきい値やR-R間隔を含むドメイン固有の知識を必要とする。 多くの場合、これらのしきい値はqrs検出研究によって異なり、ターゲットデータセットに対して経験的に決定される。 さらに、これらの研究は一般に、ディープラーニングモデルと後処理の相対的な強みを適切に評価するのに失敗する。 本研究は,QRS検出文献に見られるように,後処理を2つのレベルモデレートと高度に分類し,後処理しきい値の設定を明示的に回避するため,GRU(Gated Recurrent Unit)と呼ばれる適切なディープラーニングモジュールによってしきい値が学習されることを提唱する。 これは、手作りの機能工学からディープラーニング機能抽出への移行という同じ哲学を生かして行われる。 その結果、GRUは、ドメイン固有のしきい値パラメータを必要とせずに、ドメイン固有の手作業による後処理とQRS検出性能を極端に学習することが示唆された。 我々の知る限り、CNNモデルが生成した予測ストリームからQRS検出後処理を学習するためにGRUを用いることは、その種の最初のものである。 この結果は、CNNモデルと後処理の複雑さのレベルをデプロイメント環境に基づいて調整できるQRS検出システムのためのモジュラー設計を推奨するために使用された。

Deep-learning based QRS-detection algorithms often require essential post-processing to refine the prediction streams for R-peak localisation. The post-processing performs signal-processing tasks from as simple as, removing isolated 0s or 1s in the prediction-stream to sophisticated steps, which require domain-specific knowledge, including the minimum threshold of a QRS-complex extent or R-R interval. Often these thresholds vary among QRS-detection studies and are empirically determined for the target dataset, which may have implications if the target dataset differs. Moreover, these studies, in general, fail to identify the relative strengths of deep-learning models and post-processing to weigh them appropriately. This study classifies post-processing, as found in the QRS-detection literature, into two levels - moderate, and advanced - and advocates that the thresholds be learned by an appropriate deep-learning module, called a Gated Recurrent Unit (GRU), to avoid explicitly setting post-processing thresholds. This is done by utilising the same philosophy of shifting from hand-crafted feature-engineering to deep-learning-based feature-extraction. The results suggest that GRU learns the post-processing level and the QRS detection performance using GRU-based post-processing marginally follows the domain-specific manual post-processing, without requiring usage of domain-specific threshold parameters. To the best of our knowledge, the use of GRU to learn QRS-detection post-processing from CNN model generated prediction streams is the first of its kind. The outcome was used to recommend a modular design for a QRS-detection system, where the level of complexity of the CNN model and post-processing can be tuned based on the deployment environment.
翻訳日:2021-10-11 16:22:26 公開日:2021-10-07
# デザイングラディエントを可視化する人間設計者への影響

The Impact of Visualizing Design Gradients for Human Designers ( http://arxiv.org/abs/2110.04147v1 )

ライセンス: Link先を確認
Matthew Guzdial, Nathan Sturtevant and Carolyn Yang(参考訳) 混合開始手続きコンテンツ生成(mixed-initiative procedural content generation, pcg)は、人間のデザイナーがアルゴリズムを使ってゲームコンテンツを作成するツールやシステムを指す。 この研究領域は比較的未調査のままであり、検索型pcgアルゴリズムの共通セットを用いた混合誘導型pcgレベル設計システムの大半が使用されている。 本稿では,パズルレベルの設計にExhaustive PCG(EPCG)を用いた混合開始型ツールを導入し,混合開始型PCGをさらに探索する。 我々は、EPCGコンポーネントをオン/オフしたツールを個人が使用するオンライン人体調査を実施している。 その結果,ほとんどのユーザがツールを好まなかったものの,レベル設計プロセスが大幅に簡単になり,ツールが被験者の設計プロセスに影響を及ぼしたことが明らかになった。 本報告では,PCGツールの混合初期設計における学習結果について述べる。

Mixed-initiative Procedural Content Generation (PCG) refers to tools or systems in which a human designer works with an algorithm to produce game content. This area of research remains relatively under-explored, with the majority of mixed-initiative PCG level design systems using a common set of search-based PCG algorithms. In this paper, we introduce a mixed-initiative tool employing Exhaustive PCG (EPCG) for puzzle level design to further explore mixed-initiative PCG. We run an online human subject study in which individuals use the tool with an EPCG component turned on or off. Our analysis of the results demonstrates that, although a majority of users did not prefer the tool, it made the level design process significantly easier, and that the tool impacted the subjects' design process. This paper describes the study results and draws lessons for mixed-initiative PCG tool design.
翻訳日:2021-10-11 15:28:22 公開日:2021-10-07
# スカラーに基づくダイナミクスの簡易同変機械学習法

A simple equivariant machine learning method for dynamics based on scalars ( http://arxiv.org/abs/2110.03761v1 )

ライセンス: Link先を確認
Weichi Yao and Kate Storey-Fisher and David W. Hogg and Soledad Villar(参考訳) 物理システムは厳密な対称性原理に従う。 これらの対称性を本質的に尊重する機械学習手法は、そうでないものよりも優れたパフォーマンスを期待する。 この作業では、不変スカラーに基づく原則モデルを実装し、オープンソースコードをリリースします。 この \textsl{scalars} 法を単純なカオス力学系であるバネイ二重振り子に適用する。 提案手法は,物理系の特性を対称性で学習するために,精度と速度の両面で,最先端の手法よりも優れていることを示す。 本手法には基本対称性が組み込まれているため,システム内の力法則の変化など,異なる設定に一般化されることが期待できる。

Physical systems obey strict symmetry principles. We expect that machine learning methods that intrinsically respect these symmetries should perform better than those that do not. In this work we implement a principled model based on invariant scalars, and release open-source code. We apply this \textsl{Scalars} method to a simple chaotic dynamical system, the springy double pendulum. We show that the Scalars method outperforms state-of-the-art approaches for learning the properties of physical systems with symmetries, both in terms of accuracy and speed. Because the method incorporates the fundamental symmetries, we expect it to generalize to different settings, such as changes in the force laws in the system.
翻訳日:2021-10-11 15:25:32 公開日:2021-10-07
# 話者ダイアリゼーションのためのマルチスケール話者埋め込み型グラフアテンションネットワーク

Multi-scale speaker embedding-based graph attention networks for speaker diarisation ( http://arxiv.org/abs/2110.03361v1 )

ライセンス: Link先を確認
Youngki Kwon, Hee-Soo Heo, Jee-weon Jung, You Jin Kim, Bong-Jin Lee, Joon Son Chung(参考訳) 本研究の目的は,マルチスケール話者埋め込みを用いた効果的な話者ダイアリゼーションである。 典型的には、埋め込み抽出に用いられるセグメント長に応じて、短い話者セグメントを認識する能力と埋め込みの識別能力との間にはトレードオフがある。 この目的のために、近年の研究では、長さの異なるセグメントが使用されるマルチスケール組込みの利用が提案されている。 しかしながら、スコアはトレーニングフェーズ後に重み付けが固定される重み付け和法を用いて合成されるが、セグメント長の重要性は単一のセッションで異なる可能性がある。 本稿では,(1)多人数話者ダイアリゼーションのためのグラフアテンションネットワークを提案する,(2)各組込みのスケール情報を利用するスケールインジケータを設計する,(3)多人数組込みから予め計算されたアフィニティマトリックスを利用するために注意に基づくアグリゲーションを適用する,という3つの重要な貢献について述べる。 本手法の有効性を,基本指標を構成する話者の混乱が,ベースラインと比較して平均10%以上低下する様々なデータセットで示す。

The objective of this work is effective speaker diarisation using multi-scale speaker embeddings. Typically, there is a trade-off between the ability to recognise short speaker segments and the discriminative power of the embedding, according to the segment length used for embedding extraction. To this end, recent works have proposed the use of multi-scale embeddings where segments with varying lengths are used. However, the scores are combined using a weighted summation scheme where the weights are fixed after the training phase, whereas the importance of segment lengths can differ with in a single session. To address this issue, we present three key contributions in this paper: (1) we propose graph attention networks for multi-scale speaker diarisation; (2) we design scale indicators to utilise scale information of each embedding; (3) we adapt the attention-based aggregation to utilise a pre-computed affinity matrix from multi-scale embeddings. We demonstrate the effectiveness of our method in various datasets where the speaker confusion which constitutes the primary metric drops over 10% in average relative compared to the baseline.
翻訳日:2021-10-11 15:22:04 公開日:2021-10-07
# 設計戦略ネットワーク:複雑なアクション空間における生成的設計戦略を表現するための深い階層的フレームワーク

Design Strategy Network: A deep hierarchical framework to represent generative design strategies in complex action spaces ( http://arxiv.org/abs/2110.03760v1 )

ライセンス: Link先を確認
Ayush Raina, Jonathan Cagan, Christopher McComb(参考訳) 生成的設計問題はしばしば、時間とともに発散し、状態に依存しない制約を含む、あるいはハイブリッドな(離散的で連続的な)ドメインを含む複雑なアクション空間を包含する。 これらの課題に対処するため、この研究はデータ駆動の深層階層型フレームワークであるDesign Strategy Network (DSN)を導入し、これらの複雑なアクション空間の戦略を学習する。 階層的アーキテクチャは、すべてのアクション決定を分解し、まず設計空間内の好ましい空間領域を予測し、その領域から可能なアクションのセットに確率分布を出力する。 画像ベースの設計状態表現を扱う畳み込みエンコーダと、空間領域を予測する多層パーセプトロンと、未順序のセットベースの実行可能な動作の入力に対して確率分布を生成する重み共有ネットワークとを備える。 トラス設計研究に適用されたこのフレームワークは、研究における人間のデザイナーの行動を予測し、その過程でトラス生成戦略をキャプチャする。 その結果、DSNはポリシー表現の非階層的手法を著しく上回り、複雑なアクション空間問題においてその優位性を示している。

Generative design problems often encompass complex action spaces that may be divergent over time, contain state-dependent constraints, or involve hybrid (discrete and continuous) domains. To address those challenges, this work introduces Design Strategy Network (DSN), a data-driven deep hierarchical framework that can learn strategies over these arbitrary complex action spaces. The hierarchical architecture decomposes every action decision into first predicting a preferred spatial region in the design space and then outputting a probability distribution over a set of possible actions from that region. This framework comprises a convolutional encoder to work with image-based design state representations, a multi-layer perceptron to predict a spatial region, and a weight-sharing network to generate a probability distribution over unordered set-based inputs of feasible actions. Applied to a truss design study, the framework learns to predict the actions of human designers in the study, capturing their truss generation strategies in the process. Results show that DSNs significantly outperform non-hierarchical methods of policy representation, demonstrating their superiority in complex action space problems.
翻訳日:2021-10-11 15:10:07 公開日:2021-10-07
# 逆ミキシングMDPにおける強化学習

Reinforcement Learning in Reward-Mixing MDPs ( http://arxiv.org/abs/2110.03743v1 )

ライセンス: Link先を確認
Jeongyeol Kwon, Yonathan Efroni, Constantine Caramanis, Shie Mannor(参考訳) 部分的観測可能なシステムでほぼ最適の方針を学ぶことは、現代強化学習において難解な課題である。 本研究では,報酬混合マルコフ決定過程(mdp)において,エピソディクス強化学習を検討する。 そこで、各エピソードの冒頭で複数の報酬モデルから報酬機能を引き出すが、選択された報酬モデルの同一性はエージェントに明かされない。 したがって、動力学がマルコフ的である潜在状態空間はエージェントには与えられない。 本研究では,2つの報酬混合型MDPの最適条件を学習する問題について検討する。 動的に強い仮定に依存する既存のアプローチとは異なり、我々は仮定をせず、問題を完全な一般性で研究する。 実際、さらなる仮定なしに、2つの切り替え報酬モデルでさえ、効率的な探索のために既存のアルゴリズムや分析技術を超えるいくつかの新しいアイデアが必要となる。 我々は、$\tilde{O}(poly(H,\epsilon^{-1}) \cdot S^2 A^2)$ episodesを探索した後、$\epsilon$-Optimal Policyを求める最初の多項式時間アルゴリズムを提供する。 これは、観測空間が潜在状態空間より小さい部分的観測環境において仮定を必要としない最初の効率的なアルゴリズムである。

Learning a near optimal policy in a partially observable system remains an elusive challenge in contemporary reinforcement learning. In this work, we consider episodic reinforcement learning in a reward-mixing Markov decision process (MDP). There, a reward function is drawn from one of multiple possible reward models at the beginning of every episode, but the identity of the chosen reward model is not revealed to the agent. Hence, the latent state space, for which the dynamics are Markovian, is not given to the agent. We study the problem of learning a near optimal policy for two reward-mixing MDPs. Unlike existing approaches that rely on strong assumptions on the dynamics, we make no assumptions and study the problem in full generality. Indeed, with no further assumptions, even for two switching reward-models, the problem requires several new ideas beyond existing algorithmic and analysis techniques for efficient exploration. We provide the first polynomial-time algorithm that finds an $\epsilon$-optimal policy after exploring $\tilde{O}(poly(H,\epsilon^{-1}) \cdot S^2 A^2)$ episodes, where $H$ is time-horizon and $S, A$ are the number of states and actions respectively. This is the first efficient algorithm that does not require any assumptions in partially observed environments where the observation space is smaller than the latent state space.
翻訳日:2021-10-11 14:42:28 公開日:2021-10-07
# FAST-RIR:高速神経拡散室インパルス応答ジェネレータ

FAST-RIR: Fast neural diffuse room impulse response generator ( http://arxiv.org/abs/2110.04057v1 )

ライセンス: Link先を確認
Anton Ratnarajah, Shi-Xiong Zhang, Meng Yu, Zhenyu Tang, Dinesh Manocha, Dong Yu(参考訳) 本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。 我々のFAST-RIRは、長方形の室内寸法、リスナーとスピーカの位置、残響時間を入力として取り、所定の音響環境に対してスペクトルおよび拡散反射を生成する。 我々のFAST-RIRは平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。 我々は、Google Speech API、Microsoft Speech API、Kaldiツールを用いて、自動音声認識(ASR)アプリケーションで生成されたIRを評価した。 提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)よりも400倍高速であり,ASR実験におけるDASと同等の性能を示した。 FAST-RIRは既存のGPUベースのRIRジェネレータ(gpuRIR)の12倍高速です。 FAST-RIR は AMI far-field ASR ベンチマークで gpuRIR を 2.5% 上回っている。

We present a neural-network-based fast diffuse room impulse response generator (FAST-RIR) for generating room impulse responses (RIRs) for a given acoustic environment. Our FAST-RIR takes rectangular room dimensions, listener and speaker positions, and reverberation time as inputs and generates specular and diffuse reflections for a given acoustic environment. Our FAST-RIR is capable of generating RIRs for a given input reverberation time with an average error of 0.02s. We evaluate our generated RIRs in automatic speech recognition (ASR) applications using Google Speech API, Microsoft Speech API, and Kaldi tools. We show that our proposed FAST-RIR with batch size 1 is 400 times faster than a state-of-the-art diffuse acoustic simulator (DAS) on a CPU and gives similar performance to DAS in ASR experiments. Our FAST-RIR is 12 times faster than an existing GPU-based RIR generator (gpuRIR). We show that our FAST-RIR outperforms gpuRIR by 2.5% in an AMI far-field ASR benchmark.
翻訳日:2021-10-11 14:39:47 公開日:2021-10-07
# 強化学習(edpcgrl)による経験駆動型プロシーデュラルコンテンツ生成を用いたアラキノフォビア曝露療法

Arachnophobia Exposure Therapy using Experience-driven Procedural Content Generation via Reinforcement Learning (EDPCGRL) ( http://arxiv.org/abs/2110.04146v1 )

ライセンス: Link先を確認
Athar Mahmoudi-Nejad, Matthew Guzdial and Pierre Boulanger(参考訳) 個別の患者に治療を適応させるパーソナライズドセラピーは、より良い健康結果をもたらす。 通常、これは患者からのフィードバックとともにセラピストの訓練と直感に頼ることで達成される。 患者に治療内容を自動的に適応させるアプローチは存在するが、それはすべての個人に一般化されない手書きの事前定義された規則に依存している。 本稿では,生理的指標に基づいて治療内容を自動的に適応するアプローチを提案する。 我々は,本手法をarachnophobia exposure therapy(arachnophobi a exposure therapy)の文脈で実装し,個々の患者にマッチする仮想スパイダーを生成するために,強化学習(edpcgrl)による経験駆動プロシーデュラルコンテンツ生成に依拠する。 この初期実装と現在進行中のパンデミックにより、前回のアラハノフォビア心理学研究に基づいて実装された仮想的または人工的な人間を利用する。 我々のEDPCGRL法は、既存の検索ベースのEDPCG手法と比較して、より迅速にこれらの仮想人間に適応することができる。

Personalized therapy, in which a therapeutic practice is adapted to an individual patient, leads to better health outcomes. Typically, this is accomplished by relying on a therapist's training and intuition along with feedback from a patient. While there exist approaches to automatically adapt therapeutic content to a patient, they rely on hand-authored, pre-defined rules, which may not generalize to all individuals. In this paper, we propose an approach to automatically adapt therapeutic content to patients based on physiological measures. We implement our approach in the context of arachnophobia exposure therapy, and rely on experience-driven procedural content generation via reinforcement learning (EDPCGRL) to generate virtual spiders to match an individual patient. In this initial implementation, and due to the ongoing pandemic, we make use of virtual or artificial humans implemented based on prior arachnophobia psychology research. Our EDPCGRL method is able to more quickly adapt to these virtual humans with high accuracy in comparison to existing, search-based EDPCG approaches.
翻訳日:2021-10-11 14:39:28 公開日:2021-10-07
# クラウドソーシングにおける敵検出

Detecting adversaries in Crowdsourcing ( http://arxiv.org/abs/2110.04117v1 )

ライセンス: Link先を確認
Panagiotis A. Traganitis and Georgios B. Giannakis(参考訳) さまざまな機械学習やデータサイエンスタスクの成功にもかかわらず、クラウドソーシングは専用の敵からの攻撃を受けやすい。 本研究は, クラウドソース型分類における敵の影響を, 人気のダウィド・アンド・スケネモデルを用いて検討する。 敵は、クラウドソーシングモデルから任意に逸脱することを許され、潜在的に協力する可能性がある。 このシナリオに対処するために,アノテータ応答の2次モーメント構造を活用したアプローチを開発し,多数の敵を特定し,クラウドソーシングタスクへの影響を緩和する。 提案手法の可能性は、合成および実際のクラウドソーシングデータセット上で実証的に実証される。

Despite its successes in various machine learning and data science tasks, crowdsourcing can be susceptible to attacks from dedicated adversaries. This work investigates the effects of adversaries on crowdsourced classification, under the popular Dawid and Skene model. The adversaries are allowed to deviate arbitrarily from the considered crowdsourcing model, and may potentially cooperate. To address this scenario, we develop an approach that leverages the structure of second-order moments of annotator responses, to identify large numbers of adversaries, and mitigate their impact on the crowdsourcing task. The potential of the proposed approach is empirically demonstrated on synthetic and real crowdsourcing datasets.
翻訳日:2021-10-11 14:38:29 公開日:2021-10-07
# ビデオ心臓計測における高次ダイナミクスの学習

Learning Higher-Order Dynamics in Video-Based Cardiac Measurement ( http://arxiv.org/abs/2110.03690v1 )

ライセンス: Link先を確認
Brian L. Hill, Xin Liu, Daniel McDuff(参考訳) コンピュータビジョンの手法は通常1次ダイナミクス(例えば光フロー)に最適化される。 しかし、多くの場合、興味のある性質は加速のような高次変化の微妙な変化である。 これは、第2の誘導体が血圧と動脈疾患の指標として使用できる心臓パルスにおいて正しい。 近年、カメラを用いたバイタルサイン測定の進歩により、ビデオから心臓計測を驚くほど精度良く回収できることが示されているが、研究の大半は、心拍数などの要約統計の抽出に重点を置いている。 多くの臨床的に影響のあるシナリオで必要とされる波形形態学の精度にはあまり重点を置いていない。 本研究では,損失関数に明示的に最適化した場合,高次ダイナミクスがニューラルモデルによりよりよく推定されることを示す。 さらに、第2導出入力を追加することで、第2次ダイナミクスの推定性能も向上する。 入力フレームとターゲットのバイタルサイン信号の両方の2次微分をトレーニング手順に組み込むことで,左室放出時間(LVET)間隔を推定できる。

Computer vision methods typically optimize for first-order dynamics (e.g., optical flow). However, in many cases the properties of interest are subtle variations in higher-order changes, such as acceleration. This is true in the cardiac pulse, where the second derivative can be used as an indicator of blood pressure and arterial disease. Recent developments in camera-based vital sign measurement have shown that cardiac measurements can be recovered with impressive accuracy from videos; however, the majority of research has focused on extracting summary statistics such as heart rate. Less emphasis has been put on the accuracy of waveform morphology that is necessary for many clinically impactful scenarios. In this work, we provide evidence that higher-order dynamics are better estimated by neural models when explicitly optimized for in the loss function. Furthermore, adding second-derivative inputs also improves performance when estimating second-order dynamics. By incorporating the second derivative of both the input frames and the target vital sign signals into the training procedure, our model is better able to estimate left ventricle ejection time (LVET) intervals.
翻訳日:2021-10-11 14:36:12 公開日:2021-10-07
# 暗黙のハイパーグラディエントによるバックドアの非学習

Adversarial Unlearning of Backdoors via Implicit Hypergradient ( http://arxiv.org/abs/2110.03735v1 )

ライセンス: Link先を確認
Yi Zeng, Si Chen, Won Park, Z. Morley Mao, Jin Ming and Ruoxi Jia(参考訳) 本稿では,少量の清潔なデータをもとに,汚染モデルからバックドアを除去するためのミニマックスの定式化を提案する。 この定式化は、バックドア除去に関する以前の作業の多くを含む。 本稿では,暗黙のbacdoor adversarial unlearning (i-bau) アルゴリズムを提案する。 minimaxを内外問題に分解する以前の研究とは異なり、このアルゴリズムは内外最適化と内外最適化の相互依存性を考慮するために暗黙の超勾配を利用する。 クリーンデータ上でミニマックスを解くことによって得られるロバスト性の収束性と一般化性について理論的に解析する。 評価では、I-BAUと6つの最先端のバックドアディフェンスを比較し、2つのデータセットに対する7つのバックドアアタックと、攻撃者が1つのクラスをターゲットにする共通設定を含む様々なアタックセッティングを比較した。 i-bauのパフォーマンスは、最高のベースラインよりも非常に優れています。 特に、そのパフォーマンスは、トリガー、攻撃設定、毒の比率、クリーンなデータサイズの変化に対してより堅牢である。 さらに、I-BAUはより少ない計算を必要とする。特に、シングルターゲット攻撃設定における最も効率的なベースラインよりも13\times$よりも高速である。 さらに、ディフェンダーが100個のクリーンなサンプルしかアクセスできないという極端なケースでは有効であり続けることができる。

We propose a minimax formulation for removing backdoors from a given poisoned model based on a small set of clean data. This formulation encompasses much of prior work on backdoor removal. We propose the Implicit Bacdoor Adversarial Unlearning (I-BAU) algorithm to solve the minimax. Unlike previous work, which breaks down the minimax into separate inner and outer problems, our algorithm utilizes the implicit hypergradient to account for the interdependence between inner and outer optimization. We theoretically analyze its convergence and the generalizability of the robustness gained by solving minimax on clean data to unseen test data. In our evaluation, we compare I-BAU with six state-of-art backdoor defenses on seven backdoor attacks over two datasets and various attack settings, including the common setting where the attacker targets one class as well as important but underexplored settings where multiple classes are targeted. I-BAU's performance is comparable to and most often significantly better than the best baseline. Particularly, its performance is more robust to the variation on triggers, attack settings, poison ratio, and clean data size. Moreover, I-BAU requires less computation to take effect; particularly, it is more than $13\times$ faster than the most efficient baseline in the single-target attack setting. Furthermore, it can remain effective in the extreme case where the defender can only access 100 clean samples -- a setting where all the baselines fail to produce acceptable results.
翻訳日:2021-10-11 14:35:55 公開日:2021-10-07
# SVG-Net: SVGに基づく軌道予測モデル

SVG-Net: An SVG-based Trajectory Prediction Model ( http://arxiv.org/abs/2110.03706v1 )

ライセンス: Link先を確認
Mohammadhossein Bahari, Vahid Zehtab, Sadegh Khorasani, Sana Ayramlou, Saeed Saadatnejad, Alexandre Alahi(参考訳) シーン内の車両の動きを予想することは、安全な自動運転システムにとって重要な問題である。 この目的のために、シーンのインフラの理解は、しばしば将来の軌跡を予測する主要な手がかりである。 提案されたアプローチのほとんどはラスタ化フォーマットでシーンを表しており、最近のアプローチのいくつかはカスタムのベクトル化フォーマットを利用している。 対照的に,スケーラブル・ベクター・グラフィックス(svg)を用いたシーン情報表現を提案する。 svgは、ラスタ化フォーマットよりも軌道予測の問題に合致するが、任意のベクトル化フォーマットよりも一般的である。 SVGは、CNNのような強力なツールと組み合わせることで、ラスタベースのソリューションの利便性と汎用性を提供する可能性がある。 SVG-Netはトランスフォーマーベースのニューラルネットワークで、SVG入力からシーン情報を効果的にキャプチャすることができる。 トランスフォーマーの自己保持機構により、SVG-Netはシーンとエージェント間の関係を適切に把握することができる。 公開されているArgoverse予測データセット上で,SVG-Netの有効性を評価する。 最後に、SVGを使用することで、同じ入力フォーマットを使用する他の研究分野におけるデータセットや進歩の恩恵を受けることができるかを説明する。 私たちのコードはhttps://vita-epfl.gi thub.io/svgnet/で利用可能です。

Anticipating motions of vehicles in a scene is an essential problem for safe autonomous driving systems. To this end, the comprehension of the scene's infrastructure is often the main clue for predicting future trajectories. Most of the proposed approaches represent the scene with a rasterized format and some of the more recent approaches leverage custom vectorized formats. In contrast, we propose representing the scene's information by employing Scalable Vector Graphics (SVG). SVG is a well-established format that matches the problem of trajectory prediction better than rasterized formats while being more general than arbitrary vectorized formats. SVG has the potential to provide the convenience and generality of raster-based solutions if coupled with a powerful tool such as CNNs, for which we introduce SVG-Net. SVG-Net is a Transformer-based Neural Network that can effectively capture the scene's information from SVG inputs. Thanks to the self-attention mechanism in its Transformers, SVG-Net can also adequately apprehend relations amongst the scene and the agents. We demonstrate SVG-Net's effectiveness by evaluating its performance on the publicly available Argoverse forecasting dataset. Finally, we illustrate how, by using SVG, one can benefit from datasets and advancements in other research fronts that also utilize the same input format. Our code is available at https://vita-epfl.gi thub.io/SVGNet/.
翻訳日:2021-10-11 14:14:28 公開日:2021-10-07
# 雑音条件からのセグメンテーションに対する適応的早期学習補正

Adaptive Early-Learning Correction for Segmentation from Noisy Annotations ( http://arxiv.org/abs/2110.03740v1 )

ライセンス: Link先を確認
Sheng Liu, Kangning Liu, Weicheng Zhu, Yiqiu Shen, Carlos Fernandez-Granda(参考訳) ノイズの多いアノテーションの存在下での深層学習は、分類において広く研究されているが、セグメンテーションのタスクではより少ない。 本研究では,不正確なアノテートデータを用いた深層セグメンテーションネットワークの学習ダイナミクスについて検討する。 ネットワークは"早期学習"の段階で最初にクリーンなピクセルレベルラベルに適合し、最終的に誤ったアノテーションを覚える傾向があります。 しかし、分類とは対照的に、セグメンテーションにおける記憶はすべての意味圏に対して同時に発生するわけではない。 これらの知見に触発されて,2つのキー要素を持つノイズの多いアノテーションからセグメント化を行う新しい手法を提案する。 まず,トレーニング中の各カテゴリ毎に,記憶フェーズの開始を別々に検出する。 これにより、早期学習を利用するために、ノイズの多いアノテーションを適応的に修正することができます。 第2に、アノテーションノイズに対するロバスト性を高めるために、スケール間の一貫性を強制する正規化項を組み込む。 提案手法は,ヒトのアノテーションエラーを模倣するノイズを合成する医療画像分割作業において,標準的な手法よりも優れる。 また、弱い教師付きセマンティックセグメンテーションに存在する現実的なノイズのアノテーションに対して堅牢性を提供し、PASCAL VOC 2012で最先端の結果を達成する。

Deep learning in the presence of noisy annotations has been studied extensively in classification, but much less in segmentation tasks. In this work, we study the learning dynamics of deep segmentation networks trained on inaccurately-annotat ed data. We discover a phenomenon that has been previously reported in the context of classification: the networks tend to first fit the clean pixel-level labels during an "early-learning" phase, before eventually memorizing the false annotations. However, in contrast to classification, memorization in segmentation does not arise simultaneously for all semantic categories. Inspired by these findings, we propose a new method for segmentation from noisy annotations with two key elements. First, we detect the beginning of the memorization phase separately for each category during training. This allows us to adaptively correct the noisy annotations in order to exploit early learning. Second, we incorporate a regularization term that enforces consistency across scales to boost robustness against annotation noise. Our method outperforms standard approaches on a medical-imaging segmentation task where noises are synthesized to mimic human annotation errors. It also provides robustness to realistic noisy annotations present in weakly-supervised semantic segmentation, achieving state-of-the-art results on PASCAL VOC 2012.
翻訳日:2021-10-11 14:14:05 公開日:2021-10-07
# Retail Shelfオブジェクトによるサイズに基づく推論による製品変種分類のための機械学習アプローチ

Machine Learning approaches to do size based reasoning on Retail Shelf objects to classify product variants ( http://arxiv.org/abs/2110.03783v1 )

ライセンス: Link先を確認
Muktabh Mayank Srivastava, Pratyush Kumar(参考訳) 小売店の棚に保管されている製品を分析するための機械学習手法が急増している。 ディープラーニングに基づくコンピュータビジョン手法は、小売店の商品を検出し、それらを分類するために使用できる。 しかし、全く同じ視覚的に見える製品には、異なるサイズのバリエーションがあり、それらを区別する方法は、棚にある他の製品と相対的なサイズを見ることである。 これにより、コンピュータビジョンアルゴリズムだけで、サイズベースの変種を互いに解読するプロセスが現実的ではない。 本研究では,棚から製品を抽出する物体検出器と,製品ブランドを決定する分類器に対して,下流タスクとして製品のサイズ変種を確認する手法を提案する。 製品変量決定は、分類器によって予測される境界ボックスやブランドのサイズに基づいて、商品変量決定をブランドの製品に割り当てるタスクである。 グラデーションブースティングに基づく手法は, 面が明瞭で明瞭な製品に対して有効であるが, 製品が不規則に積み重ねられた場合のノイズ調整ニューラルネットワーク法が提案されている。

There has been a surge in the number of Machine Learning methods to analyze products kept on retail shelves images. Deep learning based computer vision methods can be used to detect products on retail shelves and then classify them. However, there are different sized variants of products which look exactly the same visually and the method to differentiate them is to look at their relative sizes with other products on shelves. This makes the process of deciphering the sized based variants from each other using computer vision algorithms alone impractical. In this work, we propose methods to ascertain the size variant of the product as a downstream task to an object detector which extracts products from shelf and a classifier which determines product brand. Product variant determination is the task which assigns a product variant to products of a brand based on the size of bounding boxes and brands predicted by classifier. While gradient boosting based methods work well for products whose facings are clear and distinct, a noise accommodating Neural Network method is proposed for cases where the products are stacked irregularly.
翻訳日:2021-10-11 14:13:45 公開日:2021-10-07
# 条件生成のためのフロープラグインネットワーク

Flow Plugin Network for conditional generation ( http://arxiv.org/abs/2110.04081v1 )

ライセンス: Link先を確認
Patryk Wielopolski, Micha{\l} Koperski, Maciej Zi\k{e}ba(参考訳) 生成モデルは、人間の顔生成のためのStyleGANや3Dポイントクラウド生成のためのPointFlowなど、ここ数年で多くの研究者の注目を集めている。 しかし、デフォルトでは、そのサンプリングプロセスを制御できない。つまり、特定の属性セットを持つサンプルを生成することはできない。 現在のアプローチは、追加の入力と異なるアーキテクチャによるモデル再トレーニングであり、時間と計算資源を必要とする。 基本モデルを再学習することなく、与えられた属性セットを持つオブジェクトの生成を可能にする新しいアプローチを提案する。 本研究では, 条件付き自己回帰フローと条件付き実NVPをフロープラグインネットワーク(FPN)として, 正規化フローモデルを利用する。

Generative models have gained many researchers' attention in the last years resulting in models such as StyleGAN for human face generation or PointFlow for the 3D point cloud generation. However, by default, we cannot control its sampling process, i.e., we cannot generate a sample with a specific set of attributes. The current approach is model retraining with additional inputs and different architecture, which requires time and computational resources. We propose a novel approach that enables to a generation of objects with a given set of attributes without retraining the base model. For this purpose, we utilize the normalizing flow models - Conditional Masked Autoregressive Flow and Conditional Real NVP, as a Flow Plugin Network (FPN).
翻訳日:2021-10-11 14:11:34 公開日:2021-10-07
# 人間行動認識のための多視点屋外データセット

A Multi-viewpoint Outdoor Dataset for Human Action Recognition ( http://arxiv.org/abs/2110.04119v1 )

ライセンス: Link先を確認
Asanka G. Perera, Yee Wei Law, Titilayo T. Ogunwa, and Javaan Chahl(参考訳) ディープニューラルネットワークの進歩は、物体認識、顔認識、ポーズ推定など多くのコンピュータビジョン問題において、ほぼ完璧な結果をもたらす。 しかし、人間の行動認識は人間レベルのパフォーマンスには程遠い。 人間の身体の明瞭な性質から、複数の視点、特に航空的な視点から行動を検出することは困難である。 これは、アクションの複数の視点をカバーするデータセットの不足によってさらに複雑になる。 このギャップを埋め、幅広い応用分野の研究を可能にするために、YouTubeと当社のドローンから収集した多視点屋外行動認識データセットを提示する。 データセットは20の動的ヒューマンアクションクラス、2324のビデオクリップ、503086フレームで構成されている。 すべてのビデオは、720x720にリサイズされ、ビデオ中の人間の本来のアスペクト比を歪めない。 このデータセットは、行動認識、監視、状況認識を含む多くの研究分野に有用である。 最近提案した2ストリームCNNアーキテクチャと、非線形特徴部分空間表現を生成するカーネル化ランクプーリングと呼ばれる時間プール方式を組み合わせたデータセットの評価を行った。 総合ベースライン動作認識精度は74.0%である。

Advancements in deep neural networks have contributed to near perfect results for many computer vision problems such as object recognition, face recognition and pose estimation. However, human action recognition is still far from human-level performance. Owing to the articulated nature of the human body, it is challenging to detect an action from multiple viewpoints, particularly from an aerial viewpoint. This is further compounded by a scarcity of datasets that cover multiple viewpoints of actions. To fill this gap and enable research in wider application areas, we present a multi-viewpoint outdoor action recognition dataset collected from YouTube and our own drone. The dataset consists of 20 dynamic human action classes, 2324 video clips and 503086 frames. All videos are cropped and resized to 720x720 without distorting the original aspect ratio of the human subjects in videos. This dataset should be useful to many research areas including action recognition, surveillance and situational awareness. We evaluated the dataset with a two-stream CNN architecture coupled with a recently proposed temporal pooling scheme called kernelized rank pooling that produces nonlinear feature subspace representations. The overall baseline action recognition accuracy is 74.0%.
翻訳日:2021-10-11 14:11:22 公開日:2021-10-07
# ccgg:クラス条件グラフ生成のための深い自己回帰モデル

CCGG: A Deep Autoregressive Model for Class-Conditional Graph Generation ( http://arxiv.org/abs/2110.03800v1 )

ライセンス: Link先を確認
Matin Yousefabadi, Yassaman Ommi, Faezeh Faez, Amirmojtaba Sabour, Mahdieh Soleymani Baghshah, Hamid R. Rabiee(参考訳) グラフデータ構造は、連結エンティティを研究するための基礎となる。 グラフとして表現されるアプリケーション数の増加に伴い,近年,多くの信号処理領域において,グラフ生成の問題が話題となっている。 しかし、その重要性にもかかわらず、所望の特徴を持つグラフを生成する条件付きグラフ生成は、以前の研究では比較的研究されていない。 本稿では,クラス条件付きグラフ生成器(CCGG)を導入して,クラスラベルを生成制約とするクラス条件グラフ生成の問題に対処する。 私たちは、クラス情報をグラフ生成モデルに追加入力として追加し、グラデーションパストリックとともに合計損失の分類損失を含むccggを構築した。 実験により,ccggは既存の条件付きグラフ生成手法を各種データセットで上回ることを示した。 また、分散ベースの評価指標の観点から、生成したグラフの品質も維持する。

Graph data structures are fundamental for studying connected entities. With an increase in the number of applications where data is represented as graphs, the problem of graph generation has recently become a hot topic in many signal processing areas. However, despite its significance, conditional graph generation that creates graphs with desired features is relatively less explored in previous studies. This paper addresses the problem of class-conditional graph generation that uses class labels as generation constraints by introducing the Class Conditioned Graph Generator (CCGG). We built CCGG by adding the class information as an additional input to a graph generator model and including a classification loss in its total loss along with a gradient passing trick. Our experiments show that CCGG outperforms existing conditional graph generation methods on various datasets. It also manages to maintain the quality of the generated graphs in terms of distribution-based evaluation metrics.
翻訳日:2021-10-11 13:55:42 公開日:2021-10-07
# スターからサブグラフへ:GNNをローカルな構造認識で引き上げる

From Stars to Subgraphs: Uplifting Any GNN with Local Structure Awareness ( http://arxiv.org/abs/2110.03753v1 )

ライセンス: Link先を確認
Lingxiao Zhao, Wei Jin, Leman Akoglu, Neil Shah(参考訳) メッセージパッシングニューラルネットワーク(英: Message Passing Neural Networks、MPNN)は、グラフニューラルネットワーク(GNN)の一種で、各ノードの表現は、星型パターンに似た近隣の表現(メッセージ)を集約することで再帰的に計算される。 MPNNは効率的で拡張性があり、その表現性は1階のWeisfeiler-Lehman同型テスト(1-WL)によって上界化されている。 これに対し、先行研究はスケーラビリティと時には一般化性能を犠牲にして非常に表現力のあるモデルを提案する。 私たちはMPNNをより表現力のあるものにするための一般的なフレームワークを導入し、スケーラビリティのオーバーヘッドを制限し、実用的なパフォーマンスを大幅に改善しました。 我々は、MPNNの局所的な集約を星パターンから一般のサブグラフパターン(例えば、k-egonets)に拡張することで実現している:我々のフレームワークでは、各ノード表現は、近隣の(すなわち星)のみを符号化するよりも、周辺で誘導されたサブグラフの符号化として計算される。 我々は,グラフエンコーダをGNN(主にMPNN)として選択し,GNNをアップリフトするためのラッパーとして機能する汎用フレームワークを設計する。 提案手法をgnn-ak(gnnをカーネルと呼ぶ)と呼び、このフレームワークはカーネルをgnnに置き換えることで畳み込みニューラルネットワークに似ている。 理論的には、我々のフレームワークは1&2-WLよりも厳格に強力であり、3WLよりも強力である。 また,メモリフットプリントを大幅に削減し,性能を維持しながら高速化するサブグラフサンプリング戦略も設計した。 具体的には,ZINCでは0.08 MAE, CIFAR10では74.79%, PATTERNでは86.887%の精度である。

Message Passing Neural Networks (MPNNs) are a common type of Graph Neural Network (GNN), in which each node's representation is computed recursively by aggregating representations (messages) from its immediate neighbors akin to a star-shaped pattern. MPNNs are appealing for being efficient and scalable, how-ever their expressiveness is upper-bounded by the 1st-order Weisfeiler-Lehman isomorphism test (1-WL). In response, prior works propose highly expressive models at the cost of scalability and sometimes generalization performance. Our work stands between these two regimes: we introduce a general framework to uplift any MPNN to be more expressive, with limited scalability overhead and greatly improved practical performance. We achieve this by extending local aggregation in MPNNs from star patterns to general subgraph patterns (e.g.,k-egonets):in our framework, each node representation is computed as the encoding of a surrounding induced subgraph rather than encoding of immediate neighbors only (i.e. a star). We choose the subgraph encoder to be a GNN (mainly MPNNs, considering scalability) to design a general framework that serves as a wrapper to up-lift any GNN. We call our proposed method GNN-AK(GNN As Kernel), as the framework resembles a convolutional neural network by replacing the kernel with GNNs. Theoretically, we show that our framework is strictly more powerful than 1&2-WL, and is not less powerful than 3-WL. We also design subgraph sampling strategies which greatly reduce memory footprint and improve speed while maintaining performance. Our method sets new state-of-the-art performance by large margins for several well-known graph ML tasks; specifically, 0.08 MAE on ZINC,74.79% and 86.887% accuracy on CIFAR10 and PATTERN respectively.
翻訳日:2021-10-11 13:53:00 公開日:2021-10-07
# 拡散シュタイン作用素を用いた非ランダム化MCMCダイナミクス

De-randomizing MCMC dynamics with the diffusion Stein operator ( http://arxiv.org/abs/2110.03768v1 )

ライセンス: Link先を確認
Zheyang Shen, Markus Heinonen, Samuel Kaski(参考訳) 近似ベイズ推定は、難解な対象分布のディスクリプタを推定する - 本質的には、分布の族内の最適化問題である。 例えば、ランゲヴィン力学(LD)は拡散過程から漸近的に正確なサンプルを抽出する、なぜならその限界分布の時間的発展は、ワッサーシュタイン空間の最も急降下によるKL偏差を最小化する曲線を構成するからである。 LDと平行して、スタイン変分勾配降下(SVGD)も同様にKLを最小化するが、新しいシュタイン-ワッサーシュタイン距離は、一組の粒子サンプルを決定的に輸送することで、確率拡散過程を非ランダム化する。 MCMC動力学として知られる拡散型全試料に対する非ランダム化カーネルベース粒子サンプリング器を提案する。 MCMCの力学を解釈する以前の研究に続いて、我々はシュタイン=ヴァッサーシュタイン空間にファイバー-リーマン・ポアソン構造を持ち、MCMCの力学をシミュレートする繊維勾配ハミルトン流を特徴づける能力を持つ。 このような力学は一般化されたSVGD(Stein-type deterministic Particle sampler)に離散化され、粒子の更新は拡散シュタイン作用素をカーネル関数に適用することで行われる。 実験により,gsvgdは相互作用粒子系から高いサンプル品質を維持しつつ,補助運動量変数とリーマン構造を組み合わせた複雑なmcmcダイナミクスを非ランダム化できることを実証した。

Approximate Bayesian inference estimates descriptors of an intractable target distribution - in essence, an optimization problem within a family of distributions. For example, Langevin dynamics (LD) extracts asymptotically exact samples from a diffusion process because the time evolution of its marginal distributions constitutes a curve that minimizes the KL-divergence via steepest descent in the Wasserstein space. Parallel to LD, Stein variational gradient descent (SVGD) similarly minimizes the KL, albeit endowed with a novel Stein-Wasserstein distance, by deterministically transporting a set of particle samples, thus de-randomizes the stochastic diffusion process. We propose de-randomized kernel-based particle samplers to all diffusion-based samplers known as MCMC dynamics. Following previous work in interpreting MCMC dynamics, we equip the Stein-Wasserstein space with a fiber-Riemannian Poisson structure, with the capacity of characterizing a fiber-gradient Hamiltonian flow that simulates MCMC dynamics. Such dynamics discretizes into generalized SVGD (GSVGD), a Stein-type deterministic particle sampler, with particle updates coinciding with applying the diffusion Stein operator to a kernel function. We demonstrate empirically that GSVGD can de-randomize complex MCMC dynamics, which combine the advantages of auxiliary momentum variables and Riemannian structure, while maintaining the high sample quality from an interacting particle system.
翻訳日:2021-10-11 13:52:23 公開日:2021-10-07
# 文脈文分類:企業レポートにおける持続可能性イニシアティブの検出

Contextual Sentence Classification: Detecting Sustainability Initiatives in Company Reports ( http://arxiv.org/abs/2110.03727v1 )

ライセンス: Link先を確認
Dan Hirlea, Christopher Bryant and Marek Rei(参考訳) 我々は,サステナビリティイニシアティブを検出する新しいタスクを企業レポートで紹介する。 完全な報告が与えられると、特定の社会問題に取り組むために会社が行った実践的な活動の言及を自動的に特定することを目的としている。 単一のイニシアチブを複数の文で記述できるため、連続文を識別する新しい方法を開発する必要がある。 我々は,サステナビリティイニシアチブでテキストを手作業で注釈付けした企業レポートのデータセットを公開する。 また,新しいアグリゲーションと評価手法を導入することで,イニシアティブ検出のための異なるモデルを評価する。 提案アーキテクチャは,各文レベルでの分類決定を行う際に,文脈情報を考慮した5つの連続文列を用いる。

We introduce the novel task of detecting sustainability initiatives in company reports. Given a full report, the aim is to automatically identify mentions of practical activities that a company has performed in order to tackle specific societal issues. As a single initiative can often be described over multiples sentences, new methods for identifying continuous sentence spans needs to be developed. We release a new dataset of company reports in which the text has been manually annotated with sustainability initiatives. We also evaluate different models for initiative detection, introducing a novel aggregation and evaluation methodology. Our proposed architecture uses sequences of five consecutive sentences to account for contextual information when making classification decisions at the individual sentence level.
翻訳日:2021-10-11 13:17:44 公開日:2021-10-07
# (参考訳) 変換言語モデルのための対話型説明生成 [全文訳有]

Interactively Generating Explanations for Transformer Language Models ( http://arxiv.org/abs/2110.02058v3 )

ライセンス: CC BY 4.0
Patrick Schramowski, Felix Friedrich, Christopher Tauchmann, and Kristian Kersting(参考訳) トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。 これらの成功にもかかわらず、不透明さは依然として問題である。 ブラックボックスモデルへの解釈可能性と説明可能性の提供を目的とした最近の手法は、主に入力-出力相関のポストホックな説明に焦点を当てている。 その代わり、モデルアーキテクチャに直接組み込まれたプロトタイプネットワークの使用を強調し、ネットワークの決定の背後にある推論プロセスを説明する。 さらに,アーキテクチャは複数の言語モデルと同等に機能するが,ユーザインタラクションから学習することができる。 これは言語モデルの理解を深めるだけでなく、純粋データ駆動アプローチの厳格な範囲外の知識を取り込むために人間の能力を利用する。

Transformer language models are state-of-the-art in a multitude of NLP tasks. Despite these successes, their opaqueness remains problematic. Recent methods aiming to provide interpretability and explainability to black-box models primarily focus on post-hoc explanations of (sometimes spurious) input-output correlations. Instead, we emphasize using prototype networks directly incorporated into the model architecture and hence explain the reasoning process behind the network's decisions. Moreover, while our architecture performs on par with several language models, it enables one to learn from user interactions. This not only offers a better understanding of language models but uses human capabilities to incorporate knowledge outside of the rigid range of purely data-driven approaches.
翻訳日:2021-10-10 16:57:23 公開日:2021-10-07
# 効率的な言語モデル適応のための因子化ニューラルトランスデューサ

Factorized Neural Transducer for Efficient Language Model Adaptation ( http://arxiv.org/abs/2110.01500v4 )

ライセンス: Link先を確認
Xie Chen, Zhong Meng, Sarangarajan Parthasarathy, Jinyu Li(参考訳) 近年,エンド・ツー・エンド(E2E)に基づく自動音声認識システム(ASR)は,そのシンプルさと有望な性能により,大きな成功を収めている。 ニューラルトランスデューサベースのモデルは、ストリーミングE2EベースのASRシステムで人気が高まり、いくつかのシナリオでは従来のハイブリッドシステムよりも優れていることが報告されている。 しかし、ニューラルトランスデューサにおける音響モデル、レキシコン、言語モデルの合同最適化は、純粋テキストを言語モデル適応に活用するための課題をもたらす。 この欠点は、現実の潜在的な応用を妨げる可能性がある。 本稿では,この問題を解決するために,空白と語彙の予測を分解し,語彙予測にスタンドアロン言語モデルを採用することによって,新しいモデルである因子化ニューラルトランスデューサを提案する。 この因子化により、スタンドアロン言語モデルの改良を音声認識用トランスデューサに移すことが期待され、様々な言語モデル適応技術を適用することができる。 提案した因子化ニューラルトランスデューサは、汎用テストセット上でのWERの小さな劣化を犠牲にして、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善をもたらすことを示す。

In recent years, end-to-end (E2E) based automatic speech recognition (ASR) systems have achieved great success due to their simplicity and promising performance. Neural Transducer based models are increasingly popular in streaming E2E based ASR systems and have been reported to outperform the traditional hybrid system in some scenarios. However, the joint optimization of acoustic model, lexicon and language model in neural Transducer also brings about challenges to utilize pure text for language model adaptation. This drawback might prevent their potential applications in practice. In order to address this issue, in this paper, we propose a novel model, factorized neural Transducer, by factorizing the blank and vocabulary prediction, and adopting a standalone language model for the vocabulary prediction. It is expected that this factorization can transfer the improvement of the standalone language model to the Transducer for speech recognition, which allows various language model adaptation techniques to be applied. We demonstrate that the proposed factorized neural Transducer yields 15% to 20% WER improvements when out-of-domain text data is used for language model adaptation, at the cost of a minor degradation in WER on a general test set.
翻訳日:2021-10-10 11:05:48 公開日:2021-10-07
# (参考訳) 距離学習に基づく帰納的等角予測を用いたサイバー物理システムの学習保証モニタリング [全文訳有]

Assurance Monitoring of Learning Enabled Cyber-Physical Systems Using Inductive Conformal Prediction based on Distance Learning ( http://arxiv.org/abs/2110.03120v1 )

ライセンス: CC BY 4.0
Dimitrios Boursinos and Xenofon Koutsoukos(参考訳) ディープニューラルネットワークのような機械学習コンポーネントは、サイバー物理システム(CPS)で広く使われている。 しかし、そのようなコンポーネントは、破壊的な結果をもたらし、エンジニアリングの信頼できるシステムのために対処する必要がある新しいタイプのハザードをもたらす可能性がある。 ディープニューラルネットワークは高度な機能を提供するが、CPSに効果的な統合を可能にするエンジニアリング手法とプラクティスによって補完されなければならない。 本稿では,共形予測フレームワークに基づく学習可能なCPSの保証監視手法を提案する。 リアルタイムの保証監視を可能にするため,高次元入力を低次元埋め込み表現に変換するために距離学習を用いる。 共形予測を活用することにより、精度の高い信頼性を提供し、正確な予測ができない入力数を制限するとともに、境界付き小さなエラー率を保証する。 壁面認識,話者認識,交通信号認識の3つの移動ロボットを用いて,そのアプローチを実証する。 実験結果から,アラームの数は極めて少ないが,誤差率は良好であることがわかった。 さらに、計算効率が高く、CPSのリアルタイム保証監視を可能にする。

Machine learning components such as deep neural networks are used extensively in Cyber-Physical Systems (CPS). However, such components may introduce new types of hazards that can have disastrous consequences and need to be addressed for engineering trustworthy systems. Although deep neural networks offer advanced capabilities, they must be complemented by engineering methods and practices that allow effective integration in CPS. In this paper, we proposed an approach for assurance monitoring of learning-enabled CPS based on the conformal prediction framework. In order to allow real-time assurance monitoring, the approach employs distance learning to transform high-dimensional inputs into lower size embedding representations. By leveraging conformal prediction, the approach provides well-calibrated confidence and ensures a bounded small error rate while limiting the number of inputs for which an accurate prediction cannot be made. We demonstrate the approach using three data sets of mobile robot following a wall, speaker recognition, and traffic sign recognition. The experimental results demonstrate that the error rates are well-calibrated while the number of alarms is very small. Further, the method is computationally efficient and allows real-time assurance monitoring of CPS.
翻訳日:2021-10-09 08:00:54 公開日:2021-10-07
# (参考訳) 学習可能な自律システムの予測信頼度向上 [全文訳有]

Improving Prediction Confidence in Learning-Enabled Autonomous Systems ( http://arxiv.org/abs/2110.03123v1 )

ライセンス: CC BY 4.0
Dimitrios Boursinos and Xenofon Koutsoukos(参考訳) 自律システムは、予測と意思決定にディープニューラルネットワーク(dnn)など、幅広い学習可能なコンポーネントを使用する。 本稿では,予測の信頼性を向上させるために,分類に使用される学習可能なコンポーネントと自律システムのセンサとのフィードバックループを利用する。 テスト例とトレーニング例の類似性を定量化するために使用できる表現を学習するために,三重項ネットワークアーキテクチャに基づく帰納的等角予測(icp)を用いた分類器を設計した。 この方法により、選択された重要度レベルを用いて予め定義された誤差率で、信頼度セット予測を計算できる。 センサに新しい入力を問い合わせるフィードバックループは、予測をさらに洗練し、分類精度を高めるために使用される。 この方法は計算効率が高く、高次元入力にスケーラブルであり、システムとリアルタイムにフィードバックループで実行することができる。 本手法は,トラヒックサイン認識データセットを用いて評価し,誤差率を低減したことを示す。

Autonomous systems use extensively learning-enabled components such as deep neural networks (DNNs) for prediction and decision making. In this paper, we utilize a feedback loop between learning-enabled components used for classification and the sensors of an autonomous system in order to improve the confidence of the predictions. We design a classifier using Inductive Conformal Prediction (ICP) based on a triplet network architecture in order to learn representations that can be used to quantify the similarity between test and training examples. The method allows computing confident set predictions with an error rate predefined using a selected significance level. A feedback loop that queries the sensors for a new input is used to further refine the predictions and increase the classification accuracy. The method is computationally efficient, scalable to high-dimensional inputs, and can be executed in a feedback loop with the system in real-time. The approach is evaluated using a traffic sign recognition dataset and the results show that the error rate is reduced.
翻訳日:2021-10-09 07:43:58 公開日:2021-10-07
# (参考訳) 距離学習に基づくインダクティブベンゼン予測器を用いた分類のための信頼性確率間隔 [全文訳有]

Reliable Probability Intervals For Classification Using Inductive Venn Predictors Based on Distance Learning ( http://arxiv.org/abs/2110.03127v1 )

ライセンス: CC BY 4.0
Dimitrios Boursinos and Xenofon Koutsoukos(参考訳) ディープニューラルネットワークは、複雑な非線形データパターンを学習し、動的環境で正確な予測を行う能力として、自律システムによって頻繁に使用される。 しかし、ブラックボックスとしての使用は、各予測に対する自信が不明であるため、リスクをもたらす。 予測とともに正確な信頼度を測定するために異なるフレームワークが提案されているが、同時に、実行時間オーバーヘッドや高次元データで使用できないといった多くの制限も導入されている。 本稿では,各予測の正確性に関する確率区間をリアルタイムに計算するために,インダクティブベン予測フレームワークを用いる。 高次元入力を含むアプリケーションにおける情報伝達確率区間を計算するために,距離メトリック学習に基づく分類法を提案する。 IoT(Internet-of-Thin gs)アプリケーションにおける画像分類とボットネット攻撃検出の実証評価により,精度と校正性が向上した。 提案手法は計算効率が高く,リアルタイムに利用することができる。

Deep neural networks are frequently used by autonomous systems for their ability to learn complex, non-linear data patterns and make accurate predictions in dynamic environments. However, their use as black boxes introduces risks as the confidence in each prediction is unknown. Different frameworks have been proposed to compute accurate confidence measures along with the predictions but at the same time introduce a number of limitations like execution time overhead or inability to be used with high-dimensional data. In this paper, we use the Inductive Venn Predictors framework for computing probability intervals regarding the correctness of each prediction in real-time. We propose taxonomies based on distance metric learning to compute informative probability intervals in applications involving high-dimensional inputs. Empirical evaluation on image classification and botnet attacks detection in Internet-of-Things (IoT) applications demonstrates improved accuracy and calibration. The proposed method is computationally efficient, and therefore, can be used in real-time.
翻訳日:2021-10-09 07:37:00 公開日:2021-10-07
# (参考訳) 複素体積幾何形状における変形拡散過程の数値シミュレーションのための汎用ツール:有機物の微生物分解への応用

Generic tool for numerical simulation of transformation-diffu sion processes in complex volume geometric shapes: application to microbial decomposition of organic matter ( http://arxiv.org/abs/2110.03130v1 )

ライセンス: CC BY 4.0
Olivier Monga, Fr\'ed\'eric Hecht, Serge Moto, Bruno Mbe, Patricia Garnier, Val\'erie Pot(参考訳) 本稿では,複素体積幾何形状における変換拡散過程の数値シミュレーションのための汎用的枠組みを提案する。 この研究は、微視的スケールで多孔質系における有機物の微生物分解のシミュレーションに関する以前の研究に続くものである。 モザイク法を大幅に一般化・改良し,より汎用的かつ効率的な数値シミュレーションを実現した。 特に, グラフからの拡散過程のシミュレーションに関して, 計算複雑性を著しく低減できる, 完全に明示的で半単純化された数値スキームを提案した。 微生物分解シミュレーションの文脈において,従来の格子ボルツマン法 (LBM) と比較し,本手法の有効性を検証した。 同じデータセットの場合、計算時間(つまり10~15分)が以前の作業(数時間)よりも大幅に短いという同様の結果が得られました。 古典的なLBM法以外には、約3週間の計算時間を要する。

This paper presents a generic framework for the numerical simulation of transformation-diffu sion processes in complex volume geometric shapes. This work follows a previous one devoted to the simulation of microbial degradation of organic matter in porous system at microscopic scale. We generalized and improved the MOSAIC method significantly and thus yielding a much more generic and efficient numerical simulation scheme. In particular, regarding the simulation of diffusion processes from the graph, in this study we proposed a completely explicit and semi-implicit numerical scheme that can significantly reduce the computational complexity. We validated our method by comparing the results to the one provided by classical Lattice Boltzmann Method (LBM) within the context of microbial decomposition simulation. For the same datasets, we obtained similar results in a significantly shorter computing time (i.e., 10-15 minutes) than the prior work (several hours). Besides the classical LBM method takes around 3 weeks computing time.
翻訳日:2021-10-09 07:26:15 公開日:2021-10-07
# (参考訳) 抽出質問応答におけるトランスフォーマーに基づく言語モデルの比較検討 [全文訳有]

A Comparative Study of Transformer-Based Language Models on Extractive Question Answering ( http://arxiv.org/abs/2110.03142v1 )

ライセンス: CC BY 4.0
Kate Pearce, Tiffany Zhan, Aneesh Komanduri, Justin Zhan(参考訳) 質問回答(QA)は自然言語処理における課題であり、トランスフォーマーの出現以来かなりの成長を遂げてきた。 自然言語処理モデルに挑戦し、人間と既存のモデルのパフォーマンスを改善するために、QAデータセットの急増が提案されている。 多くの事前学習された言語モデルは、質問応答の抽出に非常に効果的であることが証明されている。 しかし、これらのモデルの大部分にとって、一般化性は依然として課題である。 つまり、いくつかのデータセットでは、モデルが他のデータよりも推論を必要とする。 本稿では,様々な事前学習言語モデルを訓練し,複数の質問応答データセットに微調整を行い,どのモデルが複数のデータセットにまたがって最も包括的に一般化できるのかを決定する。 さらに,新たなアーキテクチャであるBERT-BiLSTMを提案し,それを他の言語モデルと比較し,さらに双方向性を加えることでモデル性能が向上するかどうかを判断する。 F1スコアを基準として、RoBERTaとBARTが事前訓練されたモデルはすべてのデータセットで最高のパフォーマンスを示し、BERT-BiLSTMモデルはベースラインBERTモデルよりも優れています。

Question Answering (QA) is a task in natural language processing that has seen considerable growth after the advent of transformers. There has been a surge in QA datasets that have been proposed to challenge natural language processing models to improve human and existing model performance. Many pre-trained language models have proven to be incredibly effective at the task of extractive question answering. However, generalizability remains as a challenge for the majority of these models. That is, some datasets require models to reason more than others. In this paper, we train various pre-trained language models and fine-tune them on multiple question answering datasets of varying levels of difficulty to determine which of the models are capable of generalizing the most comprehensively across different datasets. Further, we propose a new architecture, BERT-BiLSTM, and compare it with other language models to determine if adding more bidirectionality can improve model performance. Using the F1-score as our metric, we find that the RoBERTa and BART pre-trained models perform the best across all datasets and that our BERT-BiLSTM model outperforms the baseline BERT model.
翻訳日:2021-10-09 07:25:17 公開日:2021-10-07
# (参考訳) 自己回帰因子化モデルによるPRRSアウトブレイク予測 [全文訳有]

PRRS Outbreak Prediction via Deep Switching Auto-Regressive Factorization Modeling ( http://arxiv.org/abs/2110.03147v1 )

ライセンス: CC BY 4.0
Mohammadsadegh Shamsabardeh, Bahar Azari, Beatriz Mart\'inez-L\'opez(参考訳) 畜産業界における流行予測のための流行解析フレームワークを提案し,豚業界で最も費用のかかるウイルス性感染症であるprrsウイルスの研究に焦点を当てた。 この枠組みを用いることで,豚生産システムの全農場におけるprrの発生を,豚内レベルウイルス感染動態と豚間出荷ネットワークに基づく感染伝播の時空間的動態を捉えることにより予測できる。 豚産業界が提供した実データから抽出した統計データを用いて,出荷ネットワークとseir流行モデルに基づいてprrs感染をシミュレートする。 本研究では,時間依存重みと空間依存低次元因子の積によって高次元データに近似した階層的因子化深層生成モデルを開発した。 予測結果は、nrmse = 2.5\%の平均誤差でウイルス拡散の進行を予測できるモデルの能力を示している。

We propose an epidemic analysis framework for the outbreak prediction in the livestock industry, focusing on the study of the most costly and viral infectious disease in the swine industry -- the PRRS virus. Using this framework, we can predict the PRRS outbreak in all farms of a swine production system by capturing the spatio-temporal dynamics of infection transmission based on the intra-farm pig-level virus transmission dynamics, and inter-farm pig shipment network. We simulate a PRRS infection epidemic based on the shipment network and the SEIR epidemic model using the statistics extracted from real data provided by the swine industry. We develop a hierarchical factorized deep generative model that approximates high dimensional data by a product between time-dependent weights and spatially dependent low dimensional factors to perform per farm time series prediction. The prediction results demonstrate the ability of the model in forecasting the virus spread progression with average error of NRMSE = 2.5\%.
翻訳日:2021-10-09 07:14:32 公開日:2021-10-07
# (参考訳) スマートフォンとスマートウォッチを用いた連続的および適応的ユーザ認証のためのデータ駆動行動バイオメトリックス [全文訳有]

Data-driven behavioural biometrics for continuous and adaptive user verification using Smartphone and Smartwatch ( http://arxiv.org/abs/2110.03149v1 )

ライセンス: CC BY 4.0
Akriti Verma, Valeh Moghaddam and Adnan Anwar(参考訳) 近年の研究では、モーションベースの生体認証が、人間の協力を必要とせずに、ユーザ認証や識別の形式として利用できることが示されている。 この行動バイオメトリクスのカテゴリは、環境と自然との相互作用の結果、私たちが人生で学んだ特徴を扱う。 このモダリティは、時間とともに人間の行動の変化に関連している。 これらの手法の開発は、生体認証などの継続的認証を増幅し、ユーザデバイス上のプライバシーを保護することを目的としている。 各種連続認証システム(CA)が文献で提案されている。 これらは、ユーザの振る舞いを継続的に監視し、ログインセッションを通じて定期的にそれを再認証する基盤として使用する、新しい世代のセキュリティメカニズムを表している。 しかし、これらの手法は通常、ユーザを識別または検証するために使用される単一の分類モデルを構成する。 本研究では、動作に基づくバイオメトリックスを用いてユーザの身元を検証し、マルチファクタ認証を補完する2段階のユーザ検証アルゴリズムを導入することにより、行動バイオメトリックスとマルチファクタ認証(MFA)をブレンドするアルゴリズムを提案する。 この2段階のユーザ検証アルゴリズムは,このモデルと逆データを用いて,誤分類の頻度がいかに低下するかを示す実験結果に基づいて,敵の攻撃にも影響を受けない。

Recent studies have shown how motion-based biometrics can be used as a form of user authentication and identification without requiring any human cooperation. This category of behavioural biometrics deals with the features we learn in our life as a result of our interaction with the environment and nature. This modality is related to change in human behaviour over time. The developments in these methods aim to amplify continuous authentication such as biometrics to protect their privacy on user devices. Various Continuous Authentication (CA) systems have been proposed in the literature. They represent a new generation of security mechanisms that continuously monitor user behaviour and use this as the basis to re-authenticate them periodically throughout a login session. However, these methods usually constitute a single classification model which is used to identify or verify a user. This work proposes an algorithm to blend behavioural biometrics with multi-factor authentication (MFA) by introducing a two-step user verification algorithm that verifies the user's identity using motion-based biometrics and complements the multi-factor authentication, thus making it more secure and flexible. This two-step user verification algorithm is also immune to adversarial attacks, based on our experimental results which show how the rate of misclassification drops while using this model with adversarial data.
翻訳日:2021-10-09 07:04:41 公開日:2021-10-07
# (参考訳) 分布強化学習の理解に向けて:正則化、最適化、加速、シンクホーンアルゴリズム [全文訳有]

Towards Understanding Distributional Reinforcement Learning: Regularization, Optimization, Acceleration and Sinkhorn Algorithm ( http://arxiv.org/abs/2110.03155v1 )

ライセンス: CC BY 4.0
Ke Sun, Yingnan Zhao, Yi Liu, Enze Shi, Yafei Wang, Aref Sadeghi, Xiaodong Yan, Bei Jiang, Linglong Kong(参考訳) distributional reinforcement learning~(rl)は、期待値だけでなく総リターンの分布全体を推定する最先端アルゴリズムのクラスである。 分布RLの顕著な性能にもかかわらず、予想に基づくRLに対するその利点に関する理論的理解はいまだ解明されていない。 本稿では,分布 RL を \textit{neural Z-fitted iteration} フレームワークにおけるエントロピー正規化最大推定と解釈し,最大エントロピー RL によるリスク認識正規化の接続を確立する。 さらに, 安定な最適化と一般化を保証できる分布RLにおいて, 所望の滑らか性を有する安定促進型分布損失に光を当てた。 また、分布RLアルゴリズムを最適化しながら加速挙動を解析し、真の目標分布に対する適切な近似が収束を早めることを示す。 表現の観点から、分布RLは、より厳密なクラスタのポリシーによって分類された同じアクションクラスから状態表現を促進する。 最後に、ワッサーシュタイン距離と最大平均誤差〜(MMD)を補間する、textit{Sinkhorn distributional RL} アルゴリズムのクラスを提案する。 atariゲーム群における実験により,既存の分散rlアルゴリズムと比較して,アルゴリズムの競合性能が明らかとなった。

Distributional reinforcement learning~(RL) is a class of state-of-the-art algorithms that estimate the whole distribution of the total return rather than only its expectation. Despite the remarkable performance of distributional RL, a theoretical understanding of its advantages over expectation-based RL remains elusive. In this paper, we interpret distributional RL as entropy-regularized maximum likelihood estimation in the \textit{neural Z-fitted iteration} framework, and establish the connection of the resulting risk-aware regularization with maximum entropy RL. In addition, We shed light on the stability-promoting distributional loss with desirable smoothness properties in distributional RL, which can yield stable optimization and guaranteed generalization. We also analyze the acceleration behavior while optimizing distributional RL algorithms and show that an appropriate approximation to the true target distribution can speed up the convergence. From the perspective of representation, we find that distributional RL encourages state representation from the same action class classified by the policy in tighter clusters. Finally, we propose a class of \textit{Sinkhorn distributional RL} algorithm that interpolates between the Wasserstein distance and maximum mean discrepancy~(MMD). Experiments on a suite of Atari games reveal the competitive performance of our algorithm relative to existing state-of-the-art distributional RL algorithms.
翻訳日:2021-10-09 06:48:32 公開日:2021-10-07
# (参考訳) リソース制約のあるオンラインデプロイメントを備えたオフラインRL [全文訳有]

Offline RL With Resource Constrained Online Deployment ( http://arxiv.org/abs/2110.03165v1 )

ライセンス: CC BY 4.0
Jayanth Reddy Regatti, Aniket Anand Deshmukh, Frank Cheng, Young Hun Jung, Abhishek Gupta, Urun Dogan(参考訳) オフライン強化学習は、環境へのリアルタイムアクセスが高価または不可能なシナリオでポリシーを訓練するために使用される。 こうした厳しい状況の自然な結果として、エージェントは行動を起こす前にオンライン環境を完全に観察するリソースが不足する可能性がある。 リソース制約のある設定でこの状況を掘り下げます。 これにより、オフラインデータセット(トレーニング用に利用可能な)が完全に処理された機能(強力な言語モデル、イメージモデル、複雑なセンサーなど)を含むことができ、アクションが実際にオンラインに取得された時に利用できない状況につながる。 リッチに処理されたオフラインデータセットを使用して、オンライン環境でより少ない機能にアクセス可能なポリシをトレーニングすることは可能ですか? 本研究では,この新たな資源制約問題設定の導入と形式化を行う。 我々は、完全なオフラインデータセットを使用してトレーニングされたポリシーと、限られた機能を使用してトレーニングされたポリシー間のパフォーマンスのギャップを強調します。 この性能ギャップに対処するために、まずオフラインのデータセットを使って教師エージェントを訓練し、その知識をリソース制約のある機能のみを使用する学生エージェントに転送する。 本稿では,RL (Resource Constrained-Datasets for RL (RC-D4RL) というデータ収集手法を提案する。 RC-D4RLおよびD4RLベンチマーク上での転送アルゴリズムの評価を行い,ベースライン(転送不要TD3+BC)に対する一貫した改善を観察した。 実験のコードはhttps://github.com/J ayanthRR/RC-OfflineR L}{github.com/RC-Offlin eRLで公開されている。

Offline reinforcement learning is used to train policies in scenarios where real-time access to the environment is expensive or impossible. As a natural consequence of these harsh conditions, an agent may lack the resources to fully observe the online environment before taking an action. We dub this situation the resource-constrained setting. This leads to situations where the offline dataset (available for training) can contain fully processed features (using powerful language models, image models, complex sensors, etc.) which are not available when actions are actually taken online. This disconnect leads to an interesting and unexplored problem in offline RL: Is it possible to use a richly processed offline dataset to train a policy which has access to fewer features in the online environment? In this work, we introduce and formalize this novel resource-constrained problem setting. We highlight the performance gap between policies trained using the full offline dataset and policies trained using limited features. We address this performance gap with a policy transfer algorithm which first trains a teacher agent using the offline dataset where features are fully available, and then transfers this knowledge to a student agent that only uses the resource-constrained features. To better capture the challenge of this setting, we propose a data collection procedure: Resource Constrained-Datasets for RL (RC-D4RL). We evaluate our transfer algorithm on RC-D4RL and the popular D4RL benchmarks and observe consistent improvement over the baseline (TD3+BC without transfer). The code for the experiments is available at https://github.com/J ayanthRR/RC-OfflineR L}{github.com/RC-Offlin eRL.
翻訳日:2021-10-09 06:15:52 公開日:2021-10-07
# (参考訳) TreeGCN-ED:木構造グラフネットワークを用いたポイントクラウドの符号化 [全文訳有]

TreeGCN-ED: Encoding Point Cloud using a Tree-Structured Graph Network ( http://arxiv.org/abs/2110.03170v1 )

ライセンス: CC BY 4.0
Prajwal Singh, Kaustubh Sadekar, Shanmuganathan Raman(参考訳) ポイントクラウドは3次元幾何学データを表現し保存する効率的な方法である。 ポイントクラウド上のディープラーニングアルゴリズムは時間とメモリ効率がよい。 PointNetやFoldingNetといったいくつかの手法がポイントクラウドの処理のために提案されている。 本稿では,グラフ畳み込みを用いた階層情報を利用して,点群へのロバスト埋め込みを生成する自動エンコーダベースのフレームワークを提案する。 提案するエンコーダアーキテクチャによって生成された埋め込みの質を評価するために複数の実験を行い、t-SNEマップを可視化し、異なるオブジェクトクラスを区別する能力を強調する。 さらに,提案フレームワークの適用性についても実証する。3dポイントクラウド補完および1画像ベース3d再構成。

Point cloud is an efficient way of representing and storing 3D geometric data. Deep learning algorithms on point clouds are time and memory efficient. Several methods such as PointNet and FoldingNet have been proposed for processing point clouds. This work proposes an autoencoder based framework to generate robust embeddings for point clouds by utilizing hierarchical information using graph convolution. We perform multiple experiments to assess the quality of embeddings generated by the proposed encoder architecture and visualize the t-SNE map to highlight its ability to distinguish between different object classes. We further demonstrate the applicability of the proposed framework in applications like: 3D point cloud completion and Single image based 3D reconstruction.
翻訳日:2021-10-09 05:58:01 公開日:2021-10-07
# (参考訳) ニューロンの集合体は、よく区切られた分布を分類することができる [全文訳有]

Assemblies of neurons can learn to classify well-separated distributions ( http://arxiv.org/abs/2110.03171v1 )

ライセンス: CC BY-SA 4.0
Max Dabagia, Christos H. Papadimitriou, Santosh S. Vempala(参考訳) 集合体は、記憶、概念、言葉、その他の認知カテゴリーなど、脳内の高レベルな情報を表すと信じられている、多数のニューロンをまたいだ協調射撃のパターンである。 近年,組立計算 (AC) と呼ばれる計算システムが提案されている。 このシステムは任意の空間境界計算をシミュレートすることができ、言語のような非常に自然に複雑な認知現象を記述する。 しかし、アセンブリーが脳の最大のトリック(学習能力)を発揮できるかどうかという疑問は開かれている。 また, acは, 十分に分離されたクラスからサンプルを分類する学習機構を提供する。 単純な分類問題に対して、各クラスを表す新しいアセンブリは、いくつかの刺激に応答して確実に形成できることを厳格に証明し、それゆえ、同じクラスの新しい刺激に応答して確実にリコールされる。 さらに、これらのクラスアセンブリは、各クラスが合理的に分離されている限り、特に同様のアセンブリのクラスタである場合、またはより一般的にマージンのあるハーフスペースで区切られる場合、区別可能である。 実験では,これらの分布から得られた合成データから概念クラスを表すアセンブリと,1桁に1つのアセンブリで分類できるmnistの生成に成功した。 学習アルゴリズムとして見れば、このメカニズムは完全にオンラインであり、ごく少数のサンプルから一般化され、軽度な監督を必要とする。

Assemblies are patterns of coordinated firing across large populations of neurons, believed to represent higher-level information in the brain, such as memories, concepts, words, and other cognitive categories. Recently, a computational system called the Assembly Calculus (AC) has been proposed, based on a set of biologically plausible operations on assemblies. This system is capable of simulating arbitrary space-bounded computation, and describes quite naturally complex cognitive phenomena such as language. However, the question of whether assemblies can perform the brain's greatest trick -- its ability to learn -- has been open. We show that the AC provides a mechanism for learning to classify samples from well-separated classes. We prove rigorously that for simple classification problems, a new assembly that represents each class can be reliably formed in response to a few stimuli from it; this assembly is henceforth reliably recalled in response to new stimuli from the same class. Furthermore, such class assemblies will be distinguishable as long as the respective classes are reasonably separated, in particular when they are clusters of similar assemblies, or more generally divided by a halfspace with margin. Experimentally, we demonstrate the successful formation of assemblies which represent concept classes on synthetic data drawn from these distributions, and also on MNIST, which lends itself to classification through one assembly per digit. Seen as a learning algorithm, this mechanism is entirely online, generalizes from very few samples, and requires only mild supervision -- all key attributes of learning in a model of the brain.
翻訳日:2021-10-09 05:47:27 公開日:2021-10-07
# (参考訳) ディープニューラルネットワーク抽選券の普遍性:再正規化グループ視点 [全文訳有]

Universality of Deep Neural Network Lottery Tickets: A Renormalization Group Perspective ( http://arxiv.org/abs/2110.03210v1 )

ライセンス: CC BY 4.0
William T. Redman, Tianlong Chen, Akshunna S. Dogra, Zhangyang Wang(参考訳) Lottery Ticket仮説に関する基礎的な研究は、エキサイティングな概要を示唆している。あるタスクのコンテキストで見られる勝利チケットは、おそらく異なるアーキテクチャにわたって、同様のタスクに転送できる。 これは広く実用的、理論的な関心事となっているが、これまで、チケットの普遍性になぜ勝っているのか、あるいは与えられたチケットが与えられたタスクに転送できるかどうかを知る方法に関する詳細な理解は存在しない。 これらの未解決な問題に対処するために、我々は理論物理学で最も成功したツールの1つである再正規化群理論を利用する。 入賞チケットの発見に使用される反復等級プルーニングは,再正規化グループスキームであることがわかった。 これは、既存の数値的、理論的なツールの豊富な扉を開き、私たちは、大規模な宝くじ実験で入賞チケットの普遍性を調べるのに、またスパース機械学習の分野における成功の反復的な大きさのプルーニングに新たな光を当てている。

Foundational work on the Lottery Ticket Hypothesis has suggested an exciting corollary: winning tickets found in the context of one task can be transferred to similar tasks, possibly even across different architectures. While this has become of broad practical and theoretical interest, to date, there exists no detailed understanding of why winning ticket universality exists, or any way of knowing \textit{a priori} whether a given ticket can be transferred to a given task. To address these outstanding open questions, we make use of renormalization group theory, one of the most successful tools in theoretical physics. We find that iterative magnitude pruning, the method used for discovering winning tickets, is a renormalization group scheme. This opens the door to a wealth of existing numerical and theoretical tools, some of which we leverage here to examine winning ticket universality in large scale lottery ticket experiments, as well as sheds new light on the success iterative magnitude pruning has found in the field of sparse machine learning.
翻訳日:2021-10-09 05:19:44 公開日:2021-10-07
# (参考訳) darts: 時系列のためのユーザフレンドリーなモダン機械学習 [全文訳有]

Darts: User-Friendly Modern Machine Learning for Time Series ( http://arxiv.org/abs/2110.03224v1 )

ライセンス: CC BY 4.0
Julien Herzen, Francesco L\"assig, Samuele Giuliano Piazzetta, Thomas Neuer, L\'eo Tafti, Guillaume Raille, Tomas Van Pottelbergh, Marek Pasieka, Andrzej Skrodzki, Nicolas Huguenin, Maxime Dumonal, Jan Ko\'scisz, Dennis Bader, Fr\'ed\'erick Gusset, Mounir Benheddi, Camila Williamson, Michal Kosinski, Matej Petrik, Ga\"el Grosch(参考訳) 我々は時系列のPython機械学習ライブラリであるDartを紹介し、予測に焦点を当てた。 Dartsは、ARIMAのような古典的なモデルから最先端のディープニューラルネットワークまで、さまざまなモデルを提供している。 ライブラリの重点は、多次元シリーズのサポート、複数シリーズでのメタラーニング、大規模データセットのトレーニング、外部データの導入、センシングモデル、確率予測のための豊富なサポートなど、現代的な機械学習機能の提供にある。 同時に、API設計に非常に注意を払って、ユーザフレンドリで使いやすくしています。 例えば、すべてのモデルは、Scikit-learnと同様、 fit()/predict()を使って使用することができる。

We present Darts, a Python machine learning library for time series, with a focus on forecasting. Darts offers a variety of models, from classics such as ARIMA to state-of-the-art deep neural networks. The emphasis of the library is on offering modern machine learning functionalities, such as supporting multidimensional series, meta-learning on multiple series, training on large datasets, incorporating external data, ensembling models, and providing a rich support for probabilistic forecasting. At the same time, great care goes into the API design to make it user-friendly and easy to use. For instance, all models can be used using fit()/predict(), similar to scikit-learn.
翻訳日:2021-10-09 05:03:16 公開日:2021-10-07
# (参考訳) オーチャードシーンにおけるAppleの認識と分類のためのインテリジェントビジョンアルゴリズムの設計

Design of an Intelligent Vision Algorithm for Recognition and Classification of Apples in an Orchard Scene ( http://arxiv.org/abs/2110.03232v1 )

ライセンス: CC BY 4.0
Hamid Majidi Balanji, Alaeedin Rahmani Didar and Mohamadali Hadad Derafshi(参考訳) リンゴは、高い栄養価と薬価を含む驚くべき新鮮な果物の1つである。 季節的な農夫によるリンゴの収穫は、これらの果物の表面の物理的損傷を増大させ、マーケティング品質が著しく低下する。 本研究の主な目的は、ロボットリンゴ収穫機のための堅牢な視覚アルゴリズムの設計である。 このアルゴリズムは、リンゴ、葉、幹、枝を含む果樹園のシーンで見られる4つのクラスのオブジェクトを認識し分類し、2つのリンゴと非リンゴのクラスに分類することができる。 イランの西アゼルバイジャンにある18のリンゴ園から、赤いデリシウスリンゴのデジタル画像100枚とゴールデンデリシウスリンゴのデジタル画像100枚が選ばれた。 上記のクラスの色特性に基づいて画像クラスのセグメンテーションと抽出を行うための画像処理アルゴリズムを提案する。 Invariant-Momentumsは、例えばリンゴから抽出された特徴として選ばれた。 多層フィードフォワードニューラルネットワーク(MFNN)は、画像クラスの認識と分類のための人工知能ツールとして使用された。

Apple is one of the remarkable fresh fruit that contains a high degree of nutritious and medicinal value. Hand harvesting of apples by seasonal farmworkers increases physical damages on the surface of these fruits, which causes a great loss in marketing quality. The main objective of this study is focused on designing a robust vision algorithm for robotic apple harvesters. The proposed algorithm is able to recognize and classify 4-classes of objects found in an orchard scene including apples, leaves, trunk and branches, and sky into two apples and non-apples classes. 100 digital images of Red Delicious apples and 100 digital images of Golden Delicious apples were selected among 1000 captured images of apples from 18 apple gardens in West Azerbaijan, Iran. An image processing algorithm is proposed for segmentation and extraction of the image classes based on the color characteristics of mentioned classes. Invariant-Momentums were chosen as the extracted features from the segmented classes, e.g. apples. Multilayer Feedforward Neural Networks, MFNNs, were used as an artificial intelligence tool for the recognition and classification of image classes.
翻訳日:2021-10-09 04:54:37 公開日:2021-10-07
# (参考訳) アクティブステレオの自己監督深度補完 [全文訳有]

Self-Supervised Depth Completion for Active Stereo ( http://arxiv.org/abs/2110.03234v1 )

ライセンス: CC BY 4.0
Frederik Warburg, Daniel Hernandez-Juarez, Juan Tarrio, Alexander Vakhitov, Ujwal Bonde, Pablo Alcantarilla(参考訳) アクティブステレオシステムは低コストで高品質の深度マップのためにロボット産業で広く利用されている。 しかし、これらの深度センサーはステレオアーティファクトに苦しめられ、深い深さの推定はできない。 本研究では, 高精度な深度マップを推定するアクティブステレオシステムのための, 自己監督型深度補完法を提案する。 我々のシステムは特徴に基づく視覚慣性SLAMシステムを利用して、動きの推定と正確な3Dランドマークを生成する。 3Dランドマークはモデル入力とトレーニング中の監督の両方に使用される。 動作推定は, 受動的ステレオフレームとアクティブステレオフレームの組み合わせに依拠し, 室内環境に共通するテクスチャレス領域の大幅な改善をもたらす。 利用可能なアクティブステレオデータセットが存在しないため、アクティブな深度補完と予測に必要な、公開可能な合成データセットの追加情報とともに、実際のデータセットをリリースする。 厳密な評価を通じて,本手法が両データセットの最先端技術を上回ることを示す。 さらに、ロボットプラットフォームで使用する場合、我々の手法がより完全でより安全な3Dマップを得る方法を示す。

Active stereo systems are widely used in the robotics industry due to their low cost and high quality depth maps. These depth sensors, however, suffer from stereo artefacts and do not provide dense depth estimates. In this work, we present the first self-supervised depth completion method for active stereo systems that predicts accurate dense depth maps. Our system leverages a feature-based visual inertial SLAM system to produce motion estimates and accurate (but sparse) 3D landmarks. The 3D landmarks are used both as model input and as supervision during training. The motion estimates are used in our novel reconstruction loss that relies on a combination of passive and active stereo frames, resulting in significant improvements in textureless areas that are common in indoor environments. Due to the non-existence of publicly available active stereo datasets, we release a real dataset together with additional information for a publicly available synthetic dataset needed for active depth completion and prediction. Through rigorous evaluations we show that our method outperforms state of the art on both datasets. Additionally we show how our method obtains more complete, and therefore safer, 3D maps when used in a robotic platform
翻訳日:2021-10-09 04:53:37 公開日:2021-10-07
# (参考訳) 大規模最適輸送のためのスコアベース生成ニューラルネットワーク [全文訳有]

Score-based Generative Neural Networks for Large-Scale Optimal Transport ( http://arxiv.org/abs/2110.03237v1 )

ライセンス: CC BY 4.0
Max Daniels, Tyler Maunu, Paul Hand(参考訳) 与えられたソースとターゲット分布間の最適な輸送結合をサンプリングする根本的な問題を考える。 特定の場合において、最適な輸送計画は、ソースサポートからターゲットサポートへの1対1のマッピングの形を取るが、そのようなマップの学習や近似は、線形プログラミングルーチンの高コストと本質的な次元の呪いのために、大規模かつ高次元のデータセットに対して計算的に困難である。 代わりに、ソースとターゲット分布のカップリングを解とする最適輸送の正規化形式であるシンクホーン問題について検討する。 本稿では2つの分布間のシンクホーン結合をスコアベース生成モデルで学習するための新しい枠組みを提案する。 本手法は,ソースデータに基づいて,正規化された最適結合に従って,Langevin Dynamicsをサンプリング対象データに反復する。 このアプローチの鍵となるのは、シンクホーン問題のニューラルネットワークパラメトリゼーションであり、この定式化におけるネットワークパラメータに対する勾配降下の収束性を証明する。 様々な大規模最適輸送タスクにおける実証的な成功例を示す。

We consider the fundamental problem of sampling the optimal transport coupling between given source and target distributions. In certain cases, the optimal transport plan takes the form of a one-to-one mapping from the source support to the target support, but learning or even approximating such a map is computationally challenging for large and high-dimensional datasets due to the high cost of linear programming routines and an intrinsic curse of dimensionality. We study instead the Sinkhorn problem, a regularized form of optimal transport whose solutions are couplings between the source and the target distribution. We introduce a novel framework for learning the Sinkhorn coupling between two distributions in the form of a score-based generative model. Conditioned on source data, our procedure iterates Langevin Dynamics to sample target data according to the regularized optimal coupling. Key to this approach is a neural network parametrization of the Sinkhorn problem, and we prove convergence of gradient descent with respect to network parameters in this formulation. We demonstrate its empirical success on a variety of large scale optimal transport tasks.
翻訳日:2021-10-09 04:33:28 公開日:2021-10-07
# (参考訳) 効率的な言語モデリングのためのトランスフォーマーアテンションヘッドの層ワイズプルーニング [全文訳有]

Layer-wise Pruning of Transformer Attention Heads for Efficient Language Modeling ( http://arxiv.org/abs/2110.03252v1 )

ライセンス: CC BY 4.0
Kyuhong Shim, Iksoo Choi, Wonyong Sung, Jungwook Choi(参考訳) トランスフォーマーベースのモデルは印象的な言語モデリング性能を示しているが、大きな計算コストは実用上、しばしば禁止されている。 マルチヘッドアテンションにおける不要なアテンションヘッドを除去するアテンションヘッドプルーニングは,この問題を解決する上で有望な手法である。 しかし、重いフィードフォワードモジュールがヘッドプルーニングに影響されないため、全体的な負荷を均等に減らさない。 本稿では,全アテンション変換器に階層的アテンションヘッドプルーニングを適用し,全計算量とパラメータ数を,プルーニングヘッド数に比例して減少させることができる。 ヘッドプルーニングを十分に活用する可能性があるが,性能劣化を最小限に抑え,プルーニングプロセスの安定化に有効な3つのトレーニング手法を提案する。 我々のprunedモデルはwikitext-103言語モデリングベンチマークにおいてtransformer-xlと同等のパラメータサイズで一貫してパープレキシティが低いことを示している。

While Transformer-based models have shown impressive language modeling performance, the large computation cost is often prohibitive for practical use. Attention head pruning, which removes unnecessary attention heads in the multihead attention, is a promising technique to solve this problem. However, it does not evenly reduce the overall load because the heavy feedforward module is not affected by head pruning. In this paper, we apply layer-wise attention head pruning on All-attention Transformer so that the entire computation and the number of parameters can be reduced proportionally to the number of pruned heads. While the architecture has the potential to fully utilize head pruning, we propose three training methods that are especially helpful to minimize performance degradation and stabilize the pruning process. Our pruned model shows consistently lower perplexity within a comparable parameter size than Transformer-XL on WikiText-103 language modeling benchmark.
翻訳日:2021-10-09 03:49:32 公開日:2021-10-07
# (参考訳) 差動対称性と関係帰納バイアスを持つラグランジアンニューラルネットワーク [全文訳有]

Lagrangian Neural Network with Differential Symmetries and Relational Inductive Bias ( http://arxiv.org/abs/2110.03266v1 )

ライセンス: CC BY-SA 4.0
Ravinder Bhattoo, Sayan Ranu and N. M. Anoop Krishnan(参考訳) 物理世界の現実的なモデルは、自然保護法則に対応する微分可能な対称性に依存している。 ラグランジアンニューラルネットワークとハミルトンニューラルネットワークに関する最近の研究は、適切な帰納バイアスを与えると、システムの基盤となる対称性がニューラルネットワークによって容易に学習できることを示している。 しかしながら、これらのモデルは、任意のシステムサイズに一般化できないこと、解釈しにくいこと、そして最も重要なことは、それぞれ線形運動量と角運動量の保存則をもたらす翻訳対称性と回転対称性を学習できないことである。 ここでは, ラグランジアンニューラルネットワーク(MCLNN)を保存し, システムのラグランジアンを学習し, 翻訳・回転対称性も保存する運動量について述べる。 線形および非線形ばね系および重力系において,エネルギーと運動量の保存を実証する手法をテストした。 また、開発したモデルが任意の大きさのシステムに一般化可能であることを示す。 最後に,MCLNNの解釈可能性について論じ,多粒子系の相互作用の物理的洞察を直接提供する。

Realistic models of physical world rely on differentiable symmetries that, in turn, correspond to conservation laws. Recent works on Lagrangian and Hamiltonian neural networks show that the underlying symmetries of a system can be easily learned by a neural network when provided with an appropriate inductive bias. However, these models still suffer from issues such as inability to generalize to arbitrary system sizes, poor interpretability, and most importantly, inability to learn translational and rotational symmetries, which lead to the conservation laws of linear and angular momentum, respectively. Here, we present a momentum conserving Lagrangian neural network (MCLNN) that learns the Lagrangian of a system, while also preserving the translational and rotational symmetries. We test our approach on linear and non-linear spring systems, and a gravitational system, demonstrating the energy and momentum conservation. We also show that the model developed can generalize to systems of any arbitrary size. Finally, we discuss the interpretability of the MCLNN, which directly provides physical insights into the interactions of multi-particle systems.
翻訳日:2021-10-09 03:40:22 公開日:2021-10-07
# (参考訳) MGPSN:室内ビデオヘッド検出のためのモーションガイド方式Pseudo Siamese Network [全文訳有]

MGPSN: Motion-Guided Pseudo Siamese Network for Indoor Video Head Detection ( http://arxiv.org/abs/2110.03302v1 )

ライセンス: CC BY 4.0
Kailai Sun, Xiaoteng Ma, Qianchuan Zhao, Peng Liu(参考訳) 実世界のビデオにおける頭部検出はコンピュータビジョンにおいて重要な研究課題である。 しかし、既存の研究は複雑な場面でいくつかの課題に直面している。 頭部検出器の性能は、屋内ビデオに類似した頭部外見を持つ物体が存在すると劣化する。 さらに頭部には小さなスケールと多彩なポーズがあり、検出の困難さが増す。 これらの問題に対処するため,動作誘導Pseudo Siamese Network for Indoor Video Head Detection (MGPSN)を提案する。 MGPSNは画素レベルの時空間情報を統合し、モデルを誘導して効果的な頭部特徴を抽出する。 実験により、MGPSNは静的な物体を抑え、動きのインスタンスを増強できることが示された。 従来の方法と比較して、群衆のBrainwashデータセット上で最先端のパフォーマンスを達成する。 異なるバックボーンネットワークと検出器を評価し、MGPSNの柔軟性と汎用性を検証する。

Head detection in real-world videos is an important research topic in computer vision. However, existing studies face some challenges in complex scenes. The performance of head detectors deteriorates when objects which have similar head appearance exist for indoor videos. Moreover, heads have small scales and diverse poses, which increases the difficulty in detection. To handle these issues, we propose Motion-Guided Pseudo Siamese Network for Indoor Video Head Detection (MGPSN), an end-to-end model to learn the robust head motion features. MGPSN integrates spatial-temporal information on pixel level, guiding the model to extract effective head features. Experiments show that MGPSN is able to suppress static objects and enhance motion instances. Compared with previous methods, it achieves state-of-the-art performance on the crowd Brainwash dataset. Different backbone networks and detectors are evaluated to verify the flexibility and generality of MGPSN.
翻訳日:2021-10-09 03:23:59 公開日:2021-10-07
# (参考訳) 制約下での普遍近似は変圧器で可能である [全文訳有]

Universal Approximation Under Constraints is Possible with Transformers ( http://arxiv.org/abs/2110.03303v1 )

ライセンス: CC BY 4.0
Anastasis Kratsios, Behnoosh Zamanlooy, Tianlin Liu, Ivan Dokmani\'c(参考訳) 多くの実践的な問題は、一連の制約を満たすために機械学習モデルの出力を必要とします。 それでも、古典的なニューラルネットワークアーキテクチャが制約を正確にエンコードし、同時に普遍性を達成できるという保証はない。 我々は、任意の非凸コンパクト集合 $K$ と任意の連続函数 $f:\mathbb{R}^n\rightarrow K$ に対して、確率変換器 $\hat{F}$ が存在し、すべてのランダム化された出力が$K$ で、期待出力が$f$ に均一に近似されることを保証する量的制約付き普遍近似定理を提供する。 第2の主な結果は、ベルジュの最大定理(1963年)の「ディープニューラルバージョン」である。 その結果、対象関数$L$、制約セット$K$、およびソフト制約セットの族が与えられたとき、約$L$を最小化し、出力が$K$に属する確率変換器$\hat{F}$が存在し、さらに、$\hat{F}$はソフト制約をほぼ満足する。 この結果から, 厳密な凸制約を満たす古典的変圧器の普遍近似定理が導かれる。 また、リーマン多様体値関数に対するチャートフリーな普遍近似定理は、適当な測地線凸制約に従う。

Many practical problems need the output of a machine learning model to satisfy a set of constraints, $K$. Nevertheless, there is no known guarantee that classical neural network architectures can exactly encode constraints while simultaneously achieving universality. We provide a quantitative constrained universal approximation theorem which guarantees that for any non-convex compact set $K$ and any continuous function $f:\mathbb{R}^n\rightarrow K$, there is a probabilistic transformer $\hat{F}$ whose randomized outputs all lie in $K$ and whose expected output uniformly approximates $f$. Our second main result is a "deep neural version" of Berge's Maximum Theorem (1963). The result guarantees that given an objective function $L$, a constraint set $K$, and a family of soft constraint sets, there is a probabilistic transformer $\hat{F}$ that approximately minimizes $L$ and whose outputs belong to $K$; moreover, $\hat{F}$ approximately satisfies the soft constraints. Our results imply the first universal approximation theorem for classical transformers with exact convex constraint satisfaction. They also yield that a chart-free universal approximation theorem for Riemannian manifold-valued functions subject to suitable geodesically convex constraints.
翻訳日:2021-10-09 03:09:48 公開日:2021-10-07
# (参考訳) AIモデルの自動テスト [全文訳有]

Automated Testing of AI Models ( http://arxiv.org/abs/2110.03320v1 )

ライセンス: CC BY 4.0
Swagatam Haldar, Deepak Vijaykeerthy, Diptikalyan Saha(参考訳) この10年で、AI技術とアプリケーションは大きく進歩した。 このような広く採用されているため、AIモデルの信頼性を確保することが不可欠である。 過去に我々は、表形式、時系列、テキスト分類モデルのための、公正性、堅牢性といったメタモルフィックな特性のための AITEST と呼ばれるテストフレームワークを作成する第一歩を踏み出した。 本稿では,AITESTツールの機能を拡張し,画像モデルと音声-テキストモデルのテスト技術と,表形式モデルの解釈可能性テストを含める。 これらの新しい拡張はAIモデルをテストするための包括的なフレームワークとなる。

The last decade has seen tremendous progress in AI technology and applications. With such widespread adoption, ensuring the reliability of the AI models is crucial. In past, we took the first step of creating a testing framework called AITEST for metamorphic properties such as fairness, robustness properties for tabular, time-series, and text classification models. In this paper, we extend the capability of the AITEST tool to include the testing techniques for Image and Speech-to-text models along with interpretability testing for tabular models. These novel extensions make AITEST a comprehensive framework for testing AI models.
翻訳日:2021-10-09 02:16:44 公開日:2021-10-07
# (参考訳) back from the future: 音声認識における未来情報を用いた双方向ctc復号 [全文訳有]

Back from the future: bidirectional CTC decoding using future information in speech recognition ( http://arxiv.org/abs/2110.03326v1 )

ライセンス: CC BY 4.0
Namkyu Jung, Geonmin Kim, Han-Gyu Kim(参考訳) 本稿では,双方向ニューラル言語モデルを用いて,コネクショニスト時間分類器(CTC)モデルの出力を復号化するための簡易かつ効果的な手法を提案する。 双方向言語モデルは、シーケンス内の次の出力を予測するために、未来と過去の情報を使用する。 双方向ビーム探索に基づく提案手法は,ctc greedy decoding output を活用し,雑音の多い未来情報を表現する。 Librispeechdatasetの実験は、一方向デコーディングを用いたベースラインと比較して提案手法の優位性を示した。 特に、一方向デコーディングに基づく既存システムにおいて最も誤った部分であるシーケンスの開始時に、ブースト不正確性が最も顕著である。

In this paper, we propose a simple but effective method to decode the output of Connectionist Temporal Classifier (CTC) model using a bi-directional neural language model. The bidirectional language model uses the future as well as the past information in order to predict the next output in the sequence. The proposed method based on bi-directional beam search takes advantage of the CTC greedy decoding output to represent the noisy future information. Experiments on the Librispeechdataset demonstrate the superiority of our proposed method compared to baselines using unidirectional decoding. In particular, the boost inaccuracy is most apparent at the start of a sequence which is the most erroneous part for existing systems based on unidirectional decoding.
翻訳日:2021-10-09 02:07:45 公開日:2021-10-07
# (参考訳) ロバストMRI画像強調のための適応損失付き不確実性GAN [全文訳有]

Uncertainty-aware GAN with Adaptive Loss for Robust MRI Image Enhancement ( http://arxiv.org/abs/2110.03343v1 )

ライセンス: CC BY 4.0
Uddeshya Upadhyay, Viswanath P. Sudarshan, Suyash P. Awate(参考訳) 画像から画像への変換は、ソースと対象画像の間に一対一のマッピングが存在しないため、不適切な問題である。 この文脈で提案された学習ベースの手法は、訓練データと類似したテストデータのパフォーマンスを評価することが多い。 これにより、特に医用画像などの重要な領域において、インフォームドな意思決定を行うための予測の不確実性を定量化できる堅牢な方法が要求される。 条件付き生成逆数ネットワーク(GAN)を用いた最近の研究は、ソースと対象画像間の写実的画像-画像マッピングを学習する際の性能の向上を示している。 しかし、これらの手法は焦点を当てていない。 (i)オフ・オブ・ディストリビューション(OOD)ノイズデータに対するモデルの破壊性と (ii)〜不確かさ定量化 本稿では,GANに基づくフレームワークを提案する。 (i)―残余をペナル化するための空間的に変化する規範を自動調整するOODノイズデータに対するロバスト性に対する適応的損失関数をモデル化する。 (ii)~予測におけるボクセル当たりの不確かさを推定する。 医用画像における2つの重要な応用について示す。 (i)-アンダーサンプド磁気共鳴画像(MRI)再構成 (ii)~MRIモダリティ伝搬 2つの異なる実世界のデータセットを用いた実験により,提案手法が示唆された。 (i)~OODノイズテストデータに対して堅牢であり、精度と精度が向上する。 (ii)-予測におけるボクセルレベルの不確かさを定量化する。

Image-to-image translation is an ill-posed problem as unique one-to-one mapping may not exist between the source and target images. Learning-based methods proposed in this context often evaluate the performance on test data that is similar to the training data, which may be impractical. This demands robust methods that can quantify uncertainty in the prediction for making informed decisions, especially for critical areas such as medical imaging. Recent works that employ conditional generative adversarial networks (GANs) have shown improved performance in learning photo-realistic image-to-image mappings between the source and the target images. However, these methods do not focus on (i)~robustness of the models to out-of-distribution (OOD)-noisy data and (ii)~uncertainty quantification. This paper proposes a GAN-based framework that (i)~models an adaptive loss function for robustness to OOD-noisy data that automatically tunes the spatially varying norm for penalizing the residuals and (ii)~estimates the per-voxel uncertainty in the predictions. We demonstrate our method on two key applications in medical imaging: (i)~undersampled magnetic resonance imaging (MRI) reconstruction (ii)~MRI modality propagation. Our experiments with two different real-world datasets show that the proposed method (i)~is robust to OOD-noisy test data and provides improved accuracy and (ii)~quantifies voxel-level uncertainty in the predictions.
翻訳日:2021-10-09 01:53:00 公開日:2021-10-07
# (参考訳) 脳腫瘍分離のための最適化U-Net [全文訳有]

Optimized U-Net for Brain Tumor Segmentation ( http://arxiv.org/abs/2110.03352v1 )

ライセンス: CC BY 4.0
Micha{\l} Futrega, Alexandre Milesi, Michal Marcinkiewicz, Pablo Ribalta(参考訳) そこで我々はBraTS21 Challengeにおいて,脳の領域分割タスクに最適化されたU-Netアーキテクチャを提案する。 \mbox{optimal}モデルアーキテクチャと学習スケジュールを見つけるために、私たちは、深い監督損失、焦点損失、デコーダの注意、ドロップブロック、残留接続など、広範なアブレーション調査を実施しました。 さらに,U-Netの最適深度と畳み込みチャネル数の探索を行った。 我々の解は挑戦検証フェーズの勝者であり、正規化統計スコアは0.267、平均Diceスコアは0.8855であった。

We propose an optimized U-Net architecture for a brain \mbox{tumor} segmentation task in the BraTS21 Challenge. To find the \mbox{optimal} model architecture and learning schedule we ran an extensive ablation study to test: deep supervision loss, Focal loss, decoder attention, drop block, and residual connections. Additionally, we have searched for the optimal depth of the U-Net and number of convolutional channels. Our solution was the winner of the challenge validation phase, with the normalized statistical ranking score of 0.267 and mean Dice score of 0.8855
翻訳日:2021-10-09 01:38:52 公開日:2021-10-07
# (参考訳) ノイズの多いテキストデータ:人気のトランスフォーマーベースのnlpモデルのアキレスのヒール [全文訳有]

Noisy Text Data: Achilles' Heel of popular transformer based NLP models ( http://arxiv.org/abs/2110.03353v1 )

ライセンス: CC BY 4.0
Kartikay Bagla, Ankit Kumar, Shivam Gupta, Anuj Gupta(参考訳) ここ数年、MLコミュニティはトランスフォーマーアーキテクチャに基づいた新しいNLPモデルをいくつか作成してきた。 これらのモデルは、ベンチマークデータセット上で様々なNLPタスクに対して優れた性能を示しており、しばしばSOTA結果を上回っている。 この成功に気付くと、業界の実践者が積極的にこれらのモデルを微調整して業界ユースケース用のnlpアプリケーションを構築する実験をしているのがわかります。 しかしながら、実践者が産業用NLPアプリケーションを構築するために使用するほとんどのデータセットでは、データにノイズがあることを保証することは困難である。 ほとんどのトランスフォーマーベースのnlpモデルは、あるデータセットから別のデータセットへの学習の転送において非常によく機能しているが、ノイズの多いテキストで微調整された場合、これらのモデルがどのように機能するかは、まだ不明である。 Kumar et al. (2020) によるオープンな質問に対処し、一般的なトランスフォーマーベースのNLPモデルのテキストデータのノイズに対する感度について検討する。 それらによって定義されたノイズ -- 綴りミスとタイプミス (最も一般的に発生するノイズ) について作業を続けます。 実験結果から,これらのモデルは,テキスト分類,テキスト類似性,NER,質問応答,ベンチマークデータセットのテキスト要約など,最も一般的なNLPタスクにおいて著しく機能することを示した。 さらに、データのノイズが大きくなるにつれて、性能が低下することを示す。 この結果から,NLPモデルを微調整しながら,データセット内のノイズの有無が異なることが示唆された。

In the last few years, the ML community has created a number of new NLP models based on transformer architecture. These models have shown great performance for various NLP tasks on benchmark datasets, often surpassing SOTA results. Buoyed with this success, one often finds industry practitioners actively experimenting with fine-tuning these models to build NLP applications for industry use cases. However, for most datasets that are used by practitioners to build industrial NLP applications, it is hard to guarantee the presence of any noise in the data. While most transformer based NLP models have performed exceedingly well in transferring the learnings from one dataset to another, it remains unclear how these models perform when fine-tuned on noisy text. We address the open question by Kumar et al. (2020) to explore the sensitivity of popular transformer based NLP models to noise in the text data. We continue working with the noise as defined by them -- spelling mistakes & typos (which are the most commonly occurring noise). We show (via experimental results) that these models perform badly on most common NLP tasks namely text classification, textual similarity, NER, question answering, text summarization on benchmark datasets. We further show that as the noise in data increases, the performance degrades. Our findings suggest that one must be vary of the presence of noise in their datasets while fine-tuning popular transformer based NLP models.
翻訳日:2021-10-09 01:24:44 公開日:2021-10-07
# (参考訳) WenetSpeech: 音声認識のための1万時間以上のマルチドメインマンダリンコーパス [全文訳有]

WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech Recognition ( http://arxiv.org/abs/2110.03370v1 )

ライセンス: CC BY 4.0
Binbin Zhang, Hang Lv, Pengcheng Guo, Qijie Shao, Chao Yang, Lei Xie, Xin Xu, Hui Bu, Xiaoyu Chen, Chenchen Zeng, Di Wu, Zhendong Peng(参考訳) 本稿では,100,000時間以上の高品質ラベル付き音声,2400時間以上の弱ラベル付き音声,約100,000時間のラベル付き音声からなる,複数ドメインのマンダリンコーパスであるwenetspeechを提案する。 私たちはyoutubeとポッドキャストからデータを収集し、さまざまなスピーキングスタイル、シナリオ、ドメイン、トピック、および騒がしい状況をカバーする。 オプティカル文字認識(OCR)に基づく手法を導入し、対応するビデオキャプション上でYouTubeデータの音声/テキストセグメンテーション候補を生成するとともに、高品質のASR転写システムを用いてPodcastデータのための音声/テキストペア候補を生成する。 そこで本研究では,新しいラベル誤り検出手法を提案し,さらに候補の検証とフィルタリングを行う。 また、3つの手動ラベル付き高品質テストセットと、評価のためのwenetspeech -- トレーニングにおけるクロスバリデーション目的の開発、マッチテストのためにインターネットから収集されたtest_net、より困難なミスマッチテストのために実際のミーティングから記録されたtest\_meetingです。 WenetSpeechでトレーニングされたベースラインシステムは、Kaldi、ESPnet、WeNetの3つの一般的な音声認識ツールキットに提供され、3つのテストセットの認識結果もベンチマークとして提供される。 われわれの知る限りでは、WenetSpeechは、現在最大の、文字起こし付きマンダリン音声コーパスであり、プロダクションレベルの音声認識の研究に役立つ。

In this paper, we present WenetSpeech, a multi-domain Mandarin corpus consisting of 10000+ hours high-quality labeled speech, 2400+ hours weakly labeled speech, and about 10000 hours unlabeled speech, with 22400+ hours in total. We collect the data from YouTube and Podcast, which covers a variety of speaking styles, scenarios, domains, topics, and noisy conditions. An optical character recognition (OCR) based method is introduced to generate the audio/text segmentation candidates for the YouTube data on its corresponding video captions, while a high-quality ASR transcription system is used to generate audio/text pair candidates for the Podcast data. Then we propose a novel end-to-end label error detection approach to further validate and filter the candidates. We also provide three manually labelled high-quality test sets along with WenetSpeech for evaluation -- Dev for cross-validation purpose in training, Test_Net, collected from Internet for matched test, and Test\_Meeting, recorded from real meetings for more challenging mismatched test. Baseline systems trained with WenetSpeech are provided for three popular speech recognition toolkits, namely Kaldi, ESPnet, and WeNet, and recognition results on the three test sets are also provided as benchmarks. To the best of our knowledge, WenetSpeech is the current largest open-sourced Mandarin speech corpus with transcriptions, which benefits research on production-level speech recognition.
翻訳日:2021-10-09 01:16:59 公開日:2021-10-07
# (参考訳) 自動車産業における検査精度向上のためのディープラーニングモデル説明可能性 [全文訳有]

Deep Learning Model Explainability for Inspection Accuracy Improvement in the Automotive Industry ( http://arxiv.org/abs/2110.03384v1 )

ライセンス: CC BY 4.0
Anass El Houd, Charbel El Hachem, Loic Painvin(参考訳) 溶接シームの視覚検査は、異なる企業の人間が手作業で操作しているため、テストの結果は高い主観的かつ高価である。 現在,溶接部分類における深層学習手法の統合は,工学的応用研究の焦点となっている。 本研究は, 自動車産業における生産ラインとコストに影響を及ぼす各種指標のうち, 溶接シームの分類精度と信頼性の向上に, 深層学習モデルの説明可能性の寄与を把握し, 強調することを目的とする。 そこで本研究では,モデル予測スコアとモデルの視覚的説明ヒートマップを組み合わせた新しいハイブリッド手法を実装し,溶接継目欠陥のより正確な分類と,その性能と信頼性の両立を図る。 その結果,ハイブリッドモデルの性能は目標性能よりも相対的に高く,少なくとも18%の精度向上に寄与していることがわかった。

The welding seams visual inspection is still manually operated by humans in different companies, so the result of the test is still highly subjective and expensive. At present, the integration of deep learning methods for welds classification is a research focus in engineering applications. This work intends to apprehend and emphasize the contribution of deep learning model explainability to the improvement of welding seams classification accuracy and reliability, two of the various metrics affecting the production lines and cost in the automotive industry. For this purpose, we implement a novel hybrid method that relies on combining the model prediction scores and visual explanation heatmap of the model in order to make a more accurate classification of welding seam defects and improve both its performance and its reliability. The results show that the hybrid model performance is relatively above our target performance and helps to increase the accuracy by at least 18%, which presents new perspectives to the developments of deep Learning explainability and interpretability.
翻訳日:2021-10-09 01:01:45 公開日:2021-10-07
# (参考訳) 神経応答生成のための双方向戦略を用いたビーム探索 [全文訳有]

Beam Search with Bidirectional Strategies for Neural Response Generation ( http://arxiv.org/abs/2110.03389v1 )

ライセンス: CC0 1.0
Pierre Colombo and Chouchang Yang and Giovanna Varni and Chlo\'e Clavel(参考訳) sequence-to-sequence ニューラルネットワークは、さまざまな言語モデルを学ぶ柔軟な能力を持つため、言語ベースのアプリケーションで広く使われている。 しかし、訓練されたニューラルネットワークを通じて最適な言語応答を求める場合、ビーム探索デコーダ戦略のような既存のアプローチは、まだ有望な性能に到達できない。 規則文順」ニューラルネットワーク(左右の順序から文を出力する訓練モデル)に基づく様々なデコーダ戦略を開発する代わりに、「逆」順序を追加言語モデル(左右の順序から文を出力する訓練モデル)として活用し、経路発見問題に対する異なる視点を提供する。 本稿では,双方向ビーム探索を可能にする2つのネットワーク(左右言語モデルと左右言語モデル)を組み合わせることにより,探索経路における双方向戦略を提案する。 さらに, 文選択基準における類似度尺度の活用も可能である。 本手法は一方向ビーム探索法よりも優れた性能を示す。

Sequence-to-sequence neural networks have been widely used in language-based applications as they have flexible capabilities to learn various language models. However, when seeking for the optimal language response through trained neural networks, current existing approaches such as beam-search decoder strategies are still not able reaching to promising performances. Instead of developing various decoder strategies based on a "regular sentence order" neural network (a trained model by outputting sentences from left-to-right order), we leveraged "reverse" order as additional language model (a trained model by outputting sentences from right-to-left order) which can provide different perspectives for the path finding problems. In this paper, we propose bidirectional strategies in searching paths by combining two networks (left-to-right and right-to-left language models) making a bidirectional beam search possible. Besides, our solution allows us using any similarity measure in our sentence selection criterion. Our approaches demonstrate better performance compared to the unidirectional beam search strategy.
翻訳日:2021-10-09 00:54:00 公開日:2021-10-07
# (参考訳) AnoSeg: 自己監督学習を用いた異常セグメンテーションネットワーク [全文訳有]

AnoSeg: Anomaly Segmentation Network Using Self-Supervised Learning ( http://arxiv.org/abs/2110.03396v1 )

ライセンス: CC BY 4.0
Jouwon Song, Kyeongbo Kong, Ye-In Park, Seong-Gyun Kim, Suk-Ju Kang(参考訳) 欠陥地域をローカライズする異常セグメンテーションは、大規模工業生産において重要な要素である。 しかし、近年の研究は異常検出に焦点を当てている。 本稿では,自己教師付き学習を用いて正確な異常マップを生成できる新しい異常分割ネットワーク(anoseg)を提案する。 高精度な異常セグメンテーションのために,提案するanosegは,ハードオーグメンテーションに基づく異常データ生成,ピクセル方向と逆方向の損失を伴う自己教師あり学習,座標チャネル結合の3つの新しい手法を検討した。 まず, 標準データに対する合成異常画像と参照マスクを生成するために, サンプル分布を変化させるために, ハードオーメンテーションを用いる。 そして、合成異常データと正規データとから、提案するアノセグを自己教師付き学習方法で訓練する。 最後に、画素位置情報を表す座標チャネルをAnoSegの入力に連結し、画像中の各画素の位置関係を考慮する。 推定異常マップは、異常検出の性能を向上させるためにも利用できる。 実験の結果,提案手法はMVTec ADデータセットに対して,最先端の異常検出および異常セグメンテーション法よりも優れていることがわかった。 さらに,本手法と既存の手法との比較を行い,分節化タスクでよく用いられるiou(intersection over union)メトリックを用いて,異常分節法の有用性を実証した。

Anomaly segmentation, which localizes defective areas, is an important component in large-scale industrial manufacturing. However, most recent researches have focused on anomaly detection. This paper proposes a novel anomaly segmentation network (AnoSeg) that can directly generate an accurate anomaly map using self-supervised learning. For highly accurate anomaly segmentation, the proposed AnoSeg considers three novel techniques: Anomaly data generation based on hard augmentation, self-supervised learning with pixel-wise and adversarial losses, and coordinate channel concatenation. First, to generate synthetic anomaly images and reference masks for normal data, the proposed method uses hard augmentation to change the normal sample distribution. Then, the proposed AnoSeg is trained in a self-supervised learning manner from the synthetic anomaly data and normal data. Finally, the coordinate channel, which represents the pixel location information, is concatenated to an input of AnoSeg to consider the positional relationship of each pixel in the image. The estimated anomaly map can also be utilized to improve the performance of anomaly detection. Our experiments show that the proposed method outperforms the state-of-the-art anomaly detection and anomaly segmentation methods for the MVTec AD dataset. In addition, we compared the proposed method with the existing methods through the intersection over union (IoU) metric commonly used in segmentation tasks and demonstrated the superiority of our method for anomaly segmentation.
翻訳日:2021-10-09 00:42:27 公開日:2021-10-07
# (参考訳) 訓練可能な変動モデルを用いた衛星高度データの共同校正とマッピング [全文訳有]

Joint calibration and mapping of satellite altimetry data using trainable variational models ( http://arxiv.org/abs/2110.03405v1 )

ライセンス: CC BY 4.0
Quentin Febvre, Ronan Fablet, Julien Le Sommer, Cl\'ement Ubelmann(参考訳) 衛星レーダ高度計は、海洋表面のダイナミクスを観測する重要な源である。 しかし、現在のセンサー技術とマッピング技術では、100km未満のスケールを体系的に解決することはできない。 新しいセンサーによって、SWOTのような大型の高度計のミッションは、より微細なスケールの解決に役立つだろう。 現在のマッピング技術は、入力データの品質に依存しているため、生データは使用前に複数の前処理段階を通過する。 これらのキャリブレーション段階は、長年にわたって改善され、洗練され、新しいタイプのセンサーがデータを取得し始めると課題となる。 本稿では,データ駆動型変分データ同化フレームワークを用いて,非校正データから校正演算子と補間器を共同学習する方法を示す。 提案するフレームワークは,SWOTセンサの形状だけでなく,グローバルマップ上の細かなスケールを解消するために,最先端のマッピングパイプラインと広帯域データの真に優れている。

Satellite radar altimeters are a key source of observation of ocean surface dynamics. However, current sensor technology and mapping techniques do not yet allow to systematically resolve scales smaller than 100km. With their new sensors, upcoming wide-swath altimeter missions such as SWOT should help resolve finer scales. Current mapping techniques rely on the quality of the input data, which is why the raw data go through multiple preprocessing stages before being used. Those calibration stages are improved and refined over many years and represent a challenge when a new type of sensor start acquiring data. Here we show how a data-driven variational data assimilation framework could be used to jointly learn a calibration operator and an interpolator from non-calibrated data . The proposed framework significantly outperforms the operational state-of-the-art mapping pipeline and truly benefits from wide-swath data to resolve finer scales on the global map as well as in the SWOT sensor geometry.
翻訳日:2021-10-09 00:25:42 公開日:2021-10-07
# (参考訳) 頭から? それとも心臓から? 説明が認知的・感情的信頼に与える影響に関する実験設計 [全文訳有]

From the Head or the Heart? An Experimental Design on the Impact of Explanation on Cognitive and Affective Trust ( http://arxiv.org/abs/2110.03433v1 )

ライセンス: CC BY 4.0
Qiaoning Zhang, X. Jessie Yang, Lionel P. Robert Jr(参考訳) 自動走行車(AV)は社会に利益をもたらす可能性のある社会ロボットである。 既存の文献によれば、AVの説明は、AVの推論や行動に関連する不確実性を減らすことで、乗客の信頼を促進することができる。 しかし、avの説明と信頼に関する文献では、信頼のタイプ(認知と感情)がこの関係をどのように変えるのかを考慮できていない。 しかし、既存の文献では、信頼に関連する影響は認知的か感情的かによって大きく異なることが示されている。 この欠点に対処し、AVの信頼に対する説明の影響をよりよく理解するために、認知的信頼と感情的信頼の両方に対する説明の有効性を調査する研究を設計した。 これらの結果は、AV信頼を促進するためにAV説明を設計する上で非常に重要であると期待する。

Automated vehicles (AVs) are social robots that can potentially benefit our society. According to the existing literature, AV explanations can promote passengers' trust by reducing the uncertainty associated with the AV's reasoning and actions. However, the literature on AV explanations and trust has failed to consider how the type of trust - cognitive versus affective - might alter this relationship. Yet, the existing literature has shown that the implications associated with trust vary widely depending on whether it is cognitive or affective. To address this shortcoming and better understand the impacts of explanations on trust in AVs, we designed a study to investigate the effectiveness of explanations on both cognitive and affective trust. We expect these results to be of great significance in designing AV explanations to promote AV trust.
翻訳日:2021-10-09 00:17:25 公開日:2021-10-07
# (参考訳) パレートフロントラーニングのための自己進化的最適化 [全文訳有]

Self-Evolutionary Optimization for Pareto Front Learning ( http://arxiv.org/abs/2110.03461v1 )

ライセンス: CC BY 4.0
Simyung Chang, KiYoon Yoo, Jiho Jang and Nojun Kwak(参考訳) マルチタスク学習(MTL)は、複数のタスクを同時に学習することでパフォーマンスを向上させることを目的としている。 したがって、マルチタスク問題に対して多目的最適化(moo)アプローチが提案されている。 最近のMOO法は、パレートフロントラーニング(PFL)と呼ばれる単一の統一モデルを用いて、複数の最適解(パレートフロント)を近似している。 本稿では、PFLを複数の目的を持つ別のMOO問題に再変換できることを示し、それぞれがタスクの好みの重みに一致することを示す。 我々は進化的アルゴリズム(EA)を活用し、超体積を直接最大化することで自己進化最適化(SEO)と呼ばれるPFLの手法を提案する。 SEOを使用することで、ニューラルネットワークは、ハイパーボリュームに大きく影響する複数のハイパーパラメータ上で条件付けられたParetoフロントを近似することを学ぶ。 そして、ネットワークを参照するだけで近似の集団を生成することにより、ネットワークのハイパーパラメータをEAによって最適化することができる。 また,PFLのSEOを利用して自己進化型パレートネットワーク(SEPNet)を導入し,高体積を最大化するパレートフロントセット全体の近似を可能にする。 大規模な実験結果から、SEPNetはモデルサイズとトレーニングコストの増大を最小限に抑えつつ、現在の最先端手法よりも優れたParetoフロントを見つけることができることが確認された。

Multi-task learning (MTL), which aims to improve performance by learning multiple tasks simultaneously, inherently presents an optimization challenge due to multiple objectives. Hence, multi-objective optimization (MOO) approaches have been proposed for multitasking problems. Recent MOO methods approximate multiple optimal solutions (Pareto front) with a single unified model, which is collectively referred to as Pareto front learning (PFL). In this paper, we show that PFL can be re-formulated into another MOO problem with multiple objectives, each of which corresponds to different preference weights for the tasks. We leverage an evolutionary algorithm (EA) to propose a method for PFL called self-evolutionary optimization (SEO) by directly maximizing the hypervolume. By using SEO, the neural network learns to approximate the Pareto front conditioned on multiple hyper-parameters that drastically affect the hypervolume. Then, by generating a population of approximations simply by inferencing the network, the hyper-parameters of the network can be optimized by EA. Utilizing SEO for PFL, we also introduce self-evolutionary Pareto networks (SEPNet), enabling the unified model to approximate the entire Pareto front set that maximizes the hypervolume. Extensive experimental results confirm that SEPNet can find a better Pareto front than the current state-of-the-art methods while minimizing the increase in model size and training cost.
翻訳日:2021-10-09 00:11:04 公開日:2021-10-07
# (参考訳) InfoSeg:相互情報最大化による教師なしセマンティックイメージセグメンテーション [全文訳有]

InfoSeg: Unsupervised Semantic Image Segmentation with Mutual Information Maximization ( http://arxiv.org/abs/2110.03477v1 )

ライセンス: CC BY-SA 4.0
Robert Harb and Patrick Kn\"obelreiter(参考訳) 局所的特徴量と大域的高次特徴量との相互情報最大化に基づく教師なしセマンティックイメージセグメンテーションの新しい手法を提案する。 我々の研究の中核となる考え方は、自己教師付き画像表現学習の最近の進歩を活用することである。 表現学習方法は、画像全体をキャプチャする単一の高レベル特徴を計算する。 対照的に、複数のハイレベルな特徴を計算し、それぞれが特定のセマンティッククラスのイメージセグメントをキャプチャする。 そこで本研究では,セグメンテーションと相互情報最大化ステップを組み合わせた2段階学習手法を提案する。 最初のステップでは、ローカル機能とグローバル機能に基づいてイメージをセグメンテーションします。 第2のステップでは,各クラスの局所的特徴と高次特徴との相互情報を最大化する。 トレーニングでは、ラベルのない画像のみを提供し、ランダムネットワークの初期化から始める。 定量的かつ質的な評価のために,確立されたベンチマークとCOCO-Personsを用いて,後者を挑戦的な新しいベンチマークとして紹介する。 InfoSegは現在の最先端、例えば、COCO-Stuffデータセット上のPixelの精度の26%の相対的な増加を実現しています。

We propose a novel method for unsupervised semantic image segmentation based on mutual information maximization between local and global high-level image features. The core idea of our work is to leverage recent progress in self-supervised image representation learning. Representation learning methods compute a single high-level feature capturing an entire image. In contrast, we compute multiple high-level features, each capturing image segments of one particular semantic class. To this end, we propose a novel two-step learning procedure comprising a segmentation and a mutual information maximization step. In the first step, we segment images based on local and global features. In the second step, we maximize the mutual information between local features and high-level features of their respective class. For training, we provide solely unlabeled images and start from random network initialization. For quantitative and qualitative evaluation, we use established benchmarks, and COCO-Persons, whereby we introduce the latter in this paper as a challenging novel benchmark. InfoSeg significantly outperforms the current state-of-the-art, e.g., we achieve a relative increase of 26% in the Pixel Accuracy metric on the COCO-Stuff dataset.
翻訳日:2021-10-08 23:57:49 公開日:2021-10-07
# (参考訳) 差分プライバシーを用いた複雑評価深層学習 [全文訳有]

Complex-valued deep learning with differential privacy ( http://arxiv.org/abs/2110.03478v1 )

ライセンス: CC BY 4.0
Alexander Ziller, Dmitrii Usynin, Moritz Knolle, Kerstin Hammernik, Daniel Rueckert, Georgios Kaissis(参考訳) 複素数値関数に対する差分プライバシー(DP)の拡張である$\zeta$-DPを提示する。 複素ガウス機構を導入し、その性質を$(\varepsilon, \delta)$-DPとR\'enyi-DPで表すと、複素数値ニューラルネットワークの訓練のためのDP-SGDの変種である$\zeta$-DP確率勾配降下(\zeta$-DP-SGD)を示す。 心電図分類,音声分類,磁気共鳴画像(MRI)再構成の3つの複雑な課題に対して,$\zeta$-DP-SGDを実験的に評価した。 さらに、多種多様な複素値アクティベーション関数とmnistデータセットの複素値変種に対して$\zeta$-dp-sgdベンチマークを提供する。 本実験では,複雑なニューラルネットワークのdpトレーニングが,厳密なプライバシー保証と優れた実用性によって可能であることを実証する。

We present $\zeta$-DP, an extension of differential privacy (DP) to complex-valued functions. After introducing the complex Gaussian mechanism, whose properties we characterise in terms of $(\varepsilon, \delta)$-DP and R\'enyi-DP, we present $\zeta$-DP stochastic gradient descent ($\zeta$-DP-SGD), a variant of DP-SGD for training complex-valued neural networks. We experimentally evaluate $\zeta$-DP-SGD on three complex-valued tasks, i.e. electrocardiogram classification, speech classification and magnetic resonance imaging (MRI) reconstruction. Moreover, we provide $\zeta$-DP-SGD benchmarks for a large variety of complex-valued activation functions and on a complex-valued variant of the MNIST dataset. Our experiments demonstrate that DP training of complex-valued neural networks is possible with rigorous privacy guarantees and excellent utility.
翻訳日:2021-10-08 23:46:22 公開日:2021-10-07
# (参考訳) カメラ投影損失によるカメラ校正 [全文訳有]

Camera Calibration through Camera Projection Loss ( http://arxiv.org/abs/2110.03479v1 )

ライセンス: CC BY 4.0
Talha Hanif Butt and Murtaza Taj(参考訳) カメラキャリブレーションは、3D再構成、ロボットインタラクションのための手目調整、自動運転など、様々なタスクにおいて必要である。 本研究では,画像ペアを用いて,本質的(焦点長,主点オフセット)パラメータ(ベースライン,ピッチ,翻訳)を予測する新しい手法を提案する。 既存の手法とは異なり、エンドツーエンドのソリューションを設計する代わりに、マルチタスク学習フレームワークにおいて、カメラモデルの方程式をニューラルネットワークとして組み込む新しい表現を提案した。 我々は,カメラモデルニューラルネットワークを用いて3dポイントを再構成し,再構成損失を用いてカメラパラメータを推定する新しい \emph{camera projection loss} (cpl) を用いて,所望のパラメータを推定する。 我々の知る限り、カメラパラメータ推定のための学習フレームワークにおける解析方程式を組み合わせたマルチタスク学習手法を用いて、本質的パラメータと外生的パラメータの両方を共同で推定する最初の方法である。 CARLAシミュレータを用いた新しいデータセットも提案した。 実験により,提案手法は,合成データと実データの両方を用いて評価した10パラメータのうち7つのパラメータにおいて,深層学習ベースと従来手法の両方において,よりよい性能を実現することを実証した。 私たちのコードと生成されたデータセットは、将来の研究を促進するために公開されます。

Camera calibration is a necessity in various tasks including 3D reconstruction, hand-eye coordination for a robotic interaction, autonomous driving, etc. In this work we propose a novel method to predict extrinsic (baseline, pitch, and translation), intrinsic (focal length and principal point offset) parameters using an image pair. Unlike existing methods, instead of designing an end-to-end solution, we proposed a new representation that incorporates camera model equations as a neural network in multi-task learning framework. We estimate the desired parameters via novel \emph{camera projection loss} (CPL) that uses the camera model neural network to reconstruct the 3D points and uses the reconstruction loss to estimate the camera parameters. To the best of our knowledge, ours is the first method to jointly estimate both the intrinsic and extrinsic parameters via a multi-task learning methodology that combines analytical equations in learning framework for the estimation of camera parameters. We also proposed a novel dataset using CARLA Simulator. Empirically, we demonstrate that our proposed approach achieves better performance with respect to both deep learning-based and traditional methods on 7 out of 10 parameters evaluated using both synthetic and real data. Our code and generated dataset will be made publicly available to facilitate future research.
翻訳日:2021-10-08 23:24:51 公開日:2021-10-07
# (参考訳) 画像分類器のマンガ説明 [全文訳有]

Cartoon Explanations of Image Classifiers ( http://arxiv.org/abs/2110.03485v1 )

ライセンス: CC BY 4.0
Stefan Kolek, Duc Anh Nguyen, Ron Levie, Joan Bruna, Gitta Kutyniok(参考訳) 本稿では,画像分類器に適したモデルに依存しない新しい説明手法であるCartoonX(Cartoon Explanation)について述べる。 自然画像は、大まかに断片的に滑らかな信号(漫画画像とも呼ばれる)であり、ウェーブレット領域ではスパースである傾向がある。 CartoonXはウェーブレット領域における説明をスパースにする必要があり、ピクセルスパース領域ではなく画像の「emph{relevant piece-wise smooth}」部分を抽出することで、これを活用するための最初の説明法である。 実験により,CartoonXは断片的に滑らかな性質を持つだけでなく,特に誤分類の説明に適していることが実証された。

We present CartoonX (Cartoon Explanation), a novel model-agnostic explanation method tailored towards image classifiers and based on the rate-distortion explanation (RDE) framework. Natural images are roughly piece-wise smooth signals -- also called cartoon images -- and tend to be sparse in the wavelet domain. CartoonX is the first explanation method to exploit this by requiring its explanations to be sparse in the wavelet domain, thus extracting the \emph{relevant piece-wise smooth} part of an image instead of relevant pixel-sparse regions. We demonstrate experimentally that CartoonX is not only highly interpretable due to its piece-wise smooth nature but also particularly apt at explaining misclassifications.
翻訳日:2021-10-08 23:15:00 公開日:2021-10-07
# (参考訳) 絡み合いとマルチタスク学習の関係について [全文訳有]

On the relationship between disentanglement and multi-task learning ( http://arxiv.org/abs/2110.03498v1 )

ライセンス: CC BY 4.0
{\L}ukasz Maziarka, Aleksandra Nowak, Maciej Wo{\l}czyk, Andrzej Bedychaj(参考訳) 絡み合った表現の研究の背後にある主な議論の1つは、異なるタスクで簡単に再利用できるという仮定である。 同時に、共同で適応可能なデータの表現を見つけることは、マルチタスク学習における重要な課題の1つである。 本稿では,ハードパラメータ共有に基づくマルチタスク学習と絡み合いの関係について,より詳しく検討する。 自動生成された教師付きタスクで訓練されたニューラルネットワークによる表現の徹底的な実証研究を行う。 標準メトリクスのセットを使用することで、マルチタスクニューラルネットワークトレーニングのプロセス中に、乱れが自然に現れることを示す。

One of the main arguments behind studying disentangled representations is the assumption that they can be easily reused in different tasks. At the same time finding a joint, adaptable representation of data is one of the key challenges in the multi-task learning setting. In this paper, we take a closer look at the relationship between disentanglement and multi-task learning based on hard parameter sharing. We perform a thorough empirical study of the representations obtained by neural networks trained on automatically generated supervised tasks. Using a set of standard metrics we show that disentanglement appears naturally during the process of multi-task neural network training.
翻訳日:2021-10-08 22:53:13 公開日:2021-10-07
# (参考訳) 事前学習された言語モデルも記号的数学解法です! [全文訳有]

Pretrained Language Models are Symbolic Mathematics Solvers too! ( http://arxiv.org/abs/2110.03501v1 )

ライセンス: CC BY 4.0
Kimia Noorbakhsh, Modar Sulaiman, Mahdi Sharifi, Kallol Roy, Pooyan Jamshidi(参考訳) 象徴的数学の解法は常に、構成的推論と再帰を必要とする人間の創造性の場にある。 しかし、近年の研究では、トランスフォーマーのような大規模言語モデルは普遍的であり、驚くほど複雑な数学的方程式を解くためにシーケンスからシーケンスへのタスクとして訓練できることが示されている。 これらの大きなトランスフォーマーモデルは、記号的な数学の問題に一般化するために、膨大な量のトレーニングデータを必要とする。 本稿では,まず言語翻訳によるトランスフォーマーモデルを事前学習し,その後に事前学習したトランスフォーマーモデルを微調整し,記号数学の下流課題を解決することにより,記号的タスクを効率的に解決するサンプルを提案する。 記号数学の最先端深層学習に関して、約1.5ドルのトレーニングサンプルを桁違いに少ない数で使用しながら、事前訓練されたモデルとの統合タスクにおいて同等の精度を達成する。 微分方程式のタスクにおけるテストの精度は、言語翻訳に存在しない高次再帰を必要とするため、積分と比較してかなり低い。 我々は、異なる言語翻訳でモデルを事前訓練する。 本結果は,記号数学の課題を解く際の言語バイアスを示す。 最後に,分布シフトに対する記号的数学タスクの微調整モデルのロバスト性について検討し,関数積分における分布シフトのシナリオを一般化する。

Solving symbolic mathematics has always been of in the arena of human ingenuity that needs compositional reasoning and recurrence. However, recent studies have shown that large-scale language models such as transformers are universal and surprisingly can be trained as a sequence-to-sequence task to solve complex mathematical equations. These large transformer models need humongous amounts of training data to generalize to unseen symbolic mathematics problems. In this paper, we present a sample efficient way of solving the symbolic tasks by first pretraining the transformer model with language translation and then fine-tuning the pretrained transformer model to solve the downstream task of symbolic mathematics. We achieve comparable accuracy on the integration task with our pretrained model while using around $1.5$ orders of magnitude less number of training samples with respect to the state-of-the-art deep learning for symbolic mathematics. The test accuracy on differential equation tasks is considerably lower comparing with integration as they need higher order recursions that are not present in language translations. We pretrain our model with different pairs of language translations. Our results show language bias in solving symbolic mathematics tasks. Finally, we study the robustness of the fine-tuned model on symbolic math tasks against distribution shift, and our approach generalizes better in distribution shift scenarios for the function integration.
翻訳日:2021-10-08 22:35:47 公開日:2021-10-07
# (参考訳) 効率的なデータ表現とモーメントベース最適化による成分的勾配ブースティングの高速化

Accelerated Componentwise Gradient Boosting using Efficient Data Representation and Momentum-based Optimization ( http://arxiv.org/abs/2110.03513v1 )

ライセンス: CC BY 4.0
Daniel Schalk, Bernd Bischl and David R\"ugamer(参考訳) componentwise boosting (cwb) はモデルベースブースティングとしても知られ、解釈可能性を確保するためにベースラーナとして追加モデル上に構築された勾配ブースティングの変種である。 したがって、CWBは、モデルがデータ内の関係を説明するツールとして使用される研究領域でよく用いられる。 CWBの欠点の1つは、メモリと実行時の計算複雑性である。 本稿では,CWBの特性を損なうことなく,これらの問題を克服する2つの手法を提案する。 後者は初期オーバーフィッティングの傾向が強いため,より高速な収束を確保しつつ,変動する勾配降下ルーチンを防止できるハイブリッドアプローチも提案する。 複数のシミュレーションおよび実世界のデータセットに対して広範なベンチマークを行い、最先端の推定と予測性能を維持しながら、実行時およびメモリ消費の改善を実証する。

Componentwise boosting (CWB), also known as model-based boosting, is a variant of gradient boosting that builds on additive models as base learners to ensure interpretability. CWB is thus often used in research areas where models are employed as tools to explain relationships in data. One downside of CWB is its computational complexity in terms of memory and runtime. In this paper, we propose two techniques to overcome these issues without losing the properties of CWB: feature discretization of numerical features and incorporating Nesterov momentum into functional gradient descent. As the latter can be prone to early overfitting, we also propose a hybrid approach that prevents a possibly diverging gradient descent routine while ensuring faster convergence. We perform extensive benchmarks on multiple simulated and real-world data sets to demonstrate the improvements in runtime and memory consumption while maintaining state-of-the-art estimation and prediction performance.
翻訳日:2021-10-08 22:20:56 公開日:2021-10-07
# (参考訳) ライドプールにおける公平性と効率のバランスをとるデータ駆動手法 [全文訳有]

Data-Driven Methods for Balancing Fairness and Efficiency in Ride-Pooling ( http://arxiv.org/abs/2110.03524v1 )

ライセンス: CC BY 4.0
Naveen Raman, Sanket Shah, John Dickerson(参考訳) ライドシェアと相乗りプラットフォームは、人工知能ベースのマッチングアルゴリズムを使用して、ライダーとドライバーをペアリングする。 しかし、これらのプラットフォームは不平等を、不平等な収入分布またはライダーの異質な扱いを通じて引き起こすことができる。 配車プラットフォームにおける不平等の形式を減少させる2つの方法として,(1)目的機能に公平性制約を組み込むこと,(2)ドライバーに所得を再分配することによる収入変動と不平等の低減について検討する。 ソリューションを評価するために、ニューヨーク市のタクシーデータセットを使用します。 第1の方法として,運転者側フェアネスの最適化は,運転者数と運転者数の両方において,運転者側フェアネスの最適化により,運転者側フェアネスの最適化により,一定の状況下での収益性向上が期待できることを示す。 第2の方法は、ドライバーにr$の収入を確保させ、残りを再分配プールに寄与させることで、所得格差と闘う方法として所得再分配を検討することである。 ある種の$r$の場合、ほとんどのドライバーはShapleyの値に近い収入を得るが、それでもドライバーに価値を最大化させるインセンティブを与える。 第1の方法は公平性の多くの定義に拡張することができ、第2の方法は利益性に影響を与えることなく公平性を向上させる。

Rideshare and ride-pooling platforms use artificial intelligence-based matching algorithms to pair riders and drivers. However, these platforms can induce inequality either through an unequal income distribution or disparate treatment of riders. We investigate two methods to reduce forms of inequality in ride-pooling platforms: (1) incorporating fairness constraints into the objective function and (2) redistributing income to drivers to reduce income fluctuation and inequality. To evaluate our solutions, we use the New York City taxi data set. For the first method, we find that optimizing for driver-side fairness outperforms state-of-the-art models on the number of riders serviced, both in the worst-off neighborhood and overall, showing that optimizing for fairness can assist profitability in certain circumstances. For the second method, we explore income redistribution as a way to combat income inequality by having drivers keep an $r$ fraction of their income, and contributing the rest to a redistribution pool. For certain values of $r$, most drivers earn near their Shapley value, while still incentivizing drivers to maximize value, thereby avoiding the free-rider problem and reducing income variability. The first method can be extended to many definitions of fairness and the second method provably improves fairness without affecting profitability.
翻訳日:2021-10-08 22:19:45 公開日:2021-10-07
# (参考訳) 二重ペナライズ推定による不均一分布数データ回帰 [全文訳有]

Heterogeneous Overdispersed Count Data Regressions via Double Penalized Estimations ( http://arxiv.org/abs/2110.03552v1 )

ライセンス: CC BY 4.0
Shaomin Li, Haoyu Wei, Xiaoyu Lei(参考訳) 本論文では,二項回帰による不均一分散数データに対する2倍$\ell_1$-regularized の非漸近的効果について検討する。 制限された固有値条件の下では、経験過程の濃度不等式を用いて、2つの偏回帰係数のラッソ推定器のオラクル不等式を初めて証明する。 さらに、オラクルの不等式から導かれる推定器の一貫性と収束率は、さらなる統計的推測の理論的保証となる。 最後に、シミュレーションと実データ解析の両方が、新しい手法が有効であることを示す。

This paper studies the non-asymptotic merits of the double $\ell_1$-regularized for heterogeneous overdispersed count data via negative binomial regressions. Under the restricted eigenvalue conditions, we prove the oracle inequalities for Lasso estimators of two partial regression coefficients for the first time, using concentration inequalities of empirical processes. Furthermore, derived from the oracle inequalities, the consistency and convergence rate for the estimators are the theoretical guarantees for further statistical inference. Finally, both simulations and a real data analysis demonstrate that the new methods are effective.
翻訳日:2021-10-08 22:05:47 公開日:2021-10-07
# (参考訳) ゴールデンデリケートアップルにおける酵素ブルーニング欠陥検出のための新しい簡易可視化アルゴリズム [全文訳有]

A New Simple Vision Algorithm for Detecting the Enzymic Browning Defects in Golden Delicious Apples ( http://arxiv.org/abs/2110.03574v1 )

ライセンス: CC BY 4.0
Hamid Majidi Balanji(参考訳) 本研究は, 酵素的玄米処理によるゴールデンデリシスリンゴの表面欠陥を抽出し, 同定するために, 簡単な視覚アルゴリズムを設計, 実装した。 実験では34種類のゴールデン・デリシアスリンゴが選択され、そのうち17個は酵素的染料欠陥があり、残りの17個は音が聞こえた。 提案した視覚アルゴリズムの画像処理部は, リンゴの欠陥表面積を97.15%の精度で抽出した。 セグメンテーション画像の面積と平均は、2x1特徴ベクトルとして選択され、設計されたニューラルネットワークに供給された。 以上の特徴に基づく分析により、0.0065未満の画像は欠陥のあるリンゴではなく、健康なリンゴのカリックスと茎の一部として抽出された。 本研究で適用されたニューラルネットワークの分類精度は99.19%であった。

In this work, a simple vision algorithm is designed and implemented to extract and identify the surface defects on the Golden Delicious apples caused by the enzymic browning process. 34 Golden Delicious apples were selected for the experiments, of which 17 had enzymic browning defects and the other 17 were sound. The image processing part of the proposed vision algorithm extracted the defective surface area of the apples with high accuracy of 97.15%. The area and mean of the segmented images were selected as the 2x1 feature vectors to feed into a designed artificial neural network. The analysis based on the above features indicated that the images with a mean less than 0.0065 did not belong to the defective apples; rather, they were extracted as part of the calyx and stem of the healthy apples. The classification accuracy of the neural network applied in this study was 99.19%
翻訳日:2021-10-08 21:05:50 公開日:2021-10-07
# (参考訳) コミック領域における画像深度の推定 [全文訳有]

Estimating Image Depth in the Comics Domain ( http://arxiv.org/abs/2110.03575v1 )

ライセンス: CC BY 4.0
Deblina Bhattacharjee, Martin Everaert, Mathieu Salzmann, Sabine S\"usstrunk(参考訳) 漫画画像の深さ推定は、そのような画像として難しい a)単分子である b) 地中深さアノテーションの欠如 c) 異なる芸術様式の異なるもの d) まばらでうるさい。 そこで,本研究では,市販の教師なし画像を用いて,漫画画像を自然なものに翻訳し,注意誘導単眼深度推定器を用いて深度を推定する。 これにより、既存の自然画像の奥行きアノテーションを利用して、深さ推定器をトレーニングできます。 さらに,本モデルは,マンガパネルのテキストと画像の区別を学習し,奥行き推定におけるテキストに基づくアーティファクトを削減する。 提案手法は,DCMおよびeBDtheque画像の両方において,既存の最先端手法よりも常に優れている。 最後に,漫画の深度予測を行うデータセットを提案する。

Estimating the depth of comics images is challenging as such images a) are monocular; b) lack ground-truth depth annotations; c) differ across different artistic styles; d) are sparse and noisy. We thus, use an off-the-shelf unsupervised image to image translation method to translate the comics images to natural ones and then use an attention-guided monocular depth estimator to predict their depth. This lets us leverage the depth annotations of existing natural images to train the depth estimator. Furthermore, our model learns to distinguish between text and images in the comics panels to reduce text-based artefacts in the depth estimates. Our method consistently outperforms the existing state-ofthe-art approaches across all metrics on both the DCM and eBDtheque images. Finally, we introduce a dataset to evaluate depth prediction on comics.
翻訳日:2021-10-08 21:00:29 公開日:2021-10-07
# (参考訳) 拘束学習による安定グラフニューラルネットワークの学習 [全文訳有]

Training Stable Graph Neural Networks Through Constrained Learning ( http://arxiv.org/abs/2110.03576v1 )

ライセンス: CC BY 4.0
Juan Cervino, Luana Ruiz and Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(GNN)は、ネットワークデータから機能を学ぶためにグラフ畳み込みに依存する。 gnnは、グラフフィルタから継承する特性である基礎となるグラフの異なるタイプの摂動に対して安定である。 本稿では,GNNの安定性特性をタイピング点として活用し,分布内で安定な表現を求める。 本稿では,gnnの安定条件を選択の摂動内で制約することにより,新しい制約付き学習手法を提案する。 我々は,我々のフレームワークを実世界のデータで紹介し,予測器の全体的な精度を損なうことなく,より安定した表現を得られることを確認した。

Graph Neural Networks (GNN) rely on graph convolutions to learn features from network data. GNNs are stable to different types of perturbations of the underlying graph, a property that they inherit from graph filters. In this paper we leverage the stability property of GNNs as a typing point in order to seek for representations that are stable within a distribution. We propose a novel constrained learning approach by imposing a constraint on the stability condition of the GNN within a perturbation of choice. We showcase our framework in real world data, corroborating that we are able to obtain more stable representations while not compromising the overall accuracy of the predictor.
翻訳日:2021-10-08 20:52:05 公開日:2021-10-07
# (参考訳) 破壊ロバスト強化学習のためのモデル選択手法

A Model Selection Approach for Corruption Robust Reinforcement Learning ( http://arxiv.org/abs/2110.03580v1 )

ライセンス: CC0 1.0
Chen-Yu Wei, Christoph Dann, Julian Zimmert(参考訳) 我々は,移行と報酬の両面において,敵対的腐敗を伴う強化学習に取り組むモデル選択手法を開発した。 有限水平タブ状MDPの場合、汚職の総量について事前に知ることなく、我々のアルゴリズムは、$\widetilde{\mathcal{O}}(\min\{\frac{1}{\Delta}, \sqrt{T}\}+C)$で、$T$はエピソード数、$C$は腐敗の総量、$\Delta$はベストとセカンドベストのポリシーの間の報酬ギャップである。 これは、Lykouris et al. (2021)、Chen et al. (2021)、Wu et al. (2021)の以前の結果を改善し、$C$の知識なしに達成された最初の最悪のケース最適境界である。 有限ホリゾン線形mdpに対して、計算効率の良い計算効率のよいアルゴリズムを開発し、その計算効率のよいアルゴリズムは$\widetilde{\mathcal{o}}(\sqrt{(1+c)t})$ であり、計算効率の悪いアルゴリズムは$\widetilde{\mathcal{o}}(\sqrt{t}+c)$ であり、lykouris et al. (2021) の結果を改善し、zhang et al. (2021b) による解答である。 最後に,我々のモデル選択フレームワークは,線形帯域幅,線形コンテキスト帯域幅,一般関数近似によるMDPなどの他の設定にも容易に適用でき,いくつかの改良や新たな結果が得られる。

We develop a model selection approach to tackle reinforcement learning with adversarial corruption in both transition and reward. For finite-horizon tabular MDPs, without prior knowledge on the total amount of corruption, our algorithm achieves a regret bound of $\widetilde{\mathcal{O}}(\min\{\frac{1}{\Delta}, \sqrt{T}\}+C)$ where $T$ is the number of episodes, $C$ is the total amount of corruption, and $\Delta$ is the reward gap between the best and the second-best policy. This is the first worst-case optimal bound achieved without knowledge of $C$, improving previous results of Lykouris et al. (2021); Chen et al. (2021); Wu et al. (2021). For finite-horizon linear MDPs, we develop a computationally efficient algorithm with a regret bound of $\widetilde{\mathcal{O}}(\sqrt{(1+C)T})$, and another computationally inefficient one with $\widetilde{\mathcal{O}}(\sqrt{T}+C)$, improving the result of Lykouris et al. (2021) and answering an open question by Zhang et al. (2021b). Finally, our model selection framework can be easily applied to other settings including linear bandits, linear contextual bandits, and MDPs with general function approximation, leading to several improved or new results.
翻訳日:2021-10-08 20:41:49 公開日:2021-10-07
# (参考訳) 機械学習による船舶性能モニタリング [全文訳有]

Ship Performance Monitoring using Machine-learning ( http://arxiv.org/abs/2110.03594v1 )

ライセンス: CC BY 4.0
Prateek Gupta, Adil Rasheed and Sverre Steen(参考訳) 海を航行する船の水力特性は、海洋汚濁や防汚塗料システムの条件などにより寿命によって異なる。 計画された航海における電力需要と燃料消費を正確に推定するためには,船の流動性能を評価することが重要である。 現在の研究は機械学習(ML)手法を用いて、オンボードで記録されたサービス内データを用いて船の流体力学的性能を推定する。 NL-PCR, NL-PLSR, 確率的ANNの3つのML法を姉妹船のデータを用いて校正する。 校正されたモデルは、船体の流体力学的性能の経時的変化を抽出し、いくつかのプロペラおよび船体洗浄イベントによる性能変化を予測するために使用される。 予測性能の変化を、ファウリング摩擦係数(\Delta C_F$)を用いて推定した対応する値と比較する。 ML法は, 確率的ANNモデルを用いた船舶の流体状態変数をモデル化しながら, 良好に動作していることがわかったが, NL-PCRとNL-PLSRの結果はそれほど遅れていない。

The hydrodynamic performance of a sea-going ship varies over its lifespan due to factors like marine fouling and the condition of the anti-fouling paint system. In order to accurately estimate the power demand and fuel consumption for a planned voyage, it is important to assess the hydrodynamic performance of the ship. The current work uses machine-learning (ML) methods to estimate the hydrodynamic performance of a ship using the onboard recorded in-service data. Three ML methods, NL-PCR, NL-PLSR and probabilistic ANN, are calibrated using the data from two sister ships. The calibrated models are used to extract the varying trend in ship's hydrodynamic performance over time and predict the change in performance through several propeller and hull cleaning events. The predicted change in performance is compared with the corresponding values estimated using the fouling friction coefficient ($\Delta C_F$). The ML methods are found to be performing well while modelling the hydrodynamic state variables of the ships with probabilistic ANN model performing the best, but the results from NL-PCR and NL-PLSR are not far behind, indicating that it may be possible to use simple methods to solve such problems with the help of domain knowledge.
翻訳日:2021-10-08 20:40:15 公開日:2021-10-07
# (参考訳) 等分散と局所探索によるTSP問題に対する深部RLの一般化 [全文訳有]

Generalization in Deep RL for TSP Problems via Equivariance and Local Search ( http://arxiv.org/abs/2110.03595v1 )

ライセンス: CC BY 4.0
Wenbin Ouyang, Yisen Wang, Paul Weng, Shaochen Han(参考訳) 深層強化学習(RL)は,小規模の旅行セールスマン問題(TSP)を解く上では,競争力のあるヒューリスティックであることが証明されている。 大規模インスタンスでのトレーニングは現実的ではないため、一般化性を重視した新しい深層RLアプローチを設計する。 我々の提案は、新しいRLトレーニング技術で学習するシンプルなディープラーニングアーキテクチャから成り、2つの主要なアイデアを活用する。 まず、トレーニングを容易にするために等価性を利用する。 第2に,効率的な局所探索ヒューリスティックスを通常のRLトレーニングとインターリーブして,価値景観の円滑化を図る。 提案手法の全体を検証するため,本手法の最先端RL法に対して,ランダムかつ現実的なTSP問題に対する提案を実証的に評価した。 さらに,各成分の寄与を理解するためのアブレーション研究について述べる。

Deep reinforcement learning (RL) has proved to be a competitive heuristic for solving small-sized instances of traveling salesman problems (TSP), but its performance on larger-sized instances is insufficient. Since training on large instances is impractical, we design a novel deep RL approach with a focus on generalizability. Our proposition consisting of a simple deep learning architecture that learns with novel RL training techniques, exploits two main ideas. First, we exploit equivariance to facilitate training. Second, we interleave efficient local search heuristics with the usual RL training to smooth the value landscape. In order to validate the whole approach, we empirically evaluate our proposition on random and realistic TSP problems against relevant state-of-the-art deep RL methods. Moreover, we present an ablation study to understand the contribution of each of its component
翻訳日:2021-10-08 20:10:39 公開日:2021-10-07
# (参考訳) すべてを騙す1つのこと:解釈可能、普遍的、物理的に実現可能な敵対的特徴の生成 [全文訳有]

One Thing to Fool them All: Generating Interpretable, Universal, and Physically-Realizabl e Adversarial Features ( http://arxiv.org/abs/2110.03605v1 )

ライセンス: CC BY 4.0
Stephen Casper, Max Nadeau, Gabriel Kreiman(参考訳) 現代のディープネットワークは敵の攻撃に弱いことはよく理解されている。 しかし、従来の手法では、人間に分かりやすい反抗的な摂動は生じず、物理的な世界では限定的な脅威となる。 ネットワークにおける特徴クラスの関連を研究し,それらが直面する現実世界の脅威をよりよく理解するために,深層画像生成器と新しい最適化目標を用いて,特徴レベルの敵対的摂動を開発する。 これらの機能的攻撃を「機能的攻撃」と呼ぶ。 我々は、これらが汎用性を示し、ImageNetスケールでターゲット機能レベルの攻撃を発生させ、同時に解釈可能で、任意のソースイメージに普遍的で、物理的に実現可能であることを示す。 これらの攻撃はまた、スプリケートで意味論的に説明可能な特徴/階級関係を明らかにし、ある自然なイメージを別のものに貼り付け、ターゲットの誤分類を引き起こす「コピー/ペースト」敵の設計を誘導するためにそれらを使用する。

It is well understood that modern deep networks are vulnerable to adversarial attacks. However, conventional methods fail to produce adversarial perturbations that are intelligible to humans, and they pose limited threats in the physical world. To study feature-class associations in networks and better understand the real-world threats they face, we develop feature-level adversarial perturbations using deep image generators and a novel optimization objective. We term these feature-fool attacks. We show that they are versatile and use them to generate targeted feature-level attacks at the ImageNet scale that are simultaneously interpretable, universal to any source image, and physically-realizabl e. These attacks can also reveal spurious, semantically-describ able feature/class associations, and we use them to guide the design of "copy/paste" adversaries in which one natural image is pasted into another to cause a targeted misclassification.
翻訳日:2021-10-08 19:45:47 公開日:2021-10-07
# (参考訳) 世界を理解する方法:ロバスト強化学習エージェントのためのマルチモーダル知覚における階層の活用 [全文訳有]

How to Sense the World: Leveraging Hierarchy in Multimodal Perception for Robust Reinforcement Learning Agents ( http://arxiv.org/abs/2110.03608v1 )

ライセンス: CC BY 4.0
Miguel Vasco, Hang Yin, Francisco S. Melo, Ana Paiva(参考訳) 本研究は,不完全な知覚条件下でのタスク実行を可能にする強化学習エージェント環境のマルチモーダル表現をどのように学習するかという,世界知覚の問題に対処する。 このような問題に対処するため、表現モデルの設計における階層構造を議論し、新しいマルチモーダル表現モデルであるmuseに寄与する。 提案モデルでは, 原観測データから符号化された低レベルモード固有表現と, 強靭な状態推定を可能にする共同モダリティ情報を符号化した高レベルマルチモーダル表現の階層表現を学習する。 深部強化学習エージェントの感覚表現モデルとしてMUSEを用いて,アタリゲームにおけるマルチモーダル観測を行った。 我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。 最後に, 文献標準マルチモーダルシナリオにおけるMUSEの性能評価を行い, 単一およびクロスモーダル生成における最先端マルチモーダル変分オートエンコーダよりも高い性能を示すことを示す。

This work addresses the problem of sensing the world: how to learn a multimodal representation of a reinforcement learning agent's environment that allows the execution of tasks under incomplete perceptual conditions. To address such problem, we argue for hierarchy in the design of representation models and contribute with a novel multimodal representation model, MUSE. The proposed model learns hierarchical representations: low-level modality-specific representations, encoded from raw observation data, and a high-level multimodal representation, encoding joint-modality information to allow robust state estimation. We employ MUSE as the sensory representation model of deep reinforcement learning agents provided with multimodal observations in Atari games. We perform a comparative study over different designs of reinforcement learning agents, showing that MUSE allows agents to perform tasks under incomplete perceptual experience with minimal performance loss. Finally, we evaluate the performance of MUSE in literature-standard multimodal scenarios with higher number and more complex modalities, showing that it outperforms state-of-the-art multimodal variational autoencoders in single and cross-modality generation.
翻訳日:2021-10-08 19:24:49 公開日:2021-10-07
# (参考訳) 多言語テキスト音声における音韻的特徴の適用 [全文訳有]

Applying Phonological Features in Multilingual Text-To-Speech ( http://arxiv.org/abs/2110.03609v1 )

ライセンス: CC BY 4.0
Cong Zhang, Huinan Zeng, Huang Liu, Jiewen Zheng(参考訳) 本研究では,音韻的特徴を音声合成システムに応用し,母国語・非母国語を生成できるかどうかを検討する。 本稿では, ARPABET/pinyin->SAMPA/SAMPA-SC->音声学的特徴のマッピングを行い, このマッピングを用いて, ネイティブ, 非ネイティブ, コード切替音声を生成できるかどうかを検証した。 1つは小さなデータセット、もう1つはより大きなデータセットです。 その結果, 音韻的特徴が入力システムとして実現可能であることが示されたが, モデル性能の向上にはさらなる検討が必要である。 TTSモデルによって生成されるアクセント付き出力は、人間の第2言語獲得プロセスの理解にも役立ちます。

This study investigates whether phonological features can be applied in text-to-speech systems to generate native and non-native speech. We present a mapping between ARPABET/pinyin->SAMPA/SAMPA-SC->phonological features in this paper, and tested whether native, non-native, and code-switched speech could be successfully generated using this mapping. We ran two experiments, one with a small dataset and one with a larger dataset. The results proved that phonological features can be a feasible input system, although it needs further investigation to improve model performance. The accented output generated by the TTS models also helps with understanding human second language acquisition processes.
翻訳日:2021-10-08 19:07:32 公開日:2021-10-07
# (参考訳) 高密度テキスト検索のためのadversarial retriever-ranker [全文訳有]

Adversarial Retriever-Ranker for dense text retrieval ( http://arxiv.org/abs/2110.03611v1 )

ライセンス: CC BY 4.0
Hang Zhang, Yeyun Gong, Yelong Shen, Jiancheng Lv, Nan Duan, Weizhu Chen(参考訳) 現在の高密度テキスト検索モデルは2つの典型的な課題に直面している。 まず、シアム二重エンコーダアーキテクチャを用いてクエリとドキュメントを独立に符号化し、高速インデックス化と検索を行う。 これにより、サブ最適リコール性能が得られる。 第2に、負のサンプリング手法に強く依存し、その対照的な損失で負のドキュメントを構築する。 これらの課題に対処するために、デュアルエンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker (AR2)を提案する。 この2つのモデルは、minimaxの敵意に従って協調的に最適化される: 検索者は、ランク付けを行うために負の文書を取得することを学び、ランク付け者は、基底と検索の両方を含む候補者のコレクションをランク付けすることを学び、デュアルエンコーダ検索者にプログレッシブな直接フィードバックを提供する。 この対戦ゲームを通じて、レトリバーは徐々により厳しい負の文書を生成してより良いランク付けを訓練する一方、クロスエンコーダローダはプログレッシブフィードバックを提供してレトリバーを改善する。 3つのベンチマークでAR2を評価する。 実験結果から、AR2は既存の高密度検索手法よりも一貫して大幅に優れており、これらすべてに対して新たな最先端の結果が得られている。 これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。 コード、モデル、データを公開します。

Current dense text retrieval models face two typical challenges. First, it adopts a siamese dual-encoder architecture to encode query and document independently for fast indexing and searching, whereas neglecting the finer-grained term-wise interactions. This results in a sub-optimal recall performance. Second, it highly relies on a negative sampling technique to build up the negative documents in its contrastive loss. To address these challenges, we present Adversarial Retriever-Ranker (AR2), which consists of a dual-encoder retriever plus a cross-encoder ranker. The two models are jointly optimized according to a minimax adversarial objective: the retriever learns to retrieve negative documents to cheat the ranker, while the ranker learns to rank a collection of candidates including both the ground-truth and the retrieved ones, as well as providing progressive direct feedback to the dual-encoder retriever. Through this adversarial game, the retriever gradually produces harder negative documents to train a better ranker, whereas the cross-encoder ranker provides progressive feedback to improve retriever. We evaluate AR2 on three benchmarks. Experimental results show that AR2 consistently and significantly outperforms existing dense retriever methods and achieves new state-of-the-art results on all of them. This includes the improvements on Natural Questions R@5 to 77.9%(+2.1%), TriviaQA R@5 to 78.2%(+1.4), and MS-MARCO MRR@10 to 39.5%(+1.3%). We will make our code, models, and data publicly available.
翻訳日:2021-10-08 18:30:45 公開日:2021-10-07
# (参考訳) データ収集項目の因果方向:NLPにおける因果的・反因果的学習の意義 [全文訳有]

Causal Direction of Data Collection Matters: Implications of Causal and Anticausal Learning in NLP ( http://arxiv.org/abs/2110.03618v1 )

ライセンス: CC BY 4.0
Zhijing Jin, Julius von K\"ugelgen, Jingwei Ni, Tejas Vaidhya, Ayush Kaushal, Mrinmaya Sachan, Bernhard Schoelkopf(参考訳) 独立因果メカニズム(icm)の原理では、実世界のデータの生成プロセスは、互いに影響を与えたり、知らせたりしない独立したモジュールで構成される。 このアイデアは因果推論の分野で実りある発展をもたらしたが、NLPコミュニティでは広く知られていない。 本研究では,データ収集プロセスの因果方向が,半教師付き学習(SSL)とドメイン適応(DA)のパフォーマンスの違いなど,多くのNLPの発見を説明できるような非自明な意味を持っていることを論じる。 一般的なnlpタスクを因果方向に応じて分類し,最小記述長を用いたテキストデータに対するicm原則の有効性を実証的に検証する。 100以上のSSLと30のDA研究の広範なメタ分析を行い、その結果は因果的洞察に基づく我々の期待と一致していることがわかった。 本研究は、ICMの原理をNLPで解析する最初の試みであり、将来のモデリング選択に対する建設的な提案である。 コードはhttps://github.com/z hijing-jin/icm4nlp。

The principle of independent causal mechanisms (ICM) states that generative processes of real world data consist of independent modules which do not influence or inform each other. While this idea has led to fruitful developments in the field of causal inference, it is not widely-known in the NLP community. In this work, we argue that the causal direction of the data collection process bears nontrivial implications that can explain a number of published NLP findings, such as differences in semi-supervised learning (SSL) and domain adaptation (DA) performance across different settings. We categorize common NLP tasks according to their causal direction and empirically assay the validity of the ICM principle for text data using minimum description length. We conduct an extensive meta-analysis of over 100 published SSL and 30 DA studies, and find that the results are consistent with our expectations based on causal insights. This work presents the first attempt to analyze the ICM principle in NLP, and provides constructive suggestions for future modeling choices. Code available at https://github.com/z hijing-jin/icm4nlp.
翻訳日:2021-10-08 18:11:44 公開日:2021-10-07
# (参考訳) ニューラルネットワーク,inside out:与えられたパラメータによる入力の解法(予備調査) [全文訳有]

Neural Networks, Inside Out: Solving for Inputs Given Parameters (A Preliminary Investigation) ( http://arxiv.org/abs/2110.03649v1 )

ライセンス: CC BY-SA 4.0
Mohammad Sadeq Dousti(参考訳) 人工知能ニューラルネットワーク(ANN)は教師付き学習アルゴリズムで、入力をネットワークに渡し、出力と期待されるラベルを比較し、パラメータを補正する、前後の繰り返しによってパラメータが学習される。 derian と kramer (2020) の最近の研究に触発されて、観察者は ann パラメータが多くのイテレーションでどのように進化するかを見ることができるが、データセットは彼には必然的であると仮定する。 例えば、これはANNパラメータ(中間パラメータがリークされた場所)の複数パーティの計算に対する逆のeavesdroppingである。 彼は方程式系を作り、それを解いてデータセットを復元できますか?

Artificial neural network (ANN) is a supervised learning algorithm, where parameters are learned by several back-and-forth iterations of passing the inputs through the network, comparing the output with the expected labels, and correcting the parameters. Inspired by a recent work of Derian and Kramer (2020), we investigate a different problem: Suppose an observer can view how the ANN parameters evolve over many iterations, but the dataset is oblivious to him. For instance, this can be an adversary eavesdropping on a multi-party computation of an ANN parameters (where intermediate parameters are leaked). Can he form a system of equations, and solve it to recover the dataset?
翻訳日:2021-10-08 17:47:37 公開日:2021-10-07
# (参考訳) 多様な操作課題に対する行動プリミティブを用いた強化学習の強化 [全文訳有]

Augmenting Reinforcement Learning with Behavior Primitives for Diverse Manipulation Tasks ( http://arxiv.org/abs/2110.03655v1 )

ライセンス: CC BY 4.0
Soroush Nasiriany and Huihan Liu and Yuke Zhu(参考訳) 現実的な操作タスクは、ロボットが長時間の運動行動で環境と対話する必要がある。 近年, 深層強化学習法は操作行動の自動化に有望なパラダイムとして登場しているが, 探索負担のため, 長時間の作業では不足することが多い。 本研究は,行動プリミティブのライブラリで標準強化学習アルゴリズムを補強する学習フレームワークであるmaple(premitive-augm ented reinforcement learning)の操作を導入する。 これらの動作プリミティブは、把持や押しといった操作目標を達成することに特化したロバストな機能モジュールである。 これらのヘテロジニアスプリミティブを使用するために、プリミティブを含む階層ポリシーを開発し、それらの実行を入力パラメータでインスタンス化する。 我々は、MAPLEが、シミュレーション操作タスクのスイートにおいて、ベースラインアプローチよりもかなり優れていることを示す。 また、学習行動の構成構造を定量化し、新しいタスク変種や物理ハードウェアにポリシーを転送する手法の能力を強調する。 ビデオとコードはhttps://ut-austin-rp l.github.io/mapleで入手できる。

Realistic manipulation tasks require a robot to interact with an environment with a prolonged sequence of motor actions. While deep reinforcement learning methods have recently emerged as a promising paradigm for automating manipulation behaviors, they usually fall short in long-horizon tasks due to the exploration burden. This work introduces MAnipulation Primitive-augmented reinforcement LEarning (MAPLE), a learning framework that augments standard reinforcement learning algorithms with a pre-defined library of behavior primitives. These behavior primitives are robust functional modules specialized in achieving manipulation goals, such as grasping and pushing. To use these heterogeneous primitives, we develop a hierarchical policy that involves the primitives and instantiates their executions with input parameters. We demonstrate that MAPLE outperforms baseline approaches by a significant margin on a suite of simulated manipulation tasks. We also quantify the compositional structure of the learned behaviors and highlight our method's ability to transfer policies to new task variants and to physical hardware. Videos and code are available at https://ut-austin-rp l.github.io/maple
翻訳日:2021-10-08 17:41:32 公開日:2021-10-07
# (参考訳) 分散凸最適化のための確率ニュートンアルゴリズム

A Stochastic Newton Algorithm for Distributed Convex Optimization ( http://arxiv.org/abs/2110.02954v1 )

ライセンス: CC BY 4.0
Brian Bullins, Kumar Kshitij Patel, Ohad Shamir, Nathan Srebro, Blake Woodworth(参考訳) 本稿では,同種分散確率凸最適化のための確率Newtonアルゴリズムを提案し,各マシンが同一集団目標の確率勾配を計算し,また,確率的ヘッセンベクトル積(任意のベクトルを持つヘッセン分布の独立な非バイアス推定器の積)を計算し,そのような確率的計算を多数の通信ラウンド間で行う。 本手法は, 実験的な証拠とともに, 擬似自己一致目標(ロジスティック回帰など)の収束保証を証明し, 既存手法と比較して必要な通信ラウンドの数, 頻度を低減できることを示す。

We propose and analyze a stochastic Newton algorithm for homogeneous distributed stochastic convex optimization, where each machine can calculate stochastic gradients of the same population objective, as well as stochastic Hessian-vector products (products of an independent unbiased estimator of the Hessian of the population objective with arbitrary vectors), with many such stochastic computations performed between rounds of communication. We show that our method can reduce the number, and frequency, of required communication rounds compared to existing methods without hurting performance, by proving convergence guarantees for quasi-self-concordan t objectives (e.g., logistic regression), alongside empirical evidence.
翻訳日:2021-10-08 17:13:45 公開日:2021-10-07
# (参考訳) バースト画像の復元と改善 [全文訳有]

Burst Image Restoration and Enhancement ( http://arxiv.org/abs/2110.03680v1 )

ライセンス: CC BY-SA 4.0
Akshay Dudhane, Syed Waqas Zamir, Salman Khan, Fahad Khan, Ming-Hsuan Yang(参考訳) 現代のハンドヘルドデバイスは、バースト画像のシーケンスを迅速に取得することができる。 しかし、獲得したフレームは複数の劣化に悩まされ、カメラの揺れや物体の動きによって不一致となる。 Burst Image Restorationの目標は、複数のバーストフレームに補完的なキューを効果的に組み合わせ、高品質な出力を生成することである。 そこで,本研究では,バーストフレーム間の効果的な情報交換にのみ焦点をあてて,実際のシーンの詳細を保存・拡張しながら劣化を除去する手法を提案する。 私たちの中心となるアイデアは、入力されたすべてのバーストフレームからの補足情報を組み合わせて、シームレスに情報を交換する、emph{pseudo-burst}機能セットを作ることです。 擬似バースト表現は、元のバースト画像からチャネルワイズ特徴を符号化し、複数のバーストフレームによって提供される特徴情報を容易に学習する。 しかし、個々のバーストフレームが適切に整列してフレーム間移動を割引しない限り、擬似バーストはうまく作成できない。 そこで本手法では,まず各バーストフレームから事前処理された特徴を抽出し,エッジブースティングバーストアライメントモジュールを用いてマッチングする。 擬似バースト機能は、マルチスケールのコンテキスト情報を使って作成、強化される。 最後のステップは、擬似バースト特徴からの情報を適応的に集約し、擬似バースト特徴をマージしながら、複数の段階における分解能を徐々に向上させることである。 単段アップサンプリングによる後期融合方式を追従する既存の作業と比較して,本手法は,バースト超解像および低照度画像強調タスクにおける技術性能の状態を良好に実現している。 私たちのコードとモデルは公開されます。

Modern handheld devices can acquire burst image sequence in a quick succession. However, the individual acquired frames suffer from multiple degradations and are misaligned due to camera shake and object motions. The goal of Burst Image Restoration is to effectively combine complimentary cues across multiple burst frames to generate high-quality outputs. Towards this goal, we develop a novel approach by solely focusing on the effective information exchange between burst frames, such that the degradations get filtered out while the actual scene details are preserved and enhanced. Our central idea is to create a set of \emph{pseudo-burst} features that combine complimentary information from all the input burst frames to seamlessly exchange information. The pseudo-burst representations encode channel-wise features from the original burst images, thus making it easier for the model to learn distinctive information offered by multiple burst frames. However, the pseudo-burst cannot be successfully created unless the individual burst frames are properly aligned to discount inter-frame movements. Therefore, our approach initially extracts preprocessed features from each burst frame and matches them using an edge-boosting burst alignment module. The pseudo-burst features are then created and enriched using multi-scale contextual information. Our final step is to adaptively aggregate information from the pseudo-burst features to progressively increase resolution in multiple stages while merging the pseudo-burst features. In comparison to existing works that usually follow a late fusion scheme with single-stage upsampling, our approach performs favorably, delivering state of the art performance on burst super-resolution and low-light image enhancement tasks. Our codes and models will be released publicly.
翻訳日:2021-10-08 17:12:10 公開日:2021-10-07
# (参考訳) 最適輸送によるクロスドメイン模倣学習 [全文訳有]

Cross-Domain Imitation Learning via Optimal Transport ( http://arxiv.org/abs/2110.03684v1 )

ライセンス: CC BY 4.0
Arnaud Fickinger, Samuel Cohen, Stuart Russell, Brandon Amos(参考訳) クロスドメイン模倣学習は、あるエージェントの専門的なデモンストレーションを活用して、異なる実施形態や形態を持つ模倣エージェントを訓練する方法を研究する。 専門家と模倣エージェントの軌道と静止分布を比較することは、同じ次元を持たないかもしれない異なるシステムで生活しているため困難である。 本稿ではgromov-wasserstein imitation learning (gwil)を提案する。gwilはgromov-wasserstein距離を用いてエージェントの異なる空間間の状態の調整と比較を行うクロスドメイン模倣の手法である。 我々の理論は、GWILが最適性を保ち、その可能性と限界を明らかにするシナリオを公式に特徴づけている。 専門家領域の単純剛性変換から状態-作用空間の任意の変換まで,非自明な連続制御領域におけるgwilの有効性を示す。

Cross-domain imitation learning studies how to leverage expert demonstrations of one agent to train an imitation agent with a different embodiment or morphology. Comparing trajectories and stationary distributions between the expert and imitation agents is challenging because they live on different systems that may not even have the same dimensionality. We propose Gromov-Wasserstein Imitation Learning (GWIL), a method for cross-domain imitation that uses the Gromov-Wasserstein distance to align and compare states between the different spaces of the agents. Our theory formally characterizes the scenarios where GWIL preserves optimality, revealing its possibilities and limitations. We demonstrate the effectiveness of GWIL in non-trivial continuous control domains ranging from simple rigid transformation of the expert domain to arbitrary transformation of the state-action space.
翻訳日:2021-10-08 16:52:17 公開日:2021-10-07
# テキスト生成のためのvaesの潜在穴について

On the Latent Holes of VAEs for Text Generation ( http://arxiv.org/abs/2110.03318v1 )

ライセンス: Link先を確認
Ruizhe Li, Xutan Peng, Chenghua Lin(参考訳) 本稿では,モデルのキャパシティに不利な影響を及ぼす現象である変分オートエンコーダ(vaes)の潜在空間における不連続性(いわゆるホール)について,最初に焦点を絞った研究を行う。 潜穴を調査する際、既存の作品はエンコーダネットワークを中心に構成され、単に穴の存在を探索するだけである。 我々は,テキスト領域に焦点をあてた潜在穴同定のための高効率なツリーベースデコーダ・セントリクス(TDC)アルゴリズムを提案することにより,これらの制約に対処する。 過去の研究とは対照的に,デコーダはモデルの出力品質に直接影響を与えるため,提案手法はデコーダネットワークに注意を払っている。 さらに, 潜在ホール現象の深い実験的解析を行い, テキスト生成におけるvaeアルゴリズムの性能に与える影響, 潜在ホールが潜在空間にどのように分布するかなど, いくつかの重要な側面について検討した。

In this paper, we provide the first focused study on the discontinuities (aka. holes) in the latent space of Variational Auto-Encoders (VAEs), a phenomenon which has been shown to have a detrimental effect on model capacity. When investigating latent holes, existing works are exclusively centred around the encoder network and they merely explore the existence of holes. We tackle these limitations by proposing a highly efficient Tree-based Decoder-Centric (TDC) algorithm for latent hole identification, with a focal point on the text domain. In contrast to past studies, our approach pays attention to the decoder network, as a decoder has a direct impact on the model's output quality. Furthermore, we provide, for the first time, in-depth empirical analysis of the latent hole phenomenon, investigating several important aspects such as how the holes impact VAE algorithms' performance on text generation, and how the holes are distributed in the latent space.
翻訳日:2021-10-08 16:14:23 公開日:2021-10-07
# エンド・ツー・エンドのsupermask pruning: 画像キャプションモデルへの学習

End-to-End Supermask Pruning: Learning to Prune Image Captioning Models ( http://arxiv.org/abs/2110.03298v1 )

ライセンス: Link先を確認
Jia Huei Tan, Chee Seng Chan, Joon Huang Chuah(参考訳) 深層モデルの発展に伴い、画像キャプションの研究は、モデルの複雑さと計算コストの増加とともに、過去10年間で生の性能が著しく向上した。 しかし、画像キャプションタスクのためのディープネットワークの圧縮に関する驚くべき研究はほとんど注目されていない。 画像キャプション研究で初めて,ソフトアテンション,アップダウン,オブジェクト関係トランスという,3種類の人気画像キャプションアーキテクチャにおいて,様々な非構造化重み追及手法を広範囲に比較した。 そこで,本研究では,トレーニング損失に対する重み感受性に基づいて段階的スパース化を行う新しいエンド・ツー・エンド重みプルーニング法を提案する。 次に, プルーニング方式をエンコーダプルーニングで拡張し, エンコーダプルーニングに先立ってデコーダプルーニングとトレーニングを同時に行うことにより, 全体的な性能が向上することを示す。 実験では、80%から95%のスパースネットワーク(モデルサイズを最大75%削減する)が、その密集したネットワークとマッチするか、より優れています。 CIDErスコアを達成できるUp-DownとObject Relation Transformerのコードおよび事前訓練されたモデルは、MS-COCOデータセットで120まで達成できるが、モデルサイズは8.7MBと14.5MB(それぞれ密度の高いバージョンに対して96%と94%)しかなく、https://github.com/j iahuei/sparse-image- captioningで公開されている。

With the advancement of deep models, research work on image captioning has led to a remarkable gain in raw performance over the last decade, along with increasing model complexity and computational cost. However, surprisingly works on compression of deep networks for image captioning task has received little to no attention. For the first time in image captioning research, we provide an extensive comparison of various unstructured weight pruning methods on three different popular image captioning architectures, namely Soft-Attention, Up-Down and Object Relation Transformer. Following this, we propose a novel end-to-end weight pruning method that performs gradual sparsification based on weight sensitivity to the training loss. The pruning schemes are then extended with encoder pruning, where we show that conducting both decoder pruning and training simultaneously prior to the encoder pruning provides good overall performance. Empirically, we show that an 80% to 95% sparse network (up to 75% reduction in model size) can either match or outperform its dense counterpart. The code and pre-trained models for Up-Down and Object Relation Transformer that are capable of achieving CIDEr scores >120 on the MS-COCO dataset but with only 8.7 MB and 14.5 MB in model size (size reduction of 96% and 94% respectively against dense versions) are publicly available at https://github.com/j iahuei/sparse-image- captioning.
翻訳日:2021-10-08 16:14:05 公開日:2021-10-07
# 逆行訓練における二重発声:無作為なラベルノイズの観点から

Double Descent in Adversarial Training: An Implicit Label Noise Perspective ( http://arxiv.org/abs/2110.03135v1 )

ライセンス: Link先を確認
Chengyu Dong, Liyuan Liu, Jingbo Shang(参考訳) ここでは、ロバストなオーバーフィッティングが、エポックな2重降下の初期段階と見なされることを示します -- ロバストなテストエラーは、相当数のエポックに対してモデルをトレーニングした後、再び減少し始めます。 観測結果から着想を得て, 二重降下解析をさらに進め, 強靭なオーバーフィッティングの理解を深めた。 標準訓練では、二重降下はラベルフリップノイズの結果であることが示されている。 しかし, 逆方向の摂動はラベルを変えないと考えられるため, この推論は我々の設定では適用できない。 ラベルフリップノイズを超えて、割り当てられた真のラベル分布と(知られていない)真のラベル分布のミスマッチを測定することを提案する。 本研究は, 従来の正反対例のラベル付けにより, 暗黙のラベルノイズが生じることを示す。 より優れたラベル付けに向けて,分類器からの予測分布は,拡張と補間の後,軽度な仮定の下で暗黙的なラベルノイズを確実に低減できることを示す。 そこで本研究では,2次降下を効果的に緩和するためにトレーニング目標を調整し,その効果を3つのベンチマークデータセットで検証した。

Here, we show that the robust overfitting shall be viewed as the early part of an epoch-wise double descent -- the robust test error will start to decrease again after training the model for a considerable number of epochs. Inspired by our observations, we further advance the analyses of double descent to understand robust overfitting better. In standard training, double descent has been shown to be a result of label flipping noise. However, this reasoning is not applicable in our setting, since adversarial perturbations are believed not to change the label. Going beyond label flipping noise, we propose to measure the mismatch between the assigned and (unknown) true label distributions, denoted as \emph{implicit label noise}. We show that the traditional labeling of adversarial examples inherited from their clean counterparts will lead to implicit label noise. Towards better labeling, we show that predicted distribution from a classifier, after scaling and interpolation, can provably reduce the implicit label noise under mild assumptions. In light of our analyses, we tailored the training objective accordingly to effectively mitigate the double descent and verified its effectiveness on three benchmark datasets.
翻訳日:2021-10-08 16:13:30 公開日:2021-10-07
# 人工知能を用いたロバスト・トランスファー可能なiiotセンサに基づく異常分類

Towards Robust and Transferable IIoT Sensor based Anomaly Classification using Artificial Intelligence ( http://arxiv.org/abs/2110.03440v1 )

ライセンス: Link先を確認
Jana Kemnitz, Thomas Bierweiler, Herbert Grieb, Stefan von Dosky, Daniel Schall(参考訳) 低コストの産業用iot(iiot)センサープラットフォームの産業資産への展開は、産業プラントにおける異常分類の絶好の機会となる。 このような分類モデルの性能は、利用可能なトレーニングデータに依存する。 トレーニングデータが同じマシンから来ると、モデルはうまく機能する。 しかし、マシンを変更したり、修理したり、別の環境で動作させたりすると、予測は失敗することが多い。 そこで本研究では, 異なるモデルを用いたaiベースの異常分類のためのロバストで移動可能な方法と, 解体・再稼働する遠心ポンプの事前処理ステップが, 異なる環境下および異なる環境下において実現可能かどうかについて検討する。 さらに,同一タイプの異なるポンプのモデル性能について,トレーニングデータと比較検討した。

The increasing deployment of low-cost industrial IoT (IIoT) sensor platforms on industrial assets enables great opportunities for anomaly classification in industrial plants. The performance of such a classification model depends highly on the available training data. Models perform well when the training data comes from the same machine. However, as soon as the machine is changed, repaired, or put into operation in a different environment, the prediction often fails. For this reason, we investigate whether it is feasible to have a robust and transferable method for AI based anomaly classification using different models and pre-processing steps on centrifugal pumps which are dismantled and put back into operation in the same as well as in different environments. Further, we investigate the model performance on different pumps from the same type compared to those from the training data.
翻訳日:2021-10-08 16:13:10 公開日:2021-10-07
# スパースMoEが効率的なアンサンブルと出会う

Sparse MoEs meet Efficient Ensembles ( http://arxiv.org/abs/2110.03360v1 )

ライセンス: Link先を確認
James Urquhart Allingham, Florian Wenzel, Zelda E Mariet, Basil Mustafa, Joan Puigcerver, Neil Houlsby, Ghassen Jerfel, Vincent Fortuin, Balaji Lakshminarayanan, Jasper Snoek, Dustin Tran, Carlos Riquelme Ruiz, Rodolphe Jenatton(参考訳) サブモデルの集約された出力に基づく機械学習モデルは、アクティベーションまたは予測レベルにおいて、強いパフォーマンスをもたらす。 本稿では,ニューラルネットワークのアンサンブルと,専門家のスパースミックス(スパースMoE)の2つの人気クラスの相互作用について検討する。 まず、これらの2つのアプローチが相補的な特徴を持つことを示す。 次に,モデルの両クラスを最良とするスパースモエの効率的なアンサンブルである分割バッチアンサンブルを提案する。 微調整型視覚変換器の広汎な実験は、いくつかの挑戦的なベースラインに対するアプローチの精度、ログライクな、数ショットの学習、堅牢性、不確実性の校正の改善を実証している。 分割されたバッチアンサンブルは、最大2.7Bパラメータを持つモデルにスケールするだけでなく、より大きなモデルに対してより大きなパフォーマンス向上を提供する。

Machine learning models based on the aggregated outputs of submodels, either at the activation or prediction levels, lead to strong performance. We study the interplay of two popular classes of such models: ensembles of neural networks and sparse mixture of experts (sparse MoEs). First, we show that these two approaches have complementary features whose combination is beneficial. Then, we present partitioned batch ensembles, an efficient ensemble of sparse MoEs that takes the best of both classes of models. Extensive experiments on fine-tuned vision transformers demonstrate the accuracy, log-likelihood, few-shot learning, robustness, and uncertainty calibration improvements of our approach over several challenging baselines. Partitioned batch ensembles not only scale to models with up to 2.7B parameters, but also provide larger performance gains for larger models.
翻訳日:2021-10-08 16:12:33 公開日:2021-10-07
# boxhead:階層表現を学ぶためのデータセット

Boxhead: A Dataset for Learning Hierarchical Representations ( http://arxiv.org/abs/2110.03628v1 )

ライセンス: Link先を確認
Yukun Chen, Frederik Tr\"auble, Andrea Dittadi, Stefan Bauer, Bernhard Sch\"olkopf(参考訳) 絡み合いは多くの下流タスクに対して有益であると仮定される。 しかし、不整合表現の学習における一般的な仮定は、データ生成因子が統計的に独立であるということである。 現在の手法は、この理想的な仮定が成り立つトイデータセット上でのみ評価されるため、実際のデータの関連する特徴である階層的設定におけるその性能について検討する。 本稿では,階層的に構成された基底生成因子を持つデータセットであるboxheadを紹介する。 このデータセットを用いて,最先端のオートエンコーダに基づく不等角化モデルの性能評価を行い,階層的に配置された因子の等角化の観点から,階層モデルが一般に単層vaeを上回ることを観測した。

Disentanglement is hypothesized to be beneficial towards a number of downstream tasks. However, a common assumption in learning disentangled representations is that the data generative factors are statistically independent. As current methods are almost solely evaluated on toy datasets where this ideal assumption holds, we investigate their performance in hierarchical settings, a relevant feature of real-world data. In this work, we introduce Boxhead, a dataset with hierarchically structured ground-truth generative factors. We use this novel dataset to evaluate the performance of state-of-the-art autoencoder-based disentanglement models and observe that hierarchical models generally outperform single-layer VAEs in terms of disentanglement of hierarchically arranged factors.
翻訳日:2021-10-08 16:12:18 公開日:2021-10-07
# Transform2Act:効率的なエージェント設計のためのTransform-and-Contro l Policyの学習

Transform2Act: Learning a Transform-and-Contro l Policy for Efficient Agent Design ( http://arxiv.org/abs/2110.03659v1 )

ライセンス: Link先を確認
Ye Yuan, Yuda Song, Zhengyi Luo, Wen Sun, Kris Kitani(参考訳) エージェントの機能は、その設計、すなわち骨格構造と関節特性(例えば、長さ、大きさ、強度)によって決定される。 しかし, 与えられた関数に対する最適エージェント設計の発見は, 本質的には組合せ的であり, 設計空間は禁断的に大きいため, 極めて困難である。 さらに、最適なコントローラの解決を必要とする各候補設計を評価するのにコストがかかる。 これらの問題に取り組むためには,エージェントの設計手順を意思決定プロセスに組み込むことが重要となる。 具体的には,あるエピソードにおいて,まず,エージェントの骨格構造と関節属性を修飾するために一連の変換アクションを適用し,その後に新たな設計の下で制御アクションを適用する条件付きポリシーを学習する。 各グラフノードがジョイントを表現し、隣接ノードとのメッセージパッシングを使用してジョイント特有のアクションを出力するグラフベースのポリシを使用する。 政策勾配法を用いてエージェント設計と制御の1次最適化と異なる設計間の経験共有を実現し,サンプル効率を大幅に向上する。 実験により,我々の手法であるTransform2Actは,収束速度と最終性能の点で先行手法よりも優れていた。 Transform2Actはキリン、イカ、クモに似た可塑性デザインを自動的に発見する。 私たちのプロジェクトwebサイトはhttps://sites.google .com/view/transform2 actにあります。

An agent's functionality is largely determined by its design, i.e., skeletal structure and joint attributes (e.g., length, size, strength). However, finding the optimal agent design for a given function is extremely challenging since the problem is inherently combinatorial and the design space is prohibitively large. Additionally, it can be costly to evaluate each candidate design which requires solving for its optimal controller. To tackle these problems, our key idea is to incorporate the design procedure of an agent into its decision-making process. Specifically, we learn a conditional policy that, in an episode, first applies a sequence of transform actions to modify an agent's skeletal structure and joint attributes, and then applies control actions under the new design. To handle a variable number of joints across designs, we use a graph-based policy where each graph node represents a joint and uses message passing with its neighbors to output joint-specific actions. Using policy gradient methods, our approach enables first-order optimization of agent design and control as well as experience sharing across different designs, which improves sample efficiency tremendously. Experiments show that our approach, Transform2Act, outperforms prior methods significantly in terms of convergence speed and final performance. Notably, Transform2Act can automatically discover plausible designs similar to giraffes, squids, and spiders. Our project website is at https://sites.google .com/view/transform2 act.
翻訳日:2021-10-08 16:11:35 公開日:2021-10-07
# GNNはカウンタか? 質問応答のためのGNNの再検討

GNN is a Counter? Revisiting GNN for Question Answering ( http://arxiv.org/abs/2110.03192v1 )

ライセンス: Link先を確認
Kuan Wang, Yuyu Zhang, Diyi Yang, Le Song and Tao Qin(参考訳) 質問回答(QA)は、AIとNLP分野における長年の研究トピックであり、人間レベルの推論能力を備えたQAシステムを実現するために、多くの研究がなされている。 複雑な人間の推論過程を近似するために、最先端のQAシステムは一般的に、訓練済み言語モデル(LM)を使用して、LMに符号化された知識と、グラフニューラルネットワーク(GNN)に基づいた精巧に設計されたモジュールにアクセスし、知識グラフ(KG)の推論を行う。 しかし、これらのGNNベースのモジュールの推論機能に関して多くの問題が残っている。 これらのGNNベースのモジュールは、本当に複雑な推論プロセスを実行できますか? QAのために過度に複雑化されているか? GNNのブラックボックスを開き、これらの問題を調査するために、QAのための最先端のGNNモジュールを識別し、それらの推論能力を解析する。 非常に単純なグラフニューラルカウンタでさえ、知識認識推論に大きく依存する2つの人気のあるQAベンチマークデータセットであるCommonsenseQAとOpenBookQAの既存のGNNモジュールを上回ります。 我々の研究は、既存の知識を意識したGNNモジュールがカウントなどの単純な理由のみを実行することを明らかにしている。 知識駆動qaのための包括的な推論モジュールを構築することは、依然として難しいオープン問題である。

Question Answering (QA) has been a long-standing research topic in AI and NLP fields, and a wealth of studies have been conducted to attempt to equip QA systems with human-level reasoning capability. To approximate the complicated human reasoning process, state-of-the-art QA systems commonly use pre-trained language models (LMs) to access knowledge encoded in LMs together with elaborately designed modules based on Graph Neural Networks (GNNs) to perform reasoning over knowledge graphs (KGs). However, many problems remain open regarding the reasoning functionality of these GNN-based modules. Can these GNN-based modules really perform a complex reasoning process? Are they under- or over-complicated for QA? To open the black box of GNN and investigate these problems, we dissect state-of-the-art GNN modules for QA and analyze their reasoning capability. We discover that even a very simple graph neural counter can outperform all the existing GNN modules on CommonsenseQA and OpenBookQA, two popular QA benchmark datasets which heavily rely on knowledge-aware reasoning. Our work reveals that existing knowledge-aware GNN modules may only carry out some simple reasoning such as counting. It remains a challenging open problem to build comprehensive reasoning modules for knowledge-powered QA.
翻訳日:2021-10-08 16:11:13 公開日:2021-10-07
# 手続き型環境生成による逐次対話学習

Situated Dialogue Learning through Procedural Environment Generation ( http://arxiv.org/abs/2110.03262v1 )

ライセンス: Link先を確認
Prithviraj Ammanabrolu, Renee Jia, Mark O. Riedl(参考訳) ゴール駆動エージェントに,生成したカリキュラムをトレーニングすることで,現場で対話的に行動し,話すように指導する。 私たちのエージェントはlight(urbanek et al. 2019) — クラウドソースの大規模なファンタジーテキストアドベンチャーゲームで、エージェントはテキスト自然言語を通じて世界を理解し、対話します。 この環境のゴールは、ペルソナとモチベーションからなるキャラクタベースのクエストの形を取る。 我々は、LIGHTを手続き的に新しいテキストの世界を創出することを学び、その目標を達成するための訓練員の難しさを着実に増すカリキュラムを作成する。 特に、元のトレーニングディストリビューションにおけるクエストの希少性の観点から、カリキュラムの難しさを測定します。 アブレーション実験により, 分布の尾部から学習する手法は, ゼロショット性能で測定したnever-before-seenクエストよりも有意に高い一般化能力が得られることがわかった。

We teach goal-driven agents to interactively act and speak in situated environments by training on generated curriculums. Our agents operate in LIGHT (Urbanek et al. 2019) -- a large-scale crowd-sourced fantasy text adventure game wherein an agent perceives and interacts with the world through textual natural language. Goals in this environment take the form of character-based quests, consisting of personas and motivations. We augment LIGHT by learning to procedurally generate additional novel textual worlds and quests to create a curriculum of steadily increasing difficulty for training agents to achieve such goals. In particular, we measure curriculum difficulty in terms of the rarity of the quest in the original training distribution -- an easier environment is one that is more likely to have been found in the unaugmented dataset. An ablation study shows that this method of learning from the tail of a distribution results in significantly higher generalization abilities as measured by zero-shot performance on never-before-seen quests.
翻訳日:2021-10-08 16:10:48 公開日:2021-10-07
# mRAT-SQL+GAP:ポルトガルのテキストからSQLへの変換器

mRAT-SQL+GAP:A Portuguese Text-to-SQL Transformer ( http://arxiv.org/abs/2110.03546v1 )

ライセンス: Link先を確認
Marcelo Archanjo Jos\'e, Fabio Gagliardi Cozman(参考訳) SQLクエリへの自然言語質問の翻訳は、特にトランスフォーマーや同様の言語モデルに関連して、注目を集めている。 そこで本研究では,ポルトガル語で入力された質問をSQLに翻訳する手法について検討した。 そのため、最先端のツールやリソースを適切に適用しました。 RAT-SQL+GAP システムを多言語 BART モデルに頼って変更し(他の言語モデルとのテストを報告する)、Spider データセットの翻訳版を作成しました。 実験の結果,英語以外の言語を対象とする場合に発生する興味深い現象が明らかとなった。特に,1つのターゲット言語が望まれても,オリジナルおよび翻訳されたトレーニングデータセットを併用したトレーニングが望ましい。 この多言語BARTモデルは、ダブルサイズトレーニングデータセット(英語とポルトガル語)で微調整され、ベースラインの83%を達成した。 この調査は、他の研究者が英語とは異なる言語で機械学習の結果を生み出すのに役立つ。 RAT-SQL+GAPとそのデータは、https://github.com/C 4AI/gap-text2sqlで、mRAT-SQL+GAPとしてオープンソースとして公開されています。

The translation of natural language questions to SQL queries has attracted growing attention, in particular in connection with transformers and similar language models. A large number of techniques are geared towards the English language; in this work, we thus investigated translation to SQL when input questions are given in the Portuguese language. To do so, we properly adapted state-of-the-art tools and resources. We changed the RAT-SQL+GAP system by relying on a multilingual BART model (we report tests with other language models), and we produced a translated version of the Spider dataset. Our experiments expose interesting phenomena that arise when non-English languages are targeted; in particular, it is better to train with original and translated training datasets together, even if a single target language is desired. This multilingual BART model fine-tuned with a double-size training dataset (English and Portuguese) achieved 83% of the baseline, making inferences for the Portuguese test dataset. This investigation can help other researchers to produce results in Machine Learning in a language different from English. Our multilingual ready version of RAT-SQL+GAP and the data are available, open-sourced as mRAT-SQL+GAP at: https://github.com/C 4AI/gap-text2sql
翻訳日:2021-10-08 16:10:29 公開日:2021-10-07
# ニューラルネットワークの学習改善のための効率的シャープネス認識最小化

Efficient Sharpness-aware Minimization for Improved Training of Neural Networks ( http://arxiv.org/abs/2110.03141v1 )

ライセンス: Link先を確認
Jiawei Du, Hanshu Yan, Jiashi Feng, Joey Tianyi Zhou, Liangli Zhen, Rick Siow Mong Goh, Vincent Y. F. Tan(参考訳) 過度にパラメータ化されたディープニューラルネットワーク(DNN)は、しばしば驚くべき性能を達成するが、重大な一般化エラーをもたらす可能性がある。 近年,一般化の劣化を軽減するために,spikeness aware minimalr (sam) が提案されているforet et al. (2020) によって,損失景観のシャープネスと一般化誤差の関係が確立されている。 残念ながら、SAMの計算コストはSGD(Stochastic Gradient Descent)のようなベースオプティマイザの約2倍である。 そこで本稿では,SAM s の効率を高コストで向上する ESAM (Efficient Sharpness Aware Minimizer) を提案する。 ESAMには、Stochastic Weight PerturbationとSharpness-Sensitive Data Selectionという、2つの新しい効率的なトレーニング戦略が含まれている。 前者では、各反復において確率的に選択された重みの集合を摂動させることによりシャープネス尺度を近似し、後者では、シャープネスに敏感なデータの部分集合のみを用いてSAM損失を最適化する。 これらの戦略がうまく機能する理由に関する理論的説明を提供する。 また、CIFARとImageNetデータセットの広範な実験を通じて、ESAMはSAMよりも100%余分な計算を、40%のvis-a-visベースオプティマイザに、テストアキュラシーを保存または改善することで効率を向上することを示した。

Overparametrized Deep Neural Networks (DNNs) often achieve astounding performances, but may potentially result in severe generalization error. Recently, the relation between the sharpness of the loss landscape and the generalization error has been established by Foret et al. (2020), in which the Sharpness Aware Minimizer (SAM) was proposed to mitigate the degradation of the generalization. Unfortunately, SAM s computational cost is roughly double that of base optimizers, such as Stochastic Gradient Descent (SGD). This paper thus proposes Efficient Sharpness Aware Minimizer (ESAM), which boosts SAM s efficiency at no cost to its generalization performance. ESAM includes two novel and efficient training strategies-Stochasti cWeight Perturbation and Sharpness-Sensitive Data Selection. In the former, the sharpness measure is approximated by perturbing a stochastically chosen set of weights in each iteration; in the latter, the SAM loss is optimized using only a judiciously selected subset of data that is sensitive to the sharpness. We provide theoretical explanations as to why these strategies perform well. We also show, via extensive experiments on the CIFAR and ImageNet datasets, that ESAM enhances the efficiency over SAM from requiring 100% extra computations to 40% vis-a-vis base optimizers, while test accuracies are preserved or even improved.
翻訳日:2021-10-08 16:10:07 公開日:2021-10-07
# 人間-物体相互作用のための仮想多モード自己監督前景マッチング

Virtual Multi-Modality Self-Supervised Foreground Matting for Human-Object Interaction ( http://arxiv.org/abs/2110.03278v1 )

ライセンス: Link先を確認
Bo Xu, Han Huang, Cheng Lu, Ziwen Li and Yandong Guo(参考訳) 既存の人間のマッチングアルゴリズムのほとんどは、純粋な人間だけの前景を背景から切り離そうとした。 本稿では,仮想マルチモーダル・フォアグラウンド・マッティング(VMFM)法を提案し,生のRGB画像から人間とオブジェクトの対話的なフォアグラウンド(人間とオブジェクトの対話)を学習する。 VMFM法はトリマップや既知のバックグラウンドなど追加の入力を必要としない。 3つの自動エンコーダを用いて各入力画像を推定深度マップ、セグメンテーションマスク、相互作用熱マップに分解する。 各モードの特性をフル活用するために、まず2つのエンコーダ-デコーダネットワークをトレーニングし、同じアルファマットを推定する。 次に, 偏差確率マップを予測し, ラベル無しで信頼性の高い勾配を交換する, 自己教師あり学習(cl)を提案する。 補足学習における各モダリティの有効性と異なる成分の意義を分析するために,広範囲にわたる実験を行った。 我々のモデルは最先端の手法よりも優れていることを示す。

Most existing human matting algorithms tried to separate pure human-only foreground from the background. In this paper, we propose a Virtual Multi-modality Foreground Matting (VMFM) method to learn human-object interactive foreground (human and objects interacted with him or her) from a raw RGB image. The VMFM method requires no additional inputs, e.g. trimap or known background. We reformulate foreground matting as a self-supervised multi-modality problem: factor each input image into estimated depth map, segmentation mask, and interaction heatmap using three auto-encoders. In order to fully utilize the characteristics of each modality, we first train a dual encoder-to-decoder network to estimate the same alpha matte. Then we introduce a self-supervised method: Complementary Learning(CL) to predict deviation probability map and exchange reliable gradients across modalities without label. We conducted extensive experiments to analyze the effectiveness of each modality and the significance of different components in complementary learning. We demonstrate that our model outperforms the state-of-the-art methods.
翻訳日:2021-10-08 16:09:38 公開日:2021-10-07
# MSHCNet:ユークリッド/非ユークリッド空間における混合統計を用いたマルチストリームハイブリッド畳み込みネットワークとそのハイパースペクトル画像分類への応用

MSHCNet: Multi-Stream Hybridized Convolutional Networks with Mixed Statistics in Euclidean/Non-Euclid ean Spaces and Its Application to Hyperspectral Image Classification ( http://arxiv.org/abs/2110.03346v1 )

ライセンス: Link先を確認
Shuang He, Haitong Tang, Xia Lu, Hongjie Yan, Nizhuan Wang(参考訳) ハイパースペクトル画像(hsi)には空間スペクトル情報が多く含まれており、dnnを用いたスペクトル情報と空間情報の両方を効果的に結合する方法が新たな研究ホットスポットとなっている。 正方形のカーネルを持つCNNと比較して、GCNは空間構造をモデル化し、任意に不規則な画像領域でフレキシブルな畳み込みを行うエキサイティングなポテンシャルを示した。 しかし、現在のGCNは1次スペクトル空間シグネチャのみを使用しており、境界のぼやけや孤立した誤分類をもたらす可能性がある。 そこで我々はまず,GCNの非ユークリッド空間における文脈ノード情報を得るために,グラフベースの2次プール(GSOP)演算を設計した。 さらに, ユークリッド空間/非ユークリッド空間における一階統計と二階統計を組み合わせて, 多視点補完情報をセグメントhsisに学習・融合するマルチストリームハイブリダイゼーション畳み込みネットワーク (mshcnet) を提案する。 Specifically, our MSHCNet adopted four parallel streams, which contained G-stream, utilizing the irregular correlation between adjacent land covers in terms of first-order graph in non-Euclidean space; C-stream, adopting convolution operator to learn regular spatial-spectral features in Euclidean space; N-stream, combining first and second order features to learn representative and discriminative regular spatial-spectral features of Euclidean space; S-stream, using GSOP to capture boundary correlations and obtain graph representations from all nodes in graphs of non-Euclidean space. さらに、4つの異なるストリームから学習した特徴表現を融合させて、HSI分類のための多視点補完情報を統合する。 最後に,提案手法を3つのハイパースペクトルデータセット上で評価し,本手法が最先端の8つの手法を大幅に上回ることを示した。

It is well known that hyperspectral images (HSI) contain rich spatial-spectral contextual information, and how to effectively combine both spectral and spatial information using DNN for HSI classification has become a new research hotspot. Compared with CNN with square kernels, GCN have exhibited exciting potential to model spatial contextual structure and conduct flexible convolution on arbitrarily irregular image regions. However, current GCN only using first-order spectral-spatial signatures can result in boundary blurring and isolated misclassification. To address these, we first designed the graph-based second-order pooling (GSOP) operation to obtain contextual nodes information in non-Euclidean space for GCN. Further, we proposed a novel multi-stream hybridized convolutional network (MSHCNet) with combination of first and second order statistics in Euclidean/non-Euclid ean spaces to learn and fuse multi-view complementary information to segment HSIs. Specifically, our MSHCNet adopted four parallel streams, which contained G-stream, utilizing the irregular correlation between adjacent land covers in terms of first-order graph in non-Euclidean space; C-stream, adopting convolution operator to learn regular spatial-spectral features in Euclidean space; N-stream, combining first and second order features to learn representative and discriminative regular spatial-spectral features of Euclidean space; S-stream, using GSOP to capture boundary correlations and obtain graph representations from all nodes in graphs of non-Euclidean space. Besides, these feature representations learned from four different streams were fused to integrate the multi-view complementary information for HSI classification. Finally, we evaluated our proposed MSHCNet on three hyperspectral datasets, and experimental results demonstrated that our method significantly outperformed state-of-the-art eight methods.
翻訳日:2021-10-08 16:09:20 公開日:2021-10-07
# 言語モデルの継続的な学習に向けて

Towards Continual Knowledge Learning of Language Models ( http://arxiv.org/abs/2110.03215v1 )

ライセンス: Link先を確認
Joel Jang, Seonghyeon Ye, Sohee Yang, Joongbo Shin, Janghoon Han, Gyeonghun Kim, Stanley Jungkyu Choi, Minjoon Seo(参考訳) 大規模言語モデル(LM)は、膨大な量のWebコーパスを事前訓練し、質問応答、ファクトチェック、オープンダイアログなどの知識に依存した下流タスクを実行するためにしばしば使用される、世界の知識をパラメータにエンコードすることが知られている。 実世界のシナリオでは、LMに格納されている世界知識は、世界が変わるにつれて急速に時代遅れになることがあるが、破滅的な忘れ物を避け、不変知識を維持しながら確実に新しい知識を取得することは容易ではない。 常に変化するlmsのメンテナンスにコミュニティを向かわせるために,我々は,連続学習(ckl)と呼ばれる新しい連続学習(cl)問題を定式化する。 我々は、時間不変の世界知識の保持、時代遅れの知識の更新、新しい知識の獲得を定量化する新しいベンチマークとメトリクスを構築した。 我々は,最近の文献の手法を応用して,強固なベースラインを複数作成する。 大規模な実験により、CKLは従来のCLセットアップでは対処できない独特な課題を示し、パラメータ拡張は知識を確実に保持し、同時に学習するために必要であることがわかった。 知識を忘れることの重大な原因を強調することで、CKLはより理解し、常に変化するLMを訓練する上で、困難で重要な問題であることを示す。

Large Language Models (LMs) are known to encode world knowledge in their parameters as they pretrain on a vast amount of web corpus, which is often utilized for performing knowledge-dependent downstream tasks such as question answering, fact-checking, and open dialogue. In real-world scenarios, the world knowledge stored in the LMs can quickly become outdated as the world changes, but it is non-trivial to avoid catastrophic forgetting and reliably acquire new knowledge while preserving invariant knowledge. To push the community towards better maintenance of ever-changing LMs, we formulate a new continual learning (CL) problem called Continual Knowledge Learning (CKL). We construct a new benchmark and metric to quantify the retention of time-invariant world knowledge, the update of outdated knowledge, and the acquisition of new knowledge. We adopt applicable recent methods from literature to create several strong baselines. Through extensive experiments, we find that CKL exhibits unique challenges that are not addressed in previous CL setups, where parameter expansion is necessary to reliably retain and learn knowledge simultaneously. By highlighting the critical causes of knowledge forgetting, we show that CKL is a challenging and important problem that helps us better understand and train ever-changing LMs.
翻訳日:2021-10-08 16:08:43 公開日:2021-10-07
# スナップショットアンサンブルによる自由な対向ロバスト性の改善

Improving Adversarial Robustness for Free with Snapshot Ensemble ( http://arxiv.org/abs/2110.03124v1 )

ライセンス: Link先を確認
Yihao Wang(参考訳) 敵の攻撃に対する数少ない防御の1つとして、敵の訓練は非常に複雑で時間がかかり、その結果は十分に堅牢ではないかもしれない。 頑健さの欠如問題に対処するために, 繰り返し訓練されたプロセスから選択された結果の重み付けを行い, 最終結果を得るためのアンサンブル法が提案されている。 堅牢で正確な結果を達成するのに非常に有用であることが証明されているが、計算とメモリのコストはさらに高い。 スナップショットアンサンブル(Snapshot ensemble)は、複数のローカルミニマを単一のトレーニングプロセスで組み合わせて最終的な予測を行う新しいアンサンブル手法で、複数のネットワークとメモリのトレーニングに要する時間を短縮し、結果を格納する。 ローカルなミニマを求めるオリジナルのスナップショットアンサンブルとは異なり、スナップショットアンサンブルはトレーニングの最後の数回のイテレーションに焦点を合わせ、それらからパラメータのセットを格納します。 我々のアルゴリズムはより単純だが、結果はオリジナルのものよりも正確である: 異なるハイパーパラメータとデータセットに基づいて、我々のスナップショットアンサンブルは、従来の逆行訓練と比較して5%から30%精度が向上している。

Adversarial training, as one of the few certified defenses against adversarial attacks, can be quite complicated and time-consuming, while the results might not be robust enough. To address the issue of lack of robustness, ensemble methods were proposed, aiming to get the final output by weighting the selected results from repeatedly trained processes. It is proved to be very useful in achieving robust and accurate results, but the computational and memory costs are even higher. Snapshot ensemble, a new ensemble method that combines several local minima in a single training process to make the final prediction, was proposed recently, which reduces the time spent on training multiple networks and the memory to store the results. Based on the snapshot ensemble, we present a new method that is easier to implement: unlike original snapshot ensemble that seeks for local minima, our snapshot ensemble focuses on the last few iterations of a training and stores the sets of parameters from them. Our algorithm is much simpler but the results are no less accurate than the original ones: based on different hyperparameters and datasets, our snapshot ensemble has shown a 5% to 30% increase in accuracy when compared to the traditional adversarial training.
翻訳日:2021-10-08 16:07:54 公開日:2021-10-07
# 空間分割学習による多目的最適化

Multi-objective Optimization by Learning Space Partitions ( http://arxiv.org/abs/2110.03173v1 )

ライセンス: Link先を確認
Yiyang Zhao, Linnan Wang, Kevin Yang, Tianjun Zhang, Tian Guo, Yuandong Tian(参考訳) 単一目的最適化 (soo) とは対照的に、多目的最適化 (moo) ではパレートフロンティア(pareto frontier)を見つけるための最適化が必要となる。 本稿では,観測サンプルからモデルを学習して探索空間を分割し,パレートフロンティアのサブセットを含む可能性のある将来性のある領域に注目する,新しい多目的最適化手法であるLaMOOを提案する。 パーティショニングは、データポイントが既存のサンプルのパレートフロンティアに「どれだけ近い」かを計測する支配数に基づいている。 限られたサンプルやモデルミスマッチによるパーティションエラーを考慮し,モンテカルロ木探索(MCTS)を用いて,将来性のある領域を探索し,後に優れた解を含む可能性がある準最適領域を探索する。 理論的には、ある仮定の下でLaMOOによる学習空間分割の有効性を実証する。 実証的には、人気のあるMOOメトリックであるHyperVolume(HV)ベンチマークにおいて、LaMOOは複数の実世界のMOOタスクにおいて、Nasbench201上のニューラルネットワーク探索のサンプル効率の最大225%、分子設計の最大10%において、強力なベースラインを著しく上回っている。

In contrast to single-objective optimization (SOO), multi-objective optimization (MOO) requires an optimizer to find the Pareto frontier, a subset of feasible solutions that are not dominated by other feasible solutions. In this paper, we propose LaMOO, a novel multi-objective optimizer that learns a model from observed samples to partition the search space and then focus on promising regions that are likely to contain a subset of the Pareto frontier. The partitioning is based on the dominance number, which measures "how close" a data point is to the Pareto frontier among existing samples. To account for possible partition errors due to limited samples and model mismatch, we leverage Monte Carlo Tree Search (MCTS) to exploit promising regions while exploring suboptimal regions that may turn out to contain good solutions later. Theoretically, we prove the efficacy of learning space partitioning via LaMOO under certain assumptions. Empirically, on the HyperVolume (HV) benchmark, a popular MOO metric, LaMOO substantially outperforms strong baselines on multiple real-world MOO tasks, by up to 225% in sample efficiency for neural architecture search on Nasbench201, and up to 10% for molecular design.
翻訳日:2021-10-08 16:07:33 公開日:2021-10-07
# 6gシステムにおける連合学習可能な可視光通信に向けて

Towards Federated Learning-Enabled Visible Light Communication in 6G Systems ( http://arxiv.org/abs/2110.03319v1 )

ライセンス: Link先を確認
Shimaa Naser, Lina Bariah, Sami Muhaidat, Mahmoud Al-Qutayri, Ernesto Damiani, Merouane Debbah, Paschalis C. Sofotasios(参考訳) 可視光通信(VLC)技術は、主にシンプルで低コストな実装のため、次世代無線ネットワークのキーイネーブルとして導入された。 しかしながら、VLCの完全なポテンシャル、すなわち、変調帯域幅の制限、環境光干渉、光拡散反射効果、非直線性デバイス、ランダムレシーバ配向などの実現は、いくつかの課題がある。 それとは対照的に、集中型機械学習(ML)技術は、無線通信システムに関するさまざまな課題を扱う上で、大きな可能性を示している。 具体的には、チャネル等化、推定とモデリング、リソース割り当て、日和見的スペクトルアクセス制御といった複雑なネットワークタスクを扱う上で、mlアルゴリズムが優れた能力を示すことを示した。 それでも、関連するクライアントの生データをサーバと共有する場合のプライバシと通信オーバーヘッドに関する懸念は、集中型ml技術の実装において大きなボトルネックとなる。 これにより、生データの転送に伴うコストを削減し、クライアント側でMLモデルをローカルかつ協調的にトレーニングすることで、プライバシを保護できる、新たな分散MLパラダイムである、フェデレーションドラーニング(FL)が誕生した。 したがって、FLをVLCネットワークに統合することで、VLCシステムのユビキタスで信頼性の高い実装が可能になる。 この動機により、これはvlcネットワークにおけるflの適用に関する文献における最初の詳細なレビューである。 この目的のために,FL の異なるアーキテクチャと関連する特徴に加えて,FL ベースの VLC システムの設計面について概観する。 最後に, VLCシステムの性能とロバスト性を大幅に向上させるため, FLの今後の研究方向性について述べる。

Visible light communication (VLC) technology was introduced as a key enabler for the next generation of wireless networks, mainly thanks to its simple and low-cost implementation. However, several challenges prohibit the realization of the full potentials of VLC, namely, limited modulation bandwidth, ambient light interference, optical diffuse reflection effects, devices non-linearity, and random receiver orientation. On the contrary, centralized machine learning (ML) techniques have demonstrated a significant potential in handling different challenges relating to wireless communication systems. Specifically, it was shown that ML algorithms exhibit superior capabilities in handling complicated network tasks, such as channel equalization, estimation and modeling, resources allocation, and opportunistic spectrum access control, to name a few. Nevertheless, concerns pertaining to privacy and communication overhead when sharing raw data of the involved clients with a server constitute major bottlenecks in the implementation of centralized ML techniques. This has motivated the emergence of a new distributed ML paradigm, namely federated learning (FL), which can reduce the cost associated with transferring raw data, and preserve privacy by training ML models locally and collaboratively at the clients' side. Hence, it becomes evident that integrating FL into VLC networks can provide ubiquitous and reliable implementation of VLC systems. With this motivation, this is the first in-depth review in the literature on the application of FL in VLC networks. To that end, besides the different architectures and related characteristics of FL, we provide a thorough overview on the main design aspects of FL based VLC systems. Finally, we also highlight some potential future research directions of FL that are envisioned to substantially enhance the performance and robustness of VLC systems.
翻訳日:2021-10-08 16:07:09 公開日:2021-10-07
# ロバストで効率的なオフポリティ強化学習のための悲観的学習

Learning Pessimism for Robust and Efficient Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2110.03375v1 )

ライセンス: Link先を確認
Edoardo Cetin, Oya Celiktutan(参考訳) 一般的なオフポリシー深層強化学習アルゴリズムは、期待された目標リターンの悲観的推定を利用して、時間拡散学習中の過大評価バイアスを補償する。 本研究では,批判者の認識の不確かさを定量化する新しい方法に基づいて,このような悲観主義を実践するための新しい学習可能なペナルティを提案する。 さらに,ターゲットリターンのバイアスの大きさを推定し最小化するための戦略であるdual td-learningを用いて,批判者とともにペナルティを学ぶことを提案する。 本手法は,過度に悲観的な目標の欠点を伴わずに,トレーニングを通して過大評価バイアスを正確に対処できる。 経験的に、本手法と他の直交的改良を一般的なオフポリシーアルゴリズムと統合することにより、プロピオセプティブとピクセルの観察から連続的な制御タスクを実現する。

Popular off-policy deep reinforcement learning algorithms compensate for overestimation bias during temporal-difference learning by utilizing pessimistic estimates of the expected target returns. In this work, we propose a novel learnable penalty to enact such pessimism, based on a new way to quantify the critic's epistemic uncertainty. Furthermore, we propose to learn the penalty alongside the critic with dual TD-learning, a strategy to estimate and minimize the bias magnitude in the target returns. Our method enables us to accurately counteract overestimation bias throughout training without incurring the downsides of overly pessimistic targets. Empirically, by integrating our method and other orthogonal improvements with popular off-policy algorithms, we achieve state-of-the-art results in continuous control tasks from both proprioceptive and pixel observations.
翻訳日:2021-10-08 16:06:42 公開日:2021-10-07
# バッド・ポリシィ密度:強化学習硬度の測定

Bad-Policy Density: A Measure of Reinforcement Learning Hardness ( http://arxiv.org/abs/2110.03424v1 )

ライセンス: Link先を確認
David Abel, Cameron Allen, Dilip Arumugam, D. Ellis Hershkowitz, Michael L. Littman, Lawson L.S. Wong(参考訳) 強化学習は一般的に難しい。 しかし、多くの特定の環境では、学習は簡単です。 ある環境では学習が簡単だが、別の環境では難しいのか? この問題は、悪い政治密度と呼ばれる強化学習難度を簡易に測定することで解決する。 この量は、所望値のしきい値以下である決定論的定常政策空間の分数を測定する。 この単純な量には、学習困難度を期待する多くの特性があることを証明する。 さらに、一般に測度を計算することはnp困難であるが、多項式時間近似への経路が存在することを証明する。 我々はポテンシャル方向を要約して結論付け、この測度に使用する。

Reinforcement learning is hard in general. Yet, in many specific environments, learning is easy. What makes learning easy in one environment, but difficult in another? We address this question by proposing a simple measure of reinforcement-learni ng hardness called the bad-policy density. This quantity measures the fraction of the deterministic stationary policy space that is below a desired threshold in value. We prove that this simple quantity has many properties one would expect of a measure of learning hardness. Further, we prove it is NP-hard to compute the measure in general, but there are paths to polynomial-time approximation. We conclude by summarizing potential directions and uses for this measure.
翻訳日:2021-10-08 16:06:11 公開日:2021-10-07
# ドリフトストリーム分類のための広帯域アンサンブル学習システム

A Broad Ensemble Learning System for Drifting Stream Classification ( http://arxiv.org/abs/2110.03540v1 )

ライセンス: Link先を確認
Sepehr Bakhshi, Pouya Ghahramanian, Hamed Bonab, and Fazli Can(参考訳) データストリーム分類は、時間的データの増加により、主要な研究トピックとなっている。 データストリーム分類の最大の障害の1つは、進化するデータを扱うアルゴリズムの開発である。 データが時間とともに変化すると、静的予測モデルは妥当性を失う。 コンセプトドリフトへの適応は、より堅牢でパフォーマンスのよいモデルを提供する。 Broad Learning System (BLS)は、最近インクリメンタルラーニングのために開発された効果的な広義ニューラルネットワークである。 BLSは大量のデータチャンクを必要とし、概念のドリフトを処理できないため、即時応答は提供できない。 本研究では,概念ドリフトを用いたストリーム分類のためのBroad Ensemble Learning System (BELS)を提案する。 belsは、クラス内モデルの精度を大幅に向上させる新しい更新方法を使っている。 BLSの限界に対処するために動的出力アンサンブル層を使用する。 数式導出を行い、BLSとの比較を含む11のデータセットによる総合的な実験を行い、複数のドリフトストリーム上でパラメータとロバスト性解析を行い、7つの最先端のベースラインを統計的に著しく上回ることを示す。 提案手法はblsと比較して平均44%改善し,他の競合ベースラインと比較して29%改善した。

Data stream classification has become a major research topic due to the increase in temporal data. One of the biggest hurdles of data stream classification is the development of algorithms that deal with evolving data, also known as concept drifts. As data changes over time, static prediction models lose their validity. Adapting to concept drifts provides more robust and better performing models. The Broad Learning System (BLS) is an effective broad neural architecture recently developed for incremental learning. BLS cannot provide instant response since it requires huge data chunks and is unable to handle concept drifts. We propose a Broad Ensemble Learning System (BELS) for stream classification with concept drift. BELS uses a novel updating method that greatly improves best-in-class model accuracy. It employs a dynamic output ensemble layer to address the limitations of BLS. We present its mathematical derivation, provide comprehensive experiments with 11 datasets that demonstrate the adaptability of our model, including a comparison of our model with BLS, and provide parameter and robustness analysis on several drifting streams, showing that it statistically significantly outperforms seven state-of-the-art baselines. We show that our proposed method improves on average 44% compared to BLS, and 29% compared to other competitive baselines.
翻訳日:2021-10-08 16:06:03 公開日:2021-10-07
# 課金するか、売るか? LSTMとオートエンコーダによるEVパックの寿命推定

To Charge or To Sell? EV Pack Useful Life Estimation via LSTMs and Autoencoders ( http://arxiv.org/abs/2110.03585v1 )

ライセンス: Link先を確認
Michael Bosello, Carlo Falcomer, Claudio Rossi, Giovanni Pau(参考訳) 電気自動車(ev)は、より良いパフォーマンスと快適性を提供することを約束しながら急速に普及している。 彼らの成功にもかかわらず、そのコストは依然として課題である。 EVの最も高価な部品の1つはリチウムイオン電池であり、幅広い用途におけるエネルギー貯蔵の標準となった。 バッテリーパックの残留有効寿命(RUL)を正確に見積もれば、その再利用は可能であり、EVのコスト削減と持続可能性の向上に役立つ。 電池パックの残留市場値を定量化するために、正しいRUL推定を用いることができる。 顧客は、まだ価値がある場合、すなわち、ターゲットアプリケーションの寿命を超える前にバッテリーを売ることを決定でき、安全性と信頼性を損なうことなく、第2のドメインで再利用することができる。 本稿では,LSTMとオートエンコーダに基づくディープラーニング手法を用いて,リイオン電池のRULを推定する。 文献で提案されているものと比較して,本手法の適用性を確保するため,本手法を実運用アプリケーションにも適用する。 例えば、(1) 測定不能な変数を入力として使うのを避ける、(2) 幅広い可変性と異なる条件を持つ適切なデータセットを使用すること、(3) rulを定義するのにサイクルを使用しない、などである。

Electric Vehicles (EVs) are spreading fast as they promise to provide better performances and comfort, but above all, to help facing climate change. Despite their success, their cost is still a challenge. One of the most expensive components of EVs is lithium-ion batteries, which became the standard for energy storage in a wide range of applications. Precisely estimating the Remaining Useful Life (RUL) of battery packs can open to their reuse and thus help to reduce the cost of EVs and improve sustainability. A correct RUL estimation can be used to quantify the residual market value of the battery pack. The customer can then decide to sell the battery when it still has a value, i.e., before it exceeds its end of life of the target application and can still be reused in a second domain without compromising safety and reliability. In this paper, we propose to use a Deep Learning approach based on LSTMs and Autoencoders to estimate the RUL of li-ion batteries. Compared to what has been proposed so far in the literature, we employ measures to ensure the applicability of the method also in the real deployed application. Such measures include (1) avoid using non-measurable variables as input, (2) employ appropriate datasets with wide variability and different conditions, (3) do not use cycles to define the RUL.
翻訳日:2021-10-08 16:05:46 公開日:2021-10-07
# 結合学習能力を有する神経接核

Neural Tangent Kernel Empowered Federated Learning ( http://arxiv.org/abs/2110.03681v1 )

ライセンス: Link先を確認
Kai Yue, Richeng Jin, Ryan Pilgrim, Chau-Wai Wong, Dror Baron, Huaiyu Dai(参考訳) フェデレートラーニング(FL)は、複数の参加者が生データを共有せずに機械学習問題を共同で解決する、プライバシー保護パラダイムである。 従来の分散学習とは異なり、FLの特徴は統計的不均一性であり、参加者間でのデータ分布は異なる。 一方、ニューラルネットワークの解釈の最近の進歩は、収束解析と一般化解析にニューラルネットワークの接点核(ntk)を多用している。 本稿では,NTKフレームワークを利用した新しいFLパラダイムを提案する。 提案パラダイムは,従来のFLパラダイムよりも表現力の高い更新データを送信することで,統計的不均一性の課題に対処する。 具体的には、サンプルワイズジャコビアン行列は、モデル重み/勾配ではなく、参加者によってアップロードされる。 次にサーバは経験的なカーネルマトリックスを構築し、勾配降下を明示的に行わずにグローバルモデルを更新する。 通信効率の向上とプライバシーの向上を図った変種をさらに発展させる。 数値計算の結果,提案手法は,連合平均化よりも通信ラウンド数を桁違いに削減しつつ,同じ精度を達成できることがわかった。

Federated learning (FL) is a privacy-preserving paradigm where multiple participants jointly solve a machine learning problem without sharing raw data. Unlike traditional distributed learning, a unique characteristic of FL is statistical heterogeneity, namely, data distributions across participants are different from each other. Meanwhile, recent advances in the interpretation of neural networks have seen a wide use of neural tangent kernel (NTK) for convergence and generalization analyses. In this paper, we propose a novel FL paradigm empowered by the NTK framework. The proposed paradigm addresses the challenge of statistical heterogeneity by transmitting update data that are more expressive than those of the traditional FL paradigms. Specifically, sample-wise Jacobian matrices, rather than model weights/gradients, are uploaded by participants. The server then constructs an empirical kernel matrix to update a global model without explicitly performing gradient descent. We further develop a variant with improved communication efficiency and enhanced privacy. Numerical results show that the proposed paradigm can achieve the same accuracy while reducing the number of communication rounds by an order of magnitude compared to federated averaging.
翻訳日:2021-10-08 16:05:23 公開日:2021-10-07
# EE-Net: コンテキスト帯域における爆発探索ニューラルネットワーク

EE-Net: Exploitation-Explora tion Neural Networks in Contextual Bandits ( http://arxiv.org/abs/2110.03177v1 )

ライセンス: Link先を確認
Yikun Ban, Yuchen Yan, Arindam Banerjee, Jingrui He(参考訳) コンテキスト多武装の盗賊は何十年も研究され、オンライン広告やパーソナライズドレコメンデーションなど様々な用途に適応してきた。 盗賊の搾取と探索のトレードオフを解決するために、エプシロン・グレーディ、トンプソン・サンプリング(TS)、アッパー・信頼境界(UCB)の3つの主要な技術がある。 近年、線形文脈的バンディットは、報酬関数を推定し、探索のためのtsまたはucb戦略と組み合わせるためにリッジ回帰を採用した。 しかし、この一連の作業は報酬がarmベクトルの線形関数に基づいていることを明示的に仮定しており、実世界のデータセットでは当てはまらないかもしれない。 この課題を克服するために、ニューラルネットワークが基礎となる報酬関数を学習するために割り当てられ、TSまたはUTBが探索に適応する一連のニューラルネットワークベースのバンディットアルゴリズムが提案されている。 本稿では,新しい探索戦略を持つニューラルベースバンディットアプローチである"EE-Net"を提案する。 報酬関数を学習するためにニューラルネットワーク(爆発ネットワーク)を利用するのに加えて、ee-netは他のニューラルネットワーク(爆発ネットワーク)を採用し、現在推定される報酬に比べて潜在的な利益を適応的に学習する。 次に、エクスプロイテーション・エクスプロレーションネットワークからの出力を組み合わせるために、意思決定者を構築する。 UCBベースとTSベースの両方で既存の最先端のニューラルバンディットアルゴリズム(\mathcal{O}(\sqrt{T}\log T)$より厳格な、EE-Netが$\mathcal{O}(\sqrt{T\log T})$ regretを達成することを証明している。 実世界の4つのデータセットに関する広範な実験を通して、EE-Netが既存の線形およびニューラルバンディットアプローチより優れていることを示す。

Contextual multi-armed bandits have been studied for decades and adapted to various applications such as online advertising and personalized recommendation. To solve the exploitation-explora tion tradeoff in bandits, there are three main techniques: epsilon-greedy, Thompson Sampling (TS), and Upper Confidence Bound (UCB). In recent literature, linear contextual bandits have adopted ridge regression to estimate the reward function and combine it with TS or UCB strategies for exploration. However, this line of works explicitly assumes the reward is based on a linear function of arm vectors, which may not be true in real-world datasets. To overcome this challenge, a series of neural-based bandit algorithms have been proposed, where a neural network is assigned to learn the underlying reward function and TS or UCB are adapted for exploration. In this paper, we propose "EE-Net", a neural-based bandit approach with a novel exploration strategy. In addition to utilizing a neural network (Exploitation network) to learn the reward function, EE-Net adopts another neural network (Exploration network) to adaptively learn potential gains compared to currently estimated reward. Then, a decision-maker is constructed to combine the outputs from the Exploitation and Exploration networks. We prove that EE-Net achieves $\mathcal{O}(\sqrt{T\log T})$ regret, which is tighter than existing state-of-the-art neural bandit algorithms ($\mathcal{O}(\sqrt{T}\log T)$ for both UCB-based and TS-based). Through extensive experiments on four real-world datasets, we show that EE-Net outperforms existing linear and neural bandit approaches.
翻訳日:2021-10-08 16:04:43 公開日:2021-10-07
# AgFlow: 勾配流の入射規則化効果によるペナル化PCAの高速モデル選択

AgFlow: Fast Model Selection of Penalized PCA via Implicit Regularization Effects of Gradient Flow ( http://arxiv.org/abs/2110.03273v1 )

ライセンス: Link先を確認
Haiyan Jiang, Haoyi Xiong, Dongrui Wu, Ji Liu, and Dejing Dou(参考訳) 主成分分析(PCA)は特徴抽出と次元減少の有効な手法として広く用いられている。 High Dimension Low Sample Size (HDLSS) 設定では、様々なペナルティを持つモデルのモデル選択を実装することにより、ペナルティ付きロードと自動ペナルティ選択を備えた修正主成分が好まれる。 初期の研究 [1, 2] では, 線形回帰の解路を通した$L_2$-ペナル化PCAにおけるモデル選択の可能性を示すペナル化PCAが提案されているが, 行列逆算の集中計算のため, 非常に時間がかかる。 本稿では, (統計的) 勾配流 [3, 4] によって導入された暗黙的正規化効果を取り入れ, 計算複雑性を低減し, $l_2$-regularization 下での$l_2$-penalized pca の完全解経路を求めることにより, ペナライズドpca の高速モデル選択法を提案する。 実世界のデータセットに関する広範な実験を行う。 AgFlowは計算コストの観点から既存の手法(Oja [5]、Power [6]、Shamir [7]およびバニラリッジ推定器)より優れています。

Principal component analysis (PCA) has been widely used as an effective technique for feature extraction and dimension reduction. In the High Dimension Low Sample Size (HDLSS) setting, one may prefer modified principal components, with penalized loadings, and automated penalty selection by implementing model selection among these different models with varying penalties. The earlier work [1, 2] has proposed penalized PCA, indicating the feasibility of model selection in $L_2$- penalized PCA through the solution path of Ridge regression, however, it is extremely time-consuming because of the intensive calculation of matrix inverse. In this paper, we propose a fast model selection method for penalized PCA, named Approximated Gradient Flow (AgFlow), which lowers the computation complexity through incorporating the implicit regularization effect introduced by (stochastic) gradient flow [3, 4] and obtains the complete solution path of $L_2$-penalized PCA under varying $L_2$-regularization . We perform extensive experiments on real-world datasets. AgFlow outperforms existing methods (Oja [5], Power [6], and Shamir [7] and the vanilla Ridge estimators) in terms of computation costs.
翻訳日:2021-10-08 16:04:09 公開日:2021-10-07
# 理論保証付き変分不等式解のための圧縮通信を用いた分散手法

Distributed Methods with Compressed Communication for Solving Variational Inequalities, with Theoretical Guarantees ( http://arxiv.org/abs/2110.03313v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov and Peter Richt\'arik and Michael Diskin and Max Ryabinin and Alexander Gasnikov(参考訳) 一般およびサドル点問題における変分不等式は、敵対的学習、GAN、輸送、堅牢な最適化を含む機械学習アプリケーションにおいて、ますます重要になっている。 これらのアプリケーション間でハイパフォーマンスモデルをトレーニングするために必要なデータと問題サイズの増加に伴い、並列および分散コンピューティングに頼る必要がある。 しかし、分散トレーニングでは、計算ノード間の通信がトレーニングの鍵となるボトルネックとなり、高次元モデルや過度パラメータモデルではこの問題が悪化する。 これらの考慮から,既存の手法に同等の品質のモデルを取得しながら,訓練中の伝達情報の量を削減する戦略を組み込むことが重要である。 本稿では,MASHA1とMASHA2の圧縮通信を用いた変分不等式とサドル点問題の解法として,初めて理論的に基礎付けられた分散手法を提案する。 我々の理論と手法は、非バイアス(Rand$k$, MASHA1)と契約的(Top$k$, MASHA2)圧縮機の両方の使用を可能にする。 両線形最小値問題と変圧器の大規模分散対角訓練の2つの実験装置を用いて,実験結果の有効性を実証的に検証した。

Variational inequalities in general and saddle point problems in particular are increasingly relevant in machine learning applications, including adversarial learning, GANs, transport and robust optimization. With increasing data and problem sizes necessary to train high performing models across these and other applications, it is necessary to rely on parallel and distributed computing. However, in distributed training, communication among the compute nodes is a key bottleneck during training, and this problem is exacerbated for high dimensional and over-parameterized models models. Due to these considerations, it is important to equip existing methods with strategies that would allow to reduce the volume of transmitted information during training while obtaining a model of comparable quality. In this paper, we present the first theoretically grounded distributed methods for solving variational inequalities and saddle point problems using compressed communication: MASHA1 and MASHA2. Our theory and methods allow for the use of both unbiased (such as Rand$k$; MASHA1) and contractive (such as Top$k$; MASHA2) compressors. We empirically validate our conclusions using two experimental setups: a standard bilinear min-max problem, and large-scale distributed adversarial training of transformers.
翻訳日:2021-10-08 16:03:41 公開日:2021-10-07
# 雑音ラベルを用いたトレーニングにおけるロバスト性と信頼性

Robustness and reliability when training with noisy labels ( http://arxiv.org/abs/2110.03321v1 )

ライセンス: Link先を確認
Amanda Olmin and Fredrik Lindsten(参考訳) 教師あり学習のためのデータのラベル付けは費用がかかり、時間がかかるため、大きなデータセットにラベルノイズを組み込むリスクが差し迫っている。 厳密な適切な損失を用いた柔軟な判別モデルをトレーニングすると、ノイズは必然的に、ノイズラベル上の条件分布へとソリューションをシフトさせる。 それでも、ディープニューラルネットワークはランダムなラベルに適合できることが証明されている一方で、ロバストな損失関数の使用はラベルノイズの影響を実証的に緩和する。 しかし、この観測は正確さのロバスト性に関係しており、信頼できる不確かさの定量化が重要であれば不十分である。 入力依存雑音モデルに対する雑音ラベル上の条件分布の特性を解析することによりこれを実証する。 さらに、クリーンでノイズの多いデータ分布下での漸近的リスク最小化器の重複により特徴づけられるロバストな損失関数の集合を評価する。 厳密な適切な損失関数とロバスト損失関数はどちらも漸近的ロバスト性を提供するが、結果のモデルが校正されることは保証されない。 さらに、オーバーフィッティングは実践上の問題である。 これらの結果から,ノイズラベル付けアルゴリズムの固有ロバスト性を説明するとともに,新たなノイズロバストアルゴリズムの開発における指導を行う。

Labelling of data for supervised learning can be costly and time-consuming and the risk of incorporating label noise in large data sets is imminent. If training a flexible discriminative model using a strictly proper loss, such noise will inevitably shift the solution towards the conditional distribution over noisy labels. Nevertheless, while deep neural networks have proved capable of fitting random labels, regularisation and the use of robust loss functions empirically mitigate the effects of label noise. However, such observations concern robustness in accuracy, which is insufficient if reliable uncertainty quantification is critical. We demonstrate this by analysing the properties of the conditional distribution over noisy labels for an input-dependent noise model. In addition, we evaluate the set of robust loss functions characterised by an overlap in asymptotic risk minimisers under the clean and noisy data distributions. We find that strictly proper and robust loss functions both offer asymptotic robustness in accuracy, but neither guarantee that the resulting model is calibrated. Moreover, overfitting is an issue in practice. With these results, we aim to explain inherent robustness of algorithms to label noise and to give guidance in the development of new noise-robust algorithms.
翻訳日:2021-10-08 16:03:20 公開日:2021-10-07
# invariant and equivariant network designのためのフレーム平均化

Frame Averaging for Invariant and Equivariant Network Design ( http://arxiv.org/abs/2110.03336v1 )

ライセンス: Link先を確認
Omri Puny, Matan Atzmon, Heli Ben-Hamu, Edward J. Smith, Ishan Misra, Aditya Grover, Yaron Lipman(参考訳) 多くの機械学習タスクは、入力データの特定の対称性に不変または同変であることが知られている学習関数を含む。 しかし、これらの対称性を尊重し、表現的かつ計算的に効率的であるニューラルネットワークアーキテクチャを設計することはしばしば困難である。 例えば、ユークリッド運動不変/等変グラフや点雲ニューラルネットワークなどである。 フレーム平均化(fa)は既知の(バックボーン)アーキテクチャを新しい対称性型に不変あるいは同変に適応するための汎用的かつ体系的なフレームワークである。 我々のフレームワークは、不変性や同値性を保証するが難解な、よく知られたグループ平均化演算子に基づいている。 対照的に、多くの重要な対称性のクラスにおいて、この作用素は、フレームと呼ばれる群要素の小さな部分集合上の平均演算子に置き換えられる。 フレーム上の平均化は、グループ全体の平均化よりも計算がずっと簡単であると同時に、正確な不変性や同値性を保証する。 さらに,faモデルが広い範囲において最大表現力を有し,一般にバックボーンアーキテクチャの表現力を保持することを証明した。 フレーム平均化を用いて、新しいユニバーサルグラフニューラルネットワーク(GNN)、ユニバーサルユークリッド運動不変点ネットワーク、およびユークリッド運動不変メッセージパッシング(MP)GNNを提案する。 本稿では,ポイントクラウドの正規化,2ドル/WLグラフ分離,および$n$body-body dynamics予測など,いくつかのアプリケーションにおけるFAの実用的有効性を示す。

Many machine learning tasks involve learning functions that are known to be invariant or equivariant to certain symmetries of the input data. However, it is often challenging to design neural network architectures that respect these symmetries while being expressive and computationally efficient. For example, Euclidean motion invariant/equivarian t graph or point cloud neural networks. We introduce Frame Averaging (FA), a general purpose and systematic framework for adapting known (backbone) architectures to become invariant or equivariant to new symmetry types. Our framework builds on the well known group averaging operator that guarantees invariance or equivariance but is intractable. In contrast, we observe that for many important classes of symmetries, this operator can be replaced with an averaging operator over a small subset of the group elements, called a frame. We show that averaging over a frame guarantees exact invariance or equivariance while often being much simpler to compute than averaging over the entire group. Furthermore, we prove that FA-based models have maximal expressive power in a broad setting and in general preserve the expressive power of their backbone architectures. Using frame averaging, we propose a new class of universal Graph Neural Networks (GNNs), universal Euclidean motion invariant point cloud networks, and Euclidean motion invariant Message Passing (MP) GNNs. We demonstrate the practical effectiveness of FA on several applications including point cloud normal estimation, beyond $2$-WL graph separation, and $n$-body dynamics prediction, achieving state-of-the-art results in all of these benchmarks.
翻訳日:2021-10-08 16:03:00 公開日:2021-10-07
# a unbiased stratified statistic and a fast gradient optimization algorithm based based based.$\bar{g}_{mst}$:a unbiased stratified statistic and a fast gradient optimization algorithm

$\bar{G}_{mst}$:An Unbiased Stratified Statistic and a Fast Gradient Optimization Algorithm Based on It ( http://arxiv.org/abs/2110.03354v1 )

ライセンス: Link先を確認
Aixiang Chen(参考訳) 連続反復のパラメータ更新による勾配予測と分散の変動効果は、現在の主流勾配最適化アルゴリズムによって無視または混乱される。 本稿では,新しい非バイアス階層化統計値 \$\bar{g}_{mst}$\ を導入することでこの問題を解決し,$\bar{g}_{mst}$\ の高速収束条件も確立した。 $\bar{G}_{mst}$\ をベースとした MSSG という新しいアルゴリズムは、他の sgd-like アルゴリズムより優れている。 理論的な結論と実験的証拠は、深層モデルの訓練にMSSGを使うことを強く示唆している。

-The fluctuation effect of gradient expectation and variance caused by parameter update between consecutive iterations is neglected or confusing by current mainstream gradient optimization algorithms. The work in this paper remedy this issue by introducing a novel unbiased stratified statistic \ $\bar{G}_{mst}$\ , a sufficient condition of fast convergence for \ $\bar{G}_{mst}$\ also is established. A novel algorithm named MSSG designed based on \ $\bar{G}_{mst}$\ outperforms other sgd-like algorithms. Theoretical conclusions and experimental evidence strongly suggest to employ MSSG when training deep model.
翻訳日:2021-10-08 16:02:32 公開日:2021-10-07
# tile embedded: 機械学習による手続きレベル生成のための汎用表現

Tile Embedding: A General Representation for Procedural Level Generation via Machine Learning ( http://arxiv.org/abs/2110.03181v1 )

ライセンス: Link先を確認
Mrunal Jadhav and Matthew Guzdial(参考訳) 近年,機械学習(plgml)によるプロシーデュラルレベル生成が,機械学習によるゲームレベル生成に応用されている。 これらのアプローチは人間によるゲームレベルの表現に依存している。 ゲーム用のアノテーション付きデータセットを作成するにはドメイン知識が必要で、時間を要する。 したがって、多くのビデオゲームが存在するが、注釈付きデータセットはごく少数の場合にのみキュレートされる。 したがって、現在のplgml技術は限定的な領域で研究されており、スーパーマリオブラザースが最も一般的な例である。 この問題に対処するため,我々は,タイルベースの2dゲームのための統一された安価な表現であるtile embeddedsを提案する。 この埋め込みを学ぶために、既存の人間の注釈付きゲームからタイルの視覚情報と意味情報を訓練したオートエンコーダを採用しています。 我々は、この表現を、目に見えないタイルの余裕を予測し、アノテーションや注釈のないゲームのためのPLGML表現として機能する能力に基づいて評価する。

In recent years, Procedural Level Generation via Machine Learning (PLGML) techniques have been applied to generate game levels with machine learning. These approaches rely on human-annotated representations of game levels. Creating annotated datasets for games requires domain knowledge and is time-consuming. Hence, though a large number of video games exist, annotated datasets are curated only for a small handful. Thus current PLGML techniques have been explored in limited domains, with Super Mario Bros. as the most common example. To address this problem, we present tile embeddings, a unified, affordance-rich representation for tile-based 2D games. To learn this embedding, we employ autoencoders trained on the visual and semantic information of tiles from a set of existing, human-annotated games. We evaluate this representation on its ability to predict affordances for unseen tiles, and to serve as a PLGML representation for annotated and unannotated games.
翻訳日:2021-10-08 16:01:11 公開日:2021-10-07
# 校正誤差に基づく最適化によるmc-dropout不確かさ推定の改善

Improving MC-Dropout Uncertainty Estimates with Calibration Error-based Optimization ( http://arxiv.org/abs/2110.03260v1 )

ライセンス: Link先を確認
Afshar Shamsi, Hamzeh Asgharnezhad, Moloud Abdar, AmirReza Tajally, Abbas Khosravi, Saeid Nahavandi, and Henry Leung(参考訳) 機械学習とディープラーニング手法の不確かさの定量化は、得られた結果に対する信頼を高める上で重要な役割を果たす。 近年,多くの不確実性定量化手法が導入されている。 モンテカルロ・ドロップアウト(MC-Dropout)は、ディープラーニング手法における不確実性を定量化する最もよく知られた手法の1つである。 本研究では,クロスエントロピーと予測校正誤差(ECE)と予測エントロピー(PE)を組み合わせた2つの新たな損失関数を提案する。 その結果, 新たに提案する損失関数がmc-dropout法を校正することが明らかとなった。 その結果,モデル全体の性能を犠牲にすることなく,不確かさ推定の分布と誤予測との重なりを最小化するハイブリッド損失関数の大きな影響が確認された。

Uncertainty quantification of machine learning and deep learning methods plays an important role in enhancing trust to the obtained result. In recent years, a numerous number of uncertainty quantification methods have been introduced. Monte Carlo dropout (MC-Dropout) is one of the most well-known techniques to quantify uncertainty in deep learning methods. In this study, we propose two new loss functions by combining cross entropy with Expected Calibration Error (ECE) and Predictive Entropy (PE). The obtained results clearly show that the new proposed loss functions lead to having a calibrated MC-Dropout method. Our results confirmed the great impact of the new hybrid loss functions for minimising the overlap between the distributions of uncertainty estimates for correct and incorrect predictions without sacrificing the model's overall performance.
翻訳日:2021-10-08 16:00:57 公開日:2021-10-07
# 位相相関ネットワークを用いた教師なし画像分解

Unsupervised Image Decomposition with Phase-Correlation Networks ( http://arxiv.org/abs/2110.03473v1 )

ライセンス: Link先を確認
Angel Villar-Corrales and Sven Behnke(参考訳) シーンをオブジェクトコンポーネントに分解する能力は、自律的なエージェントにとって望ましい特性であり、周囲で理屈と行動を可能にする。 近年,データから対象中心表現を教師なしで学習する手法が提案されている。 これらの手法は、ディープニューラルネットワークによって学習される潜在表現に依存することが多いため、高い計算コストと大量のキュレーションデータを必要とする。 このようなモデルは解釈も困難である。 これらの課題に対処するために,学習対象のプロトタイプセットの変換版として表現されたシーンをオブジェクトコンポーネントに分解する新しいモデルPCDNetを提案する。 PCDNetのコアビルディングブロックはPhase-Correlation Cell (PC Cell) であり、オブジェクトのプロトタイプと変換されたバージョンの間の変換を推定するために、画像の周波数領域表現を利用する。 実験では、PCDNetが、少数の学習可能なパラメータを使用し、完全に解釈可能でありながら、単純なベンチマークデータセットやより困難なデータ上で、教師なしのオブジェクト発見とセグメンテーションの最先端手法よりも優れていることを示す。

The ability to decompose scenes into their object components is a desired property for autonomous agents, allowing them to reason and act in their surroundings. Recently, different methods have been proposed to learn object-centric representations from data in an unsupervised manner. These methods often rely on latent representations learned by deep neural networks, hence requiring high computational costs and large amounts of curated data. Such models are also difficult to interpret. To address these challenges, we propose the Phase-Correlation Decomposition Network (PCDNet), a novel model that decomposes a scene into its object components, which are represented as transformed versions of a set of learned object prototypes. The core building block in PCDNet is the Phase-Correlation Cell (PC Cell), which exploits the frequency-domain representation of the images in order to estimate the transformation between an object prototype and its transformed version in the image. In our experiments, we show how PCDNet outperforms state-of-the-art methods for unsupervised object discovery and segmentation on simple benchmark datasets and on more challenging data, while using a small number of learnable parameters and being fully interpretable.
翻訳日:2021-10-08 16:00:45 公開日:2021-10-07
# コントラスト学習とPseudolabelsを用いた小売商品画像分類のための表現学習

Using Contrastive Learning and Pseudolabels to learn representations for Retail Product Image Classification ( http://arxiv.org/abs/2110.03639v1 )

ライセンス: Link先を確認
Muktabh Mayank Srivastava(参考訳) 小売商品のイメージ分類の問題はしばしばショット分類の問題であり、小売商品のクラスは猫や犬、木のような画像にまたがるバリエーションのタイプを持つことができない。 これまでの研究では、データセットの分類精度を向上させるために、畳み込みニューラルネットワークを微調整する様々な方法が示されてきた。 本研究では,問題ステートメントに対処しようと試みている。 畳み込みニューラルネットワークバックボーンを事前トレーニングすることは可能で,小売製品イメージの十分な表現が得られるため,これらの表現に対する単純なロジスティック回帰のトレーニングは,優れた分類子をもたらすか? コントラスト学習と疑似ラベルに基づくノイズ学習を用いて,商品画像分類のためのconvnetバックボーン全体を微調整する精度の高い表現を学習する。

Retail product Image classification problems are often few shot classification problems, given retail product classes cannot have the type of variations across images like a cat or dog or tree could have. Previous works have shown different methods to finetune Convolutional Neural Networks to achieve better classification accuracy on such datasets. In this work, we try to address the problem statement : Can we pretrain a Convolutional Neural Network backbone which yields good enough representations for retail product images, so that training a simple logistic regression on these representations gives us good classifiers ? We use contrastive learning and pseudolabel based noisy student training to learn representations that get accuracy in order of finetuning the entire Convnet backbone for retail product image classification.
翻訳日:2021-10-08 16:00:23 公開日:2021-10-07
# キーポイントマッチングと対話型自己注意ネットワークを用いた小売posmの検証

Using Keypoint Matching and Interactive Self Attention Network to verify Retail POSMs ( http://arxiv.org/abs/2110.03646v1 )

ライセンス: Link先を確認
Harshita Seth, Sonaal Kant, Muktabh Mayank Srivastava(参考訳) ポイント・オブ・セール(posm)は、企業が商品情報や商品を小売店舗で伝達するために使用する商品である。 POSMは企業の小売マーケティング戦略の一部であり、しばしば小売店周辺のスタイリングされたウィンドウディスプレイとして使われる。 本研究では,スーパーマーケットにおけるPOSMの検証作業にコンピュータビジョン技術を適用する。 本研究では,畳み込みニューラルネットワークを用いた非教師付きキーポイントマッチングをベースラインとして,posmコンポーネントの検証を行い,ベースラインの精度を大きなマージンで向上させる教師付きニューラルネットワークベースの手法を提案する。 また,教師付きパイプラインは訓練対象のposm素材に限定されず,一般化できることを示した。 我々は,小売棚画像からなるプライベートデータセット上でモデルをトレーニングし,評価する。

Point of Sale Materials(POSM) are the merchandising and decoration items that are used by companies to communicate product information and offers in retail stores. POSMs are part of companies' retail marketing strategy and are often applied as stylized window displays around retail shelves. In this work, we apply computer vision techniques to the task of verification of POSMs in supermarkets by telling if all desired components of window display are present in a shelf image. We use Convolutional Neural Network based unsupervised keypoint matching as a baseline to verify POSM components and propose a supervised Neural Network based method to enhance the accuracy of baseline by a large margin. We also show that the supervised pipeline is not restricted to the POSM material it is trained on and can generalize. We train and evaluate our model on a private dataset composed of retail shelf images.
翻訳日:2021-10-08 16:00:09 公開日:2021-10-07
# DoubleStar: 自律システムにおける奥行き推定に基づく長距離攻撃

DoubleStar: Long-Range Attack Towards Depth Estimation based Obstacle Avoidance in Autonomous Systems ( http://arxiv.org/abs/2110.03154v1 )

ライセンス: Link先を確認
Ce Zhou (1), Qiben Yan (1), Yan Shi (1), Lichao Sun (2) ((1) Michigan State University, (2) Lehigh University)(参考訳) 深さ推定に基づく障害物回避は、安全のために自律システム(道路と車両)で広く採用されている。 通常、ステレオカメラを使用して障害物を自動的に検知し、例えば、道の障害物から数メートル先で停止したり、検出された障害物から遠ざかるなど、飛行・運転の判断を行う。 本稿では,障害物回避に使用されるステレオビジョンに基づく深度推定アルゴリズムに関する新たなセキュリティリスクについて検討する。 深度推定アルゴリズムにおけるステレオマッチングの弱さと光学イメージングにおけるレンズフレア効果を生かして、2つの補完光源から純粋な光を投影することで、偽の障害物深度を注入する長距離攻撃であるdoublestarを提案する。 DoubleStarには、ビームアタックとオーブアタックという2つの特徴的な攻撃形式があり、それぞれ投射光ビームとレンズフレアオーブを利用して、誤った深度知覚を引き起こす。 自律システム用に設計された2台の商用ステレオカメラ(ZEDとIntel RealSense)を攻撃した。 ステレオカメラによって認識される偽の深さの可視化は、DoubleStarによって誘導される偽のステレオマッチングを示している。 さらにArdupilotを使って、攻撃をシミュレートし、ドローンへの影響を実証しています。 実システムへの攻撃を検証するために,最先端の障害物回避アルゴリズムを備えた商用ドローンに対して実世界攻撃を行う。 われわれの攻撃は、飛行中のドローンを突然停止させたり、さまざまな照明条件下で長距離に移動させたり、センサー融合機構をバイパスしたりできる。 具体的には、doublestarが夜間に最大15メートル、昼間に最大8メートルの深さで偽の深さを作り出していることが実験結果からわかった。 この新たな脅威を緩和するため、ダブルスターに対抗するための潜在的な対策について議論する。

Depth estimation-based obstacle avoidance has been widely adopted by autonomous systems (drones and vehicles) for safety purpose. It normally relies on a stereo camera to automatically detect obstacles and make flying/driving decisions, e.g., stopping several meters ahead of the obstacle in the path or moving away from the detected obstacle. In this paper, we explore new security risks associated with the stereo vision-based depth estimation algorithms used for obstacle avoidance. By exploiting the weaknesses of the stereo matching in depth estimation algorithms and the lens flare effect in optical imaging, we propose DoubleStar, a long-range attack that injects fake obstacle depth by projecting pure light from two complementary light sources. DoubleStar includes two distinctive attack formats: beams attack and orbs attack, which leverage projected light beams and lens flare orbs respectively to cause false depth perception. We successfully attack two commercial stereo cameras designed for autonomous systems (ZED and Intel RealSense). The visualization of fake depth perceived by the stereo cameras illustrates the false stereo matching induced by DoubleStar. We further use Ardupilot to simulate the attack and demonstrate its impact on drones. To validate the attack on real systems, we perform a real-world attack towards a commercial drone equipped with state-of-the-art obstacle avoidance algorithms. Our attack can continuously bring a flying drone to a sudden stop or drift it away across a long distance under various lighting conditions, even bypassing sensor fusion mechanisms. Specifically, our experimental results show that DoubleStar creates fake depth up to 15 meters in distance at night and up to 8 meters during the daytime. To mitigate this newly discovered threat, we provide discussions on potential countermeasures to defend against DoubleStar.
翻訳日:2021-10-08 15:59:54 公開日:2021-10-07
# 音声文を用いた機械学習モデルによる自閉症スペクトラム障害の検出

Detecting Autism Spectrum Disorders with Machine Learning Models Using Speech Transcripts ( http://arxiv.org/abs/2110.03281v1 )

ライセンス: Link先を確認
Vikram Ramesh and Rida Assaf(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、子どもの相互作用、コミュニケーション、他者との交流に影響を及ぼす神経発達障害である。 この疾患は様々な症状で起こり、様々な影響と重症度がある。 ASDの恒久的な治療法はないが、早期発見と予防治療は多くの子供の生活を著しく改善することができる。 ASDを正確に診断する現在の方法は、侵襲的、時間的、退屈である。 それらはまた、小児科医、言語病理学者、心理学者、精神科医を含む多くの臨床医の主観的視点でもある。 音声を使った機械学習モデル、顔からのコンピュータービジョン、網膜、脳MRI画像など、この疾患を正確にタイムリーに検出する新しい技術が急速に発展しつつある。 本研究では,世界最大の音声言語データベースであるTalkBankの音声データを用いた計算言語学と機械学習に焦点を当てた。 本研究では,TalkBank の子どもにおける ASD と typical Development (TD) のデータを用いて,ASD を正確に予測する機械学習モデルを開発した。 TalkBankの2つのデータセットから50以上の機能を使用して、5つの異なる分類器を使って実験を実行しました。 ロジスティック回帰とランダムフォレストモデルがこれらの2つの主要データセットのそれぞれに最も有効であり、精度は 0.75 である。 これらの実験は、精度を向上させるための重要な機会がある一方で、機械学習モデルは、効果的な診断のために、小児のASD状態を確実に予測できることを示した。

Autism spectrum disorder (ASD) can be defined as a neurodevelopmental disorder that affects how children interact, communicate and socialize with others. This disorder can occur in a broad spectrum of symptoms, with varying effects and severity. While there is no permanent cure for ASD, early detection and proactive treatment can substantially improve the lives of many children. Current methods to accurately diagnose ASD are invasive, time-consuming, and tedious. They can also be subjective perspectives of a number of clinicians involved, including pediatricians, speech pathologists, psychologists, and psychiatrists. New technologies are rapidly emerging that include machine learning models using speech, computer vision from facial, retinal, and brain MRI images of patients to accurately and timely detect this disorder. Our research focuses on computational linguistics and machine learning using speech data from TalkBank, the world's largest spoken language database. We used data of both ASD and Typical Development (TD) in children from TalkBank to develop machine learning models to accurately predict ASD. More than 50 features were used from specifically two datasets in TalkBank to run our experiments using five different classifiers. Logistic Regression and Random Forest models were found to be the most effective for each of these two main datasets, with an accuracy of 0.75. These experiments confirm that while significant opportunities exist for improving the accuracy, machine learning models can reliably predict ASD status in children for effective diagnosis.
翻訳日:2021-10-08 15:58:49 公開日:2021-10-07
# 連続制御のためのモデルベース計画とプランナー補正の評価

Evaluating model-based planning and planner amortization for continuous control ( http://arxiv.org/abs/2110.03363v1 )

ライセンス: Link先を確認
Arunkumar Byravan, Leonard Hasenclever, Piotr Trochim, Mehdi Mirza, Alessandro Davide Ialongo, Yuval Tassa, Jost Tobias Springenberg, Abbas Abdolmaleki, Nicolas Heess, Josh Merel, Martin Riedmiller(参考訳) モデルベースの制御方法は、モデルフリーなアプローチのデータ効率を上回ることができるべきだという直観が広く存在する。 本稿では,この直感を様々な難解な移動課題に対して評価する。 我々は、モデル予測制御(MPC)と学習モデルと無モデルポリシー学習を組み合わせたハイブリッドアプローチを取り、学習ポリシーはMPCの提案として機能する。 モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかったが、学習された提案やモデル(フライで訓練したり、関連するタスクから移行したり)を持つMPCは、ハードマルチタスク/マルチゴール設定における性能とデータ効率を著しく向上させることができる。 最後に,モデルに基づくプランナーを,性能を損なうことなく計画計算を償却するポリシに分割することが可能であることを示す。 異なるタスクを実行するエージェントのビデオはhttps://sites.google .com/view/mbrl-amort ization/homeで見ることができる。

There is a widespread intuition that model-based control methods should be able to surpass the data efficiency of model-free approaches. In this paper we attempt to evaluate this intuition on various challenging locomotion tasks. We take a hybrid approach, combining model predictive control (MPC) with a learned model and model-free policy learning; the learned policy serves as a proposal for MPC. We find that well-tuned model-free agents are strong baselines even for high DoF control problems but MPC with learned proposals and models (trained on the fly or transferred from related tasks) can significantly improve performance and data efficiency in hard multi-task/multi-goa l settings. Finally, we show that it is possible to distil a model-based planner into a policy that amortizes the planning computation without any loss of performance. Videos of agents performing different tasks can be seen at https://sites.google .com/view/mbrl-amort ization/home.
翻訳日:2021-10-08 15:57:25 公開日:2021-10-07
# MLモデルの配布外一般化とプライバシの関連

The Connection between Out-of-Distribution Generalization and Privacy of ML Models ( http://arxiv.org/abs/2110.03369v1 )

ライセンス: Link先を確認
Divyat Mahajan, Shruti Tople, Amit Sharma(参考訳) オフ・オブ・ディストリビューション(OOD)データへの一般化を目標とし、近年のドメイン一般化手法は、出力に対する影響がドメイン間で不変である「安定」な特徴表現を学習することを目的としている。 一般化とプライバシの理論的関係を考えると、OODの一般化が機械学習モデルにより良いプライバシをもたらすかどうかを問う。 一般に、この関係は成立しない。 合成データセットとMNIST, Fashion-MNIST, Chest X-rayなどの画像データセットを広範囲に評価することにより, 低いOOD一般化ギャップがMI攻撃に対するロバスト性を向上しないことを示す。 代わりに、プライバシの利点は、モデルが安定した機能をキャプチャする程度に基づいている。 安定した特徴をキャプチャするモデルは、より優れたOOD一般化を示すが安定した特徴を学習しないモデルよりも、MI攻撃に対して堅牢である。 さらに、同じ証明可能な差分プライバシー保証に対して、安定した特徴を学習するモデルは、他のものよりも高いユーティリティを提供する。 我々の研究は、安定した特徴とプライバシを結合する最初の広範な実証的研究を提供し、またドメインの一般化コミュニティにも注目に値する。

With the goal of generalizing to out-of-distribution (OOD) data, recent domain generalization methods aim to learn "stable" feature representations whose effect on the output remains invariant across domains. Given the theoretical connection between generalization and privacy, we ask whether better OOD generalization leads to better privacy for machine learning models, where privacy is measured through robustness to membership inference (MI) attacks. In general, we find that the relationship does not hold. Through extensive evaluation on a synthetic dataset and image datasets like MNIST, Fashion-MNIST, and Chest X-rays, we show that a lower OOD generalization gap does not imply better robustness to MI attacks. Instead, privacy benefits are based on the extent to which a model captures the stable features. A model that captures stable features is more robust to MI attacks than models that exhibit better OOD generalization but do not learn stable features. Further, for the same provable differential privacy guarantees, a model that learns stable features provides higher utility as compared to others. Our results offer the first extensive empirical study connecting stable features and privacy, and also have a takeaway for the domain generalization community; MI attack can be used as a complementary metric to measure model quality.
翻訳日:2021-10-08 15:57:07 公開日:2021-10-07
# SERAB: 音声感情認識のための多言語ベンチマーク

SERAB: A multi-lingual benchmark for speech emotion recognition ( http://arxiv.org/abs/2110.03414v1 )

ライセンス: Link先を確認
Neil Scheidwasser-Clow, Mikolaj Kegler, Pierre Beckmann, Milos Cernak(参考訳) 近年の音声感情認識(SER)はディープニューラルネットワーク(DNN)を活用していることが多い。 異なるデータセットと評価プロトコルを使用するため、異なるDNNモデルの比較とベンチマークは、しばしば面倒である。 そこで本研究では、発話レベルSERに対する様々なアプローチの性能と一般化能力を評価するためのフレームワークである、音声感情認識適応ベンチマーク(SERAB)を提案する。 ベンチマークは6言語でSER用の9つのデータセットで構成されている。 データセットはサイズや感情のクラス数が異なるため,事前学習したDNN特徴抽出器の一般化能力の推定に特に適している。 提案手法を用いて,手作りの標準特徴集合と最先端DNN表現の選定を行った。 その結果、SERABに含まれるデータのサブセットのみを使用することでバイアス評価が可能であり、提案プロトコルへの準拠はこの問題を回避できることがわかった。

Recent developments in speech emotion recognition (SER) often leverage deep neural networks (DNNs). Comparing and benchmarking different DNN models can often be tedious due to the use of different datasets and evaluation protocols. To facilitate the process, here, we present the Speech Emotion Recognition Adaptation Benchmark (SERAB), a framework for evaluating the performance and generalization capacity of different approaches for utterance-level SER. The benchmark is composed of nine datasets for SER in six languages. Since the datasets have different sizes and numbers of emotional classes, the proposed setup is particularly suitable for estimating the generalization capacity of pre-trained DNN-based feature extractors. We used the proposed framework to evaluate a selection of standard hand-crafted feature sets and state-of-the-art DNN representations. The results highlight that using only a subset of the data included in SERAB can result in biased evaluation, while compliance with the proposed protocol can circumvent this issue.
翻訳日:2021-10-08 15:56:44 公開日:2021-10-07
# 小データセットからのフェデレーション学習

Federated Learning from Small Datasets ( http://arxiv.org/abs/2110.03469v1 )

ライセンス: Link先を確認
Michael Kamp (1) and Jonas Fischer (2) and Jilles Vreeken (1) ((1) CISPA Helmholtz Center for Information Security, (2) Max Planck Institute for Informatics)(参考訳) フェデレートラーニングは、複数のパーティが、ローカルデータを共有せずに共同モデルをトレーニングすることを可能にする。 これにより、医療領域など、本質的に分散した非開示データの設定における機械学習の応用が可能になる。 実際には、ジョイントトレーニングは通常、ジョイント(グローバル)目標に類似したローカルトレーニング目標を期待して、ローカルモデルを集約することで達成される。 しかし、多くの場合、ローカルデータセットは非常に小さいため、ローカルの目的とグローバルの目的とは大きく異なるため、連合学習は失敗に終わる。 局所モデルの置換とモデル集約を相互に結合する新しい手法を提案する。 置換は各ローカルモデルをローカルデータセットのデージーチェーンに公開することで、データスパースドメインでのより効率的なトレーニングを実現する。 これにより、病院間の患者データなど、非常に小さなローカルデータセットでのトレーニングが可能になると同時に、連合学習のトレーニング効率とプライバシメリットが維持される。

Federated learning allows multiple parties to collaboratively train a joint model without sharing local data. This enables applications of machine learning in settings of inherently distributed, undisclosable data such as in the medical domain. In practice, joint training is usually achieved by aggregating local models, for which local training objectives have to be in expectation similar to the joint (global) objective. Often, however, local datasets are so small that local objectives differ greatly from the global objective, resulting in federated learning to fail. We propose a novel approach that intertwines model aggregations with permutations of local models. The permutations expose each local model to a daisy chain of local datasets resulting in more efficient training in data-sparse domains. This enables training on extremely small local datasets, such as patient data across hospitals, while retaining the training efficiency and privacy benefits of federated learning.
翻訳日:2021-10-08 15:56:13 公開日:2021-10-07
# 非公開戦略対応型オンラインマルコフ決定プロセス

Online Markov Decision Processes with Non-oblivious Strategic Adversary ( http://arxiv.org/abs/2110.03604v1 )

ライセンス: Link先を確認
Le Cong Dinh, David Henry Mguni, Long Tran-Thanh, Jun Wang, Yaodong Yang(参考訳) オンラインマルコフ決定過程 (omdps) における新たな設定について検討し, 損失関数は非外的後悔アルゴリズムに従う非聖書的戦略敵によって選択される。 この設定では、既存のアルゴリズムである MDP-Expert が依然として適用可能であることを初めて証明し、$\mathcal{O}(\sqrt{T \log(L)}+\tau^2\sqrt{T \log(|A|)})$ のポリシー再帰を達成でき、$L$ は敵の純粋な戦略セットのサイズであり、$|A|$ はエージェントのアクション空間のサイズを表す。 MDP-Online Oracle Expert (MDP-OOE) は, NEのサポートサイズが小さい実世界のゲームを考えると, NEのサポートサイズのみに依存する$\mathcal{O}(\sqrt{T\log(L)}+\tau^2\sqrt{T k \log(k)})$である。 MDP-OOEはゲーム理論においてDouble Oracleの重要な利点を生かし、したがって違法に大きなアクション空間を持つゲームを解くことができる。 最後に,no-regret法の学習ダイナミクスをよりよく理解するために,omdpsにおけるno-external regret adversaryと同じ設定下で,neへの最終収束結果を達成するアルゴリズムを提案する。 私たちの知る限りでは、これがOMDPの最終イテレーション結果につながる最初の作業です。

We study a novel setting in Online Markov Decision Processes (OMDPs) where the loss function is chosen by a non-oblivious strategic adversary who follows a no-external regret algorithm. In this setting, we first demonstrate that MDP-Expert, an existing algorithm that works well with oblivious adversaries can still apply and achieve a policy regret bound of $\mathcal{O}(\sqrt{T \log(L)}+\tau^2\sqrt{ T \log(|A|)})$ where $L$ is the size of adversary's pure strategy set and $|A|$ denotes the size of agent's action space. Considering real-world games where the support size of a NE is small, we further propose a new algorithm: MDP-Online Oracle Expert (MDP-OOE), that achieves a policy regret bound of $\mathcal{O}(\sqrt{T\log(L)}+\tau^2\sqrt{ T k \log(k)})$ where $k$ depends only on the support size of the NE. MDP-OOE leverages the key benefit of Double Oracle in game theory and thus can solve games with prohibitively large action space. Finally, to better understand the learning dynamics of no-regret methods, under the same setting of no-external regret adversary in OMDPs, we introduce an algorithm that achieves last-round convergence result to a NE. To our best knowledge, this is first work leading to the last iteration result in OMDPs.
翻訳日:2021-10-08 15:55:59 公開日:2021-10-07
# ReLUニューラルネットワークの最適記憶力について

On the Optimal Memorization Power of ReLU Neural Networks ( http://arxiv.org/abs/2110.03187v1 )

ライセンス: Link先を確認
Gal Vardi, Gilad Yehudai, Ohad Shamir(参考訳) フィードフォワードReLUニューラルネットワークの記憶能力について検討する。 そのようなネットワークは、$\tilde{O}\left(\sqrt{N}\right)$パラメータを使って、穏やかな分離性仮定を満たす任意の$N$ポイントを記憶することができることを示す。 VC次元上界は、$N$サンプルを記憶するには$\Omega(\sqrt{N})$パラメータが必要であることを暗示している。 また、$\tilde{o}(n/l)$パラメータを使って$n$のサンプルを記憶するために、深さが$ \leq l \leq \sqrt{n}$ のネットワークの一般化構成を与える。 この境界は対数係数にも最適である。 私たちの構造は、大きな複雑さを持つ重みを使います。 このような大きなビット複雑性を持つことは、パラメータのサブ線形数を持つ記憶に必要かつ十分であることが証明される。

We study the memorization power of feedforward ReLU neural networks. We show that such networks can memorize any $N$ points that satisfy a mild separability assumption using $\tilde{O}\left(\sqrt{N}\right)$ parameters. Known VC-dimension upper bounds imply that memorizing $N$ samples requires $\Omega(\sqrt{N})$ parameters, and hence our construction is optimal up to logarithmic factors. We also give a generalized construction for networks with depth bounded by $1 \leq L \leq \sqrt{N}$, for memorizing $N$ samples using $\tilde{O}(N/L)$ parameters. This bound is also optimal up to logarithmic factors. Our construction uses weights with large bit complexity. We prove that having such a large bit complexity is both necessary and sufficient for memorization with a sub-linear number of parameters.
翻訳日:2021-10-08 15:54:39 公開日:2021-10-07
# 分散非凸最適化のための置換圧縮機

Permutation Compressors for Provably Faster Distributed Nonconvex Optimization ( http://arxiv.org/abs/2110.03300v1 )

ライセンス: Link先を確認
Rafa{\l} Szlendak and Alexander Tyurin and Peter Richt\'arik(参考訳) 本稿では,Gorbunov et al (2021) の MARINA 法について検討する。 この手法の理論的優位性は、慎重に設計されたバイアス付き確率勾配推定器を使用することで、通信ラウンドの数を減少させ、また、各通信ラウンド内の送信ビット数を減少させるような、独立な確率的通信圧縮演算子に依存するという2つの情報源に大きく寄与する。 本論文では, i)MARINAの理論を拡張して、従来からある独立した圧縮機の設定を超えて、より広い種類の潜在的に相関した圧縮機を支持する。 二 ヘシアン分散(em hessian variance)という名称で表される新しい量により、追加の仮定なしにマリーナの本来の分析を著しく洗練することができることを示すこと。 iii) "em random permutations} という概念に基づいて相関圧縮機の特殊クラスを特定し、ここでは "perm$k$" という用語をつくり、そこでは$o(\sqrt{n})$ (resp) となる。 O(1 + d/\sqrt{n})$)$d\geq n$ (resp) のとき、低ヘッセン分散状態におけるMARINAの理論的通信複雑性の改善。 $d \leq n$) ここで$n$はワーカーの数、$d$は私たちが学習しているモデルを記述するパラメータの数です。 我々は,非凸二次数の平均を最小化し,mnistデータセットを用いたオートエンコーダトレーニングを念入りに設計した合成実験を行い,理論結果を裏付ける。

We study the MARINA method of Gorbunov et al (2021) -- the current state-of-the-art distributed non-convex optimization method in terms of theoretical communication complexity. Theoretical superiority of this method can be largely attributed to two sources: the use of a carefully engineered biased stochastic gradient estimator, which leads to a reduction in the number of communication rounds, and the reliance on {\em independent} stochastic communication compression operators, which leads to a reduction in the number of transmitted bits within each communication round. In this paper we i) extend the theory of MARINA to support a much wider class of potentially {\em correlated} compressors, extending the reach of the method beyond the classical independent compressors setting, ii) show that a new quantity, for which we coin the name {\em Hessian variance}, allows us to significantly refine the original analysis of MARINA without any additional assumptions, and iii) identify a special class of correlated compressors based on the idea of {\em random permutations}, for which we coin the term Perm$K$, the use of which leads to $O(\sqrt{n})$ (resp. $O(1 + d/\sqrt{n})$) improvement in the theoretical communication complexity of MARINA in the low Hessian variance regime when $d\geq n$ (resp. $d \leq n$), where $n$ is the number of workers and $d$ is the number of parameters describing the model we are learning. We corroborate our theoretical results with carefully engineered synthetic experiments with minimizing the average of nonconvex quadratics, and on autoencoder training with the MNIST dataset.
翻訳日:2021-10-08 15:54:18 公開日:2021-10-07
# ニューラルネットワークを用いたmonge-amp\`ere方程式のディリクレ問題の解法

Solving the Dirichlet problem for the Monge-Amp\`ere equation using neural networks ( http://arxiv.org/abs/2110.03310v1 )

ライセンス: Link先を確認
Kaj Nystr\"om, Matias Vestberg(参考訳) Monge-Amp\`ere 方程式は解析、幾何学、応用科学において基本的な重要性を持つ完全非線形偏微分方程式(PDE)である。 本稿では,ニューラルネットワークを用いたmonge-amp\`ere方程式に関連するディリクレ問題を解き,ディープ入力凸ニューラルネットワークを用いたansatzを用いて一意な凸解を求めることができることを示す。 解析の一環として、音源関数における特異点と雑音の影響について検討し、非自明な領域を考察し、この手法が高次元でどのように機能するかを考察する。 また,本手法を標準フィードフォワードネットワークと,凸性の欠如を罰する損失関数を併用した代替手法と比較した。

The Monge-Amp\`ere equation is a fully nonlinear partial differential equation (PDE) of fundamental importance in analysis, geometry and in the applied sciences. In this paper we solve the Dirichlet problem associated with the Monge-Amp\`ere equation using neural networks and we show that an ansatz using deep input convex neural networks can be used to find the unique convex solution. As part of our analysis we study the effect of singularities and noise in the source function, we consider nontrivial domains, and we investigate how the method performs in higher dimensions. We also compare this method to an alternative approach in which standard feed-forward networks are used together with a loss function which penalizes lack of convexity.
翻訳日:2021-10-08 15:53:43 公開日:2021-10-07
# ネットワーク学習のためのCurved Markov Chain Monte Carlo

Curved Markov Chain Monte Carlo for Network Learning ( http://arxiv.org/abs/2110.03413v1 )

ライセンス: Link先を確認
John Sigbeku, Emil Saucan, and Anthea Monod(参考訳) グラフ上に定義された離散曲率測度に基づくネットワークに対する幾何学的に拡張されたマルコフ連鎖モンテカルロサンプリングを提案する。 具体的には,グラフフォーマン曲率の概念をマルコフ連鎖の遷移確率を通じて,ネットワークのノードとエッジの両方のサンプリング手順に明示的に組み込むとともに,ターゲット定常分布を通じて暗黙的に,新たな曲線化されたマルコフ連鎖モンテカルロの学習ネットワークへのアプローチを与える。 その結果,実世界データから導かれた決定論的ネットワーク上での幅広いネットワーク統計値への収束が速くなることがわかった。

We present a geometrically enhanced Markov chain Monte Carlo sampler for networks based on a discrete curvature measure defined on graphs. Specifically, we incorporate the concept of graph Forman curvature into sampling procedures on both the nodes and edges of a network explicitly, via the transition probability of the Markov chain, as well as implicitly, via the target stationary distribution, which gives a novel, curved Markov chain Monte Carlo approach to learning networks. We show that integrating curvature into the sampler results in faster convergence to a wide range of network statistics demonstrated on deterministic networks drawn from real-world data.
翻訳日:2021-10-08 15:53:29 公開日:2021-10-07
# 弱間接監督によるトレーニングセットの作成

Creating Training Sets via Weak Indirect Supervision ( http://arxiv.org/abs/2110.03484v1 )

ライセンス: Link先を確認
Jieyu Zhang, Bohan Wang, Xiangchen Song, Yujing Wang, Yaming Yang, Jing Bai, Alexander Ratner(参考訳) ラベル付きトレーニングセットの作成は、機械学習における主要な障害のひとつになっている。 これを解決するために、最近のWeak Supervision (WS)フレームワークは、潜在的にノイズの多い複数の監督ソースからトレーニングラベルを合成する。 しかし、既存のフレームワークは、ターゲットタスクと同じ出力スペースを共有する監督ソースに制限されている。 利用可能なソースの範囲を拡張するために、異なる出力ラベル空間を持つ間接監督ソースに基づいてトレーニングラベルを自動的に合成する新しい研究課題である弱い間接監督(wis)を定式化する。 ミスマッチアウトプット空間の課題を克服するために,ユーザが提供するラベル関係を用いて間接的監督源をモデル化し活用する確率的モデリング手法plrmを開発した。 さらに,未発見ラベルに対するplrmの識別性を,一般化境界とともに理論的に原理的に検証する。 画像分類タスクとテキスト分類タスクと産業広告アプリケーションの両方において,ベースラインを2%-9%のマージンで上回り,PLRMの利点を実証した。

Creating labeled training sets has become one of the major roadblocks in machine learning. To address this, recent Weak Supervision (WS) frameworks synthesize training labels from multiple potentially noisy supervision sources. However, existing frameworks are restricted to supervision sources that share the same output space as the target task. To extend the scope of usable sources, we formulate Weak Indirect Supervision (WIS), a new research problem for automatically synthesizing training labels based on indirect supervision sources that have different output label spaces. To overcome the challenge of mismatched output spaces, we develop a probabilistic modeling approach, PLRM, which uses user-provided label relations to model and leverage indirect supervision sources. Moreover, we provide a theoretically-princi pled test of the distinguishability of PLRM for unseen labels, along with an generalization bound. On both image and text classification tasks as well as an industrial advertising application, we demonstrate the advantages of PLRM by outperforming baselines by a margin of 2%-9%.
翻訳日:2021-10-08 15:53:18 公開日:2021-10-07
# ReLUニューラルネットワークのためのタイタースパース近似境界

Tighter Sparse Approximation Bounds for ReLU Neural Networks ( http://arxiv.org/abs/2110.03673v1 )

ライセンス: Link先を確認
Carles Domingo-Enrich, Youssef Mroueh(参考訳) 有名な仕事の行(Barron, 1993; Breiman, 1993; Klusowski & Barron, 2018)は、ボール上の関数 $f$ を近似するのに必要な ReLU の2層ニューラルネットワークの幅 $n$ の有界性を提供する: $\mathcal{B}_R(\R^d)$ up to error $\epsilon$ フーリエ基底量 $C_f = \int_{\R^d} \|\xi\|^2 |\hat{f}(\xi)| \ d\xi$ は有限である。 最近では、ongie et al. (2019) は無限幅relu二層ネットワークの解析ツールとしてラドン変換を用いた。 特に、Randon ベースの $\mathcal{R}$-norms の概念を導入し、$\R^d$ で定義される関数が無限幅の2層ニューラルネットワークとして表現できることを示し、その $\mathcal{R}$-norm が有限である場合に限る。 本研究は Ongie et al. (2019) のフレームワークを拡張し、同様の Radon-based semi-norms ($\mathcal{R}, \mathcal{U}$-norms) を定義し、有界開集合 $\mathcal{U} \subseteq \R^d$ 上の無限幅のニューラルネットワーク表現を許容する関数を、その $\mathcal{R}, \mathcal{U}$-norm が有限であるときに定義する。 これに基づいて、sparse (finite-width)ニューラルネットワーク近似境界を導出し、breiman (1993), klusowski & barron (2018) を改良する。 最後に、有界開集合上の無限幅ニューラルネットワーク表現はユニークではなく、その構造を研究し、モード接続性の関数的ビューを提供する。

A well-known line of work (Barron, 1993; Breiman, 1993; Klusowski & Barron, 2018) provides bounds on the width $n$ of a ReLU two-layer neural network needed to approximate a function $f$ over the ball $\mathcal{B}_R(\R^d)$ up to error $\epsilon$, when the Fourier based quantity $C_f = \int_{\R^d} \|\xi\|^2 |\hat{f}(\xi)| \ d\xi$ is finite. More recently Ongie et al. (2019) used the Radon transform as a tool for analysis of infinite-width ReLU two-layer networks. In particular, they introduce the concept of Radon-based $\mathcal{R}$-norms and show that a function defined on $\R^d$ can be represented as an infinite-width two-layer neural network if and only if its $\mathcal{R}$-norm is finite. In this work, we extend the framework of Ongie et al. (2019) and define similar Radon-based semi-norms ($\mathcal{R}, \mathcal{U}$-norms) such that a function admits an infinite-width neural network representation on a bounded open set $\mathcal{U} \subseteq \R^d$ when its $\mathcal{R}, \mathcal{U}$-norm is finite. Building on this, we derive sparse (finite-width) neural network approximation bounds that refine those of Breiman (1993); Klusowski & Barron (2018). Finally, we show that infinite-width neural network representations on bounded open sets are not unique and study their structure, providing a functional view of mode connectivity.
翻訳日:2021-10-08 15:53:00 公開日:2021-10-07
# MIMOレーダイメージングにおけるシステム設計と再構成の共同最適化

Joint optimization of system design and reconstruction in MIMO radar imaging ( http://arxiv.org/abs/2110.03218v1 )

ライセンス: Link先を確認
Tomer Weiss, Nissim Peretz, Sanketh Vedula, Arie Feuer, Alex Bronstein(参考訳) マルチインプット・マルチアウトプット(MIMO)レーダーは、先進的な深度検知方式の一つである。 しかし、マルチレシーブチャネルの使用は比較的高いコストをもたらし、自動車産業など多くの地域でMIMOの浸透を防いでいる。 過去数年間、mimoレーダの縮小計測スキームや画像再構成スキームの設計に注力する研究は少なかったが、これらの問題は別途取り組まれている。 一方,光計算イメージングにおける最近の研究は,獲得と再構成の同時学習に基づく設計が成功し,復元品質が著しく向上していることを示している。 これらの成功に触発されて、我々は、画像ニューラルネットベースの再構成と協調して受信(Rx)アンテナ要素の位置の形でMIMO取得パラメータを学習することを提案する。 そこで本研究では,買収・再建パイプラインのエンドツーエンドを異なる方法で学習するアルゴリズムを提案する。 学習した獲得パラメータをニューラルネットワーク再構成の有無にかかわらず使用することの重要性を実証する。

Multiple-input multiple-output (MIMO) radar is one of the leading depth sensing modalities. However, the usage of multiple receive channels lead to relative high costs and prevent the penetration of MIMOs in many areas such as the automotive industry. Over the last years, few studies concentrated on designing reduced measurement schemes and image reconstruction schemes for MIMO radars, however these problems have been so far addressed separately. On the other hand, recent works in optical computational imaging have demonstrated growing success of simultaneous learning-based design of the acquisition and reconstruction schemes, manifesting significant improvement in the reconstruction quality. Inspired by these successes, in this work, we propose to learn MIMO acquisition parameters in the form of receive (Rx) antenna elements locations jointly with an image neural-network based reconstruction. To this end, we propose an algorithm for training the combined acquisition-reconstr uction pipeline end-to-end in a differentiable way. We demonstrate the significance of using our learned acquisition parameters with and without the neural-network reconstruction.
翻訳日:2021-10-08 15:52:10 公開日:2021-10-07
# 軌道予測による状態不確かさの伝播

Propagating State Uncertainty Through Trajectory Forecasting ( http://arxiv.org/abs/2110.03267v1 )

ライセンス: Link先を確認
Boris Ivanovic, Yifeng (Richard) Lin, Shubham Shrivastava, Punarjay Chakravarty, Marco Pavone(参考訳) 不確実性は、ほぼすべてのコンポーネント(センサ、検出、分類、追跡、行動予測など)が連続的あるいは離散的な確率分布を生成する現代のロボット自律スタックを貫く。 特に軌道予測は上流の知覚によって(ノイズの多い)入力が生成されるため不確実性に囲まれており、その出力は下流の計画でしばしば使用される確率的な予測である。 しかし、ほとんどの軌道予測手法は上流の不確かさを考慮せず、最も類似した値のみを取る。 その結果、知覚の不確実性は予測によって伝播せず、しばしば過信される。 そこで本研究では, 軌跡予測における知覚状態の不確実性を取り入れた新しい手法を提案する。 本手法は, 実世界の大規模データを用いて, 予測による知覚状態の不確かさの伝播と, より校正された予測の導出に有効であることを示す。

Uncertainty pervades through the modern robotic autonomy stack, with nearly every component (e.g., sensors, detection, classification, tracking, behavior prediction) producing continuous or discrete probabilistic distributions. Trajectory forecasting, in particular, is surrounded by uncertainty as its inputs are produced by (noisy) upstream perception and its outputs are predictions that are often probabilistic for use in downstream planning. However, most trajectory forecasting methods do not account for upstream uncertainty, instead taking only the most-likely values. As a result, perceptual uncertainties are not propagated through forecasting and predictions are frequently overconfident. To address this, we present a novel method for incorporating perceptual state uncertainty in trajectory forecasting, a key component of which is a new statistical distance-based loss function which encourages predicting uncertainties that better match upstream perception. We evaluate our approach both in illustrative simulations and on large-scale, real-world data, demonstrating its efficacy in propagating perceptual state uncertainty through prediction and producing more calibrated predictions.
翻訳日:2021-10-08 15:51:52 公開日:2021-10-07
# 顔画像の差分異常検出

Differential Anomaly Detection for Facial Images ( http://arxiv.org/abs/2110.03464v1 )

ライセンス: Link先を確認
Mathias Ibsen, L\'azaro J. Gonz\'alez-Soler, Christian Rathgeb, Pawel Drozdowski, Marta Gomez-Barrero, Christoph Busch(参考訳) その利便性と高精度のため、顔認識システムは、個人を自動認識するために、政府や個人のセキュリティアプリケーションに広く利用されている。 近年の進歩にもかかわらず、顔認識システムは特にアイデンティティアタック(デジタル操作やアタックプレゼンテーション)に弱いことが示されている。 アイデンティティ攻撃は、不正アクセスと偽情報の拡散に使用できるため、セキュリティ上の大きな脅威となる。 この文脈では、アイデンティティアタックを検出するほとんどのアルゴリズムは、トレーニング時に未知の攻撃タイプに対してあまり一般化しない。 この問題に対処するために,我々は,まず画像ペア(参照とプローブ)から深部顔埋め込みを抽出し,次にアイデンティティアタック検出のために組み合わせた差分異常検出フレームワークを提案する。 複数のデータベースを用いた実験により,ディジタル領域と物理領域の両方において未知の攻撃を検出する手法の一般化性が示された。

Due to their convenience and high accuracy, face recognition systems are widely employed in governmental and personal security applications to automatically recognise individuals. Despite recent advances, face recognition systems have shown to be particularly vulnerable to identity attacks (i.e., digital manipulations and attack presentations). Identity attacks pose a big security threat as they can be used to gain unauthorised access and spread misinformation. In this context, most algorithms for detecting identity attacks generalise poorly to attack types that are unknown at training time. To tackle this problem, we introduce a differential anomaly detection framework in which deep face embeddings are first extracted from pairs of images (i.e., reference and probe) and then combined for identity attack detection. The experimental evaluation conducted over several databases shows a high generalisation capability of the proposed method for detecting unknown attacks in both the digital and physical domains.
翻訳日:2021-10-08 15:50:28 公開日:2021-10-07
# 注意が必要か? コンボリューション/トランスフォーマー/ベルト/ミキサー/アテンション/rnnまたは...のないオーディオ理解。

Attention is All You Need? Good Embeddings with Statistics are enough: Audio Understanding WITHOUT Convolutions/Transfo rmers/BERTs/Mixers/A ttention/RNNs or .... ( http://arxiv.org/abs/2110.03183v1 )

ライセンス: Link先を確認
Prateek Verma(参考訳) 本稿では,従来のニューラルアーキテクチャを使わずに大規模音声理解を行う方法を提案する。 過去10年間にオーディオ信号を理解するためのディープラーニングが導入されて以来、畳み込みアーキテクチャーは、従来の手作りの特徴を超越した成果を達成できた。 近年では、従来の畳み込みおよび再帰的なニューラルネットワークから、純粋にエンドツーエンドのトランスフォーマーアーキテクチャへと、同様のシフトが起きている。 本研究では,Bag-of-Wordsモデルに基づくアプローチについて検討する。 私たちのアプローチには、コンボリューション、再発、注意、トランスフォーマー、BERTのような他のアプローチはありません。 マイクロおよびマクロレベルのクラスタ化バニラ埋め込みを使用し,MLPヘッドを用いて分類を行った。 フィードフォワードエンコーダデコーダモデルのみを用いて、スペクトルエンベロープ、スペクトルパッチ、スライス、マルチ解像度スペクトルのボトルネックを取得する。 SimCLRのアプローチに似た分類ヘッド(フィードフォワード層)は、学習された表現に基づいて訓練される。 潜在表現で学習した単純なコードを用いることで、従来の畳み込みニューラルネットワークアーキテクチャを超越し、強力なトランスフォーマーアーキテクチャを著しく上回っていることを示す。 この研究は、大規模なエンドツーエンドのニューラルネットワークアーキテクチャを使わずに、表現学習の分野でエキサイティングな進歩をもたらすことを願っている。

This paper presents a way of doing large scale audio understanding without traditional state of the art neural architectures. Ever since the introduction of deep learning for understanding audio signals in the past decade, convolutional architectures have been able to achieve state of the art results surpassing traditional hand-crafted features. In the recent past, there has been a similar shift away from traditional convolutional and recurrent neural networks towards purely end-to-end Transformer architectures. We, in this work, explore an approach, based on Bag-of-Words model. Our approach does not have any convolutions, recurrence, attention, transformers or other approaches such as BERT. We utilize micro and macro level clustered vanilla embeddings, and use a MLP head for classification. We only use feed-forward encoder-decoder models to get the bottlenecks of spectral envelops, spectral patches and slices as well as multi-resolution spectra. A classification head (a feed-forward layer), similar to the approach in SimCLR is trained on a learned representation. Using simple codes learned on latent representations, we show how we surpass traditional convolutional neural network architectures, and come strikingly close to outperforming powerful Transformer architectures. This work hopefully would pave way for exciting advancements in the field of representation learning without massive, end-to-end neural architectures.
翻訳日:2021-10-08 15:49:43 公開日:2021-10-07
# 予測・検出評価への計画意識の注入

Injecting Planning-Awareness into Prediction and Detection Evaluation ( http://arxiv.org/abs/2110.03270v1 )

ライセンス: Link先を確認
Boris Ivanovic, Marco Pavone(参考訳) 他のエージェントを検出し、その振る舞いを予測することは、特に自律運転のような人間とロボットの相互作用を含む安全クリティカルなシナリオにおいて、現代ロボット自律スタックの不可欠な部分である。 これらの要素の重要性から、知覚と軌道予測にかなりの関心と研究が行われており、様々なアプローチを生み出している。 しかし、ほとんどの研究でよく見られるのは、例えば交叉対ユニオン、変位誤差、対数類似度など、ほとんど精度に基づく評価指標を使用することである。 これらの指標は情報的だが、それらはタスクに依存しず、平等に評価されるアウトプットは、下流の計画と意思決定において、大きく異なる結果をもたらす可能性がある。 この作業では、ステップバックして、現在の評価指標を批判的に評価し、タスク対応メトリクスを、デプロイされるシステムのパフォーマンスのより良い測定基準として提案します。 実世界の自律運転データとともに、実世界のシミュレーション実験により、提案したタスク認識メトリクスが結果非対称性を考慮でき、モデルのクローズドループ性能をよりよく推定できることを確認した。

Detecting other agents and forecasting their behavior is an integral part of the modern robotic autonomy stack, especially in safety-critical scenarios entailing human-robot interaction such as autonomous driving. Due to the importance of these components, there has been a significant amount of interest and research in perception and trajectory forecasting, resulting in a wide variety of approaches. Common to most works, however, is the use of the same few accuracy-based evaluation metrics, e.g., intersection-over-un ion, displacement error, log-likelihood, etc. While these metrics are informative, they are task-agnostic and outputs that are evaluated as equal can lead to vastly different outcomes in downstream planning and decision making. In this work, we take a step back and critically assess current evaluation metrics, proposing task-aware metrics as a better measure of performance in systems where they are deployed. Experiments on an illustrative simulation as well as real-world autonomous driving data validate that our proposed task-aware metrics are able to account for outcome asymmetry and provide a better estimate of a model's closed-loop performance.
翻訳日:2021-10-08 15:49:18 公開日:2021-10-07
# 正規化線形決定規則による多段階確率線形計画解法:熱水ディスパッチ計画への適用

Solving Multistage Stochastic Linear Programming via Regularized Linear Decision Rules: An Application to Hydrothermal Dispatch Planning ( http://arxiv.org/abs/2110.03146v1 )

ライセンス: Link先を確認
Felipe Nazare and Alexandre Street(参考訳) 多段階確率線形問題(MSLP)の解は、多くのアプリケーションにとって課題である。 lhdp(long-term hydrothermal dispatch planning)は、世界中の電力市場、経済、天然資源に影響を与える現実世界の問題において、この課題を実現する。 MSLPにはクローズドフォームのソリューションは提供されておらず、高品質なアウト・オブ・サンプル性能を備えた非予測ポリシーの定義が不可欠である。 線形決定規則(LDR)は、2段階確率モデルによりMSLPの高品質なポリシーを見つけるための興味深いシミュレーションベースのフレームワークを提供する。 しかし、現実的な応用では、LDRを使用する場合のパラメータの数はシナリオの数よりも近いか高い可能性があるため、サンプル内オーバーフィットとサンプル外シミュレーションの性能の低下が生じる。 本稿では,AdaLASSO (Adaptive least absolute shrinkage and selection operator) に基づくLDRの新しい正規化手法を提案する。 目的は、高次元線形回帰モデルにおいて主に研究されているパシモニー原理を用いて、MSLPに適用されたLDRの性能を改善することである。 計算実験により、古典的非正規化ldrを用いてmslpを解く場合、過剰フィットの脅威は無視できることが示された。 lhdp問題に対して,本解析では,非正規化ベンチマークと比較して,提案フレームワークの利点を浮き彫りにする。 1)非ゼロ係数の数(モデルパーシモニー)の大幅な減少 2【サンプル外評価における実質的コスト削減】 3) スポット価格プロファイルの改善。

The solution of multistage stochastic linear problems (MSLP) represents a challenge for many applications. Long-term hydrothermal dispatch planning (LHDP) materializes this challenge in a real-world problem that affects electricity markets, economies, and natural resources worldwide. No closed-form solutions are available for MSLP and the definition of non-anticipative policies with high-quality out-of-sample performance is crucial. Linear decision rules (LDR) provide an interesting simulation-based framework for finding high-quality policies to MSLP through two-stage stochastic models. In practical applications, however, the number of parameters to be estimated when using an LDR may be close or higher than the number of scenarios, thereby generating an in-sample overfit and poor performances in out-of-sample simulations. In this paper, we propose a novel regularization scheme for LDR based on the AdaLASSO (adaptive least absolute shrinkage and selection operator). The goal is to use the parsimony principle as largely studied in high-dimensional linear regression models to obtain better out-of-sample performance for an LDR applied to MSLP. Computational experiments show that the overfit threat is non-negligible when using the classical non-regularized LDR to solve MSLP. For the LHDP problem, our analysis highlights the following benefits of the proposed framework in comparison to the non-regularized benchmark: 1) significant reductions in the number of non-zero coefficients (model parsimony), 2) substantial cost reductions in out-of-sample evaluations, and 3) improved spot-price profiles.
翻訳日:2021-10-08 15:48:59 公開日:2021-10-07
# ビルマ語における外国語の転写

Transliteration of Foreign Words in Burmese ( http://arxiv.org/abs/2110.03163v1 )

ライセンス: Link先を確認
Chenchen Ding(参考訳) この写本はビルマ語における外国語の翻訳に関する一般的な記述を提供している。 音声と正書法の問題による現象について論じる。 この研究に基づいて,ビルマ語における音訳を標準化するための規範的ガイドラインを徐々に確立していくことを期待する。

This manuscript provides general descriptions on transliteration of foreign words in the Burmese language. Phenomena caused by phonetic and orthographic issues are discussed. Based on this work, we expect to gradually establish prescriptive guidelines to normalize the transliteration in Burmese in future.
翻訳日:2021-10-08 15:48:37 公開日:2021-10-07
# HowSumm:WikiHowの記事から得られた複数文書の要約データセット

HowSumm: A Multi-Document Summarization Dataset Derived from WikiHow Articles ( http://arxiv.org/abs/2110.03179v1 )

ライセンス: Link先を確認
Odellia Boni (1), Guy Feigenblat, Guy Lev (1), Michal Shmueli-Scheuer (1), Benjamin Sznajder (1), David Konopnicki ((1) IBM Research - AI)(参考訳) 本稿では,クエリ指向マルチドキュメント要約(qmds)タスクのための,新たな大規模データセットである \textsc{howsumm} を提案する。 このユースケースは、既存のマルチドキュメント要約(mds)データセットをカバーするユースケースと異なり、教育および産業シナリオに適用できる。 我々は, wikiHow のウェブサイト記事や引用ソースから \textsc{HowSumm} を作成するために, 自動手法を採用し, 既存の qMDS データセットの統計を利用した。 データセットの作成について述べ、他の要約コーパスと区別するユニークな特徴について論じる。 データセット上の抽出的および抽象的要約モデルの自動的および人的評価は、改善の余地があることを明らかにする。 既成の要約モデルでは, <textsc{HowSumm} を用いて要約研究を進展させることが提案されている。

We present \textsc{HowSumm}, a novel large-scale dataset for the task of query-focused multi-document summarization (qMDS), which targets the use-case of generating actionable instructions from a set of sources. This use-case is different from the use-cases covered in existing multi-document summarization (MDS) datasets and is applicable to educational and industrial scenarios. We employed automatic methods, and leveraged statistics from existing human-crafted qMDS datasets, to create \textsc{HowSumm} from wikiHow website articles and the sources they cite. We describe the creation of the dataset and discuss the unique features that distinguish it from other summarization corpora. Automatic and human evaluations of both extractive and abstractive summarization models on the dataset reveal that there is room for improvement. % in existing summarization models We propose that \textsc{HowSumm} can be leveraged to advance summarization research.
翻訳日:2021-10-08 15:48:33 公開日:2021-10-07
# インフルエンサーチューニング:インスタンス属性とインスタンス駆動更新によるスプリアス相関の復調

Influence Tuning: Demoting Spurious Correlations via Instance Attribution and Instance-Driven Updates ( http://arxiv.org/abs/2110.03212v1 )

ライセンス: Link先を確認
Xiaochuang Han, Yulia Tsvetkov(参考訳) ディープラーニングNLPモデルの最も重要な制限は、解釈可能性の欠如と、素早い相関に依存することである。 以前の研究はブラックボックスモデルを解釈してスプリアス相関を明らかにする様々なアプローチを提案したが、研究は主に人間とコンピュータの相互作用シナリオで使用された。 このようなモデルの解釈が自動的に「未学習」な特徴にどのように使われるかはまだ未解明のままである。 本稿では,モデル解釈を利用してモデルパラメータを(データ内のスプリアスパターンに依存する解釈ではなく)妥当な解釈へと更新し,タスクラベルの予測を学習する手法であるインフルエンスチューニングを提案する。 制御された設定において、インフルエンサーチューニングは、データ内の散発的なパターンからモデルを分離するのに役立ち、逆のトレーニングを使用するベースラインメソッドを著しく上回ることを示します。

Among the most critical limitations of deep learning NLP models are their lack of interpretability, and their reliance on spurious correlations. Prior work proposed various approaches to interpreting the black-box models to unveil the spurious correlations, but the research was primarily used in human-computer interaction scenarios. It still remains underexplored whether or how such model interpretations can be used to automatically "unlearn" confounding features. In this work, we propose influence tuning--a procedure that leverages model interpretations to update the model parameters towards a plausible interpretation (rather than an interpretation that relies on spurious patterns in the data) in addition to learning to predict the task labels. We show that in a controlled setup, influence tuning can help deconfounding the model from spurious patterns in data, significantly outperforming baseline methods that use adversarial training.
翻訳日:2021-10-08 15:48:18 公開日:2021-10-07
# 談話解析を用いたマルチタスク対話理解

Multi-tasking Dialogue Comprehension with Discourse Parsing ( http://arxiv.org/abs/2110.03269v1 )

ライセンス: Link先を確認
Yuchen He, Zhuosheng Zhang, Hai Zhao(参考訳) MRC(Multi-party dialogue machine reading comprehension)は、従来のプレーンパススタイルのMRCに比べて、2人以上の話者との対話においてさらに困難な理解目標を提起する。 To accurately perform the question-answering (QA) task according to such multi-party dialogue, models have to handle fundamentally different discourse relationships from common non-dialogue plain text, where discourse relations are supposed to connect two far apart utterances in a linguistics-motivate d way.To further explore the role of such unusual discourse structure on the correlated QA task in terms of MRC, we propose the first multi-task model for jointly performing QA and discourse parsing (DP) on the multi-party dialogue MRC task. 提案手法は,最新のベンチマーク molweni を用いて評価され,その評価結果から qa タスクだけでなく dp タスク自体にも有益であることが示唆された。 さらに,MRCにおけるDPの必要性を検証し,より長い対話を扱う場合,関節モデルは明らかに強くなることがわかった。

Multi-party dialogue machine reading comprehension (MRC) raises an even more challenging understanding goal on dialogue with more than two involved speakers, compared with the traditional plain passage style MRC. To accurately perform the question-answering (QA) task according to such multi-party dialogue, models have to handle fundamentally different discourse relationships from common non-dialogue plain text, where discourse relations are supposed to connect two far apart utterances in a linguistics-motivate d way.To further explore the role of such unusual discourse structure on the correlated QA task in terms of MRC, we propose the first multi-task model for jointly performing QA and discourse parsing (DP) on the multi-party dialogue MRC task. Our proposed model is evaluated on the latest benchmark Molweni, whose results indicate that training with complementary tasks indeed benefits not only QA task, but also DP task itself. We further find that the joint model is distinctly stronger when handling longer dialogues which again verifies the necessity of DP in the related MRC.
翻訳日:2021-10-08 15:48:02 公開日:2021-10-07
# オランダにおける自然言語推論のための論理型フレームワーク

A Logic-Based Framework for Natural Language Inference in Dutch ( http://arxiv.org/abs/2110.03323v1 )

ライセンス: Link先を確認
Lasha Abzianidze and Konstantinos Kogkalidis(参考訳) システムの中心となるのは2つの${\lambda}$-calculiで、それぞれ構文理論と意味論として使われている。 文はまず、AlpinoベースのパイプラインとNeural Proof Netsという2つのパーサーを選択して、線形${\lambda}$-calculusの構文証明と用語に変換される。 構文用語は、単純型付けされた${\lambda}$-calculusのセマンティック用語に変換され、手書きの型と項レベルの変換によって変換される。 意味項の対は自然論理の自動定理証明者に与えられ、それはオープン・オランダ語のwordnetで見られる語彙関係を使いながら、それらの原因となる。 我々は、最近作成されたオランダの自然言語推論データセットの推論パイプラインを評価し、有望な結果を達成し、強力なニューラルネットワークベースラインに対して1.1-3.2{\%}$のパフォーマンスマージンに留まった。 私たちの知る限りでは、推論パイプラインはオランダ語で最初の論理ベースのシステムです。

At its core, the system is powered by two ${\lambda}$-calculi, used as syntactic and semantic theories, respectively. Sentences are first converted to syntactic proofs and terms of the linear ${\lambda}$-calculus using a choice of two parsers: an Alpino-based pipeline, and Neural Proof Nets. The syntactic terms are then converted to semantic terms of the simply typed ${\lambda}$-calculus, via a set of hand designed type- and term-level transformations. Pairs of semantic terms are then fed to an automated theorem prover for natural logic which reasons with them while using lexical relations found in the Open Dutch WordNet. We evaluate the reasoning pipeline on the recently created Dutch natural language inference dataset, and achieve promising results, remaining only within a $1.1-3.2{\%}$ performance margin to strong neural baselines. To the best of our knowledge, the reasoning pipeline is the first logic-based system for Dutch.
翻訳日:2021-10-08 15:47:46 公開日:2021-10-07
# エンティティマッチングのための言語横断学習

Cross-Language Learning for Entity Matching ( http://arxiv.org/abs/2110.03338v1 )

ライセンス: Link先を確認
Ralph Peeters, Christian Bizer(参考訳) トランスフォーマティブベースのマッチングメソッドは、テキストのエンティティ記述を含む非構造化マッチングタスクに対して、最先端を著しく移行した。 これらのタスクを最適化するためには、Transformerベースのマッチング方法は十分な量のトレーニングペアを必要とする。 十分なトレーニングデータを提供することは、特に非英語のエンティティ記述のマッチングを学ぶ必要がある場合、難しくなる。 本稿では,異なるe-Shopsから提供される商品のマッチングのユースケースについて検討し,ターゲット言語における少数のトレーニングペアを補足することで,トランスフォーマーベースのエンティティマーカの性能を向上させることができるかを,より大規模な英語と英語のトレーニングペアを用いて検討する。 異なるトランスフォーマーを用いた実験は、ドイツ語セットを英語ペアで拡張することが常に有益であることを示している。 英語のペアを追加することの影響は、比較的少数の非英語のペアしか利用できない低リソース設定において特に大きい。 schema.orgアノテーションを使うことで、Webから英語のトレーニングペアを自動的に収集することが可能になるため、低リソース言語をターゲットにした多くの製品マッチングシナリオに関連性があることが証明できる。

Transformer-based matching methods have significantly moved the state-of-the-art for less-structured matching tasks involving textual entity descriptions. In order to excel on these tasks, Transformer-based matching methods require a decent amount of training pairs. Providing enough training data can be challenging, especially if a matcher for non-English entity descriptions should be learned. This paper explores along the use case of matching product offers from different e-shops to which extent it is possible to improve the performance of Transformer-based entity matchers by complementing a small set of training pairs in the target language, German in our case, with a larger set of English-language training pairs. Our experiments using different Transformers show that extending the German set with English pairs is always beneficial. The impact of adding the English pairs is especially high in low-resource settings in which only a rather small number of non-English pairs is available. As it is often possible to automatically gather English training pairs from the Web by using schema.org annotations, our results could proof relevant for many product matching scenarios targeting low-resource languages.
翻訳日:2021-10-08 15:47:27 公開日:2021-10-07
# 原型コントラスト学習とラベルの融合による目標領域へのブリッジ:スロットフィリングのためのゼロショット学習の再展開

Bridge to Target Domain by Prototypical Contrastive Learning and Label Confusion: Re-explore Zero-Shot Learning for Slot Filling ( http://arxiv.org/abs/2110.03572v1 )

ライセンス: Link先を確認
Liwen Wang, Xuefeng Li, Jiachi Liu, Keqing He, Yuanmeng Yan, Weiran Xu(参考訳) ゼロショットクロスドメインスロットの充填は、ターゲット領域におけるデータ不足の場合にデータ依存を緩和し、広範な研究を喚起している。 しかし,既存の手法の多くは,対象領域への効果的な知識伝達を達成できないため,対象領域の参照スロットの分布に適合し,対象領域の未確認スロットにおける性能の低下を示すだけである。 そこで本研究では,ゼロショットスロットフィリングのための動的ラベル混乱戦略を用いて,プロトタイプ型コントラスト学習に基づく新しい手法を提案する。 原型的コントラスト学習は,ラベルの意味的制約を再構築することを目的としており,ラベルの混乱戦略を導入し,ソースドメインとターゲットドメインとのラベル依存を確立する。 実験結果から,本モデルでは未確認スロットの大幅な改善が達成され,またスロット充填タスクに新たな最先端タスクが設定された。

Zero-shot cross-domain slot filling alleviates the data dependence in the case of data scarcity in the target domain, which has aroused extensive research. However, as most of the existing methods do not achieve effective knowledge transfer to the target domain, they just fit the distribution of the seen slot and show poor performance on unseen slot in the target domain. To solve this, we propose a novel approach based on prototypical contrastive learning with a dynamic label confusion strategy for zero-shot slot filling. The prototypical contrastive learning aims to reconstruct the semantic constraints of labels, and we introduce the label confusion strategy to establish the label dependence between the source domains and the target domain on-the-fly. Experimental results show that our model achieves significant improvement on the unseen slots, while also set new state-of-the-arts on slot filling task.
翻訳日:2021-10-08 15:47:07 公開日:2021-10-07
# ゴール指向設計エージェント:生成設計のためのワンステップルックアヘッド最適化と視覚模倣の統合

Goal-Directed Design Agents: Integrating Visual Imitation with One-Step Lookahead Optimization for Generative Design ( http://arxiv.org/abs/2110.03223v1 )

ライセンス: Link先を確認
Ayush Raina, Lucas Puentes, Jonathan Cagan, Christopher McComb(参考訳) エンジニアリング設計の問題は、しばしば大きな状態とアクション空間と非常にまばらな報酬を含む。 これらの空間の徹底的な探索は不可能であるため、人間は関連する領域知識を利用して探索空間を凝縮する。 これまで、ビジュアル模倣学習を用いてドメイン知識をモデル化するために、ディープラーニングエージェント(DLAgents)が導入された。 このノートはdlagentsをベースとし、それらをワンステップのルックアヘッド検索と統合し、設計を逐次生成するための学習戦略を強化する目標指向エージェントを開発する。 ゴール指向のDLAgentは、データから学んだ人間の戦略と、目的関数の最適化を利用することができる。 DLAgentsの視覚模倣ネットワークは、畳み込みエンコーダ・デコーダネットワークで構成されており、フィードバックに依存しない粗い計画ステップとして機能する。 一方、lookahead検索は、目的によって導かれる微調整された設計アクションを識別する。 これらの設計エージェントは、シーケンシャルなアクションベースの構成設計問題としてモデル化された制約のないトラス設計問題に基づいて訓練される。 エージェントは2つのバージョンで評価される: トレーニングに使用されるオリジナルバージョンと、障害のある構成空間を持つ未確認の制約バージョンである。 目標指向エージェントは、ネットワークのトレーニングに使用した人間設計者や、両方のシナリオでエージェントの以前の客観的なバージョンよりも優れています。 これは、学習した設計戦略を強化するだけでなく、目に見えない設計問題にも適応できる、フィードバックを効率的に利用できるデザインエージェントフレームワークを示している。

Engineering design problems often involve large state and action spaces along with highly sparse rewards. Since an exhaustive search of those spaces is not feasible, humans utilize relevant domain knowledge to condense the search space. Previously, deep learning agents (DLAgents) were introduced to use visual imitation learning to model design domain knowledge. This note builds on DLAgents and integrates them with one-step lookahead search to develop goal-directed agents capable of enhancing learned strategies for sequentially generating designs. Goal-directed DLAgents can employ human strategies learned from data along with optimizing an objective function. The visual imitation network from DLAgents is composed of a convolutional encoder-decoder network, acting as a rough planning step that is agnostic to feedback. Meanwhile, the lookahead search identifies the fine-tuned design action guided by an objective. These design agents are trained on an unconstrained truss design problem that is modeled as a sequential, action-based configuration design problem. The agents are then evaluated on two versions of the problem: the original version used for training and an unseen constrained version with an obstructed construction space. The goal-directed agents outperform the human designers used to train the network as well as the previous objective-agnostic versions of the agent in both scenarios. This illustrates a design agent framework that can efficiently use feedback to not only enhance learned design strategies but also adapt to unseen design problems.
翻訳日:2021-10-08 15:46:28 公開日:2021-10-07
# 動的ポリシーネットワークに基づく知識認識経路推論による代替品・補商品の推測

Inferring Substitutable and Complementary Products with Knowledge-Aware Path Reasoning based on Dynamic Policy Network ( http://arxiv.org/abs/2110.03276v1 )

ライセンス: Link先を確認
Zijing Yang, Jiabo Ye, Linlin Wang, Xin Lin, Liang He(参考訳) ある製品に対して置換可能で相補的な製品を推測することは、レコメンダシステムにとって必須かつ基本的な関心事である。 これを達成するために、既存のアプローチは知識グラフを利用して推論の証拠をより多く学ぶが、エレガントな意思決定戦略が欠如しているために、しばしば無効な推論に悩まされる。 そこで本稿では,動的ポリシーネットワークを活用して知識グラフ上で明示的な推論を行うことにより,置換可能かつ相補的関係を推定する,新しい知識認識経路推論(KAPR)モデルを提案する。 私たちの貢献は3つの側面として強調できます。 まず,この推論シナリオをマルコフ決定プロセスとしてモデル化し,知識グラフを用いた知識認識経路推定を実現する。 次に,構造化知識と非構造化知識を統合し,正確な意思決定を行うための十分な証拠を提供する。 第3に,実世界のデータセット上でのモデル評価を行い,最先端のアプローチと比較して競争力の高い性能を実現する。 私たちのコードはhttps://gitee.com/ya ngzijing flower/kapr/tree/mas terでリリースしています。

Inferring the substitutable and complementary products for a given product is an essential and fundamental concern for the recommender system. To achieve this, existing approaches take advantage of the knowledge graphs to learn more evidences for inference, whereas they often suffer from invalid reasoning for lack of elegant decision making strategies. Therefore, we propose a novel Knowledge-Aware Path Reasoning (KAPR) model which leverages the dynamic policy network to make explicit reasoning over knowledge graphs, for inferring the substitutable and complementary relationships. Our contributions can be highlighted as three aspects. Firstly, we model this inference scenario as a Markov Decision Process in order to accomplish a knowledge-aware path reasoning over knowledge graphs. Secondly,we integrate both structured and unstructured knowledge to provide adequate evidences for making accurate decision-making. Thirdly, we evaluate our model on a series of real-world datasets, achieving competitive performance compared with state-of-the-art approaches. Our code is released on https://gitee.com/ya ngzijing flower/kapr/tree/mas ter.
翻訳日:2021-10-08 15:46:03 公開日:2021-10-07
# SLASH: 確率回路をニューラルアンサーセットプログラミングに適用する

SLASH: Embracing Probabilistic Circuits into Neural Answer Set Programming ( http://arxiv.org/abs/2110.03395v1 )

ライセンス: Link先を確認
Arseny Skryagin, Wolfgang Stammer, Daniel Ochs, Devendra Singh Dhami, Kristian Kersting(参考訳) ニューラルネットワークの堅牢性とシンボリックメソッドの表現性を組み合わせるという目標は、ニューロシンボリックAIへの関心を再燃させた。 近年のニューロシンボリックaiの進歩は、しばしば非結合的な神経コンポーネントとシンボリックコンポーネントからなる特別に調整されたアーキテクチャを考慮し、それらを統一されたフレームワークに統合することで達成できる望ましい成果を示さない。 SLASH(Deep Probabilistic Language:DPPL)を紹介します。 SLASHのコアとなるのは、NPP(Neural-Probabili stic Predicates)と、応答セットプログラミングを通じて統合された論理プログラムである。 NPPによる確率推定は、論理プログラムと生の入力データの結合要素として機能し、SLASHがタスク依存の論理クエリに応答できるようにする。 これによりslashは、シンボリックコンポーネントとニューラルコンポーネントを統一フレームワークにエレガントに統合することができる。 我々は,MNIST加算のベンチマークデータとDPPLの新たなタスク,例えば最先端性能によるデータ予測やセット予測等のSLASHを評価し,本手法の有効性と汎用性を示す。

The goal of combining the robustness of neural networks and the expressivity of symbolic methods has rekindled the interest in neuro-symbolic AI. Recent advancements in neuro-symbolic AI often consider specifically-tailore d architectures consisting of disjoint neural and symbolic components, and thus do not exhibit desired gains that can be achieved by integrating them into a unifying framework. We introduce SLASH -- a novel deep probabilistic programming language (DPPL). At its core, SLASH consists of Neural-Probabilistic Predicates (NPPs) and logical programs which are united via answer set programming. The probability estimates resulting from NPPs act as the binding element between the logical program and raw input data, thereby allowing SLASH to answer task-dependent logical queries. This allows SLASH to elegantly integrate the symbolic and neural components in a unified framework. We evaluate SLASH on the benchmark data of MNIST addition as well as novel tasks for DPPLs such as missing data prediction and set prediction with state-of-the-art performance, thereby showing the effectiveness and generality of our method.
翻訳日:2021-10-08 15:45:42 公開日:2021-10-07
# 信念進化ネットワーク:基本的な信念割当と融合競合確率の確率変換

Belief Evolution Network: Probability Transformation of Basic Belief Assignment and Fusion Conflict Probability ( http://arxiv.org/abs/2110.03468v1 )

ライセンス: Link先を確認
Qianli Zhou, Yusheng Huang, Yong Deng(参考訳) 本稿では,基本信念の確率分布への変換を新たに解釈し,BBAの焦点要素間の因果関係を記述するために,信頼進化ネットワークと呼ばれる非循環ネットワークを利用する。 本手法は, 完全因果確率変換と呼ばれる新しい確率変換法を提案し, プロセスと結果の検証後, 従来のすべての手法よりも優れている。 また、この方法と連結結合則を組み合わせることにより、連結変換結合則と呼ばれる新しい確率的結合規則を提案する。 コンフリクトをマージする優れた能力と、dempsterのコンバインドルールに加えて、情報融合の新たなアイデアを提供する、興味深い疑似マットー効果を備えている。

We give a new interpretation of basic belief assignment transformation into probability distribution, and use directed acyclic network called belief evolution network to describe the causality between the focal elements of a BBA. On this basis, a new probability transformations method called full causality probability transformation is proposed, and this method is superior to all previous method after verification from the process and the result. In addition, using this method combined with disjunctive combination rule, we propose a new probabilistic combination rule called disjunctive transformation combination rule. It has an excellent ability to merge conflicts and an interesting pseudo-Matthew effect, which offer a new idea to information fusion besides the combination rule of Dempster.
翻訳日:2021-10-08 15:45:20 公開日:2021-10-07
# データ少ない深部ニューラルネットワークの訓練のためのデータ中心アプローチ

A Data-Centric Approach for Training Deep Neural Networks with Less Data ( http://arxiv.org/abs/2110.03613v1 )

ライセンス: Link先を確認
Mohammad Motamedi, Nikolay Sakharnykh, Tim Kaldewey(参考訳) 大規模データセットの可用性は、ディープニューラルネットワークのトレーニングにおいて重要な要件であると考えられているが、比較的少ないデータでトレーニングすることが可能である。 しかし、大規模なデータセットの欠如を補償するためには、既存のサンプルの品質を高め、新しいデータセットを生成するための一連のアクションが必要である。 本稿では,この「データ中心ai」コンペティションへの勝利を要約する。 我々は、小さなデータセットでトレーニング中に生じる課題について論じ、体系的なデータ品質向上のための原則的なアプローチを提供し、新しいデータポイントを合成するためのGANベースのソリューションを提案する。 評価の結果,提案パイプラインが生成するデータセットは,ベースラインよりもかなり小さく,精度が5%向上することが示された。

While the availability of large datasets is perceived to be a key requirement for training deep neural networks, it is possible to train such models with relatively little data. However, compensating for the absence of large datasets demands a series of actions to enhance the quality of the existing samples and to generate new ones. This paper summarizes our winning submission to the "Data-Centric AI" competition. We discuss some of the challenges that arise while training with a small dataset, offer a principled approach for systematic data quality enhancement, and propose a GAN-based solution for synthesizing new data points. Our evaluations indicate that the dataset generated by the proposed pipeline offers 5% accuracy improvement while being significantly smaller than the baseline.
翻訳日:2021-10-08 15:45:06 公開日:2021-10-07
# 多層パーセプトロンの重み付け条件から段階的議論意味論へ

From Weighted Conditionals of Multilayer Perceptrons to a Gradual Argumentation Semantics ( http://arxiv.org/abs/2110.03643v1 )

ライセンス: Link先を確認
Laura Giordano(参考訳) 近年,重み付き条件付き知識ベースとしてファジィ多参照セマンティクスが提案され,深層ニューラルネットワークを重み付き条件付き知識ベースとして扱うことで,多層パーセプトロンの論理セマンティクスの開発に利用されている。 このセマンティクスは、その異なる変種において、段階的セマンティクスの族に関連するいくつかの段階的議論セマンティクスを示唆している。 重み付き条件付き知識ベースとMPPの関係は、提案された段階的意味論に拡張され、MPの定常状態をキャプチャし、ディーニューラルネットワークを重み付き議論グラフとして見ることもできる。

A fuzzy multipreference semantics has been recently proposed for weighted conditional knowledge bases, and used to develop a logical semantics for Multilayer Perceptrons, by regarding a deep neural network (after training) as a weighted conditional knowledge base. This semantics, in its different variants, suggests some gradual argumentation semantics, which are related to the family of the gradual semantics. The relationships between weighted conditional knowledge bases and MLPs extend to the proposed gradual semantics, which captures the stationary states of MPs, so that a dee neural network can as well be seen as a weighted argumentation graph.
翻訳日:2021-10-08 15:44:53 公開日:2021-10-07
# Meta-UDA:メタラーニングを用いた教師なしドメイン適応熱物体検出

Meta-UDA: Unsupervised Domain Adaptive Thermal Object Detection using Meta-Learning ( http://arxiv.org/abs/2110.03143v1 )

ライセンス: Link先を確認
Vibashan VS, Domenick Poster, Suya You, Shuowen Hu and Vishal M. Patel(参考訳) 大規模RGBデータセットでトレーニングされたオブジェクト検出器は、現実世界のアプリケーションに広く採用されている。 しかし、これらのRGBトレーニングモデルは、照明条件や照明条件が悪ければ性能が低下する。 赤外線(IR)カメラはそのような条件下では堅牢であり、現実世界の応用に有用である。 サーマルカメラは軍事用途や商業用途に広く用いられているが、ラベル付きサーマルデータの可用性が限られているため、サーマルイメージを堅牢に活用するための堅牢なアルゴリズムが欠如している。 本研究では,unsupervised domain adaptation(uda)設定でラベル付き可視領域データを活用することで,熱領域におけるオブジェクト検出性能の向上を目指す。 新しいUDA戦略を提案するのではなく,既存のUDA手法を改善するためのアルゴリズムに依存しないメタ学習フレームワークを提案する。 我々は,検出器の初期条件をメタラーニングすることで,局所光度を過小評価することなく,微妙な更新を伴う適応プロセスが容易になる。 しかし,検出シナリオの初期条件のメタラーニングは,長期かつ難解な計算グラフのため,計算的に重い。 そこで本研究では,オンライン更新を行うオンラインメタ学習パラダイムを提案する。 この目的のために, KAIST および DSIAC データセットに対する最先端の熱検出器を作成した UDA 設定における多くのベースラインに対する手法の優位性を実証した。

Object detectors trained on large-scale RGB datasets are being extensively employed in real-world applications. However, these RGB-trained models suffer a performance drop under adverse illumination and lighting conditions. Infrared (IR) cameras are robust under such conditions and can be helpful in real-world applications. Though thermal cameras are widely used for military applications and increasingly for commercial applications, there is a lack of robust algorithms to robustly exploit the thermal imagery due to the limited availability of labeled thermal data. In this work, we aim to enhance the object detection performance in the thermal domain by leveraging the labeled visible domain data in an Unsupervised Domain Adaptation (UDA) setting. We propose an algorithm agnostic meta-learning framework to improve existing UDA methods instead of proposing a new UDA strategy. We achieve this by meta-learning the initial condition of the detector, which facilitates the adaptation process with fine updates without overfitting or getting stuck at local optima. However, meta-learning the initial condition for the detection scenario is computationally heavy due to long and intractable computation graphs. Therefore, we propose an online meta-learning paradigm which performs online updates resulting in a short and tractable computation graph. To this end, we demonstrate the superiority of our method over many baselines in the UDA setting, producing a state-of-the-art thermal detector for the KAIST and DSIAC datasets.
翻訳日:2021-10-08 15:43:12 公開日:2021-10-07
# 画像アライメントのためのカラーポイントクラウド

Colored Point Cloud to Image Alignment ( http://arxiv.org/abs/2110.03249v1 )

ライセンス: Link先を確認
Noam Rotstein, Amit Bracha, Ron Kimmel(参考訳) 画像中のオブジェクトの認識とセグメンテーションは、多くの注釈付きデータの富を享受する。 一方,画像から物体の幾何学的構造を再構築する場合,教師あり学習に利用可能な正確なデータは限られている。 深層学習に必要な量が少ない幾何学的データの1つは、実世界の正確なRGB-D画像である。 正確なRGB-Dデータセットの欠如は、画像からの幾何学的シーン再構成の進化における障害の1つである。 このようなデータセットを作成するための解決策の1つは、各ピクセルに深度値を割り当てる正確な深度スキャン装置を同時に使用しながら、RGB画像をキャプチャすることである。 このような真実データを取得する上での大きな課題は、RGB画像と測定された深さと色プロファイルの正確な一致である。 そこで本研究では,カラーマッチングと幾何マッチングにより,色付き点雲を所定の色画像に整列する微分最適化手法を提案する。 提案手法は,特定のカメラシステムのためのRGB-Dデータセットの構築を可能にする。 提案フレームワークでは,画像画素の色と投影された点のカメラ面に対する色との差を最小化する。 幾何学的スキャナーカメラとカラーカメラセンサーで生成する色は異なると仮定し,彩色特性が異なることを特徴とする。 異なる色空間を調整し、対応する色外観を補正する。 この設定では、点雲の相対的な位置と一致する色とのマッチングにより、カメラ画像と点雲の色の間の変換を繰り返す。 提案手法により得られたアライメントを定量的に評価した合成データと定性的な結果を得た実世界の両方で実証した。

Recognition and segmentation of objects in images enjoy the wealth of large volume of well annotated data. At the other end, when dealing with the reconstruction of geometric structures of objects from images, there is a limited amount of accurate data available for supervised learning. One type of such geometric data with insufficient amount required for deep learning is real world accurate RGB-D images. The lack of accurate RGB-D datasets is one of the obstacles in the evolution of geometric scene reconstructions from images. One solution to creating such a dataset is to capture RGB images while simultaneously using an accurate depth scanning device that assigns a depth value to each pixel. A major challenge in acquiring such ground truth data is the accurate alignment between the RGB images and the measured depth and color profiles. We introduce a differential optimization method that aligns a colored point cloud to a given color image via iterative geometric and color matching. The proposed method enables the construction of RGB-D datasets for specific camera systems. In the suggested framework, the optimization minimizes the difference between the colors of the image pixels and the corresponding colors of the projected points to the camera plane. We assume that the colors produced by the geometric scanner camera and the color camera sensor are different and thus are characterized by different chromatic acquisition properties. We align the different color spaces while compensating for their corresponding color appearance. Under this setup, we find the transformation between the camera image and the point cloud colors by iterating between matching the relative location of the point cloud and matching colors. The successful alignments produced by the proposed method are demonstrated on both synthetic data with quantitative evaluation and real world scenes with qualitative results.
翻訳日:2021-10-08 15:42:48 公開日:2021-10-07
# MC-LCR:顔偽造検出のための局所相関表現によるマルチモーダルコントラスト分類

MC-LCR: Multi-modal contrastive classification by locally correlated representations for effective face forgery detection ( http://arxiv.org/abs/2110.03290v1 )

ライセンス: Link先を確認
Gaojian Wang, Qian Jiang, Xin Jin, Wei Li and Xiaohui Cui(参考訳) 顔認証技術の開発に深刻なセキュリティ上の懸念が伴う中、顔の偽造検出は最近の研究ホットスポットとなっている。 既存の検出メソッドの多くは、実か偽かを判断するためにグローバル監視下でバイナリ分類器をトレーニングする。 しかし、高度な操作は小規模な改ざんしか行わず、特に高い圧縮設定やデータセットのシナリオにおいて、微妙で局所的な偽造品を包括的にキャプチャする課題を提起する。 このような制約に対処するため,局所相関表現(MC-LCR)を用いた顔偽造検出のためのマルチモーダルコントラスト分類(Multi-modal Contrastive Classification)を提案する。 我々のMC-LCRは、特定の外観特徴の代わりに、空間領域と周波数領域の両方から真偽顔と偽顔の暗黙の局所的不一致を増幅することを目的としている。 具体的には,空間領域内のより識別的な特徴を抽出するために,局所的な特徴マップを符号化する浅層特徴マップのペアワイズ相関を測定する浅層スタイル表現ブロックを設計する。 さらに, パッチワイド位相および振幅スペクトルにおいて, 微妙な偽造品がさらに露出し, 異なる手がかりを示すことを重要視する。 振幅情報と位相情報の相補性に応じて,周波数領域で局所的に相関する不整合を捉えるパッチワイズ振幅と位相二重注意モジュールを開発した。 上記の2つのモジュールに加えて、教師付きコントラスト損失とクロスエントロピー損失の協調を導入する。 ネットワークはより差別的で一般化された表現を学ぶのに役立つ。 広範な実験と総合的な研究を通じて,最先端のパフォーマンスを実現し,本手法の堅牢性と一般化を実証する。

As the remarkable development of facial manipulation technologies is accompanied by severe security concerns, face forgery detection has become a recent research hotspot. Most existing detection methods train a binary classifier under global supervision to judge real or fake. However, advanced manipulations only perform small-scale tampering, posing challenges to comprehensively capture subtle and local forgery artifacts, especially in high compression settings and cross-dataset scenarios. To address such limitations, we propose a novel framework named Multi-modal Contrastive Classification by Locally Correlated Representations(MC-L CR), for effective face forgery detection. Instead of specific appearance features, our MC-LCR aims to amplify implicit local discrepancies between authentic and forged faces from both spatial and frequency domains. Specifically, we design the shallow style representation block that measures the pairwise correlation of shallow feature maps, which encodes local style information to extract more discriminative features in the spatial domain. Moreover, we make a key observation that subtle forgery artifacts can be further exposed in the patch-wise phase and amplitude spectrum and exhibit different clues. According to the complementarity of amplitude and phase information, we develop a patch-wise amplitude and phase dual attention module to capture locally correlated inconsistencies with each other in the frequency domain. Besides the above two modules, we further introduce the collaboration of supervised contrastive loss with cross-entropy loss. It helps the network learn more discriminative and generalized representations. Through extensive experiments and comprehensive studies, we achieve state-of-the-art performance and demonstrate the robustness and generalization of our method.
翻訳日:2021-10-08 15:42:22 公開日:2021-10-07
# 部分レベル動作解析と行動認識のためのベースラインフレームワーク

A Baseline Framework for Part-level Action Parsing and Action Recognition ( http://arxiv.org/abs/2110.03368v1 )

ライセンス: Link先を確認
Xiaodong Chen, Xinchen Liu, Kun Liu, Wu Liu, Tao Mei(参考訳) ICCV DeeperAction Workshop 2021におけるパートレベルアクション解析におけるKinetics-TPS Trackに対する第2位ソリューションを紹介します。 我々のエントリは主に、例えばYOLOF、人間のポーズ推定のためのHRNet、ビデオレベルのアクション認識とフレームレベルの部分状態解析のためのCSNに基づいています。 Kinetics-TPSデータセットの技術的詳細と実験結果について述べる。 競技ではKinetics-TPSのテストセットで61.37%のmAPを達成した。

This technical report introduces our 2nd place solution to Kinetics-TPS Track on Part-level Action Parsing in ICCV DeeperAction Workshop 2021. Our entry is mainly based on YOLOF for instance and part detection, HRNet for human pose estimation, and CSN for video-level action recognition and frame-level part state parsing. We describe technical details for the Kinetics-TPS dataset, together with some experimental results. In the competition, we achieved 61.37% mAP on the test set of Kinetics-TPS.
翻訳日:2021-10-08 15:41:51 公開日:2021-10-07
# モデル適応:ソースデータのない教師なしドメイン適応のための歴史的コントラスト学習

Model Adaptation: Historical Contrastive Learning for Unsupervised Domain Adaptation without Source Data ( http://arxiv.org/abs/2110.03374v1 )

ライセンス: Link先を確認
Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu(参考訳) 教師なしのドメイン適応は、ラベル付きソースドメインとラベル付きターゲットドメインの整列を目的としているが、データプライバシ、データポータビリティ、データ転送効率の懸念を引き起こすことが多いソースデータにアクセスする必要がある。 非教師なしモデル適応(unsupervised model adaptation,uma)またはソースデータのない非教師なしドメイン適応(unsupervised domain adapt without source data)と呼ばれる、ソースデータにアクセスせずにソース訓練されたモデルをターゲットディストリビューションに適応させるための代替設定を研究した。 そこで本研究では,歴史ソース仮説を活用し,umaにおけるソースデータの欠如を補う,革新的な歴史コントラスト学習(hcl)手法を考案する。 HCLは2つの観点からUMAの課題に対処する。 まず,現在適応しているモデルと歴史モデルによって生成された埋め込みとを対比して,対象サンプルから学習する履歴コントラストインスタンス識別(hcid)を導入する。 HCIDは、歴史モデルとしてソーストレーニングと初期のエポックモデルを用いて、ソース仮説を保存しながらインスタンス識別対象表現を学習するようUMAに促す。 第2に,疑似ラベルがサンプルを対象とし,カテゴリー識別対象表現を学習する歴史コントラストカテゴリ識別(hccd)を導入する。 HCCDは擬似ラベルを世界規模で閾値付けする代わりに、現在のモデルと歴史的モデルの間で予測一貫性に従って擬似ラベルを再重み付けする。 広範な実験により、hclは様々なビジュアルタスク(セグメンテーション、分類、検出など)とセットアップ(クローズセット、オープンセット、部分適応など)において、最先端の手法を一貫して超越し補完することが示された。

Unsupervised domain adaptation aims to align a labeled source domain and an unlabeled target domain, but it requires to access the source data which often raises concerns in data privacy, data portability and data transmission efficiency. We study unsupervised model adaptation (UMA), or called Unsupervised Domain Adaptation without Source Data, an alternative setting that aims to adapt source-trained models towards target distributions without accessing source data. To this end, we design an innovative historical contrastive learning (HCL) technique that exploits historical source hypothesis to make up for the absence of source data in UMA. HCL addresses the UMA challenge from two perspectives. First, it introduces historical contrastive instance discrimination (HCID) that learns from target samples by contrasting their embeddings which are generated by the currently adapted model and the historical models. With the source-trained and earlier-epoch models as the historical models, HCID encourages UMA to learn instance-discriminat ive target representations while preserving the source hypothesis. Second, it introduces historical contrastive category discrimination (HCCD) that pseudo-labels target samples to learn category-discriminat ive target representations. Instead of globally thresholding pseudo labels, HCCD re-weights pseudo labels according to their prediction consistency across the current and historical models. Extensive experiments show that HCL outperforms and complements state-of-the-art methods consistently across a variety of visual tasks (e.g., segmentation, classification and detection) and setups (e.g., close-set, open-set and partial adaptation).
翻訳日:2021-10-08 15:41:44 公開日:2021-10-07
# 識別可能なセマンティックレンダリングを用いた画像からの身体の回帰学習

Learning to Regress Bodies from Images using Differentiable Semantic Rendering ( http://arxiv.org/abs/2110.03480v1 )

ライセンス: Link先を確認
Sai Kumar Dwivedi, Nikos Athanasiou, Muhammed Kocabas, Michael J. Black(参考訳) モノクロ画像から3Dの人体形状やポーズ(例えばSMPLパラメータ)を復元する学習は、通常、3Dトレーニングデータが入手できないときに2Dのキーポイント、シルエット、または/または部分セグメンテーションの損失を利用する。 しかし、このような損失は2Dキーポイントが体の形状を監督せず、衣服の人のセグメンテーションが最小限のSMPL形状と一致しないため、制限されている。 衣服に関するより豊かな画像情報を活用するため、衣服に関するより高度な意味情報を導入し、衣服及び非衣服領域を異なる方法で罰する。 そこで我々は, DSRロスという, 微分可能なセマンティックレンダリングを用いて, 身体回帰器を訓練する。 最小被覆領域に対しては、レンダリングされたSMPL本体と画像の最小被覆領域との密一致を促進するDSR-MC損失を定義する。 布地では,DSR-C損失が定義され,レンダリングされたSMPL体が衣料マスク内に収まる。 エンド・ツー・エンドの差別化訓練を確実にするために、何千もの人間のスキャンからSMPL頂点に先立つセマンティック・ウェアを学ぶ。 衣服意味論が3次元人間のポーズと形状推定の精度に与える影響を評価するために,広範囲な質的定量的実験を行った。 我々は従来の3DPWとHuman3.6Mの手法を全て上回り、MPI-INF-3DHPで同等の結果を得た。 コードとトレーニングされたモデルはhttps://dsr.is.tue.m pg.de/で研究することができる。

Learning to regress 3D human body shape and pose (e.g.~SMPL parameters) from monocular images typically exploits losses on 2D keypoints, silhouettes, and/or part-segmentation when 3D training data is not available. Such losses, however, are limited because 2D keypoints do not supervise body shape and segmentations of people in clothing do not match projected minimally-clothed SMPL shapes. To exploit richer image information about clothed people, we introduce higher-level semantic information about clothing to penalize clothed and non-clothed regions of the image differently. To do so, we train a body regressor using a novel Differentiable Semantic Rendering - DSR loss. For Minimally-Clothed regions, we define the DSR-MC loss, which encourages a tight match between a rendered SMPL body and the minimally-clothed regions of the image. For clothed regions, we define the DSR-C loss to encourage the rendered SMPL body to be inside the clothing mask. To ensure end-to-end differentiable training, we learn a semantic clothing prior for SMPL vertices from thousands of clothed human scans. We perform extensive qualitative and quantitative experiments to evaluate the role of clothing semantics on the accuracy of 3D human pose and shape estimation. We outperform all previous state-of-the-art methods on 3DPW and Human3.6M and obtain on par results on MPI-INF-3DHP. Code and trained models are available for research at https://dsr.is.tue.m pg.de/.
翻訳日:2021-10-08 15:41:14 公開日:2021-10-07
# スケール不変領域一般化画像キャプチャー

Scale Invariant Domain Generalization Image Recapture Detection ( http://arxiv.org/abs/2110.03496v1 )

ライセンス: Link先を確認
Jinian Luo, Jie Guo, Weidong Qiu, Zheng Huang, and Hong Hui(参考訳) 画像の再撮影と再放送は、保険詐欺や顔認証の不正行為における一般的な攻撃方法であり、この問題に対処するための検出技術が増えている。 しかし、その多くはドメインの一般化シナリオとスケールの分散を無視しており、ドメインシフトの状況では性能が劣り、通常ドメイン内およびドメイン間スケールのばらつきによって悪化した。 本稿では,これらの課題に対処するスケールアライメント領域一般化フレームワーク(SADG)を提案する。 まず、逆領域判別器を用いて、異なる領域間の画像表現分布のばらつきを最小化する。 一方,三重項損失を局所的な制約として活用し,決定境界の明確化を図る。 さらに、グローバル関係正規化としてスケールアライメント損失を導入し、異なるスケールにわたって同じクラスのイメージ表現を維持不能にさせる。 4つのデータベースに関する実験結果と最先端のアプローチとの比較により、我々のフレームワークを用いてより良いパフォーマンスを実現することができることを示す。

Recapturing and rebroadcasting of images are common attack methods in insurance frauds and face identification spoofing, and an increasing number of detection techniques were introduced to handle this problem. However, most of them ignored the domain generalization scenario and scale variances, with an inferior performance on domain shift situations, and normally were exacerbated by intra-domain and inter-domain scale variances. In this paper, we propose a scale alignment domain generalization framework (SADG) to address these challenges. First, an adversarial domain discriminator is exploited to minimize the discrepancies of image representation distributions among different domains. Meanwhile, we exploit triplet loss as a local constraint to achieve a clearer decision boundary. Moreover, a scale alignment loss is introduced as a global relationship regularization to force the image representations of the same class across different scales to be undistinguishable. Experimental results on four databases and comparison with state-of-the-art approaches show that better performance can be achieved using our framework.
翻訳日:2021-10-08 15:40:44 公開日:2021-10-07
# RAR: リージョン対応のポイントクラウド登録

RAR: Region-Aware Point Cloud Registration ( http://arxiv.org/abs/2110.03544v1 )

ライセンス: Link先を確認
Yu Hao, Yi Fang(参考訳) 本稿では,ポイントクラウドの登録に関する研究課題を考察し,対象とするポイントセットを最適に整えるための厳格な変換を求める。 ディープニューラルネットワークを用いたロバストなポイントクラウド登録モデルの学習は、強力なパラダイムとして登場し、一対のポイントセットに対するグローバル幾何変換の予測に有望なパフォーマンスを提供する。 既存のメソッドは、まずエンコーダを利用して潜在形状埋め込みをレグレッションし、その後、結合ベースのコンディショニングによって形状条件付き変換にデコードする。 しかし、3次元形状の異なる領域は幾何学的構造が異なるため、形状条件の領域ではなく領域条件の変換がより合理的である。 本稿では、自己教師型学習方式におけるペアワイズ点集合の変換を予測するために、RAR(Rar)と表記されるShaunderline{R}egion-\underline{A}ware point cloud \underline{R}egistrationを提案する。 具体的には、ニューラルネットワークによってパラメータ化された暗黙のニューラルネットワーク領域表現で形成される新しい領域対応デコーダ(RAD)モジュールを開発する。 暗黙的ニューラル領域表現は、領域ラベルを必要とせず、自己教師付き3次元形状再構成損失で学習される。 これにより、地域対応デコーダ(RAD)モジュールは、地域対応トランスフォーメーション(RAT)モジュールと地域対応トランスフォーメーション(RAW)モジュールのトレーニングをガイドし、各領域のトランスフォーメーションと重みをそれぞれ予測する。 ソース点からターゲット点への大域的幾何学変換は、領域認識変換の重み付き融合によって形成される。 我々の実験は、最先端のアプローチと比較して、RARが様々なベンチマークデータセット(ModelNet40など)よりも優れた登録性能を達成することを示した。

This paper concerns the research problem of point cloud registration to find the rigid transformation to optimally align the source point set with the target one. Learning robust point cloud registration models with deep neural networks has emerged as a powerful paradigm, offering promising performance in predicting the global geometric transformation for a pair of point sets. Existing methods firstly leverage an encoder to regress a latent shape embedding, which is then decoded into a shape-conditioned transformation via concatenation-based conditioning. However, different regions of a 3D shape vary in their geometric structures which makes it more sense that we have a region-conditioned transformation instead of the shape-conditioned one. In this paper we present a \underline{R}egion-\underline{A}ware point cloud \underline{R}egistration, denoted as RAR, to predict transformation for pairwise point sets in the self-supervised learning fashion. More specifically, we develop a novel region-aware decoder (RAD) module that is formed with an implicit neural region representation parameterized by neural networks. The implicit neural region representation is learned with a self-supervised 3D shape reconstruction loss without the need for region labels. Consequently, the region-aware decoder (RAD) module guides the training of the region-aware transformation (RAT) module and region-aware weight (RAW) module, which predict the transforms and weights for different regions respectively. The global geometric transformation from source point set to target one is then formed by the weighted fusion of region-aware transforms. Compared to the state-of-the-art approaches, our experiments show that our RAR achieves superior registration performance over various benchmark datasets (e.g. ModelNet40).
翻訳日:2021-10-08 15:40:28 公開日:2021-10-07
# コントラスト時空間による映像中の人間と物体の相互作用検出

Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions ( http://arxiv.org/abs/2110.03562v1 )

ライセンス: Link先を確認
Shuang Li, Yilun Du, Antonio Torralba, Josef Sivic, and Bryan Russell(参考訳) 本稿では,映像中の人間と物体の相互作用を検出するための弱教師付き学習の課題を紹介する。 私たちのタスクは、ビデオに写っている人間とオブジェクトの相互作用の種類や、人間とオブジェクトの実際の時空間的位置が分からないため、ユニークな課題を提起します。 これらの課題に対処するために,映像中の時空間領域と動作や対象語彙を協調的に関連付けることを目的として,移動物体の視覚的外観の時間的連続性を自己スーパービジョンとして促進する,コントラスト的弱教師付きトレーニング損失を導入する。 本モデルでは,ビデオに関連する文文から半自動でキュレートされた,人間とオブジェクトの相互作用アノテーションを用いた6.5k以上のビデオからなるデータセットを提案する。 ビデオデータセット上でのタスクに適応した弱教師付きベースラインの性能向上を示す。

We introduce the task of weakly supervised learning for detecting human and object interactions in videos. Our task poses unique challenges as a system does not know what types of human-object interactions are present in a video or the actual spatiotemporal location of the human and the object. To address these challenges, we introduce a contrastive weakly supervised training loss that aims to jointly associate spatiotemporal regions in a video with an action and object vocabulary and encourage temporal continuity of the visual appearance of moving objects as a form of self-supervision. To train our model, we introduce a dataset comprising over 6.5k videos with human-object interaction annotations that have been semi-automatically curated from sentence captions associated with the videos. We demonstrate improved performance over weakly supervised baselines adapted to our task on our video dataset.
翻訳日:2021-10-08 15:39:55 公開日:2021-10-07
# ベッド内人物ポーズ推定の高精度化に向けて

Towards Accurate Cross-Domain In-Bed Human Pose Estimation ( http://arxiv.org/abs/2110.03578v1 )

ライセンス: Link先を確認
Mohamed Afham, Udith Haputhanthri, Jathurshan Pradeepkumar, Mithunjha Anandakumar, Ashwin De Silva, Chamira Edussooriya(参考訳) 睡眠中の人間の行動モニタリングは様々な医学的応用に不可欠である。 接触型ポーズ推定アルゴリズムの大部分はrgbモダリティに基づいており、毛布による咬合や照明条件の変化などによるベッド内ポーズ推定に効果がない。 長波長赤外(LWIR)変調を用いたポーズ推定アルゴリズムは上記の課題を克服するが、そのような条件下で人間アノテータが生成する基底真理は実現不可能である。 この問題に対処するための実現可能な解決策は、画像から学んだ知識をポーズラベル付きでオクルージョンなしに移し、現実の状況(毛布による閉塞)に適応させることである。 本稿では,実環境におけるラベルなし画像の分布を学習するために,クロスドメイン不一致と知識蒸留を低減させる2次元データ拡張を含む新しい学習戦略を提案する。 実験と分析により,複数基準の人格推定ベースラインに対するアプローチの有効性が示された。

Human behavioral monitoring during sleep is essential for various medical applications. Majority of the contactless human pose estimation algorithms are based on RGB modality, causing ineffectiveness in in-bed pose estimation due to occlusions by blankets and varying illumination conditions. Long-wavelength infrared (LWIR) modality based pose estimation algorithms overcome the aforementioned challenges; however, ground truth pose generations by a human annotator under such conditions are not feasible. A feasible solution to address this issue is to transfer the knowledge learned from images with pose labels and no occlusions, and adapt it towards real world conditions (occlusions due to blankets). In this paper, we propose a novel learning strategy comprises of two-fold data augmentation to reduce the cross-domain discrepancy and knowledge distillation to learn the distribution of unlabeled images in real world conditions. Our experiments and analysis show the effectiveness of our approach over multiple standard human pose estimation baselines.
翻訳日:2021-10-08 15:39:39 公開日:2021-10-07
# 少数ショットセグメンテーションのための高密度ガウス過程

Dense Gaussian Processes for Few-Shot Segmentation ( http://arxiv.org/abs/2110.03674v1 )

ライセンス: Link先を確認
Joakim Johnander, Johan Edstedt, Michael Felsberg, Fahad Shahbaz Khan, Martin Danelljan(参考訳) 少数ショットセグメンテーションは、小さな注釈付きサポートセットのみを与えられた新しいクエリイメージをセグメンテーションすることを含む、難しい密集した予測タスクである。 したがって、鍵となる問題は、外観や文脈の広いバリエーションに頑健なまま、サポートセットから詳細な情報を集約する手法を設計することである。 そこで本研究では,高密度ガウス過程(gp)回帰に基づく数ショットセグメンテーション法を提案する。 サポートセットを考慮すれば,局所的な深部画像特徴からマスク値へのマッピングを学習し,複雑な外観分布を捉えることができる。 さらに、cnnデコーダによって得られる最終セグメンテーションに対する別の強力な手がかりとなる不確かさを捉えるための原則的な手段を提供する。 1次元マスク出力の代わりに、GPの高次元出力空間を学習するために、我々のアプローチのエンドツーエンド学習能力をさらに活用する。 提案手法は,PASCAL-5$^i$とCOCO-20$^i$のベンチマークにおいて,1ショットと5ショットのFSSをそれぞれ新たな最先端に設定し,COCO-20$^i$5ショット設定において,絶対的な利得を+14.9$ mIoUとした。 さらに,提案手法のセグメンテーション品質は,堅牢なクロスデータセット転送を実現しつつ,サポートセットサイズを増加させる際に優雅に拡張できる。

Few-shot segmentation is a challenging dense prediction task, which entails segmenting a novel query image given only a small annotated support set. The key problem is thus to design a method that aggregates detailed information from the support set, while being robust to large variations in appearance and context. To this end, we propose a few-shot segmentation method based on dense Gaussian process (GP) regression. Given the support set, our dense GP learns the mapping from local deep image features to mask values, capable of capturing complex appearance distributions. Furthermore, it provides a principled means of capturing uncertainty, which serves as another powerful cue for the final segmentation, obtained by a CNN decoder. Instead of a one-dimensional mask output, we further exploit the end-to-end learning capabilities of our approach to learn a high-dimensional output space for the GP. Our approach sets a new state-of-the-art for both 1-shot and 5-shot FSS on the PASCAL-5$^i$ and COCO-20$^i$ benchmarks, achieving an absolute gain of $+14.9$ mIoU in the COCO-20$^i$ 5-shot setting. Furthermore, the segmentation quality of our approach scales gracefully when increasing the support set size, while achieving robust cross-dataset transfer.
翻訳日:2021-10-08 15:39:22 公開日:2021-10-07
# ATISS:屋内シーン合成のための自動回帰変換器

ATISS: Autoregressive Transformers for Indoor Scene Synthesis ( http://arxiv.org/abs/2110.03675v1 )

ライセンス: Link先を確認
Despoina Paschalidou and Amlan Kar and Maria Shugrina and Karsten Kreis and Andreas Geiger and Sanja Fidler(参考訳) インタラクティブな3dツールからトレーニングやシミュレーションのためのデータ合成まで、リアルで多様な室内家具のレイアウトを自動的にあるいは部分的な入力に基づいて合成する能力は、多くのアプリケーションをアンロックする。 本稿では,室内型とフロアプランのみを考慮し,多種多様な合成室内環境を構築するための自動回帰トランスフォーマーアーキテクチャであるATISSを提案する。 シーン合成をシーケンス生成として扱う先行研究とは対照的に,本モデルは無順序オブジェクト集合として部屋を生成する。 この定式化は、ATISSが完全に自動的な部屋レイアウト合成を超えて一般的に有用になるため、より自然なものであると我々は主張する。 例えば、同じトレーニングされたモデルは、一般的なシーン補完、ユーザーが指定した任意のオブジェクトに対する部分的な部屋再構成、および任意の部分的な部屋に対するオブジェクト提案のためのインタラクティブなアプリケーションで使用することができる。 これを実現するため、本モデルは部分的なシーンの条件付け時にトランスの置換等分散を活用し、オブジェクトの順序にまたがって置換不変であるように訓練する。 本モデルは,ラベル付き3Dバウンディングボックスのみを監督として,自動回帰生成モデルとしてエンドツーエンドで訓練されている。 3d-frontデータセットにおける4つのルームタイプの評価は、既存の方法よりも現実的な部屋レイアウトを一貫して生成することを示している。 さらに、パラメータが少なく、実装とトレーニングが簡単で、既存のメソッドよりも最大8倍高速に実行される。

The ability to synthesize realistic and diverse indoor furniture layouts automatically or based on partial input, unlocks many applications, from better interactive 3D tools to data synthesis for training and simulation. In this paper, we present ATISS, a novel autoregressive transformer architecture for creating diverse and plausible synthetic indoor environments, given only the room type and its floor plan. In contrast to prior work, which poses scene synthesis as sequence generation, our model generates rooms as unordered sets of objects. We argue that this formulation is more natural, as it makes ATISS generally useful beyond fully automatic room layout synthesis. For example, the same trained model can be used in interactive applications for general scene completion, partial room re-arrangement with any objects specified by the user, as well as object suggestions for any partial room. To enable this, our model leverages the permutation equivariance of the transformer when conditioning on the partial scene, and is trained to be permutation-invarian t across object orderings. Our model is trained end-to-end as an autoregressive generative model using only labeled 3D bounding boxes as supervision. Evaluations on four room types in the 3D-FRONT dataset demonstrate that our model consistently generates plausible room layouts that are more realistic than existing methods. In addition, it has fewer parameters, is simpler to implement and train and runs up to 8 times faster than existing methods.
翻訳日:2021-10-08 15:38:51 公開日:2021-10-07
# VisualTTS: 自動音声オーバのための高精度リップ音声同期TTS

VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic Voice Over ( http://arxiv.org/abs/2110.03342v1 )

ライセンス: Link先を確認
Junchen Lu, Berrak Sisman, Rui Liu, Mingyang Zhang, Haizhou Li(参考訳) 本稿では,音声自動オーバー(AVO)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。 従来の音声合成とは異なり、avoは人間の発声だけでなく完全な口唇同期も実現しようとしている。 AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。 そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。 提案したVisualTTSは2つの新しいメカニズムを採用する。 1)テキスト・視覚的注意,及び 2) 音響復号における視覚融合戦略は, 入力テキストの内容と唇運動の正確な一致形成に寄与する。 実験の結果,VisualTTSは正確な唇音声同期を実現し,全てのベースラインシステムより優れていた。

In this paper, we formulate a novel task to synthesize speech in sync with a silent pre-recorded video, denoted as automatic voice over (AVO). Unlike traditional speech synthesis, AVO seeks to generate not only human-sounding speech, but also perfect lip-speech synchronization. A natural solution to AVO is to condition the speech rendering on the temporal progression of lip sequence in the video. We propose a novel text-to-speech model that is conditioned on visual input, named VisualTTS, for accurate lip-speech synchronization. The proposed VisualTTS adopts two novel mechanisms that are 1) textual-visual attention, and 2) visual fusion strategy during acoustic decoding, which both contribute to forming accurate alignment between the input text content and lip motion in input lip sequence. Experimental results show that VisualTTS achieves accurate lip-speech synchronization and outperforms all baseline systems.
翻訳日:2021-10-08 15:38:11 公開日:2021-10-07
# ノイズロバストスピーカダイアリゼーションのためのディメンタリティ低減

Disentangled dimensionality reduction for noise-robust speaker diarisation ( http://arxiv.org/abs/2110.03380v1 )

ライセンス: Link先を確認
You Jin Kim, Hee-Soo Heo, Jee-weon Jung, Youngki Kwon, Bong-Jin Lee, Joon Son Chung(参考訳) 本研究の目的は,話者ダイアリゼーションのためのノイズロバスト話者埋め込みの訓練である。 話者埋め込みはダイアリゼーションシステムの性能において重要な役割を果たすが、しばしばノイズや残響などの突発的な情報を捉え、性能に悪影響を及ぼす。 これまでの研究では,スプリアス情報を除去するための自動エンコーダベースの次元低減モジュールを提案している。 しかし、これらの情報は明確に分離せず、ハイパーパラメータ値に敏感であることも判明している。 この目的のために、これらの問題を克服するための2つの貢献を提案する。 一 話者埋め込みから散発的な情報を外すことができる新規な次元縮小枠組み (2)背景雑音から話者コードが学習されるのを防ぐための音声・非音声指標の使用。 4つの異なるデータセットで実施した実験を通じて,本手法はアンサンブルを採用しないモデル間の最先端性能を一貫して実証する。

The objective of this work is to train noise-robust speaker embeddings for speaker diarisation. Speaker embeddings play a crucial role in the performance of diarisation systems, but they often capture spurious information such as noise and reverberation, adversely affecting performance. Our previous work have proposed an auto-encoder-based dimensionality reduction module to help remove the spurious information. However, they do not explicitly separate such information and have also been found to be sensitive to hyperparameter values. To this end, we propose two contributions to overcome these issues: (i) a novel dimensionality reduction framework that can disentangle spurious information from the speaker embeddings; (ii) the use of a speech/non-speech indicator to prevent the speaker code from learning from the background noise. Through a range of experiments conducted on four different datasets, our approach consistently demonstrates the state-of-the-art performance among models that do not adopt ensembles.
翻訳日:2021-10-08 15:37:56 公開日:2021-10-07
# 自己教師付き音声表現モデルを用いたmandarin- english code-switching speech recognition

Mandarin-English Code-switching Speech Recognition with Self-supervised Speech Representation Models ( http://arxiv.org/abs/2110.03504v1 )

ライセンス: Link先を確認
Liang-Hsuan Tseng, Yu-Kuan Fu, Heng-Jui Chang, Hung-yi Lee(参考訳) コードスイッチング(cs)は、1つの文の中で複数の言語が使用される日々の会話で一般的である。 cs音声認識の難しさは、交互言語と書き起こされたデータの欠如にある。 そこで本稿では,最近成功した自己教師付き学習(SSL)手法を用いて,CSを使わずに多くのラベルなし音声データを活用する。 SSLモデルの隠れ表現は、たとえモデルが英語の音声のみで訓練されているとしても、フレームレベルの言語識別を提供することを示す。 CTCと言語識別モジュールを協調訓練することで,CS音声認識性能が向上する。 さらに、事前学習に多言語音声データを用いると、最高のCS音声認識が得られる。

Code-switching (CS) is common in daily conversations where more than one language is used within a sentence. The difficulties of CS speech recognition lie in alternating languages and the lack of transcribed data. Therefore, this paper uses the recently successful self-supervised learning (SSL) methods to leverage many unlabeled speech data without CS. We show that hidden representations of SSL models offer frame-level language identity even if the models are trained with English speech only. Jointly training CTC and language identification modules with self-supervised speech representations improves CS speech recognition performance. Furthermore, using multilingual speech data for pre-training obtains the best CS speech recognition.
翻訳日:2021-10-08 15:37:43 公開日:2021-10-07
# GeSERA: 関連分析による一般ドメイン概要評価

GeSERA: General-domain Summary Evaluation by Relevance Analysis ( http://arxiv.org/abs/2110.03567v1 )

ライセンス: Link先を確認
Jessica L\'opez Espejel, Ga\"el de Chalendar, Jorge Garcia Flores, Thierry Charnois, Ivan Vladimir Meza Ruiz(参考訳) 一般ドメインからの自動抽出・抽象要約を評価するための,オープンソースの改良版であるgeseraを提案する。 seraは、候補と参照要約(クエリと呼ばれる)と情報検索文書ベース(インデックスと呼ばれる)を比較する検索エンジンに基づいている。 SERAはもともと、バイオメディカルドメインのみを対象として設計され、広く使われている語彙ベースのROUGE法よりも手動の手法との相関性が良好であった。 本稿では,SERAをバイオメディカル領域から一般領域へ抽出し,その内容に基づく手法を適用し,一般領域からの要約をうまく評価する。 まず、一般ドメインコーパスのPOSタグ解析により、クエリ修正戦略を改善する。 次に,SERAで使用されるバイオメディカルインデックスを,AQUAINT-2とWikipediaの2つの記事コレクションに置き換える。 我々は,TAC2008,TAC2009,CNN DMデータセットを用いて実験を行った。 以上の結果から,gesera は sera よりも手作業による評価手法との相関が高かったが,一般ドメインの要約評価では rouge とのギャップが小さくなった。 GeSERAは、TAC2009の2例でROUGEを上回っている。 最後に、広範囲にわたる実験を行い、SERAとGeSERAによる要約評価におけるヒトアノテータの影響とインデックスサイズに関する総合的研究を行った。

We present GeSERA, an open-source improved version of SERA for evaluating automatic extractive and abstractive summaries from the general domain. SERA is based on a search engine that compares candidate and reference summaries (called queries) against an information retrieval document base (called index). SERA was originally designed for the biomedical domain only, where it showed a better correlation with manual methods than the widely used lexical-based ROUGE method. In this paper, we take out SERA from the biomedical domain to the general one by adapting its content-based method to successfully evaluate summaries from the general domain. First, we improve the query reformulation strategy with POS Tags analysis of general-domain corpora. Second, we replace the biomedical index used in SERA with two article collections from AQUAINT-2 and Wikipedia. We conduct experiments with TAC2008, TAC2009, and CNNDM datasets. Results show that, in most cases, GeSERA achieves higher correlations with manual evaluation methods than SERA, while it reduces its gap with ROUGE for general-domain summary evaluation. GeSERA even surpasses ROUGE in two cases of TAC2009. Finally, we conduct extensive experiments and provide a comprehensive study of the impact of human annotators and the index size on summary evaluation with SERA and GeSERA.
翻訳日:2021-10-08 15:37:33 公開日:2021-10-07
# 概念展開型ニューラルアーキテクチャサーチ(CENAS)

Conceptual Expansion Neural Architecture Search (CENAS) ( http://arxiv.org/abs/2110.03144v1 )

ライセンス: Link先を確認
Mohan Singamsetti, Anmol Mahajan and Matthew Guzdial(参考訳) アーキテクチャ検索は、手動のオーサリングに頼るのではなく、あるタスクのためにニューラルネットワークの構造を最適化する。 しかしながら、潜在的なアーキテクチャは一般的にスクラッチからトレーニングされるため、遅い。 本稿では,CENAS(Conceptual Expansion Neural Architecture Search)と呼ばれる手法を提案する。 提案手法では, 既存の重み付けを伝達することで, 新モデルのパラメータを近似することで, アーキテクチャ探索よりも高速なモデルを求める。 既存の機能だけを変更するのではなく、機能の追加を可能にすることで、標準的な転送学習よりも優れています。 提案手法は, 各種伝達学習タスクにおいて, 効率, 性能, パラメータ数の観点から, 標準的なニューラルアーキテクチャ探索および伝達学習法より優れていることを示す。

Architecture search optimizes the structure of a neural network for some task instead of relying on manual authoring. However, it is slow, as each potential architecture is typically trained from scratch. In this paper we present an approach called Conceptual Expansion Neural Architecture Search (CENAS) that combines a sample-efficient, computational creativity-inspired transfer learning approach with neural architecture search. This approach finds models faster than naive architecture search via transferring existing weights to approximate the parameters of the new model. It outperforms standard transfer learning by allowing for the addition of features instead of only modifying existing features. We demonstrate that our approach outperforms standard neural architecture search and transfer learning methods in terms of efficiency, performance, and parameter counts on a variety of transfer learning tasks.
翻訳日:2021-10-08 15:36:32 公開日:2021-10-07
# 代理モデルによる足理藩における深部強化学習エージェントの解説

Explaining Deep Reinforcement Learning Agents In The Atari Domain through a Surrogate Model ( http://arxiv.org/abs/2110.03184v1 )

ライセンス: Link先を確認
Alexander Sieusahai and Matthew Guzdial(参考訳) ゲーム内外での深層強化学習(RL)の応用における大きな障壁は、説明可能性の欠如である。 本稿では,atariドメインで評価した深層rlエージェントの説明を,軽量かつ効果的な方法で導出する手法について述べる。 提案手法は,RLエージェントの画素ベース入力から解釈可能な知覚的入力表現への変換に依存する。 次に、ターゲットの深いRLエージェントの挙動を再現するために、それ自身解釈可能な代理モデルを訓練する。 実験により,atariゲーム群において,ターゲットエージェントの意思決定を精度良く近似する効果的なサロゲートを学習できることを実証した。

One major barrier to applications of deep Reinforcement Learning (RL) both inside and outside of games is the lack of explainability. In this paper, we describe a lightweight and effective method to derive explanations for deep RL agents, which we evaluate in the Atari domain. Our method relies on a transformation of the pixel-based input of the RL agent to an interpretable, percept-like input representation. We then train a surrogate model, which is itself interpretable, to replicate the behavior of the target, deep RL agent. Our experiments demonstrate that we can learn an effective surrogate that accurately approximates the underlying decision making of a target agent on a suite of Atari games.
翻訳日:2021-10-08 15:36:19 公開日:2021-10-07
# Sim-to-real Transferのためのドメインランダム化の理解

Understanding Domain Randomization for Sim-to-real Transfer ( http://arxiv.org/abs/2110.03239v1 )

ライセンス: Link先を確認
Xiaoyu Chen, Jiachen Hu, Chi Jin, Lihong Li, Liwei Wang(参考訳) 強化学習は、現実世界に直接適用する場合、多くの課題に遭遇する。 sim-to-real transferはシミュレーションから学んだ知識を現実世界に移すために広く使われている。 sim-to-real転送のための最も人気のあるアルゴリズムの1つであるドメインランダム化は、ロボット工学や自動運転における様々なタスクに有効であることが示されている。 経験的な成功にもかかわらず、この単純なアルゴリズムがなぜ機能するのかの理論的な理解は限られている。 本稿では,シミュレータを調整可能なパラメータ(摩擦などの未知の物理パラメータに対応する)を持つMDPの集合としてモデル化する,SIM-to-real転送の理論的枠組みを提案する。 ドメインランダム化によって返されるポリシーの値と実世界の最適なポリシーの値との差は、sim-to-realギャップに鋭い境界を与えます。 実世界のトレーニングサンプルを使わずに, 穏やかな条件下で, sim-to-real転送が成功することを示す。 我々の理論はまた、ドメインのランダム化においてメモリ(すなわち履歴に依存したポリシー)を使うことの重要性を強調している。 我々の証明は,無限水平MDPのための効率的な学習アルゴリズムの設計問題に,sim-to-realギャップを限定する問題を低減させる新しい手法に基づくものである。

Reinforcement learning encounters many challenges when applied directly in the real world. Sim-to-real transfer is widely used to transfer the knowledge learned from simulation to the real world. Domain randomization -- one of the most popular algorithms for sim-to-real transfer -- has been demonstrated to be effective in various tasks in robotics and autonomous driving. Despite its empirical successes, theoretical understanding on why this simple algorithm works is limited. In this paper, we propose a theoretical framework for sim-to-real transfers, in which the simulator is modeled as a set of MDPs with tunable parameters (corresponding to unknown physical parameters such as friction). We provide sharp bounds on the sim-to-real gap -- the difference between the value of policy returned by domain randomization and the value of an optimal policy for the real world. We prove that sim-to-real transfer can succeed under mild conditions without any real-world training samples. Our theory also highlights the importance of using memory (i.e., history-dependent policies) in domain randomization. Our proof is based on novel techniques that reduce the problem of bounding the sim-to-real gap to the problem of designing efficient learning algorithms for infinite-horizon MDPs, which we believe are of independent interest.
翻訳日:2021-10-08 15:36:08 公開日:2021-10-07
# プラグインソルバを用いた線形混合mdpの至適報酬フリー探索

Near-Optimal Reward-Free Exploration for Linear Mixture MDPs with Plug-in Solver ( http://arxiv.org/abs/2110.03244v1 )

ライセンス: Link先を確認
Xiaoyu Chen, Jiachen Hu, Lin F. Yang, Liwei Wang(参考訳) モデルベース強化学習(rl)アプローチはよりサンプル効率が高いと考えられているが、既存のアルゴリズムは通常、モデル学習手順と密に結合する洗練された計画アルゴリズムに依存している。 したがって、学習したモデルは、より専門的なプランナーで再使用される能力に欠ける可能性がある。 本稿では,この問題に対処し,報酬信号の誘導なしにRLモデルを効率的に学習するためのアプローチを提案する。 特に,探索段階におけるモデル学習に焦点をあて,学習モデル上での 'emph{any planning algorithm' が,ほぼ最適ポリシーを実現できることを要求するプラグインソルバアプローチを採用する。 具体的には、確率遷移行列が既存のモデルの集合の(未知の)凸結合である線形混合MDP設定に焦点を当てる。 新しい探索アルゴリズムを確立することで、プラグインアプローチは環境との相互作用を$\tilde{o}(d^2h^3/\epsilon^2) とし、モデル上で$\epsilon$-optimal planner が$o(\epsilon)$-optima lポリシーを元のモデルに与えてモデルを学ぶ。 このサンプル複雑性は非プラグインアプローチの下限に一致し、 \emph{statistically optimal} である。 本研究では, ベルンシュタイン不等式と線形混合mdpに指定された性質を用いて, 注意深い最大全分散境界を用いることにより, この結果を得る。

Although model-based reinforcement learning (RL) approaches are considered more sample efficient, existing algorithms are usually relying on sophisticated planning algorithm to couple tightly with the model-learning procedure. Hence the learned models may lack the ability of being re-used with more specialized planners. In this paper we address this issue and provide approaches to learn an RL model efficiently without the guidance of a reward signal. In particular, we take a plug-in solver approach, where we focus on learning a model in the exploration phase and demand that \emph{any planning algorithm} on the learned model can give a near-optimal policy. Specicially, we focus on the linear mixture MDP setting, where the probability transition matrix is a (unknown) convex combination of a set of existing models. We show that, by establishing a novel exploration algorithm, the plug-in approach learns a model by taking $\tilde{O}(d^2H^3/\epsilon^2)$ interactions with the environment and \emph{any} $\epsilon$-optimal planner on the model gives an $O(\epsilon)$-optima l policy on the original model. This sample complexity matches lower bounds for non-plug-in approaches and is \emph{statistically optimal}. We achieve this result by leveraging a careful maximum total-variance bound using Bernstein inequality and properties specified to linear mixture MDP.
翻訳日:2021-10-08 15:35:45 公開日:2021-10-07
# cleva-compass: 研究の透明性とコンパラビリティを促進する継続的学習評価コンパス

CLEVA-Compass: A Continual Learning EValuation Assessment Compass to Promote Research Transparency and Comparability ( http://arxiv.org/abs/2110.03331v1 )

ライセンス: Link先を確認
Martin Mundt, Steven Lang, Quentin Delfosse, Kristian Kersting(参考訳) 継続的機械学習における最先端技術とは何か? 支配的な静的ベンチマークには自然な疑問があるが、システムトレーニングの概念は、セットアップと評価に関して多くの追加の課題を伴っている。 後者は、アルゴリズム中心の視点と評価プロトコルが狭すぎることに対する批判の高まりをきっかけに、特定のデシダータを支持するガイドラインの構築や、一般的な仮定の有効性に反対するいくつかの試みが行われた。 この作業では、この考え方から離れ、Desiderataの正確な定式化の目標は、さまざまなアプリケーションが常に異なるシナリオを保証できるため、不適切なものである、と論じます。 代わりに,CLEVA-Compassと呼ばれる継続学習EValuation Assessment Compassを導入する。 コンパスは、アプローチが実際に報告される方法と、より広い文献のランドスケープで作業が同時にコンテキスト化される方法の両方を識別するための視覚的な手段を提供する。 CLEVA-Compassは、最近のレプリケーショントレンドの精神において、コンパクトな仕様の促進に加えて、個々のシステムの優先順位、類似点、そして公正な比較に向けて欠落している要素を理解するための直感的なチャートを提供する。

What is the state of the art in continual machine learning? Although a natural question for predominant static benchmarks, the notion to train systems in a lifelong manner entails a plethora of additional challenges with respect to set-up and evaluation. The latter have recently sparked a growing amount of critiques on prominent algorithm-centric perspectives and evaluation protocols being too narrow, resulting in several attempts at constructing guidelines in favor of specific desiderata or arguing against the validity of prevalent assumptions. In this work, we depart from this mindset and argue that the goal of a precise formulation of desiderata is an ill-posed one, as diverse applications may always warrant distinct scenarios. Instead, we introduce the Continual Learning EValuation Assessment Compass, CLEVA-Compass for short. The compass provides the visual means to both identify how approaches are practically reported and how works can simultaneously be contextualized in the broader literature landscape. In addition to promoting compact specification in the spirit of recent replication trends, the CLEVA-Compass thus provides an intuitive chart to understand the priorities of individual systems, where they resemble each other, and what elements are missing towards a fair comparison.
翻訳日:2021-10-08 15:35:14 公開日:2021-10-07
# 深層学習を用いた予測間隔に基づく多変量異常検出

Multivariate Anomaly Detection based on Prediction Intervals Constructed using Deep Learning ( http://arxiv.org/abs/2110.03393v1 )

ライセンス: Link先を確認
Thabang Mathonsi and Terence L. van Zyl(参考訳) 特定の状況下でのディープラーニングモデルは予測において従来の統計手法より優れていることが示されている。 さらに,予測の不確実性(予測間隔)を定量化する手法が開発されている。 本稿では,ニューラルネットワークを用いて構築した予測間隔を利用して,多変量設定における異常を検出する。 既存のディープラーニングベースの異常検出アプローチの課題には、$ (i)$$大まかなパラメータ集合で、チューンするのに計算集約的かもしれない$ (ii)$ 使われないテクニックをレンダリングする偽陽性が多すぎる、$ (iii)$ 実生活では普及しないことが多いトレーニング用にラベル付きデータセットを要求する。 我々のアプローチはこれらの課題を克服する。 我々は, 定評ある統計モデルに対するアプローチのベンチマークを行った。 本研究では,3つのディープラーニングアーキテクチャ,すなわちカスケードニューラルネットワーク,リザーバコンピューティング,長期記憶リカレントニューラルネットワークに注目した。 私たちの発見は、(少なくとも、後者と競合する)ディープラーニングよりも優れています。

It has been shown that deep learning models can under certain circumstances outperform traditional statistical methods at forecasting. Furthermore, various techniques have been developed for quantifying the forecast uncertainty (prediction intervals). In this paper, we utilize prediction intervals constructed with the aid of artificial neural networks to detect anomalies in the multivariate setting. Challenges with existing deep learning-based anomaly detection approaches include $(i)$ large sets of parameters that may be computationally intensive to tune, $(ii)$ returning too many false positives rendering the techniques impractical for use, $(iii)$ requiring labeled datasets for training which are often not prevalent in real life. Our approach overcomes these challenges. We benchmark our approach against the oft-preferred well-established statistical models. We focus on three deep learning architectures, namely, cascaded neural networks, reservoir computing and long short-term memory recurrent neural networks. Our finding is deep learning outperforms (or at the very least is competitive to) the latter.
翻訳日:2021-10-08 15:34:52 公開日:2021-10-07
# 小袋を用いたラベル比からの高速学習

Fast learning from label proportions with small bags ( http://arxiv.org/abs/2110.03426v1 )

ライセンス: Link先を確認
Denis Baru\v{c}i\'c (1), Jan Kybic (1) ((1) Czech Technical University in Prague, Czech Republic)(参考訳) ラベルパーセンテージ(LLP)から学ぶ場合、インスタンスは教師付き学習と比較してバッグにグループ化され、トレーニングバッグで相対クラスパーセンテージを与えられたインスタンス分類器を学習する。 LLPは、個々のインスタンスラベルを取得することは不可能またはコストがかかる場合に有用である。 本研究では,全ての一貫したラベルの組み合わせを明示的に考慮し,より効率的なアルゴリズムを設計できる小袋の事例に焦点を当てる。 特に,汎用ニューラルネットワークインスタンス分類器の最適化と,バッグレベルのアノテーションを取り入れたEMアルゴリズムを提案する。 既存の深層LPP法と比較して,我々の手法は同等あるいはより良い解に早く収束する。 2つの異なるデータセットでいくつかの実験が行われた。

In learning from label proportions (LLP), the instances are grouped into bags, compared with supervised learning and the task is to learn an instance classifier given relative class proportions in training bags. LLP is useful when obtaining individual instance labels is impossible or costly. In this work, we focus on the case of small bags, which allows designing more efficient algorithms by explicitly considering all consistent label combinations. In particular, we propose an EM algorithm alternating between optimizing a general neural network instance classifier and incorporating bag-level annotations. In comparison to existing deep LLP methods, our approach converges faster to a comparable or better solution. Several experiments were performed on two different datasets.
翻訳日:2021-10-08 15:34:40 公開日:2021-10-07
# 推論時間によるマルチエクイト深層ニューラルネットワークモデルのフィンガープリント

Fingerprinting Multi-exit Deep Neural Network Models via Inference Time ( http://arxiv.org/abs/2110.03175v1 )

ライセンス: Link先を確認
Tian Dong and Han Qiu and Tianwei Zhang and Jiwei Li and Hewu Li and Jialiang Lu(参考訳) 大規模なディープニューラルネットワーク(DNN)モデルをマルチエクイットアーキテクチャに変換することで、過大な問題を克服し、リソース制約のあるシナリオ(IoTフロントエンドデバイスやバックエンドサーバなど)上で大きなDNNモデルを分散することで、推論と送信効率を向上することができる。 それでも、マルチエグジットモデルに対する知的財産権(IP)保護は未解決の課題である。 これまでのDNNモデルのオーナシップを検証する取り組みは、主に特定のサンプルでモデルをクエリし、DNNの透かしや指紋認証などの応答をチェックすることに依存していた。 しかし、それらは敵のトレーニングのような敵の設定に脆弱であり、マルチエクイットdnnモデルのip検証には適していない。 本稿では, 予測よりも, 推定時間による指紋マルチエクイットモデルに対する新しいアプローチを提案する。 具体的には,モデルオーナシップの証拠として,一意かつロバストな推論時間コストで推論プロセスを作成するための,指紋サンプルセットを生成する効果的な手法を考案する。 我々は,3つの構造 (ResNet-56, VGG-16, MobileNet) と3つのデータセット (CIFAR-10, CIFAR-100, Tiny-ImageNet) に対して,その特異性とロバスト性を証明するための広範な実験を行った。

Transforming large deep neural network (DNN) models into the multi-exit architectures can overcome the overthinking issue and distribute a large DNN model on resource-constrained scenarios (e.g. IoT frontend devices and backend servers) for inference and transmission efficiency. Nevertheless, intellectual property (IP) protection for the multi-exit models in the wild is still an unsolved challenge. Previous efforts to verify DNN model ownership mainly rely on querying the model with specific samples and checking the responses, e.g., DNN watermarking and fingerprinting. However, they are vulnerable to adversarial settings such as adversarial training and are not suitable for the IP verification for multi-exit DNN models. In this paper, we propose a novel approach to fingerprint multi-exit models via inference time rather than inference predictions. Specifically, we design an effective method to generate a set of fingerprint samples to craft the inference process with a unique and robust inference time cost as the evidence for model ownership. We conduct extensive experiments to prove the uniqueness and robustness of our method on three structures (ResNet-56, VGG-16, and MobileNet) and three datasets (CIFAR-10, CIFAR-100, and Tiny-ImageNet) under comprehensive adversarial settings.
翻訳日:2021-10-08 15:33:31 公開日:2021-10-07
# マシンクリエイティビティのためのループの中の人間

Human in the Loop for Machine Creativity ( http://arxiv.org/abs/2110.03569v1 )

ライセンス: Link先を確認
Neo Christopher Chung(参考訳) 人工知能(AI)は、視覚、テキスト、オーディオの合成にますます活用されている。 これらのaiベースの作品は、しばしばニューラルネットワークから派生したもので、デジタル絵画、歌、本など、主流市場に入ってきています。 我々は、創造的アプリケーションのための既存および将来のヒューマン・イン・ザ・ループ(hitl)アプローチを概念化し、より表現力があり、ニュアンスがあり、マルチモーダルなモデルを開発する。 特に、キュレーターや共同研究者としての私たちの専門知識を、インタラクティブな方法でAIモデルにエンコードするにはどうすればよいのか? モデル,インターフェース,機械の創造性に対する長期的影響について検討し,考察する。 AIアートの選択、創造、解釈には、本質的に感情的な反応、文化、文脈が含まれています。 したがって、提案されたHITLは、符号化や定量化がより難しい創造的プロセスの学習を支援する可能性がある。 我々は、テキスト、視覚、音声、その他の情報を結合したマルチモーダルhitlプロセスと、人間と環境の自動分析を想定する。 全体として、これらのHITLアプローチは人間とAIの相互作用を高め、将来のAIシステムが私たちの創造的および感情的なプロセスをよりよく理解するのに役立つ。

Artificial intelligence (AI) is increasingly utilized in synthesizing visuals, texts, and audio. These AI-based works, often derived from neural networks, are entering the mainstream market, as digital paintings, songs, books, and others. We conceptualize both existing and future human-in-the-loop (HITL) approaches for creative applications and to develop more expressive, nuanced, and multimodal models. Particularly, how can our expertise as curators and collaborators be encoded in AI models in an interactive manner? We examine and speculate on long term implications for models, interfaces, and machine creativity. Our selection, creation, and interpretation of AI art inherently contain our emotional responses, cultures, and contexts. Therefore, the proposed HITL may help algorithms to learn creative processes that are much harder to codify or quantify. We envision multimodal HITL processes, where texts, visuals, sounds, and other information are coupled together, with automated analysis of humans and environments. Overall, these HITL approaches will increase interaction between human and AI, and thus help the future AI systems to better understand our own creative and emotional processes.
翻訳日:2021-10-08 15:32:36 公開日:2021-10-07
# 誘導学習型ルールの複雑さについて

On the Complexity of Inductively Learning Guarded Rules ( http://arxiv.org/abs/2110.03624v1 )

ライセンス: Link先を確認
Andrei Draghici, Georg Gottlob, Matthias Lanzinger(参考訳) 本稿では,帰納的論理プログラミング(ILP)の枠組みを用いて,分類データセットから保護された節を抽出する際の計算複雑性について検討する。 学習ガード付き節はNP完全であり、多項式階層上のホーン節を学習する$\sigma^P_2$-completeタスクより1ステップ下にあることを示す。 大規模データセットの実践的な応用によって、我々は問題の自然な抽出可能な断片を特定できる。 最後に、すべての結果を、定数$k$に対する$k$-guarded節に一般化します。

We investigate the computational complexity of mining guarded clauses from clausal datasets through the framework of inductive logic programming (ILP). We show that learning guarded clauses is NP-complete and thus one step below the $\sigma^P_2$-complete task of learning Horn clauses on the polynomial hierarchy. Motivated by practical applications on large datasets we identify a natural tractable fragment of the problem. Finally, we also generalise all of our results to $k$-guarded clauses for constant $k$.
翻訳日:2021-10-08 15:32:16 公開日:2021-10-07
# カーネルに基づく高速かつ効果的な大規模2サンプルテスト

A Fast and Effective Large-Scale Two-Sample Test Based on Kernels ( http://arxiv.org/abs/2110.03118v1 )

ライセンス: Link先を確認
Hoseung Song and Hao Chen(参考訳) カーネル2サンプルテストは広く使われており、ビッグデータ時代に入るにつれて、高次元大規模データの効率的な手法の開発がますます注目されている。 しかし、近年提案された大規模データに対する最大平均差分法(MMD)やカーネルベースのテストのような既存の手法は、高次元データに対する一般的な代替案の実装や非効率化に重きを置いている。 本稿では,多種多様な代替品の高出力化を図った新しい試験法を提案する。 さらに、新しいテストは既存の方法よりも高次元に頑健であり、データ分割によるカーネル帯域幅や他のパラメータの選択の最適化手順を必要としない。 数値研究により、この新しいアプローチは合成データと実世界データの両方でうまく機能することが示された。

Kernel two-sample tests have been widely used and the development of efficient methods for high-dimensional large-scale data is gaining more and more attention as we are entering the big data era. However, existing methods, such as the maximum mean discrepancy (MMD) and recently proposed kernel-based tests for large-scale data, are computationally intensive to implement and/or ineffective for some common alternatives for high-dimensional data. In this paper, we propose a new test that exhibits high power for a wide range of alternatives. Moreover, the new test is more robust to high dimensions than existing methods and does not require optimization procedures for the choice of kernel bandwidth and other parameters by data splitting. Numerical studies show that the new approach performs well in both synthetic and real world data.
翻訳日:2021-10-08 15:32:09 公開日:2021-10-07
# トランスクライブ・トゥ・ダイアリゼーション:エンド・ツー・エンド話者分散ASRを用いた無制限話者に対するニューラル話者ダイアリゼーション

Transcribe-to-Diariz e: Neural Speaker Diarization for Unlimited Number of Speakers using End-to-End Speaker-Attributed ASR ( http://arxiv.org/abs/2110.03151v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Xiong Xiao, Yashesh Gaur, Xiaofei Wang, Zhong Meng, Zhuo Chen, Takuya Yoshioka(参考訳) 本稿では,エンド・ツー・エンド(E2E)話者分散自動音声認識(SA-ASR)を用いたニューラルスピーカダイアリゼーションの新しい手法であるTrranscribe-to-Diari zeを提案する。 E2E SA-ASRは, 重なり合う音声を含むモノラル音声から話者カウント, 多話者音声認識, 話者識別のために最近提案されたジョイントモデルである。 E2E SA-ASRモデルはもともと時間関連情報を推定するものではないが、少数の学習可能なパラメータを追加することで、E2E SA-ASRの内部状態から各単語の開始時刻と終了時刻を十分な精度で推定できることを示す。 目標話者音声活動検出(TS-VAD)に基づくダイアリゼーション法と同様に、E2E SA-ASRモデルを用いて各話者の音声活動の推定を行う。 (i)無制限の話者を扱うこと。 (ii)話者ダイアリゼーションに言語情報を活用すること、 (iii)話者帰属転写を同時生成する。 LibriCSS と AMI コーパスの実験結果から,提案手法は,話者数不明の既存話者のダイアリゼーション手法よりも高いダイアリゼーション誤差率を達成し,事前に話者数が与えられると,TS-VAD に匹敵する性能が得られることがわかった。 提案手法は,最新の精度で話者帰属転写を同時に生成する。

This paper presents Transcribe-to-Diariz e, a new approach for neural speaker diarization that uses an end-to-end (E2E) speaker-attributed automatic speech recognition (SA-ASR). The E2E SA-ASR is a joint model that was recently proposed for speaker counting, multi-talker speech recognition, and speaker identification from monaural audio that contains overlapping speech. Although the E2E SA-ASR model originally does not estimate any time-related information, we show that the start and end times of each word can be estimated with sufficient accuracy from the internal state of the E2E SA-ASR by adding a small number of learnable parameters. Similar to the target-speaker voice activity detection (TS-VAD)-based diarization method, the E2E SA-ASR model is applied to estimate speech activity of each speaker while it has the advantages of (i) handling unlimited number of speakers, (ii) leveraging linguistic information for speaker diarization, and (iii) simultaneously generating speaker-attributed transcriptions. Experimental results on the LibriCSS and AMI corpora show that the proposed method achieves significantly better diarization error rate than various existing speaker diarization methods when the number of speakers is unknown, and achieves a comparable performance to TS-VAD when the number of speakers is given in advance. The proposed method simultaneously generates speaker-attributed transcription with state-of-the-art accuracy.
翻訳日:2021-10-08 15:31:36 公開日:2021-10-07
# モノリンガルwav2vec-2.0の言語間適応のためのマジックダスト

Magic dust for cross-lingual adaptation of monolingual wav2vec-2.0 ( http://arxiv.org/abs/2110.03560v1 )

ライセンス: Link先を確認
Sameer Khurana, Antoine Laurent, James Glass(参考訳) 本稿では,単言語wav2vec-2.0モデルを用いた資源スカース言語の自動音声認識(ASR)のための簡易かつ効果的な言語間移動学習法を提案する。 単言語wav2vec-2.0は,いくつかの言語においてasr学習に適していることを示す。 対象言語における中程度の未ラベル音声データセットを使用することで、Dropout Uncertainty-Driven Self-Training (DUST) の繰り返しにより、その性能をさらに向上する。 この研究の重要な発見は、適応されたモノリンガルwav2vec-2.0が、ターゲット言語ASRタスク上で、53言語でトレーニングされたトポライン多言語XLSRモデルと同様のパフォーマンスを達成することである。

We propose a simple and effective cross-lingual transfer learning method to adapt monolingual wav2vec-2.0 models for Automatic Speech Recognition (ASR) in resource-scarce languages. We show that a monolingual wav2vec-2.0 is a good few-shot ASR learner in several languages. We improve its performance further via several iterations of Dropout Uncertainty-Driven Self-Training (DUST) by using a moderate-sized unlabeled speech dataset in the target language. A key finding of this work is that the adapted monolingual wav2vec-2.0 achieves similar performance as the topline multilingual XLSR model, which is trained on fifty-three languages, on the target language ASR task.
翻訳日:2021-10-08 15:31:07 公開日:2021-10-07
# transalnet:トランスフォーマーを用いた視覚塩分予測

TranSalNet: Visual saliency prediction using transformers ( http://arxiv.org/abs/2110.03593v1 )

ライセンス: Link先を確認
Jianxun Lou, Hanhe Lin, David Marshall, Dietmar Saupe and Hantao Liu(参考訳) 畳み込みニューラルネットワーク(CNN)は、精度予測のためのかなり高度な計算モデルを持つ。 しかし、畳み込みアーキテクチャの固有の帰納バイアスは、長期のコンテキスト符号化能力の不足を招き、サリエンシモデルが人間らしくなくなる可能性がある。 トランスフォーマーは、セルフアテンション機構を利用して長距離情報を符号化する大きな可能性を示している。 本稿では,トランスフォーマーコンポーネントをcnnと統合して長距離コンテキスト情報をキャプチャする,新しいサリエンシーモデルを提案する。 実験結果から,新しいコンポーネントが改良され,サリエンシの予測に有望な結果が得られた。

Convolutional neural networks (CNNs) have significantly advanced computational modeling for saliency prediction. However, the inherent inductive biases of convolutional architectures cause insufficient long-range contextual encoding capacity, which potentially makes a saliency model less humanlike. Transformers have shown great potential in encoding long-range information by leveraging the self-attention mechanism. In this paper, we propose a novel saliency model integrating transformer components to CNNs to capture the long-range contextual information. Experimental results show that the new components make improvements, and the proposed model achieves promising results in predicting saliency.
翻訳日:2021-10-08 15:29:47 公開日:2021-10-07
# 感情音声合成のための深層学習に基づく感情強度評価

StrengthNet: Deep Learning-based Emotion Strength Assessment for Emotional Speech Synthesis ( http://arxiv.org/abs/2110.03156v1 )

ライセンス: Link先を確認
Rui Liu, Berrak Sisman, Haizhou Li(参考訳) 近年,感情音声合成が目覚ましい成果を上げている。 さらに、感情属性ランキング関数によって得られる強度記述子を用いて、合成音声の感情強度を柔軟に制御することができる。 しかし、特定のデータに対する訓練されたランキング関数は、より現実的なケースに適用性を制限するような一般化が不十分である。 本稿では,強度予測のための深層学習に基づく感情強度評価ネットワークを提案する。 本モデルは,音響エンコーダ,強度予測器,補助感情予測器を含む構造を持つマルチタスク学習フレームワークに適合する。 データ拡張戦略をモデル一般化の改善に利用した。 実験により,提案した強度ネットの予測感情強度は,見知らぬ音声に対する真実スコアと高い相関が示された。 私たちのコードは、https://github.com/t tslr/StrengthNet.com で利用可能です。

Recently, emotional speech synthesis has achieved remarkable performance. Furthermore, the emotion strength of synthesized speech can be controlled flexibly using a strength descriptor, which is obtained by an emotion attribute ranking function. However, a trained ranking function on specific data has poor generalization, which limit its applicability for more realistic cases. In this paper, we propose a deep learning based emotion strength assessment network for strength prediction that is referred to as StrengthNet. Our model conforms to a multi-task learning framework with a structure that includes an acoustic encoder, a strength predictor and an auxiliary emotion predictor. A data augmentation strategy was utilized to improve the model generalization. Experiments show that the predicted emotion strength of the proposed StrengthNet are highly correlated with ground truth scores for seen and unseen speech. Our codes are available at: https://github.com/t tslr/StrengthNet.
翻訳日:2021-10-08 15:29:20 公開日:2021-10-07
# 音響イベント検出のための音声知識の伝達--経験的研究

Transferring Voice Knowledge for Acoustic Event Detection: An Empirical Study ( http://arxiv.org/abs/2110.03174v1 )

ライセンス: Link先を確認
Dawei Liang, Yangyang Shi, Yun Wang, Nayan Singhal, Alex Xiao, Jonathan Shaw, Edison Thomaz, Ozlem Kalinli, Mike Seltzer(参考訳) 音声からの共通事象や場面の検出は、日常生活における人間の文脈の抽出や理解に有用である。 先行研究により、関連する領域からの知識を活用することは、ターゲット音響事象検出(AED)プロセスに有用であることが示されている。 日常生活における人間中心の音響イベントの多くが音声要素を伴っているという観測から着想を得て,公的な話者データセットから抽出した高レベル音声表現をAEDパイプラインに拡張する可能性を検討した。 この目的のために、AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発し、様々な入力で公共のAudioSet [1]の性能を調べるための徹底的な実証的研究を行った。 私たちの主な観察は 1)音声入力と音声入力の合同学習により、cnnベースライン(0.292対0.134マップ)とtalnet [2]ベースライン(0.361対0.351マップ)のaed性能(平均精度)が向上する。 2)二重入力によるモデル性能の最大化には,追加音声機能の拡張が不可欠である。

Detection of common events and scenes from audio is useful for extracting and understanding human contexts in daily life. Prior studies have shown that leveraging knowledge from a relevant domain is beneficial for a target acoustic event detection (AED) process. Inspired by the observation that many human-centered acoustic events in daily life involve voice elements, this paper investigates the potential of transferring high-level voice representations extracted from a public speaker dataset to enrich an AED pipeline. Towards this end, we develop a dual-branch neural network architecture for the joint learning of voice and acoustic features during an AED process and conduct thorough empirical studies to examine the performance on the public AudioSet [1] with different types of inputs. Our main observations are that: 1) Joint learning of audio and voice inputs improves the AED performance (mean average precision) for both a CNN baseline (0.292 vs 0.134 mAP) and a TALNet [2] baseline (0.361 vs 0.351 mAP); 2) Augmenting the extra voice features is critical to maximize the model performance with dual inputs.
翻訳日:2021-10-08 15:29:08 公開日:2021-10-07
# 統計的多様性の神経的推定

Neural Estimation of Statistical Divergences ( http://arxiv.org/abs/2110.03652v1 )

ライセンス: Link先を確認
Sreejith Sreekumar and Ziv Goldfeld(参考訳) 確率分布の相違を定量化する統計分散(SD)は、統計的推論と機械学習の基本的な構成要素である。 これらの発散を推定する現代的な手法は、ニューラルネットワーク(NN)による経験的変動形のパラメータ化とパラメータ空間の最適化に依存している。 このような神経推定器は実際は多用されているが、それに対応する性能保証は部分的であり、さらなる探索が必要である。 特に、2つのエラー源の間には、近似と経験的推定という根本的なトレードオフがある。 前者はリッチで表現力のあるNNクラスを必要とするが、後者は複雑さを制御することに依存する。 非漸近誤差境界による浅いNNに基づく推定器に対するこのトレードオフについて検討し、一般的な4つの$\mathsf{f}$-divergences -- Kullback-Leibler, chi-squared, squared Hellinger,および全変動に着目した。 この解析は非漸近的関数近似定理と経験的過程論からのツールに依存する。 境界はNNサイズとサンプル数の間の緊張関係を明らかにし、一貫性を確保するためのスケーリングレートを特徴付けることができる。 コンパクトに支持された分布に対しては, nn成長速度が若干異なる神経推定器が最小の速度最適化に近く, パラメトリック収束率を対数因子まで達成できることを示した。

Statistical divergences (SDs), which quantify the dissimilarity between probability distributions, are a basic constituent of statistical inference and machine learning. A modern method for estimating those divergences relies on parametrizing an empirical variational form by a neural network (NN) and optimizing over parameter space. Such neural estimators are abundantly used in practice, but corresponding performance guarantees are partial and call for further exploration. In particular, there is a fundamental tradeoff between the two sources of error involved: approximation and empirical estimation. While the former needs the NN class to be rich and expressive, the latter relies on controlling complexity. We explore this tradeoff for an estimator based on a shallow NN by means of non-asymptotic error bounds, focusing on four popular $\mathsf{f}$-divergences -- Kullback-Leibler, chi-squared, squared Hellinger, and total variation. Our analysis relies on non-asymptotic function approximation theorems and tools from empirical process theory. The bounds reveal the tension between the NN size and the number of samples, and enable to characterize scaling rates thereof that ensure consistency. For compactly supported distributions, we further show that neural estimators with a slightly different NN growth-rate are near minimax rate-optimal, achieving the parametric convergence rate up to logarithmic factors.
翻訳日:2021-10-08 15:28:32 公開日:2021-10-07
# 信号の決定木に対するコアセット

Coresets for Decision Trees of Signals ( http://arxiv.org/abs/2110.03195v1 )

ライセンス: Link先を確認
Ibrahim Jubran, Ernesto Evgeniy Sanches Shayda, Ilan Newman, Dan Feldman(参考訳) $k$-decision tree $t$ (または$k$-tree) は行列 (2D-signal) から$k\geq 1$ブロック行列 (軸平行長方形、葉) への再帰的分割である。 与えられた行列の$D$の$N$エントリ(ラベル)への回帰または分類損失は、$D$のすべてのラベルと割り当てられたラベルの$t$の2乗差の和である。 エラーパラメータ $\varepsilon\in(0,1) $ が与えられると、$(k,\varepsilon)$-co reset $c$ of $d$ は小さな要約であり、この損失を \emph{every} に近似し、乗算係数は 1\pm\varepsilon$ となる。 特に、$C$の最適$k$-treeは$(1+\varepsilon)$-approx imation to the optimal $k$-tree of $D$である。 我々は、行列 $d$ のような \emph{every} に対して、そのような$(k,\varepsilon)$-co reset を出力する最初のアルゴリズムを提供する。 コアセットのサイズ$|C|$は$k\log(N)/\varepsilo n$の多項式であり、その構成は$O(Nk)$時間を要する。 これは、機械学習から計算幾何学の分割木への決定木間のリンクを鍛えることによって実現される。 texttt{sklearn} と \texttt{lightgbm} の実験結果は、実世界のデータセットに我々のコアセットを適用することで、ランダムフォレストの計算時間とパラメータチューニングを最大で x$10$ で向上させ、同じ精度を維持していることを示している。 完全なオープンソースコードが提供されている。

A $k$-decision tree $t$ (or $k$-tree) is a recursive partition of a matrix (2D-signal) into $k\geq 1$ block matrices (axis-parallel rectangles, leaves) where each rectangle is assigned a real label. Its regression or classification loss to a given matrix $D$ of $N$ entries (labels) is the sum of squared differences over every label in $D$ and its assigned label by $t$. Given an error parameter $\varepsilon\in(0,1) $, a $(k,\varepsilon)$-co reset $C$ of $D$ is a small summarization that provably approximates this loss to \emph{every} such tree, up to a multiplicative factor of $1\pm\varepsilon$. In particular, the optimal $k$-tree of $C$ is a $(1+\varepsilon)$-approx imation to the optimal $k$-tree of $D$. We provide the first algorithm that outputs such a $(k,\varepsilon)$-co reset for \emph{every} such matrix $D$. The size $|C|$ of the coreset is polynomial in $k\log(N)/\varepsilo n$, and its construction takes $O(Nk)$ time. This is by forging a link between decision trees from machine learning -- to partition trees in computational geometry. Experimental results on \texttt{sklearn} and \texttt{lightGBM} show that applying our coresets on real-world data-sets boosts the computation time of random forests and their parameter tuning by up to x$10$, while keeping similar accuracy. Full open source code is provided.
翻訳日:2021-10-08 15:26:57 公開日:2021-10-07
# Hindsight Experience ReplayとShapley Additive Explanationsを用いたロボットレバ操作

Robotic Lever Manipulation using Hindsight Experience Replay and Shapley Additive Explanations ( http://arxiv.org/abs/2110.03292v1 )

ライセンス: Link先を確認
Sindre Benjamin Remman and Anastasios M. Lekkas(参考訳) 本稿では,説明可能なDeep Reinforcement Learningを用いたロボットレバー制御について述べる。 まず,ロボットマニピュレータを制御してレバーを操作することを目的とした,深い決定論的ポリシ勾配アルゴリズムと後見体験リプレイ手法を用いてポリシを訓練する。 これにより、連続した状態とアクションを使い、スパースな報酬で学ぶことができます。 このような複雑なタスクに対して報酬関数を設計することは難しいため、特に深層強化学習において、スパース報酬から学ぶことが望ましい。 トレーニング手順を高速化するPyBulletシミュレータを最初に訓練するが、実環境に比べて正確ではない。 PyBulletでのトレーニングを終えた後、PyBulletよりも遅いが、このタスクではより正確であるGazeboシミュレーターでさらにトレーニングを行う。 そして、実際の環境にポリシーを移し、ほとんどのエピソードでシミュレーションされた環境と同等のパフォーマンスを達成する。 政策の決定を説明するために,実環境におけるエピソードに基づいた説明モデルを作成するため,SHAP法を用いる。 これは直感に賛成する結果と、そうでない結果を与えてくれます。 また,shap値近似時の独立性仮定が,状態間に相関関係があるようなシステムにおいて,これらの値の精度に影響を与えるかどうかについても疑問視する。

This paper deals with robotic lever control using Explainable Deep Reinforcement Learning. First, we train a policy by using the Deep Deterministic Policy Gradient algorithm and the Hindsight Experience Replay technique, where the goal is to control a robotic manipulator to manipulate a lever. This enables us both to use continuous states and actions and to learn with sparse rewards. Being able to learn from sparse rewards is especially desirable for Deep Reinforcement Learning because designing a reward function for complex tasks such as this is challenging. We first train in the PyBullet simulator, which accelerates the training procedure, but is not accurate on this task compared to the real-world environment. After completing the training in PyBullet, we further train in the Gazebo simulator, which runs more slowly than PyBullet, but is more accurate on this task. We then transfer the policy to the real-world environment, where it achieves comparable performance to the simulated environments for most episodes. To explain the decisions of the policy we use the SHAP method to create an explanation model based on the episodes done in the real-world environment. This gives us some results that agree with intuition, and some that do not. We also question whether the independence assumption made when approximating the SHAP values influences the accuracy of these values for a system such as this, where there are some correlations between the states.
翻訳日:2021-10-08 15:26:15 公開日:2021-10-07
# EF21 with Bells & Whistles: 現代的なエラーフィードバックのアルゴリズム拡張

EF21 with Bells & Whistles: Practical Algorithmic Extensions of Modern Error Feedback ( http://arxiv.org/abs/2110.03294v1 )

ライセンス: Link先を確認
Ilyas Fatkhullin and Igor Sokolov and Eduard Gorbunov and Zhize Li and Peter Richt\'arik(参考訳) seide (2014) によって初めて提案されたヒューリスティックなエラーフィードバック(ef)は、契約圧縮演算子の適用に基づく通信圧縮戦略により拡張された分散勾配に基づく最適化手法の収束を強制するための非常に一般的なメカニズムである。 しかし、EF の既存の理論は非常に強い仮定(例えば有界勾配)に依存し、悲観的な収束率を与える(例えば、滑らかな非凸状態における EF の最もよく知られた速度は滑らかな非凸状態であり、完全な勾配が圧縮された場合、同じ状態における勾配勾配の速度は$O(1/T^{2/3})$である)。 最近、richt\'{a}rik et al. (2021) は、収縮圧縮機によって誘導されるマルコフ圧縮機の構築に基づいて、新しいエラーフィードバック機構ef21を提案した。 EF21は前述のEFの理論的欠陥を取り除き、同時に実際によりうまく機能する。 本研究では,ef21の6つの実用的拡張を提案し,これらを強収束理論(部分的参加,確率近似,分散還元,近位設定,運動量,双方向圧縮)で支持する。 これらの技法のいくつかはEFと併用して解析されることはなく、それらが(例えば双方向圧縮)場合、我々のレートは非常に優れている。

First proposed by Seide (2014) as a heuristic, error feedback (EF) is a very popular mechanism for enforcing convergence of distributed gradient-based optimization methods enhanced with communication compression strategies based on the application of contractive compression operators. However, existing theory of EF relies on very strong assumptions (e.g., bounded gradients), and provides pessimistic convergence rates (e.g., while the best known rate for EF in the smooth nonconvex regime, and when full gradients are compressed, is $O(1/T^{2/3})$, the rate of gradient descent in the same regime is $O(1/T)$). Recently, Richt\'{a}rik et al. (2021) proposed a new error feedback mechanism, EF21, based on the construction of a Markov compressor induced by a contractive compressor. EF21 removes the aforementioned theoretical deficiencies of EF and at the same time works better in practice. In this work we propose six practical extensions of EF21, all supported by strong convergence theory: partial participation, stochastic approximation, variance reduction, proximal setting, momentum and bidirectional compression. Several of these techniques were never analyzed in conjunction with EF before, and in cases where they were (e.g., bidirectional compression), our rates are vastly superior.
翻訳日:2021-10-08 15:25:51 公開日:2021-10-07
# EvadeDroid: ブラックボックスAndroidマルウェア検出のための機械学習の実践的侵入攻撃

EvadeDroid: A Practical Evasion Attack on Machine Learning for Black-box Android Malware Detection ( http://arxiv.org/abs/2110.03301v1 )

ライセンス: Link先を確認
Hamid Bostani and Veelasha Moonsamy(参考訳) 過去10年間で、Androidのマルウェア検出装置の弱点を、新たな回避攻撃を提案して調査してきたが、現実世界のマルウェアを操作するほとんどの研究の実践性は議論の余地がある。 多くの研究は、攻撃者がマルウェア検出に使用されるターゲット分類器の詳細を知っていると仮定しているが、現実には悪意のあるアクターはターゲット分類器へのアクセスに制限がある。 本稿では,ブラックボックス型Androidマルウェア検出装置を回避すべく,実用的な回避攻撃であるEvadeDroidを提案する。 現実の敵対的マルウェアの生成に加えて、提案された回避攻撃は、元のマルウェアサンプルの機能を保存することができる。 evadedroidは、反復的かつ漸進的な操作戦略を使用して、マルウェアインスタンスを良質なインスタンスに変換する機能保存変換を適用する。 提案手法は,マルウェアサンプルへの最適な変換シーケンスの発見と注入を目的とした,新しいクエリ効率最適化アルゴリズムである。 EvadeDroidのハードおよびソフトラベル攻撃に対する有効性を示す実験的検討を行った。 さらにEvadeDroidは, DREBIN, Sec-SVM, MaMaDroidに対して, 81%, 73%, 75%の回避率で, 少数のクエリで現実的な逆例を生成することができる。 最後に、EvadeDroidは4つの人気のある商用アンチウイルスに対するステルス性を保ち、現実の世界で実現可能であることを示す。

Over the last decade, several studies have investigated the weaknesses of Android malware detectors against adversarial examples by proposing novel evasion attacks; however, the practicality of most studies in manipulating real-world malware is arguable. The majority of studies have assumed attackers know the details of the target classifiers used for malware detection, while in real life, malicious actors have limited access to the target classifiers. This paper presents a practical evasion attack, EvadeDroid, to circumvent black-box Android malware detectors. In addition to generating real-world adversarial malware, the proposed evasion attack can preserve the functionality of the original malware samples. EvadeDroid applies a set of functionality-preser ving transformations to morph malware instances into benign ones using an iterative and incremental manipulation strategy. The proposed manipulation technique is a novel, query-efficient optimization algorithm with the aim of finding and injecting optimal sequences of transformations into malware samples. Our empirical evaluation demonstrates the efficacy of EvadeDroid under hard- and soft-label attacks. Moreover, EvadeDroid is capable to generate practical adversarial examples with only a small number of queries, with evasion rate of 81%, 73%, and 75% for DREBIN, Sec-SVM, and MaMaDroid, respectively. Finally, we show that EvadeDroid is able to preserve its stealthiness against four popular commercial antivirus, thus demonstrating its feasibility in the real world.
翻訳日:2021-10-08 15:25:26 公開日:2021-10-07
# エンドツーエンド音声認識のための領域外データの信頼度推定の改善

Improving Confidence Estimation on Out-of-Domain Data for End-to-End Speech Recognition ( http://arxiv.org/abs/2110.03327v1 )

ライセンス: Link先を確認
Qiujia Li, Yu Zhang, David Qiu, Yanzhang He, Liangliang Cao, Philip C. Woodland(参考訳) エンド・ツー・エンドの自動音声認識(asr)モデルが有望な性能に達すると、様々な下流タスクはこれらのシステムに対する高い信頼度を推定する。 近年の研究では、モデルベース信頼度推定器は出力ソフトマックス確率を用いるよりも大きなアドバンテージを持っていることが示されている。 音声認識装置への入力データが不一致の音響的および言語的条件からである場合、ASR性能と対応する信頼度推定器は深刻な劣化を示す可能性がある。 信頼モデルは、しばしばASRと同じドメイン内データで訓練されるため、ドメイン外(OOD)シナリオへの一般化は困難である。 本稿では,ASRモデルに手を加えないようにすることで,OODデータに対するモデルベース信頼度推定法を改善する2つの手法を提案する。 LibriSpeechでトレーニングされたASRモデルを用いて、提案手法はドメイン内のパフォーマンスを保ちながらTED-LiumおよびSwitchboardデータセットの信頼性指標を大幅に改善できることを示す。 さらに、改良された信頼度推定器は、oodデータに基づいてより校正され、より信頼性の高いデータ選択基準を提供できる。

As end-to-end automatic speech recognition (ASR) models reach promising performance, various downstream tasks rely on good confidence estimators for these systems. Recent research has shown that model-based confidence estimators have a significant advantage over using the output softmax probabilities. If the input data to the speech recogniser is from mismatched acoustic and linguistic conditions, the ASR performance and the corresponding confidence estimators may exhibit severe degradation. Since confidence models are often trained on the same in-domain data as the ASR, generalising to out-of-domain (OOD) scenarios is challenging. By keeping the ASR model untouched, this paper proposes two approaches to improve the model-based confidence estimators on OOD data: using pseudo transcriptions and an additional OOD language model. With an ASR model trained on LibriSpeech, experiments show that the proposed methods can significantly improve the confidence metrics on TED-LIUM and Switchboard datasets while preserving in-domain performance. Furthermore, the improved confidence estimators are better calibrated on OOD data and can provide a much more reliable criterion for data selection.
翻訳日:2021-10-08 15:25:00 公開日:2021-10-07
# 単一サンプル二元勾配推定器におけるバイアス分散トレードオフ

Bias-Variance Tradeoffs in Single-Sample Binary Gradient Estimators ( http://arxiv.org/abs/2110.03549v1 )

ライセンス: Link先を確認
Alexander Shekhovtsov(参考訳) 離散変数、特に二項確率変数は、多くの機械学習モデル、特に二項潜在状態を持つ変分オートエンコーダや確率的バイナリネットワークで発生する。 そのようなモデルを学ぶとき、鍵となるツールは、2進変数の確率に関して期待される損失の勾配を推定するものである。 ストレートスルー(ST)推定器はその単純さと効率性、特に非バイアス推定器が実用的でないディープネットワークで人気を得た。 計算量はGumbel-Softmax、ST-Gumbel-Softmax、BayesBiNN、FouSTなどと同じである。 トレードオフを理解し、最初に主張された特性を検証するために、これらの手法のバイアスと変数の理論解析を行う。 提示された理論結果は、主に否定的であり、これらの手法の限界を示し、場合によっては深刻な問題を示す。

Discrete and especially binary random variables occur in many machine learning models, notably in variational autoencoders with binary latent states and in stochastic binary networks. When learning such models, a key tool is an estimator of the gradient of the expected loss with respect to the probabilities of binary variables. The straight-through (ST) estimator gained popularity due to its simplicity and efficiency, in particular in deep networks where unbiased estimators are impractical. Several techniques were proposed to improve over ST while keeping the same low computational complexity: Gumbel-Softmax, ST-Gumbel-Softmax, BayesBiNN, FouST. We conduct a theoretical analysis of Bias and Variance of these methods in order to understand tradeoffs and verify the originally claimed properties. The presented theoretical results are mainly negative, showing limitations of these methods and in some cases revealing serious issues.
翻訳日:2021-10-08 15:23:44 公開日:2021-10-07
# Shift-BNN:メモリフレンドリーパターン検索による高能率確率ベイズニューラルネットワークトレーニング

Shift-BNN: Highly-Efficient Probabilistic Bayesian Neural Network Training via Memory-Friendly Pattern Retrieving ( http://arxiv.org/abs/2110.03553v1 )

ライセンス: Link先を確認
Qiyu Wan, Haojun Xia, Xingyao Zhang, Lening Wang, Shuaiwen Leon Song, Xin Fu(参考訳) 不確実性推定の特性を持つベイズニューラルネットワーク(BNN)は、信頼性が高く堅牢な意思決定を必要とする幅広い安全クリティカルなAIアプリケーション、例えば自動運転、救助ロボット、医療画像診断において、ますます採用されている。 確率的BNNモデルのトレーニング手順は、サンプル化されたDNNモデルのアンサンブルを訓練することを含み、単一のDNNモデルのトレーニングよりも膨大な量のデータ移動を誘導する。 本稿では,BNNトレーニングの非効率性の根本原因が,ガウスランダム変数(GRV)による大規模オフチップデータ転送に由来することを明らかにした。 この課題に対処するために,リニアフィードバックシフトレジスタ(LFSR)の逆シフトによるGRVによるオフチップデータ転送を,トレーニング精度を損なうことなく除去する,新しい設計を提案する。 ハードウェアレベルでのLFSR回帰戦略を効率的にサポートするため、我々は現在のDNNアクセラレータの設計空間を探索し、我々の戦略に最適な最適な計算マッピング方式を特定する。 この発見を利用して、我々は、低コストでスケーラブルなShift-BNNと呼ばれる、最初の高効率なBNNトレーニングアクセラレータを設計し、プロトタイプを作成します。 5つの代表的BNNモデルの大規模な評価は、Shift-BNNがエネルギー効率を平均4.9倍(最大10.8倍)向上し、ベースラインDNNトレーニングアクセラレータの1.6倍(最大2.8倍)のスピードアップを達成したことを示している。

Bayesian Neural Networks (BNNs) that possess a property of uncertainty estimation have been increasingly adopted in a wide range of safety-critical AI applications which demand reliable and robust decision making, e.g., self-driving, rescue robots, medical image diagnosis. The training procedure of a probabilistic BNN model involves training an ensemble of sampled DNN models, which induces orders of magnitude larger volume of data movement than training a single DNN model. In this paper, we reveal that the root cause for BNN training inefficiency originates from the massive off-chip data transfer by Gaussian Random Variables (GRVs). To tackle this challenge, we propose a novel design that eliminates all the off-chip data transfer by GRVs through the reversed shifting of Linear Feedback Shift Registers (LFSRs) without incurring any training accuracy loss. To efficiently support our LFSR reversion strategy at the hardware level, we explore the design space of the current DNN accelerators and identify the optimal computation mapping scheme to best accommodate our strategy. By leveraging this finding, we design and prototype the first highly efficient BNN training accelerator, named Shift-BNN, that is low-cost and scalable. Extensive evaluation on five representative BNN models demonstrates that Shift-BNN achieves an average of 4.9x (up to 10.8x) boost in energy efficiency and 1.6x (up to 2.8x) speedup over the baseline DNN training accelerator.
翻訳日:2021-10-08 15:23:27 公開日:2021-10-07
# フェデレーションドロップアウトを用いた音声認識モデルのオンデバイス学習の実現

Enabling On-Device Training of Speech Recognition Models with Federated Dropout ( http://arxiv.org/abs/2110.03634v1 )

ライセンス: Link先を確認
Dhruv Guliani and Lillian Zhou and Changwan Ryu and Tien-Ju Yang and Harry Zhang and Yonghui Xiao and Francoise Beaufays and Giovanni Motta(参考訳) フェデレーション学習は、デバイスを離れないローカルデータのエッジ上で機械学習モデルをトレーニングするために使用され、デフォルトでプライバシを提供する。 これは、クライアントのデバイスに関連する通信コストと計算コストに関する課題である。 これらのコストは、トレーニング対象のモデルのサイズと強く関連しており、最先端の自動音声認識モデルにおいて重要である。 我々は,フルサイズのモデルサーバサイドをトレーニングしながらクライアントモデルのサイズを減らすために,フェデレーションドロップアウトを使う方法を提案する。 我々は,フェデレーションドロップアウトの有効性を示す実証的証拠を提供し,各層に適用されるドロップアウト率を変化させる新しい手法を提案する。 さらに、フェデレートされたドロップアウトにより、より大きなモデル内の小さなサブモデルの集合が独立して単語エラー率を低くすることができ、推論のために配置されたモデルのサイズを動的に調整しやすくなる。

Federated learning can be used to train machine learning models on the edge on local data that never leave devices, providing privacy by default. This presents a challenge pertaining to the communication and computation costs associated with clients' devices. These costs are strongly correlated with the size of the model being trained, and are significant for state-of-the-art automatic speech recognition models. We propose using federated dropout to reduce the size of client models while training a full-size model server-side. We provide empirical evidence of the effectiveness of federated dropout, and propose a novel approach to vary the dropout rate applied at each layer. Furthermore, we find that federated dropout enables a set of smaller sub-models within the larger model to independently have low word error rates, making it easier to dynamically adjust the size of the model deployed for inference.
翻訳日:2021-10-08 15:22:58 公開日:2021-10-07
# 収束プラグアンドプレイ用勾配ステップデノイザー

Gradient Step Denoiser for convergent Plug-and-Play ( http://arxiv.org/abs/2110.03220v1 )

ライセンス: Link先を確認
Samuel Hurault, Arthur Leclaire, Nicolas Papadakis(参考訳) プラグ・アンド・プレイ法は、オフ・ザ・シェルフデノイザによって正規化が行われる問題の画像化のための反復アルゴリズムのクラスを構成する。 Plug-and-Play法は様々な画像問題に対して膨大な視覚的パフォーマンスをもたらすが、既存のコンバージェンス保証はデノイザ上の非現実的(あるいは準最適)仮説に基づいているか、あるいは強い凸データ項に限定されている。 本研究では,深いニューラルネットワークによってパラメータ化される関数上の勾配降下ステップとして,半四分法分割に基づく新しいタイプのPlug-and-Play法を提案する。 非凸条件下での近位勾配降下アルゴリズムの出力収束結果から,提案したPlug-and-Playアルゴリズムは,グローバル関数の定常点を対象とする収束反復スキームであることを示す。 さらに,Plug-and-Play方式で使用する他の最先端のDeep Denoiserと比較して,性能を損なうことなく,このようなDeep Denoiserを学習することが可能であることを示す。 近位勾配アルゴリズムを,デブラリング,超解像,インパインティングなど,様々な不適切な逆問題に適用する。 これら全ての応用において、数値結果は収束結果を実証的に確認する。 実験により、この新しいアルゴリズムは定量的にも定性的にも最先端のパフォーマンスに達することが示された。

Plug-and-Play methods constitute a class of iterative algorithms for imaging problems where regularization is performed by an off-the-shelf denoiser. Although Plug-and-Play methods can lead to tremendous visual performance for various image problems, the few existing convergence guarantees are based on unrealistic (or suboptimal) hypotheses on the denoiser, or limited to strongly convex data terms. In this work, we propose a new type of Plug-and-Play methods, based on half-quadratic splitting, for which the denoiser is realized as a gradient descent step on a functional parameterized by a deep neural network. Exploiting convergence results for proximal gradient descent algorithms in the non-convex setting, we show that the proposed Plug-and-Play algorithm is a convergent iterative scheme that targets stationary points of an explicit global functional. Besides, experiments show that it is possible to learn such a deep denoiser while not compromising the performance in comparison to other state-of-the-art deep denoisers used in Plug-and-Play schemes. We apply our proximal gradient algorithm to various ill-posed inverse problems, e.g. deblurring, super-resolution and inpainting. For all these applications, numerical results empirically confirm the convergence results. Experiments also show that this new algorithm reaches state-of-the-art performance, both quantitatively and qualitatively.
翻訳日:2021-10-08 15:22:43 公開日:2021-10-07
# 確率像EPDiffに対するモーメント進化方程式とモーメントマッチング

Moment evolution equations and moment matching for stochastic image EPDiff ( http://arxiv.org/abs/2110.03337v1 )

ライセンス: Link先を確認
Alexander Christgau, Alexis Arnaudon and Stefan Sommer(参考訳) 確率的画像変形のモデルは、画像領域を変形させることで画像変換の時間連続的確率的効果の研究を可能にする。 応用例としては、縦断的な医療画像解析と、ランダムな対象別変動がある。 確率的EPDiff方程式によって支配される進化を伴う LDDMM モデルの確率的拡張に着目し、対応する Ito 拡散のモーメント近似を用いて、全確率的モデルにおける統計的推測のための推定器を構築する。 この手法は, 画像上の雑音場の空間的相関を符号化したパラメータを効率的に推定できることを示す。

Models of stochastic image deformation allow study of time-continuous stochastic effects transforming images by deforming the image domain. Applications include longitudinal medical image analysis with both population trends and random subject specific variation. Focusing on a stochastic extension of the LDDMM models with evolutions governed by a stochastic EPDiff equation, we use moment approximations of the corresponding Ito diffusion to construct estimators for statistical inference in the full stochastic model. We show that this approach, when efficiently implemented with automatic differentiation tools, can successfully estimate parameters encoding the spatial correlation of the noise fields on the image
翻訳日:2021-10-08 15:22:16 公開日:2021-10-07
# 臨床脳mri画像を用いたトランスフォーマベース深層学習による脳転移の一次臓器部位への分類

A transformer-based deep learning approach for classifying brain metastases into primary organ sites using clinical whole brain MRI images ( http://arxiv.org/abs/2110.03588v1 )

ライセンス: Link先を確認
Qing Lyu, Sanjeev V. Namjoshi, Emory McTyre, Umit Topaloglu, Richard Barcus, Michael D. Chan, Christina K. Cramer, Waldemar Debinski, Metin N. Gurcan, Glenn J. Lesser, Hui-Kuan Lin, Reginald F. Munden, Boris C. Pasche, Kiran Kumar Solingapuram Sai, Roy E. Strowd, Stephen B. Tatter, Kounosuke Watabe, Wei Zhang, Ge Wang, Christopher T. Whitlow(参考訳) 脳転移性疾患の治療上の決定は、一次臓器癌組織学の知識によって行われ、しばしば侵襲的生検を必要とする。 本研究の目的は,従来の全脳MRIを用いた脳転移性腫瘍組織診の正確かつ迅速な非侵襲的同定のための新しい深層学習手法を開発することである。 臨床全体脳データとエンドツーエンドパイプラインの使用は、外部からの人間の介入を妨げる。 本研究は2000年7月から2019年5月までのMRI治療計画とガンマナイフ放射線治療の患者(n=1,293)からなる。 造影T1強調コントラストを増強し,T2強調Fluid-Attenuated Inversion recovery MRI検査 (n=1,428) を最小限に前処理し(ボクセル分解能の統一と信号強度再スケーリング/正規化)、MRIスキャンに数秒しか必要とせず,腫瘍の分節化,モダリティ移動,脳転移性疾患に関連する一次部位分類(肺,メラノーマ,腎など)の深層学習ワークフローに入力した。 10倍のクロスバリデーションは、総AUC 0.941、肺AUC 0.899、メラノーマAUC 0.882、腎AUC 0.870、その他のAUC 0.885を発生させた。 悪性腫瘍の一次臓器部位の正確な診断を可能にするには、全脳画像の特徴が十分に識別可能であると確信している。 エンド・ツー・エンドのDeep-to-End Learning-based Radiomic methodは,ヒトを介さずに全脳MRI画像を用いて転移性腫瘍の分類が可能となる。 さらなる改善は、脳転移性疾患の治療および患者の予後と生存を改善するために、一次臓器部位の癌同定を迅速化するための重要なツールを提供する可能性がある。

The treatment decisions for brain metastatic disease are driven by knowledge of the primary organ site cancer histology, often requiring invasive biopsy. This study aims to develop a novel deep learning approach for accurate and rapid non-invasive identification of brain metastatic tumor histology with conventional whole-brain MRI. The use of clinical whole-brain data and the end-to-end pipeline obviate external human intervention. This IRB-approved single-site retrospective study was comprised of patients (n=1,293) referred for MRI treatment-planning and gamma knife radiosurgery from July 2000 to May 2019. Contrast-enhanced T1-weighted contrast enhanced and T2-weighted-Fluid-At tenuated Inversion Recovery brain MRI exams (n=1,428) were minimally preprocessed (voxel resolution unification and signal-intensity rescaling/normalizat ion), requiring only seconds per an MRI scan, and input into the proposed deep learning workflow for tumor segmentation, modality transfer, and primary site classification associated with brain metastatic disease in one of four classes (lung, melanoma, renal, and other). Ten-fold cross-validation generated the overall AUC of 0.941, lung class AUC of 0.899, melanoma class AUC of 0.882, renal class AUC of 0.870, and other class AUC of 0.885. It is convincingly established that whole-brain imaging features would be sufficiently discriminative to allow accurate diagnosis of the primary organ site of malignancy. Our end-to-end deep learning-based radiomic method has a great translational potential for classifying metastatic tumor types using whole-brain MRI images, without additional human intervention. Further refinement may offer invaluable tools to expedite primary organ site cancer identification for treatment of brain metastatic disease and improvement of patient outcomes and survival.
翻訳日:2021-10-08 15:22:05 公開日:2021-10-07
# SGDを用いた学習モデルの一般化について:情報理論境界と意味

On the Generalization of Models Trained with SGD: Information-Theoreti c Bounds and Implications ( http://arxiv.org/abs/2110.03128v1 )

ライセンス: Link先を確認
Ziqiao Wang, Yongyi Mao(参考訳) 本稿では、最近の研究(Neu, 2021)に続き、SGDで訓練されたニューラルネットワークなどの機械学習モデルの一般化誤差に対する、より厳密な情報理論上界について述べる。 これらの境界を線形および2層reluネットワークの一般化挙動解析に適用する。 これらの境界に基づく実験的研究は、ニューラルネットワークのSGDトレーニングに関する洞察を与える。 彼らはまた、芸術の現在の状況と相容れないパフォーマンスを示す、新しくシンプルな正規化スキームも指している。

This paper follows up on a recent work of (Neu, 2021) and presents new and tighter information-theoreti c upper bounds for the generalization error of machine learning models, such as neural networks, trained with SGD. We apply these bounds to analyzing the generalization behaviour of linear and two-layer ReLU networks. Experimental study based on these bounds provide some insights on the SGD training of neural networks. They also point to a new and simple regularization scheme which we show performs comparably to the current state of the art.
翻訳日:2021-10-08 15:21:24 公開日:2021-10-07
# ベイジアンニューラルネットワークを用いた音声感情認識のための終末ラベル不確実性モデル

End-to-end label uncertainty modeling for speech emotion recognition using Bayesian neural networks ( http://arxiv.org/abs/2110.03299v1 )

ライセンス: Link先を確認
Navin Raj Prabhu, Guillaume Carbajal, Nale Lehmann-Willenbrock and Timo Gerkmann(参考訳) 感情は主観的な構成である。 最近のエンドツーエンドの音声感情認識システムは、最先端のパフォーマンスにもかかわらず、感情の主観的な性質に非依存である。 本研究では、感情に固有の主観性を捉えるために、エンドツーエンドのベイズニューラルネットワークアーキテクチャを導入する。 私たちの知る限りでは、この研究はベイズ型ニューラルネットワークを音声感情認識に初めて使用するものだ。 トレーニング中、ネットワークは重みの分布を学習し、主観的感情のアノテーションに関連する固有の不確かさを捉える。 そこで本研究では,平均値やゴールド標準値のラベルのみをトレーニングするのではなく,感情アノテーションの分布に基づいてモデルを明示的にトレーニングできる損失項を提案する。 AVEC'16感情認識データセットに対する提案手法の評価を行った。 結果の質的・定量的解析により,提案モデルが主観的感情アノテーションの分布を,平均偏差と標準偏差推定の妥協により適切に把握できることが判明した。

Emotions are subjective constructs. Recent end-to-end speech emotion recognition systems are typically agnostic to the subjective nature of emotions, despite their state-of-the-art performances. In this work, we introduce an end-to-end Bayesian neural network architecture to capture the inherent subjectivity in emotions. To the best of our knowledge, this work is the first to use Bayesian neural networks for speech emotion recognition. At training, the network learns a distribution of weights to capture the inherent uncertainty related to subjective emotion annotations. For this, we introduce a loss term which enables the model to be explicitly trained on a distribution of emotion annotations, rather than training them exclusively on mean or gold-standard labels. We evaluate the proposed approach on the AVEC'16 emotion recognition dataset. Qualitative and quantitative analysis of the results reveal that the proposed model can aptly capture the distribution of subjective emotion annotations with a compromise between mean and standard deviation estimations.
翻訳日:2021-10-08 15:21:13 公開日:2021-10-07
# ベイズ型lstmと時空間解析に基づく集束風力発電の不確かさセット予測

Uncertainty Set Prediction of Aggregated Wind Power Generation based on Bayesian LSTM and Spatio-Temporal Analysis ( http://arxiv.org/abs/2110.03358v1 )

ライセンス: Link先を確認
Xiaopeng Li, Jiang Wu, Zhanbo Xu, Kun Liu, Jun Yu, Xiaohong Guan(参考訳) 地理的に分布する風力発電の総合確率特性は、電力市場における安全かつ経済的なシステム運用に有用な情報を提供する。 本稿では,地理的に分散した風力発電所の集合的発生の不確かさの予測に焦点をあてる。 近傍の風力発電場における部分的な観測から動的特徴を学習するための時空間モデルを提案する。 本研究では,確率論的予測モデルであるベイズLSTMを用いて,風力発電における発生の不確実性集合を求める。 そして、異なる風力発電所間の空間的相関を示し、出力結果を補正する。 中国北西部の6か所の風力発電所の実際のデータに基づく数値試験の結果、分散型風力発電所の集成風力発電の不確実性は1か所の風力発電所よりも低いことが示された。

Aggregated stochastic characteristics of geographically distributed wind generation will provide valuable information for secured and economical system operation in electricity markets. This paper focuses on the uncertainty set prediction of the aggregated generation of geographically distributed wind farms. A Spatio-temporal model is proposed to learn the dynamic features from partial observation in near-surface wind fields of neighboring wind farms. We use Bayesian LSTM, a probabilistic prediction model, to obtain the uncertainty set of the generation in individual wind farms. Then, spatial correlation between different wind farms is presented to correct the output results. Numerical testing results based on the actual data with 6 wind farms in northwest China show that the uncertainty set of aggregated wind generation of distributed wind farms is less volatile than that of a single wind farm.
翻訳日:2021-10-08 15:20:57 公開日:2021-10-07
# マルチヘッドReLUインプットニューラル表現ネットワーク

Multi-Head ReLU Implicit Neural Representation Networks ( http://arxiv.org/abs/2110.03448v1 )

ライセンス: Link先を確認
Arya Aftab, Alireza Morsali(参考訳) 本稿では、暗黙的神経表現(INR)のために、新しいマルチヘッド多層パーセプトロン(MLP)構造を示す。 従来の整流線形ユニット(ReLU)ネットワークは信号の低周波特性を学習するためのスペクトルバイアスを示すので,信号の局所構造を利用してこの欠陥を緩和することを目指している。 より具体的に言うと、MLPは所望の信号の基底ジェネレータ関数のグローバルな特徴を捉えるために使用される。 次に、複数のヘッドを用いて信号の非隣接な局所的特徴を再構成し、計算複雑性を低減し、ヘッドを本体に取り付けるためにスパース層を配置する。 種々の実験を通して,提案モデルが従来のReLUネットワークの特別なバイアスに悩まされず,より優れた一般化能力を有することを示す。 最後に, シミュレーションにより, 提案手法が既存のinr法をはるかに少ない計算コストで上回ることを確認した。

In this paper, a novel multi-head multi-layer perceptron (MLP) structure is presented for implicit neural representation (INR). Since conventional rectified linear unit (ReLU) networks are shown to exhibit spectral bias towards learning low-frequency features of the signal, we aim at mitigating this defect by taking advantage of the local structure of the signals. To be more specific, an MLP is used to capture the global features of the underlying generator function of the desired signal. Then, several heads are utilized to reconstruct disjoint local features of the signal, and to reduce the computational complexity, sparse layers are deployed for attaching heads to the body. Through various experiments, we show that the proposed model does not suffer from the special bias of conventional ReLU networks and has superior generalization capabilities. Finally, simulation results confirm that the proposed multi-head structure outperforms existing INR methods with considerably less computational cost.
翻訳日:2021-10-08 15:20:30 公開日:2021-10-07
# 多声音イベント検出のための相互協調学習

Peer Collaborative Learning for Polyphonic Sound Event Detection ( http://arxiv.org/abs/2110.03511v1 )

ライセンス: Link先を確認
Hayato Endo and Hiromitsu Nishizaki(参考訳) 本稿では,ピアコラボレーティブ・ラーニング (pcl) と呼ばれる半教師付き学習を,音響シーン・イベント検出 (dcase) 課題における課題の一つである多音音響イベント検出 (psed) タスクに適用できることを示す。 多くのディープラーニングモデルが、特定の音声クリップ内のどの音イベントがいつ、どれくらいの期間起こるかを調べるために研究されている。 本論文で用いたPCLの特徴は,サブネットワークへのアンサンブルベースの知識蒸留と学生教師モデルに基づく知識蒸留の組み合わせであり,少数の強ラベル付きデータ,弱いラベル付きデータ,および大量の未ラベルデータからロバストPSEDモデルを訓練することができる。 提案したPCLモデルをDCASE 2019 Task 4データセットを用いて評価し,ベースラインモデルと比較して約10%のF1スコア改善を実現した。

This paper describes that semi-supervised learning called peer collaborative learning (PCL) can be applied to the polyphonic sound event detection (PSED) task, which is one of the tasks in the Detection and Classification of Acoustic Scenes and Events (DCASE) challenge. Many deep learning models have been studied to find out what kind of sound events occur where and for how long in a given audio clip. The characteristic of PCL used in this paper is the combination of ensemble-based knowledge distillation into sub-networks and student-teacher model-based knowledge distillation, which can train a robust PSED model from a small amount of strongly labeled data, weakly labeled data, and a large amount of unlabeled data. We evaluated the proposed PCL model using the DCASE 2019 Task 4 datasets and achieved an F1-score improvement of about 10% compared to the baseline model.
翻訳日:2021-10-08 15:20:13 公開日:2021-10-07
# Renyi差分プライバシーを用いたハイパーパラメータチューニング

Hyperparameter Tuning with Renyi Differential Privacy ( http://arxiv.org/abs/2110.03620v1 )

ライセンス: Link先を確認
Nicolas Papernot, Thomas Steinke(参考訳) ノイズの大きい確率勾配降下(dp-sgd)のような多くの微分プライベートアルゴリズムでは、単一のトレーニング実行のプライバシリークを制限するのに必要な解析がよく理解されている。 しかし、トレーニングアルゴリズムのハイパーパラメーターの値を微調整するために必要な複数のトレーニング実行から生じるプライバシー漏洩に関する研究はほとんどない。 本稿では,非プライベートなトレーニング実行に基づいてハイパーパラメータを設定することで,個人情報が漏洩する可能性について述べる。 この観察に動機づけられ、我々はrenyi微分プライバシーの枠組みの中でハイパーパラメータ探索手順のプライバシー保証を提供する。 この結果は,Liu と Talwar (STOC 2019) の作業を改善し,拡張する。 我々の分析は、ハイパーパラメータのチューニングが実際にプライベート情報を漏洩させるというこれまでの観察を支持しているが、特定の仮定の下では、ハイパーパラメータの選択に必要な各候補のトレーニング実行がそれ自体が微分プライベートである限り、このリークは控えめであることを示す。

For many differentially private algorithms, such as the prominent noisy stochastic gradient descent (DP-SGD), the analysis needed to bound the privacy leakage of a single training run is well understood. However, few studies have reasoned about the privacy leakage resulting from the multiple training runs needed to fine tune the value of the training algorithm's hyperparameters. In this work, we first illustrate how simply setting hyperparameters based on non-private training runs can leak private information. Motivated by this observation, we then provide privacy guarantees for hyperparameter search procedures within the framework of Renyi Differential Privacy. Our results improve and extend the work of Liu and Talwar (STOC 2019). Our analysis supports our previous observation that tuning hyperparameters does indeed leak private information, but we prove that, under certain assumptions, this leakage is modest, as long as each candidate training run needed to select hyperparameters is itself differentially private.
翻訳日:2021-10-08 15:19:56 公開日:2021-10-07
# Manifold Learning を用いた時系列予測

Time Series Forecasting Using Manifold Learning ( http://arxiv.org/abs/2110.03625v1 )

ライセンス: Link先を確認
Panagiotis Papaioannou, Ronen Talmon, Daniela di Serafino, Constantinos Siettos(参考訳) 本研究では,高次元時系列の予測のための多様体学習に基づく3層数値フレームワークを提案する。 最初のステップでは、局所線形埋め込みや拡散写像のような非線形多様体学習アルゴリズムを用いて、時系列を低次元空間に埋め込む。 第2段階では,多様体上の低次回帰モデル,特に多変量自己回帰(MVAR)モデルとガウス過程回帰(GPR)モデルを構築し,組込み力学の予測を行う。 最後のステップでは、ラジアル基底関数補間と幾何高調波を用いて、埋め込み時系列を元の高次元空間に戻します。 そこで本研究では, 線形および非線形確率モデルから生成される脳波信号に類似した3つの合成確率モデルと, 19/09/2001-29/10/202 0の10主要為替レート(FOREX)の日次時系列を含む1つの実世界のデータセットを用いて, 提案手法の予測性能を検証した。 提案した数値スキームの予測性能を,多様体学習,モデリング,昇降法の組み合わせを用いて評価した。 また,主成分分析アルゴリズムと,直感的ランダムウォークモデルとMVARおよびGPRモデルとの比較を行った。

We address a three-tier numerical framework based on manifold learning for the forecasting of high-dimensional time series. At the first step, we embed the time series into a reduced low-dimensional space using a nonlinear manifold learning algorithm such as Locally Linear Embedding and Diffusion Maps. At the second step, we construct reduced-order regression models on the manifold, in particular Multivariate Autoregressive (MVAR) and Gaussian Process Regression (GPR) models, to forecast the embedded dynamics. At the final step, we lift the embedded time series back to the original high-dimensional space using Radial Basis Functions interpolation and Geometric Harmonics. For our illustrations, we test the forecasting performance of the proposed numerical scheme with four sets of time series: three synthetic stochastic ones resembling EEG signals produced from linear and nonlinear stochastic models with different model orders, and one real-world data set containing daily time series of 10 key foreign exchange rates (FOREX) spanning the time period 19/09/2001-29/10/202 0. The forecasting performance of the proposed numerical scheme is assessed using the combinations of manifold learning, modelling and lifting approaches. We also provide a comparison with the Principal Component Analysis algorithm as well as with the naive random walk model and the MVAR and GPR models trained and implemented directly in the high-dimensional space.
翻訳日:2021-10-08 15:19:38 公開日:2021-10-07
# 大規模学習速度が均質性を損なう:収束とバランス効果

Large Learning Rate Tames Homogeneity: Convergence and Balancing Effect ( http://arxiv.org/abs/2110.03677v1 )

ライセンス: Link先を確認
Yuqing Wang, Minshuo Chen, Tuo Zhao, Molei Tao(参考訳) 最近の経験的進歩は、学習率の高い深層モデルの訓練が一般化性能を向上することを示している。 しかし、分析の難しさから、大きな学習率の利点に関する理論的正当化は非常に限られている。 本稿では,同次行列分解問題,すなわち$\min_{X,Y} \|A - XY^\top\|_{\sf F}^2$に対して,学習率の高いグラディエント蛍光(GD)を用いることを検討する。 我々は、初期化時のヘッセンの最大固有値が$l$であるような2/l$以上の一定大きな学習率の収束理論を証明している。 さらに,そのような大きな学習率によって引き起こされるgdの暗黙のバイアスを厳密に確立し,その初期化が著しく不均衡であっても,gdイテレーションの限界でx$とy$のマグニチュードが近くなることを示す。 我々の理論を支持するための数値実験が提供されている。

Recent empirical advances show that training deep models with large learning rate often improves generalization performance. However, theoretical justifications on the benefits of large learning rate are highly limited, due to challenges in analysis. In this paper, we consider using Gradient Descent (GD) with a large learning rate on a homogeneous matrix factorization problem, i.e., $\min_{X, Y} \|A - XY^\top\|_{\sf F}^2$. We prove a convergence theory for constant large learning rates well beyond $2/L$, where $L$ is the largest eigenvalue of Hessian at the initialization. Moreover, we rigorously establish an implicit bias of GD induced by such a large learning rate, termed 'balancing', meaning that magnitudes of $X$ and $Y$ at the limit of GD iterations will be close even if their initialization is significantly unbalanced. Numerical experiments are provided to support our theory.
翻訳日:2021-10-08 15:19:11 公開日:2021-10-07
# (参考訳) SecFL:TEEを用いた秘密のフェデレーション学習 [全文訳有]

SecFL: Confidential Federated Learning using TEEs ( http://arxiv.org/abs/2110.00981v2 )

ライセンス: CC BY 4.0
Do Le Quoc and Christof Fetzer(参考訳) Federated Learning(FL)は、複数のクライアントが、ローカルのトレーニングデータセットを共有することなく、クライアントからさまざまなデータセットの恩恵を受けるようにモデルを共同でトレーニングすることを可能にする、新興機械学習パラダイムである。 FLはデータプライバシのリスクを軽減する。 残念ながら、FLはプライバシとセキュリティに関するいくつかの問題が存在する。 まず、共有トレーニングパラメータから機密情報を漏洩させることができる。 第二に、悪意のあるクライアントは互いに衝突して、通常のクライアントからデータやモデルを盗んだり、グローバルなトレーニングモデルを破壊したりすることができる。 これらの課題に対処するため,TEE(Trusted Execution Environments)を活用した秘密のフェデレーション学習フレームワークであるSecFLを提案する。 SecFLはTEEエンクレーブ内のグローバルおよびローカルなトレーニングを実行し、特権アクセスを持つ強力な敵に対する計算の機密性と完全性を保証する。 SecFLは、クライアントがグローバルなトレーニング計算だけでなく、相互にローカルなトレーニング計算を証明できるように、TEEが提供するリモートテストに依存する、透過的なリモートテストメカニズムを提供する。 したがって、すべての悪意のあるクライアントはリモート検査機構を使って検出できる。

Federated Learning (FL) is an emerging machine learning paradigm that enables multiple clients to jointly train a model to take benefits from diverse datasets from the clients without sharing their local training datasets. FL helps reduce data privacy risks. Unfortunately, FL still exist several issues regarding privacy and security. First, it is possible to leak sensitive information from the shared training parameters. Second, malicious clients can collude with each other to steal data, models from regular clients or corrupt the global training model. To tackle these challenges, we propose SecFL - a confidential federated learning framework that leverages Trusted Execution Environments (TEEs). SecFL performs the global and local training inside TEE enclaves to ensure the confidentiality and integrity of the computations against powerful adversaries with privileged access. SecFL provides a transparent remote attestation mechanism, relying on the remote attestation provided by TEEs, to allow clients to attest the global training computation as well as the local training computation of each other. Thus, all malicious clients can be detected using the remote attestation mechanisms.
翻訳日:2021-10-08 14:39:55 公開日:2021-10-07
# (参考訳) 教師付き自己監督学習による新しい物体のオンライン視覚不変性学習

Learning Online Visual Invariances for Novel Objects via Supervised and Self-Supervised Training ( http://arxiv.org/abs/2110.01476v2 )

ライセンス: CC BY-SA 4.0
Valerio Biscione and Jeffrey S. Bowers(参考訳) 人間は、スケールや視点といった様々な空間変換に従って物体を識別することができる。 これは、1つのポーズで1つのプレゼンテーションの後、しばしばオンライン不変性と呼ばれる新しいオブジェクトに拡張する。 cnnは人間の視覚の説得力のあるモデルとして提案されているが、変換を通してオブジェクトを識別する能力は通常、広範なデータ拡張の後、トレーニングされたカテゴリの保持されたサンプルでテストされる。 本稿では, 回転, スケーリング, 翻訳, 明るさ, コントラスト, 視点など, 様々な変換を行う合成3Dオブジェクトの画像を認識するためのトレーニングモデルにより, 標準的なCNNが人間のようなオンライン不変性をサポートできるかを評価する。 モデルの内部表現の分析を通して、変換されたオブジェクトにトレーニングされた標準教師付きcnnは、10クラスから50個のオブジェクトをトレーニングしても、新しいクラスで強い不変性を得ることができることを示した。 これは、実際のオブジェクトの写真の異なるデータセットに拡張された。 また、これらの不変性は、同じ/異なるタスクを解くことで、自己教師付きで取得できることを示す。 後者のアプローチは、人間が不変性を取得する方法と似ているかもしれない。

Humans can identify objects following various spatial transformations such as scale and viewpoint. This extends to novel objects, after a single presentation at a single pose, sometimes referred to as online invariance. CNNs have been proposed as a compelling model of human vision, but their ability to identify objects across transformations is typically tested on held-out samples of trained categories after extensive data augmentation. This paper assesses whether standard CNNs can support human-like online invariance by training models to recognize images of synthetic 3D objects that undergo several transformations: rotation, scaling, translation, brightness, contrast, and viewpoint. Through the analysis of models' internal representations, we show that standard supervised CNNs trained on transformed objects can acquire strong invariances on novel classes even when trained with as few as 50 objects taken from 10 classes. This extended to a different dataset of photographs of real objects. We also show that these invariances can be acquired in a self-supervised way, through solving the same/different task. We suggest that this latter approach may be similar to how humans acquire invariances.
翻訳日:2021-10-08 14:33:10 公開日:2021-10-07
# (参考訳) リランニングOCR:品質評価と改善予測のための機械学習アプローチ [全文訳有]

Rerunning OCR: A Machine Learning Approach to Quality Assessment and Enhancement Prediction ( http://arxiv.org/abs/2110.01661v3 )

ライセンス: CC BY 4.0
Pit Schneider(参考訳) 新しい改善されたOCRソリューションの反復は、適切な再処理候補をターゲットとする決定を強制する。 これは特に、基礎となるデータ収集のサイズがかなり大きく、フォント、言語、出版期間、その結果ocr品質の観点からかなり多様である場合に適用される。 本稿はルクセンブルク国立図書館の取り組みを捉え、これらの決定を裏付けるものである。 計算オーバーヘッドの低減と品質劣化のリスクの低減と、より定量化されたOCRの改善を両立させるためには、これらが不可欠である。 特に本研究では,テキストブロックレベルの品質評価に関して,図書館の方法論を説明する。 この技術の延長として、新しいocrエンジンの拡張可能性を考慮した回帰モデルという形で、別の貢献がある。 どちらも、特に品質の低い歴史的データを扱う文化機関にとって有望なアプローチである。

Iterating with new and improved OCR solutions enforces decisions to be taken when it comes to targeting the right reprocessing candidates. This especially applies when the underlying data collection is of considerable size and rather diverse in terms of fonts, languages, periods of publication and consequently OCR quality. This article captures the efforts of the National Library of Luxembourg to support those exact decisions. They are crucial in order to guarantee low computational overhead and reduced quality degradation risks, combined with a more quantifiable OCR improvement. In particular, this work explains the methodology of the library with respect to text block level quality assessment. As an extension of this technique, another contribution comes in the form of a regression model that takes the enhancement potential of a new OCR engine into account. They both mark promising approaches, especially for cultural institutions dealing with historic data of lower quality.
翻訳日:2021-10-08 14:31:11 公開日:2021-10-07
# (参考訳) 感情行動分析のための定量的表情表現

Quantified Facial Expressiveness for Affective Behavior Analytics ( http://arxiv.org/abs/2110.01758v2 )

ライセンス: CC BY 4.0
Md Taufeeq Uddin, Shaun Canavan(参考訳) 顔の表情の定量化は、人間の感情行動の分析に不可欠である。 残念ながら、ビデオフレームレベルでの表現性定量化の方法は、離散表現の研究とは異なり、ほとんど探索されていない。 本研究では,行動単位(aus),ランドマーク,頭部ポーズ,視線などの多彩な顔特徴を用いた,有界連続表現性スコアを用いて表情表現性を定量化するアルゴリズムを提案する。 提案アルゴリズムは、高強度で時間変化が大きいAUをより重くする。 提案アルゴリズムは,表現の離散性の観点から表現性を計算し,顔の行動追跡や文脈における主観的定量化などのタスクに使用できる。 提案アルゴリズムは,時間的変化と表現性の把握,文脈の主観的差異の測定,有用な洞察の抽出に有効であることを示す。

The quantified measurement of facial expressiveness is crucial to analyze human affective behavior at scale. Unfortunately, methods for expressiveness quantification at the video frame-level are largely unexplored, unlike the study of discrete expression. In this work, we propose an algorithm that quantifies facial expressiveness using a bounded, continuous expressiveness score using multimodal facial features, such as action units (AUs), landmarks, head pose, and gaze. The proposed algorithm more heavily weights AUs with high intensities and large temporal changes. The proposed algorithm can compute the expressiveness in terms of discrete expression, and can be used to perform tasks including facial behavior tracking and subjectivity quantification in context. Our results on benchmark datasets show the proposed algorithm is effective in terms of capturing temporal changes and expressiveness, measuring subjective differences in context, and extracting useful insight.
翻訳日:2021-10-08 14:22:54 公開日:2021-10-07
# (参考訳) シミュレーションに基づく推論による悪意活動の検出と定量化 [全文訳有]

Detecting and Quantifying Malicious Activity with Simulation-based Inference ( http://arxiv.org/abs/2110.02483v2 )

ライセンス: CC BY 4.0
Andrew Gambardella, Bogdan State, Naeemullah Khan, Leo Tsourides, Philip H. S. Torr, At{\i}l{\i}m G\"une\c{s} Baydin(参考訳) 本稿では,悪意のあるユーザ識別問題に対処する確率的プログラミング手法を推薦アルゴリズムで提案する。 確率的プログラミングは、悪意のあるユーザーが構造化されたモデルの下でどのように振る舞うかの不連続な表現を提供するだけでなく、悪意のあるユーザーによって引き起こされるダメージの定量化を可能にするなど、他の技術よりも多くの利点を提供する。 簡単なレコメンデーションアルゴリズムと相互作用する正規ユーザと悪意ユーザのモデルを用いて、悪意のあるユーザ識別実験を行い、そのダイナミクスに対するユーザやグループの影響を定量化する新しいシミュレーションベースの尺度を提案する。

We propose the use of probabilistic programming techniques to tackle the malicious user identification problem in a recommendation algorithm. Probabilistic programming provides numerous advantages over other techniques, including but not limited to providing a disentangled representation of how malicious users acted under a structured model, as well as allowing for the quantification of damage caused by malicious users. We show experiments in malicious user identification using a model of regular and malicious users interacting with a simple recommendation algorithm, and provide a novel simulation-based measure for quantifying the effects of a user or group of users on its dynamics.
翻訳日:2021-10-08 12:58:44 公開日:2021-10-07
# (参考訳) PSG@HASOC-Dravidian CodeMixFIRE2021: タングリッシュにおける攻撃的言語識別のための事前訓練されたトランスフォーマ [全文訳有]

PSG@HASOC-Dravidian CodeMixFIRE2021: Pretrained Transformers for Offensive Language Identification in Tanglish ( http://arxiv.org/abs/2110.02852v2 )

ライセンス: CC BY 4.0
Sean Benhur, Kanchana Sivanraju(参考訳) 本稿では,ドラビダ語(タミル語・マラヤラム語)におけるヘイトスピーチと攻撃言語識別システムについて述べる。 この課題は、ソーシャルメディアから収集されたDravidian Languagesのコードミックスコメント/ポストにおける攻撃的コンテンツを特定することである。 提案手法では,事前学習されたトランスフォーマリンバーの最終層をプールすることで,サブタスクbにおけるタミル・イングリッシュデータセットの重み付け平均スコア0.61でリーダボード上のランクナインを達成するのに役立ち,タスク期限後にデータセットを一様にサンプリングしてmurilプリトレーニングモデルを用いて,平均スコア0.67をリーダボードのトップスコアとして達成した。 さらに、事前トレーニングされたモデルを活用するアプローチは、異なるデータセットで同じタスクでモデルを再利用するのに役立ちます。 私たちのコードとモデルはhttps://github.com/s eanbenhur/tanglish-o ffensive-language-id entificationで利用可能です。

This paper describes the system submitted to Dravidian-Codemix-HA SOC2021: Hate Speech and Offensive Language Identification in Dravidian Languages (Tamil-English and Malayalam-English). This task aims to identify offensive content in code-mixed comments/posts in Dravidian Languages collected from social media. Our approach utilizes pooling the last layers of pretrained transformer multilingual BERT for this task which helped us achieve rank nine on the leaderboard with a weighted average score of 0.61 for the Tamil-English dataset in subtask B. After the task deadline, we sampled the dataset uniformly and used the MuRIL pretrained model, which helped us achieve a weighted average score of 0.67, the top score in the leaderboard. Furthermore, our approach to utilizing the pretrained models helps reuse our models for the same task with a different dataset. Our code and models are available in https://github.com/s eanbenhur/tanglish-o ffensive-language-id entification
翻訳日:2021-10-08 12:41:59 公開日:2021-10-07
# (参考訳) 多言語トランスフォーマーを用いたシーケンスからシーケンスまでの語彙正規化 [全文訳有]

Sequence-to-Sequence Lexical Normalization with Multilingual Transformers ( http://arxiv.org/abs/2110.02869v2 )

ライセンス: CC BY 4.0
Ana-Maria Bucur, Adrian Cosma and Liviu P. Dinu(参考訳) 現在の自然言語処理のベンチマークタスクには、非公式のデジタル通信で使われるテキストと質的に異なるテキストが含まれている。 この不一致は、実世界のデータに基づいて微調整された場合、最先端のNLPモデルの大幅な性能劣化を引き起こした。 この問題を解決する方法の1つは、非標準テキスト(通常はソーシャルメディアから)をより標準化された形式に変換する過程である語彙正規化である。 本研究では,この問題を機械翻訳問題として扱うmbartに基づく文レベルのシーケンス・ツー・シーケンスモデルを提案する。 ノイズの多いテキストは、英語だけでなく言語全体に広がる問題なので、mBARTの多言語事前学習を利用して、データを微調整します。 現在のアプローチは主に単語やサブワードレベルで運用されているが、このアプローチは技術的な観点からは単純であり、既存のトレーニング済みトランスフォーマーネットワークの上に構築されていると論じる。 以上の結果から,単語レベル,本質的,パフォーマンス評価は他の手法の裏側にあるが,本モデルでは,生の未処理のソーシャルメディアテキスト上で動作しているモデルと比較して,正規化による外在的,下流タスクの性能向上を図っている。

Current benchmark tasks for natural language processing contain text that is qualitatively different from the text used in informal day to day digital communication. This discrepancy has led to severe performance degradation of state-of-the-art NLP models when fine-tuned on real-world data. One way to resolve this issue is through lexical normalization, which is the process of transforming non-standard text, usually from social media, into a more standardized form. In this work, we propose a sentence-level sequence-to-sequence model based on mBART, which frames the problem as a machine translation problem. As the noisy text is a pervasive problem across languages, not just English, we leverage the multi-lingual pre-training of mBART to fine-tune it to our data. While current approaches mainly operate at the word or subword level, we argue that this approach is straightforward from a technical standpoint and builds upon existing pre-trained transformer networks. Our results show that while word-level, intrinsic, performance evaluation is behind other methods, our model improves performance on extrinsic, downstream tasks through normalization compared to models operating on raw, unprocessed, social media text.
翻訳日:2021-10-08 12:28:54 公開日:2021-10-07
# (参考訳) メモリ効率の良いデータ生成のための生成最適化ネットワーク [全文訳有]

Generative Optimization Networks for Memory Efficient Data Generation ( http://arxiv.org/abs/2110.02912v2 )

ライセンス: CC BY 4.0
Shreshth Tuli, Shikhar Tuli, Giuliano Casale and Nicholas R. Jennings(参考訳) オートエンコーダやgansのような標準的な生成型ディープラーニングモデルでは、パラメータセットのサイズは生成されたデータ分布の複雑さに比例する。 重要な課題は、リソース不足のディープラーニングモデルを限られたメモリを持つデバイスにデプロイすることで、システムのアップグレードコストを抑えることである。 これに対抗するために、生成最適化ネットワーク(GON)と呼ばれる新しいフレームワークを提案し、GANと似ているがジェネレータは使用せず、メモリフットプリントを大幅に削減する。 GONは単一の識別器ネットワークを使用し、入力空間で最適化を行い、新しいデータサンプルを生成し、トレーニング時間とメモリ消費の効果的な妥協を実現する。 GONは、限られたメモリ設定におけるデータ生成問題に最も適している。 ここでは、攻撃や侵入によるメモリ制限エッジデバイスにおける異常検出の問題点について説明する。 具体的には、gonを用いて入力時系列ウィンドウの再構成に基づく異常スコアを算出する。 2つの既存のデータセットと1つの新しいデータセットからなるraspberry-piテストベッドの実験では、我々のフレームワークは検出f1スコアを最大32%高くし、58%のメモリ消費を削減し、最先端よりもトレーニングオーバーヘッドをわずか5%高めている。

In standard generative deep learning models, such as autoencoders or GANs, the size of the parameter set is proportional to the complexity of the generated data distribution. A significant challenge is to deploy resource-hungry deep learning models in devices with limited memory to prevent system upgrade costs. To combat this, we propose a novel framework called generative optimization networks (GON) that is similar to GANs, but does not use a generator, significantly reducing its memory footprint. GONs use a single discriminator network and run optimization in the input space to generate new data samples, achieving an effective compromise between training time and memory consumption. GONs are most suited for data generation problems in limited memory settings. Here we illustrate their use for the problem of anomaly detection in memory-constrained edge devices arising from attacks or intrusion events. Specifically, we use a GON to calculate a reconstruction-based anomaly score for input time-series windows. Experiments on a Raspberry-Pi testbed with two existing and a new suite of datasets show that our framework gives up to 32% higher detection F1 scores and 58% lower memory consumption, with only 5% higher training overheads compared to the state-of-the-art.
翻訳日:2021-10-08 12:11:43 公開日:2021-10-07
# PoNet: 長いシーケンスでの効率的なトケミキシングのためのポーリングネットワーク

PoNet: Pooling Network for Efficient Token Mixing in Long Sequences ( http://arxiv.org/abs/2110.02442v2 )

ライセンス: Link先を確認
Chao-Hong Tan, Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Zhen-Hua Ling(参考訳) トランスフォーマーベースのモデルは、様々なNLP、ビジョン、音声タスクで大きな成功を収めている。 しかし、自己アテンション機構であるトランスのコアはシーケンス長に関して二次時間とメモリの複雑さを持ち、トランスフォーマーベースのモデルの長いシーケンスへの応用を妨げる。 この問題を緩和するために、スパース注意機構、低ランク行列近似、スケーラブルカーネル、およびトークン混合の代替品など、多くのアプローチが提案されている。 本稿では,線形複雑度を持つ長列のトークン混合のための新しいPooling Network(PoNet)を提案する。 複数粒度プールとプール融合を設計し、異なるレベルのコンテキスト情報をキャプチャし、それらの相互作用をトークンと組み合わせる。 Long Range Arenaベンチマークでは、PoNetはTransformerを著しく上回り、GPU上で測定されたすべてのシーケンス長に対して、最速のモデルであるFNetよりもわずかに遅い。 また,PoNetの伝達学習能力に関する系統的研究を行い, GLUEベンチマークにおけるBERTの精度の96.0%をPoNetが達成し, FNetを4.5%上回った。 包括的アブレーション解析は, 長期のトークン混合における多粒度プールとプール融合の有効性と, 伝達可能な文脈言語表現を学習するためのPoNetのための事前学習タスクの有効性を示す。

Transformer-based models have achieved great success in various NLP, vision, and speech tasks. However, the core of Transformer, the self-attention mechanism, has a quadratic time and memory complexity with respect to the sequence length, which hinders applications of Transformer-based models to long sequences. Many approaches have been proposed to mitigate this problem, such as sparse attention mechanisms, low-rank matrix approximations and scalable kernels, and token mixing alternatives to self-attention. We propose a novel Pooling Network (PoNet) for token mixing in long sequences with linear complexity. We design multi-granularity pooling and pooling fusion to capture different levels of contextual information and combine their interactions with tokens. On the Long Range Arena benchmark, PoNet significantly outperforms Transformer and achieves competitive accuracy, while being only slightly slower than the fastest model, FNet, across all sequence lengths measured on GPUs. We also conduct systematic studies on the transfer learning capability of PoNet and observe that PoNet achieves 96.0% of the accuracy of BERT on the GLUE benchmark, outperforming FNet by 4.5% relative. Comprehensive ablation analysis demonstrates effectiveness of the designed multi-granularity pooling and pooling fusion for token mixing in long sequences and efficacy of the designed pre-training tasks for PoNet to learn transferable contextualized language representations.
翻訳日:2021-10-08 12:02:51 公開日:2021-10-07
# オンデバイス・パーソナライズされた音声認識のためのニューラル連想記憶を用いた高速文脈適応

Fast Contextual Adaptation with Neural Associative Memory for On-Device Personalized Speech Recognition ( http://arxiv.org/abs/2110.02220v2 )

ライセンス: Link先を確認
Tsendsuren Munkhdalai, Khe Chai Sim, Angad Chandorkar, Fan Gao, Mason Chua, Trevor Strohman, Fran\c{c}oise Beaufays(参考訳) 高速な文脈適応は、まれな単語の自動音声認識(asr)の改善に有効であり、デバイス上でのパーソナライズされたトレーニングと組み合わせると、さらに優れた認識結果が得られる。 しかし、外部言語モデルに基づく従来の再描画アプローチは、パーソナライズされたトレーニング中に多様化しがちである。 本研究では,デコーダに依存しない,デバイス上のパーソナライズに適したモデルに基づくエンドツーエンドのコンテキスト適応手法を提案する。 デバイス上でのシミュレーション実験により、提案手法は従来手法よりも12%向上し、15.7%のエンティティがF1スコアを継続パーソナライズシナリオで言及している。

Fast contextual adaptation has shown to be effective in improving Automatic Speech Recognition (ASR) of rare words and when combined with an on-device personalized training, it can yield an even better recognition result. However, the traditional re-scoring approaches based on an external language model is prone to diverge during the personalized training. In this work, we introduce a model-based end-to-end contextual adaptation approach that is decoder-agnostic and amenable to on-device personalization. Our on-device simulation experiments demonstrate that the proposed approach outperforms the traditional re-scoring technique by 12% relative WER and 15.7% entity mention specific F1-score in a continues personalization scenario.
翻訳日:2021-10-08 12:02:24 公開日:2021-10-07
# リニアおよびReLUネットワークにおけるマージン最大化について

On Margin Maximization in Linear and ReLU Networks ( http://arxiv.org/abs/2110.02732v2 )

ライセンス: Link先を確認
Gal Vardi, Ohad Shamir, Nathan Srebro(参考訳) ニューラルネットワークの暗黙のバイアスは近年広く研究されている。 Lyu and Li [2019] は指数的あるいはロジスティックな損失で訓練された同質ネットワークにおいて、勾配流はパラメータ空間の最大辺問題のKKT点に収束することを示した。 しかし、この点が一般に最大マージン問題の実際の最適であるかどうかという疑問が残る。 本稿では,線形およびReLU活性化を含むニューラルネットワークアーキテクチャについて,この問題を詳細に検討する。 意外なことに、多くの場合、KKT点は最大マージン問題の局所的な最適値ではない。 逆に、ローカルまたはグローバルに最適な設定が保証できる複数の設定を識別します。 最後に,Lyu と Li [2019] で提起された質問に対して,非同次ネットワークの場合,正規化マージンは時間とともに厳密に減少することを示した。

The implicit bias of neural networks has been extensively studied in recent years. Lyu and Li [2019] showed that in homogeneous networks trained with the exponential or the logistic loss, gradient flow converges to a KKT point of the max margin problem in the parameter space. However, that leaves open the question of whether this point will generally be an actual optimum of the max margin problem. In this paper, we study this question in detail, for several neural network architectures involving linear and ReLU activations. Perhaps surprisingly, we show that in many cases, the KKT point is not even a local optimum of the max margin problem. On the flip side, we identify multiple settings where a local or global optimum can be guaranteed. Finally, we answer a question posed in Lyu and Li [2019] by showing that for non-homogeneous networks, the normalized margin may strictly decrease over time.
翻訳日:2021-10-08 12:02:06 公開日:2021-10-07
# データ中心AIはデータ表記を再考する必要がある

Data-Centric AI Requires Rethinking Data Notion ( http://arxiv.org/abs/2110.02491v2 )

ライセンス: Link先を確認
Mustafa Hajij, Ghada Zamzmi, Karthikeyan Natesan Ramamurthy, Aldo Guzman Saenz(参考訳) データ中心AIへの移行は、統一されたデータ中心機械学習パッケージを得るために、数学的および実装的な視点からデータ概念を再考する必要がある。 この目的に向けて、この研究は、データカテゴリとコチェーンの概念によって提供される原則の統合を提案し、データ中心のAI移行におけるこれらの原則の重要性について議論する。 分類学的概念では、データは、この構造を保存するために射を通して作用する数学的構造と見なされる。 共鎖の概念では、データは関心の離散領域で定義され、演算子を介して作用する関数と見なすことができる。 これらの概念はほぼ直交しているが、データを見るための統一的な定義を提供し、最終的には機械学習パッケージの開発、実装、利用の方法に影響を与える。

The transition towards data-centric AI requires revisiting data notions from mathematical and implementational standpoints to obtain unified data-centric machine learning packages. Towards this end, this work proposes unifying principles offered by categorical and cochain notions of data, and discusses the importance of these principles in data-centric AI transition. In the categorical notion, data is viewed as a mathematical structure that we act upon via morphisms to preserve this structure. As for cochain notion, data can be viewed as a function defined in a discrete domain of interest and acted upon via operators. While these notions are almost orthogonal, they provide a unifying definition to view data, ultimately impacting the way machine learning packages are developed, implemented, and utilized by practitioners.
翻訳日:2021-10-08 12:01:51 公開日:2021-10-07
# smproblog:problogにおける安定モデルセマンティクスとその議論への応用

SMProbLog: Stable Model Semantics in ProbLog and its Applications in Argumentation ( http://arxiv.org/abs/2110.01990v2 )

ライセンス: Link先を確認
Pietro Totis, Angelika Kimmig, Luc De Raedt(参考訳) 本稿では確率論理型プログラミング言語ProbLogの一般化であるSMProbLogを紹介する。 ProbLogプログラムは、各節に対してランダムにサンプリングされたプログラムに属する確率を指定し、論理プログラム上の分布を定義し、それらの確率は相互に独立している。 ProbLogのセマンティクスは、クエリがランダムにサンプリングされたプログラムで成功する確率に対応するクエリの成功確率によって与えられる。 それぞれのランダムサンプルが全ての論理原子の真理値を一意的に決定するときによく定義される。 しかし、議論問題は、必ずしもそうとは限らない興味深い実用的な応用である。 SMProbLogはProbLogのセマンティクスを、ランダムにサンプリングされたプログラムで複数の真理の割り当てが可能である設定に一般化し、推論と学習の両方に対応するアルゴリズムを実装している。 次に,このフレームワークを確率的議論問題の推論に利用できることを示す。 そこで本稿では,problogプログラムに対するより一般的なセマンティクス,推論とパラメータ学習のための確率的プログラミングフレームワークへの実装,およびそのようなフレームワークに基づく確率的議論問題に対する新しいアプローチについて述べる。

We introduce SMProbLog, a generalization of the probabilistic logic programming language ProbLog. A ProbLog program defines a distribution over logic programs by specifying for each clause the probability that it belongs to a randomly sampled program, and these probabilities are mutually independent. The semantics of ProbLog is given by the success probability of a query, which corresponds to the probability that the query succeeds in a randomly sampled program. It is well-defined when each random sample uniquely determines the truth values of all logical atoms. Argumentation problems, however, represent an interesting practical application where this is not always the case. SMProbLog generalizes the semantics of ProbLog to the setting where multiple truth assignments are possible for a randomly sampled program, and implements the corresponding algorithms for both inference and learning tasks. We then show how this novel framework can be used to reason about probabilistic argumentation problems. Therefore, the key contribution of this paper are: a more general semantics for ProbLog programs, its implementation into a probabilistic programming framework for both inference and parameter learning, and a novel approach to probabilistic argumentation problems based on such framework.
翻訳日:2021-10-08 12:01:37 公開日:2021-10-07
# googleのランドマーク認識競争、2021年の2位に

2nd Place Solution to Google Landmark Recognition Competition 2021 ( http://arxiv.org/abs/2110.02638v2 )

ライセンス: Link先を確認
Shubin Dai(参考訳) Transformerベースのアーキテクチャは、最近コンピュータビジョンの進歩を奨励している。 本研究では,(1)SwinとCSWinを機能抽出のバックボーンとして使用すること,(2)フルGLDv2のトレーニング,(3)フルGLDv2画像をkNN検索のインデックスイメージセットとして使用すること,の3つの設計を変更することで,昨年のソリューションを改善したKaggle上でのGoogleランドマーク認識2021チャレンジに対するソリューションを提案する。 これらの修正により、今年の競争におけるソリューションは大幅に改善されました。 Swin, CSWin, EfficientNet B7 モデルの完全なパイプラインは、プライベートなリーダーボードで 0.4907 を獲得し、コンペで2位になるのに役立ちます。

As Transformer-based architectures have recently shown encouraging progresses in computer vision. In this work, we present the solution to the Google Landmark Recognition 2021 Challenge held on Kaggle, which is an improvement on our last year's solution by changing three designs, including (1) Using Swin and CSWin as backbone for feature extraction, (2) Train on full GLDv2, and (3) Using full GLDv2 images as index image set for kNN search. With these modifications, our solution significantly improves last year solution on this year competition. Our full pipeline, after ensembling Swin, CSWin, EfficientNet B7 models, scores 0.4907 on the private leaderboard which help us to get the 2nd place in the competition.
翻訳日:2021-10-08 12:01:16 公開日:2021-10-07
# googleのランドマーク認識競争、2021年の3位に

3rd Place Solution to Google Landmark Recognition Competition 2021 ( http://arxiv.org/abs/2110.02794v2 )

ライセンス: Link先を確認
Cheng Xu, Weimin Wang, Shuai Liu, Yong Wang, Yuxiang Tang, Tianling Bian, Yanyu Yan, Qi She, Cheng Yang(参考訳) 本稿では,google landmark recognition 2021 コンペティションに対する我々の解決策を示す。 まず、画像の埋め込みは様々なアーキテクチャ(CNN-、Transformer-、ハイブリッドベース)を通して抽出され、ArcFaceロスによって最適化される。 次に,分類ロジットと非ランドマークトラクタによる検索スコアの調整により,予測の再ランクに効率的なパイプラインを適用する。 最後に、アンサンブルされたモデルはプライベートリーダーボードで0.489点を獲得し、2021年のGoogle Landmark Recognition Competitionで3位を獲得した。

In this paper, we show our solution to the Google Landmark Recognition 2021 Competition. Firstly, embeddings of images are extracted via various architectures (i.e. CNN-, Transformer- and hybrid-based), which are optimized by ArcFace loss. Then we apply an efficient pipeline to re-rank predictions by adjusting the retrieval score with classification logits and non-landmark distractors. Finally, the ensembled model scores 0.489 on the private leaderboard, achieving the 3rd place in the 2021 edition of the Google Landmark Recognition Competition.
翻訳日:2021-10-08 12:00:59 公開日:2021-10-07
# 口蓋構造検出におけるクロップト対アンクロップトトレーニングセットについて

On Cropped versus Uncropped Training Sets in Tabular Structure Detection ( http://arxiv.org/abs/2110.02933v2 )

ライセンス: Link先を確認
Yakup Akkaya, Murat Simsek, Burak Kantarci, Shahzad Khan(参考訳) 表情報抽出のための自動文書処理は、業界から政府まで、多くの組織で非常に望まれている。 これまで、テーブル検出やテーブル構造検出タスクでこの問題に対処してきた。 ディープラーニングアプローチを活用したソリューションの提案は、これらのタスクで有望な結果をもたらしている。 しかし,データセット構造が表構造検出に与える影響は調査されていない。 本研究では, テーブル構造検出性能と, 刈り取られたデータセットとの比較を行った。 クロッピングセットは、テーブルが完全に検出されたと仮定して文書からクロッピングされたテーブルイメージのみで構成される。 uncroppedセットは、通常のドキュメントイメージで構成されている。 実験では、ディープラーニングモデルが検出性能を平均精度で最大9%向上させ、トリミングされたバージョンで平均リコールできることが示されている。 さらに、収穫された画像の影響は、未採集版に比べて50%-70%のIoU(Intersection over Union)値で無視できる。 しかし、70%のIoUしきい値を超え、収穫されたデータセットは検出性能が著しく向上する。

Automated document processing for tabular information extraction is highly desired in many organizations, from industry to government. Prior works have addressed this problem under table detection and table structure detection tasks. Proposed solutions leveraging deep learning approaches have been giving promising results in these tasks. However, the impact of dataset structures on table structure detection has not been investigated. In this study, we provide a comparison of table structure detection performance with cropped and uncropped datasets. The cropped set consists of only table images that are cropped from documents assuming tables are detected perfectly. The uncropped set consists of regular document images. Experiments show that deep learning models can improve the detection performance by up to 9% in average precision and average recall on the cropped versions. Furthermore, the impact of cropped images is negligible under the Intersection over Union (IoU) values of 50%-70% when compared to the uncropped versions. However, beyond 70% IoU thresholds, cropped datasets provide significantly higher detection performance.
翻訳日:2021-10-08 12:00:48 公開日:2021-10-07
# 低光画像強調のための適応展開全変分ネットワーク

Adaptive Unfolding Total Variation Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2110.00984v4 )

ライセンス: Link先を確認
Chuanjun Zheng, Daming Shi, Wentian Shi(参考訳) 現実の低照度画像は、2つの大きな劣化、すなわち避けられないノイズと視界の低下に悩まされる。 ノイズは異なるレベルを示すため、生のバイエル空間から低光度画像を強調する最近の研究でその推定が実装されている。 sRGB色空間に関しては、画像処理パイプラインの影響によりノイズ推定がより複雑になる。 それでも、sRGB空間の既存の拡張アルゴリズムのほとんどは、低可視性の問題にのみ焦点をあてたり、仮説的雑音レベルの下でノイズを抑えることで、ロバスト性の欠如により非現実的となった。 この問題に対処するため,本研究では,モデルベースデノナイジング法において,全変分正則化を用いてバランスパラメータを学習することにより,実sRGB低照度画像からの雑音レベルを近似する適応展開全変分ネットワーク(UTVNet)を提案する。 一方,スムースネスと忠実度制約の推論を提供するために,対応する最小化プロセスを展開することで,雑音レベルマップを学習する。 ノイズレベルマップに導かれたutvnetは、より細かいディテールを復元でき、実際に撮影された低照度シーンでノイズを抑えることができます。 実世界の低照度画像に対する大規模な実験は、最先端の手法よりもUTVNetの優れた性能を示している。

Real-world low-light images suffer from two main degradations, namely, inevitable noise and poor visibility. Since the noise exhibits different levels, its estimation has been implemented in recent works when enhancing low-light images from raw Bayer space. When it comes to sRGB color space, the noise estimation becomes more complicated due to the effect of the image processing pipeline. Nevertheless, most existing enhancing algorithms in sRGB space only focus on the low visibility problem or suppress the noise under a hypothetical noise level, leading them impractical due to the lack of robustness. To address this issue,we propose an adaptive unfolding total variation network (UTVNet), which approximates the noise level from the real sRGB low-light image by learning the balancing parameter in the model-based denoising method with total variation regularization. Meanwhile, we learn the noise level map by unrolling the corresponding minimization process for providing the inferences of smoothness and fidelity constraints. Guided by the noise level map, our UTVNet can recover finer details and is more capable to suppress noise in real captured low-light scenes. Extensive experiments on real-world low-light images clearly demonstrate the superior performance of UTVNet over state-of-the-art methods.
翻訳日:2021-10-08 12:00:37 公開日:2021-10-07
# HyperTeNet: 個人化リスト継続のためのハイパーグラフとトランスフォーマーベースニューラルネットワーク

HyperTeNet: Hypergraph and Transformer-based Neural Network for Personalized List Continuation ( http://arxiv.org/abs/2110.01467v2 )

ライセンス: Link先を確認
Vijaikumar M, Deepesh Hada, Shirish Shevade(参考訳) パーソナライズされたリスト継続(PLC)タスクは、パーソナライズされた方法で、次のアイテムをユーザ生成リスト(注文されたアイテムのシーケンス)にキュレートする。 このタスクの主な課題は、既存の作品が考慮していない相互作用するエンティティ(ユーザ、アイテム、リスト)間の三者関係を理解することである。 また、同一タイプのエンティティ間のマルチホップ関係を考慮に入れない。 さらに、リストにすでに存在するアイテムのシーケンシャルな情報を取得することも、キュレートされる次の関連するアイテムを決定する上で重要な役割を果たす。 本稿では,先述の課題を解決するために,リスト継続タスクをパーソナライズするためのハイパーグラフとトランスフォーマーベースのニューラルネットワークアーキテクチャであるhypertenetを提案する。 グラフ畳み込みを用いて、同一タイプのエンティティ間のマルチホップ関係を学習し、自己アテンションに基づくハイパーグラフニューラルネットワークを用いて、3ユニフォームハイパーグラフのハイパーリンク予測により相互作用するエンティティ間の3次関係を学習する。 さらに、エンティティ埋め込みはTransformerベースのアーキテクチャと共有され、交互最適化手順を通じて学習される。 結果として、このネットワークは、リストに追加される次の項目のキュレーションに必要なシーケンシャルな情報も学習する。 実験の結果,HyperTeNetは実世界のデータセット上で,他の最先端モデルよりも大幅に優れていた。 実装とデータセットはhttps://github.com/m vijaikumar/HyperTeNe t.comで公開しています。

The personalized list continuation (PLC) task is to curate the next items to user-generated lists (ordered sequence of items) in a personalized way. The main challenge in this task is understanding the ternary relationships among the interacting entities (users, items, and lists) that the existing works do not consider. Further, they do not take into account the multi-hop relationships among entities of the same type. In addition, capturing the sequential information amongst the items already present in the list also plays a vital role in determining the next relevant items that get curated. In this work, we propose HyperTeNet -- a self-attention hypergraph and Transformer-based neural network architecture for the personalized list continuation task to address the challenges mentioned above. We use graph convolutions to learn the multi-hop relationship among the entities of the same type and leverage a self-attention-based hypergraph neural network to learn the ternary relationships among the interacting entities via hyperlink prediction in a 3-uniform hypergraph. Further, the entity embeddings are shared with a Transformer-based architecture and are learned through an alternating optimization procedure. As a result, this network also learns the sequential information needed to curate the next items to be added to the list. Experimental results demonstrate that HyperTeNet significantly outperforms the other state-of-the-art models on real-world datasets. Our implementation and datasets are available at https://github.com/m vijaikumar/HyperTeNe t.
翻訳日:2021-10-08 12:00:13 公開日:2021-10-07
# グループフェアモデル学習のためのフェデレーション

Federating for Learning Group Fair Models ( http://arxiv.org/abs/2110.01999v2 )

ライセンス: Link先を確認
Afroditi Papadaki, Natalia Martinez, Martin Bertran, Guillermo Sapiro, Miguel Rodrigues(参考訳) フェデレーション学習(federated learning)は、多数のエンティティが協力してよりよいモデルを学ぶことを可能にする、ますますポピュラーなパラダイムである。 本研究では,学習段階において,異なる参加団体が集団のサブセットにしかアクセスできないパラダイムにおけるminmaxグループフェアネスについて検討する。 我々は,このフェアネスの目的が,人口集団ではなく,参加者間で同様のパフォーマンスを課す既存のフェデレーション学習フェアネス基準とどのように異なるのかを,正式に分析する。 我々は、集中学習アルゴリズムの性能保証を確実に享受する提案された問題を解決する最適化アルゴリズム、FedMinMaxを提供する。 本稿では,グループフェアネスの観点から,他の手法に対する提案手法を実験的に比較した。

Federated learning is an increasingly popular paradigm that enables a large number of entities to collaboratively learn better models. In this work, we study minmax group fairness in paradigms where different participating entities may only have access to a subset of the population groups during the training phase. We formally analyze how this fairness objective differs from existing federated learning fairness criteria that impose similar performance across participants instead of demographic groups. We provide an optimization algorithm -- FedMinMax -- for solving the proposed problem that provably enjoys the performance guarantees of centralized learning algorithms. We experimentally compare the proposed approach against other methods in terms of group fairness in various federated learning setups.
翻訳日:2021-10-08 11:59:48 公開日:2021-10-07
# ウェアラブルデバイスを用いたクリティカルケアにおける姿勢認識

Posture Recognition in the Critical Care Settings using Wearable Devices ( http://arxiv.org/abs/2110.02768v2 )

ライセンス: Link先を確認
Anis Davoudi, Patrick J. Tighe, Azra Bihorac, Parisa Rashidi(参考訳) 集中治療室(ICU)患者の身体活動の低下は、臨床的に有害な結果と関連している。 したがって、身体活動と患者の結果との関係を定量化するために、ICUにおける身体活動の連続的かつ客観的な測定が必要である。 この測定は、リハビリテーションや理学療法が身体活動を改善する効果を評価するのにも役立つ。 本研究では、ウェアラブルセンサのデータを用いて、ICU集団における姿勢認識の可能性を検討した。

Low physical activity levels in the intensive care units (ICU) patients have been linked to adverse clinical outcomes. Therefore, there is a need for continuous and objective measurement of physical activity in the ICU to quantify the association between physical activity and patient outcomes. This measurement would also help clinicians evaluate the efficacy of proposed rehabilitation and physical therapy regimens in improving physical activity. In this study, we examined the feasibility of posture recognition in an ICU population using data from wearable sensors.
翻訳日:2021-10-08 11:59:35 公開日:2021-10-07
# 複雑な運転シナリオの効率的なキャラクタリゼーションのための確率的メタモデル

Probabilistic Metamodels for an Efficient Characterization of Complex Driving Scenarios ( http://arxiv.org/abs/2110.02892v2 )

ライセンス: Link先を確認
Max Winkelmann, Mike Kohlhoff, Hadj Hamma Tadjine, Steffen M\"uller(参考訳) 自動走行車(av)の安全な動作を体系的に検証するために、シナリオベースのテストの目的は、avが遭遇する無限の状況を有限の機能シナリオにまとめることである。 しかし、すべての機能的なシナリオは、まだ膨大な量のバリエーションで現れうる。 したがって、メタモデルはしばしば分析や検査のための特定のバリエーションの選択に使用される。 しかし, AVテストの安全性の限界にもかかわらず, メタモデルは通常, 全体的なアプローチの一部として見なされる。 本稿では,5~20入力の4つのシナリオを考慮した,ガウス過程(GP),深ガウス過程(ET),ベイズニューラルネットワーク(BNN)の予測性能について検討する。 そこで本研究では,テストケースを効率的に選択するための反復的アプローチを導入し,評価する。 その結果,予測性能に関しては,メタモデルの選択よりもテストケースの適切な選択が重要であることがわかった。 優れた柔軟性により、BNNは大量のデータから恩恵を受け、最も複雑なシナリオさえモデル化できるが、GPのような柔軟性の低いモデルは信頼性を向上できる。 これは、関連するテストケースをスケーラブルな仮想環境と柔軟なモデルを使って検討し、より現実的なテスト環境とより信頼できるモデルがターゲットのテストや検証に使用できるようにする必要があります。

To systematically validate the safe behavior of automated vehicles (AV), the aim of scenario-based testing is to cluster the infinite situations an AV might encounter into a finite set of functional scenarios. Every functional scenario, however, can still manifest itself in a vast amount of variations. Thus, metamodels are often used to perform analyses or to select specific variations for examination. However, despite the safety criticalness of AV testing, metamodels are usually seen as a part of an overall approach, and their predictions are not further examined. In this paper, we analyze the predictive performance of Gaussian processes (GP), deep Gaussian processes, extra-trees (ET), and Bayesian neural networks (BNN), considering four scenarios with 5 to 20 inputs. Building on this, we introduce and evaluate an iterative approach to efficiently select test cases. Our results show that regarding predictive performance, the appropriate selection of test cases is more important than the choice of metamodels. While their great flexibility allows BNNs to benefit from large amounts of data and to model even the most complex scenarios, less flexible models like GPs can convince with higher reliability. This implies that relevant test cases have to be explored using scalable virtual environments and flexible models so that more realistic test environments and more trustworthy models can be used for targeted testing and validation.
翻訳日:2021-10-08 11:59:27 公開日:2021-10-07