このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220401となっている論文です。

PDF登録状況(公開日: 20220401)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 循環経済における機械学習と人工知能 : 文献分析と体系的文献レビュー [全文訳有]

Machine Learning and Artificial Intelligence in Circular Economy: A Bibliometric Analysis and Systematic Literature Review ( http://arxiv.org/abs/2205.01042v1 )

ライセンス: CC BY 4.0
Abdulla All noman, Umma Habiba Akter, Tahmid Hasan Pranto and AKM Bahalul Haque(参考訳) 未組織・未計画・不適切な限られた原料の使用により, 環境・生態系に有害な大量の廃棄物が生産されている。 従来の線形生産ラインは、廃棄物生産や製品ライフサイクルの短縮といった遠い問題に対処できないが、循環経済(CE)という先進的な概念は、産業や政府レベルで採用される見込みを示している。 ceは、設計段階以降の原材料から最高の値を取り出し、再利用、リサイクル、再製造によって製品ライフサイクルループを完成することを目指している。 人工知能(AI)や機械学習(ML)といったイノベーティブな技術は、現実のプラクティスにおいてCEを効果的に採用、実装する上で重要な支援を提供する。 本研究では,CEにおける応用AI技術の採用と統合について検討する。 まず,SCOPUSインデクシング文書104件の文献分析を行い,AIとCEの重要な研究基準について検討した。 これらの文書から体系的な文献レビューを行うために40の論文が選定された。 選択された文書はさらに、持続可能な開発、逆物流、廃棄物管理、サプライチェーン管理、リサイクルと再利用、製造開発という6つのカテゴリに分けられた。 総合的な研究の洞察と傾向が抽出され、説明されている。 最後に、さらなる注意を要する研究ギャップが特定され、今後の研究方向性も議論されている。

With unorganized, unplanned and improper use of limited raw materials, an abundant amount of waste is being produced, which is harmful to our environment and ecosystem. While traditional linear production lines fail to address far-reaching issues like waste production and a shorter product life cycle, a prospective concept, namely circular economy (CE), has shown promising prospects to be adopted at industrial and governmental levels. CE aims to complete the product life cycle loop by bringing out the highest values from raw materials in the design phase and later on by reusing, recycling, and remanufacturing. Innovative technologies like artificial intelligence (AI) and machine learning(ML) provide vital assistance in effectively adopting and implementing CE in real-world practices. This study explores the adoption and integration of applied AI techniques in CE. First, we conducted bibliometric analysis on a collection of 104 SCOPUS indexed documents exploring the critical research criteria in AI and CE. Forty papers were picked to conduct a systematic literature review from these documents. The selected documents were further divided into six categories: sustainable development, reverse logistics, waste management, supply chain management, recycle & reuse, and manufacturing development. Comprehensive research insights and trends have been extracted and delineated. Finally, the research gap needing further attention has been identified and the future research directions have also been discussed.
翻訳日:2022-05-09 07:47:42 公開日:2022-04-01
# (参考訳) BERTトランスファー用の特徴構造蒸留 [全文訳有]

Feature Structure Distillation for BERT Transferring ( http://arxiv.org/abs/2204.08922v1 )

ライセンス: CC BY 4.0
Hee-Jun Jung, Doyeon Kim, Seung-Hoon Na, Kangil Kim(参考訳) 知識蒸留は、教師から生徒への表現に関する情報を、その差を減らして伝達するアプローチである。 このアプローチの課題は、教師の知識を不正確な学習に導く学生の表現の柔軟性を減らすことである。 BERT転送で解決するために, 機能内, 局所機能間, グローバル機能間構造という3種類の表現構造を蒸留する。 これらを転送するために、Centered Kernel Alignment に基づく \textit{feature structure distillation} 法を導入し、同様の特徴構造に一貫した値を割り当て、より情報的な関係を明らかにする。 特に,グローバル構造に対して,クラスタリングを用いたメモリ拡張転送方式を実装した。 接着剤データセットの言語理解のための9つのタスクに関する実験において,提案手法は3種類の構造を効果的に転送し,最新の蒸留法と比較して性能を向上させる。 実際、メソッドのコードはhttps://github.com/m aroo-sky/FSDで入手できる。

Knowledge distillation is an approach to transfer information on representations from a teacher to a student by reducing their difference. A challenge of this approach is to reduce the flexibility of the student's representations inducing inaccurate learning of the teacher's knowledge. To resolve it in BERT transferring, we investigate distillation of structures of representations specified to three types: intra-feature, local inter-feature, global inter-feature structures. To transfer them, we introduce \textit{feature structure distillation} methods based on the Centered Kernel Alignment, which assigns a consistent value to similar features structures and reveals more informative relations. In particular, a memory-augmented transfer method with clustering is implemented for the global structures. In the experiments on the nine tasks for language understanding of the GLUE dataset, the proposed methods effectively transfer the three types of structures and improve performance compared to state-of-the-art distillation methods. Indeed, the code for the methods is available in https://github.com/m aroo-sky/FSD
翻訳日:2022-04-24 23:30:38 公開日:2022-04-01
# (参考訳) 時系列予測のための解釈可能な確率的自己回帰ニューラルネットワークモデル [全文訳有]

An Interpretable Probabilistic Autoregressive Neural Network Model for Time Series Forecasting ( http://arxiv.org/abs/2204.09640v1 )

ライセンス: CC BY 4.0
Madhurima Panja, Uttam Kumar, Tanujit Chakraborty(参考訳) 時系列データの予測は、株価や為替レートの予測から流行の早期予測に至るまで、データサイエンスの新たな分野を示す。 過去50年間に多くの統計学と機械学習の手法が提案され、高品質で信頼性の高い予測が求められている。 しかし,実生活予測問題においては,上記のパラダイムの1つに基づくモデルが望ましい状況が存在するため,従来の予測手法とスケーラブルなニューラルネットワークモデルとのギャップを埋めるには,ハイブリッドソリューションが必要となる。 本稿では,多種多様な不規則時系列データ(非線形性や非定常性など)を扱える,説明可能な,スケーラブルで,かつ“ホワイトボックス的”なフレームワークのための,解釈可能な確率的自己回帰ニューラルネットワークモデルを提案する。 関連するマルコフ鎖の漸近挙動を考慮し、漸近定常性と幾何エルゴード性の十分条件を求める。 計算実験中、PARNNは、経済学、金融学、疫学から来る現実世界のデータセットの多様なコレクションにおいて、標準的な統計学、機械学習、ディープラーニングモデルより優れています。 さらに,提案するparnnモデルでは,短期予測と長期予測において,12のデータセットのうち10の予測精度が,最先端モデルと比較して有意に向上する。

Forecasting time series data presents an emerging field of data science that has its application ranging from stock price and exchange rate prediction to the early prediction of epidemics. Numerous statistical and machine learning methods have been proposed in the last five decades with the demand for generating high-quality and reliable forecasts. However, in real-life prediction problems, situations exist in which a model based on one of the above paradigms is preferable, and therefore, hybrid solutions are needed to bridge the gap between classical forecasting methods and scalable neural network models. We introduce an interpretable probabilistic autoregressive neural network model for an explainable, scalable, and "white box-like" framework that can handle a wide variety of irregular time series data (e.g., nonlinearity and nonstationarity). Sufficient conditions for asymptotic stationarity and geometric ergodicity are obtained by considering the asymptotic behavior of the associated Markov chain. During computational experiments, PARNN outperforms standard statistical, machine learning, and deep learning models on a diverse collection of real-world datasets coming from economics, finance, and epidemiology, to mention a few. Furthermore, the proposed PARNN model improves forecast accuracy significantly for 10 out of 12 datasets compared to state-of-the-art models for short to long-term forecasts.
翻訳日:2022-04-24 23:08:27 公開日:2022-04-01
# コンテキスト・スペクタcoolとその質問応答および他の自然言語処理タスクへの応用

COOL, a Context Outlooker, and its Application to Question Answering and other Natural Language Processing Tasks ( http://arxiv.org/abs/2204.09593v1 )

ライセンス: Link先を確認
Fangyi Zhu, See-Kiong Ng, St\'ephane Bressan(参考訳) vision outlookersは、ローカル注意の形式であるoutlook attentionを追加することで、自己注意機構を実装するvision transformersの性能を向上させる。 自然言語処理では、コンピュータビジョンやその他の領域と同様に、トランスフォーマーベースのモデルは、ほとんどの処理タスクの最先端を構成する。 この領域では、多くの著者がローカルコンテキストの重要性を論じ、実証している。 自然言語処理のための展望アテンションメカニズムであるCOOLを提示し,評価する。 COOLはさらに、トランスフォーマーベースのモデルの自己注意層の上に、単語近接性を考慮した局所構文コンテキストを符号化し、既存のアプローチで使用される動的畳み込み操作よりもペアワイドな制約を考慮した注意層も追加する。 異なるトランスフォーマーベースのアプローチによるCOOLの実装の比較実験的な性能評価は、質問応答を含むさまざまな自然言語処理タスクに対して、ニューラルネットワークモデルのみを使用してベースラインよりも改善する機会を確認する。 提案手法は最先端の手法と競合する。

Vision outlookers improve the performance of vision transformers, which implement a self-attention mechanism by adding outlook attention, a form of local attention. In natural language processing, as has been the case in computer vision and other domains, transformer-based models constitute the state-of-the-art for most processing tasks. In this domain, too, many authors have argued and demonstrated the importance of local context. We present and evaluate an outlook attention mechanism, COOL, for natural language processing. COOL adds, on top of the self-attention layers of a transformer-based model, outlook attention layers that encode local syntactic context considering word proximity and consider more pair-wise constraints than dynamic convolution operations used by existing approaches. A comparative empirical performance evaluation of an implementation of COOL with different transformer-based approaches confirms the opportunity of improvement over a baseline using the neural language models alone for various natural language processing tasks, including question answering. The proposed approach is competitive with state-of-the-art methods.
翻訳日:2022-04-24 16:11:02 公開日:2022-04-01
# 不均一グラフ変換器を用いた構文インフォームド質問応答

Syntax-informed Question Answering with Heterogeneous Graph Transformer ( http://arxiv.org/abs/2204.09655v1 )

ライセンス: Link先を確認
Fangyi Zhu, Lok You Tan, See-Kiong Ng, St\'ephane Bressan(参考訳) 大規模なニューラルネットワークモデルは、質問応答やその他の自然言語や情報処理タスクに対して、最先端のパフォーマンスを着実に寄与しています。 これらのモデルは訓練に高価です。 本稿では,これらの事前学習モデルが,スクラッチからの再訓練を必要とせず,明示的な言語情報の追加によるメリットを評価できるかどうかを提案する。 異種グラフ変換器で符号化された記号的知識を持つ事前学習型トランスフォーマーベースニューラル言語モデルを拡張し,微調整する言語インフォームド質問応答手法を提案する。 本稿では,トークンと仮想頂点を接続する依存グラフ構造と選択グラフ構造という形で,構文情報を追加するアプローチについて説明する。 BERTをベースラインとし,Stanford Question Answering Datasetを用いた比較実験により,提案手法の競争力を示す。 結論として, 予備実験の結果を踏まえて, このアプローチは, 意味論や実用論を含む, さらなる言語情報に拡張可能であると論じた。

Large neural language models are steadily contributing state-of-the-art performance to question answering and other natural language and information processing tasks. These models are expensive to train. We propose to evaluate whether such pre-trained models can benefit from the addition of explicit linguistics information without requiring retraining from scratch. We present a linguistics-informed question answering approach that extends and fine-tunes a pre-trained transformer-based neural language model with symbolic knowledge encoded with a heterogeneous graph transformer. We illustrate the approach by the addition of syntactic information in the form of dependency and constituency graphic structures connecting tokens and virtual vertices. A comparative empirical performance evaluation with BERT as its baseline and with Stanford Question Answering Dataset demonstrates the competitiveness of the proposed approach. We argue, in conclusion and in the light of further results of preliminary experiments, that the approach is extensible to further linguistics information including semantics and pragmatics.
翻訳日:2022-04-24 16:10:46 公開日:2022-04-01
# オンライン広告システムにおけるCTR予測のためのコンセプトドリフト適応

Concept Drift Adaptation for CTR Prediction in Online Advertising Systems ( http://arxiv.org/abs/2204.05101v1 )

ライセンス: Link先を確認
Congcong Liu, Yuejiang Li, Xiwei Zhao, Changping Peng, Zhangang Lin, Jingping Shao(参考訳) クリックスルー率(CTR)予測は、ウェブ検索、推薦システム、オンライン広告表示において重要な課題である。 CTRモデルは、しばしば高速なユーザ生成データストリームで機能し、その基盤となる分布は時間とともに急速に変化する。 ストリーミングデータには必然的にコンセプトドリフトの問題が存在し、タイムラインの問題によりパフォーマンスが低下する可能性がある。 モデル鮮度を確保するため、インクリメンタル学習は現実世界のプロダクションシステムで広く採用されている。 しかし, CTRモデルの適応性と, 共通知識を維持する一般化能力とのバランスを, 漸進的に更新することは困難である。 本稿では,ctr予測データストリームにおける適応フィルタリングによる概念ドリフト問題を緩和するための新しいフレームワークであるadaptive mixture of experts (adamoe)を提案する。 オフラインの産業データセットとオンラインのA/Bテストに関する広範な実験は、AdaMoEが考慮されたすべての漸進的な学習フレームワークを著しく上回っていることを示している。

Click-through rate (CTR) prediction is a crucial task in web search, recommender systems, and online advertisement displaying. In practical application, CTR models often serve with high-speed user-generated data streams, whose underlying distribution rapidly changing over time. The concept drift problem inevitably exists in those streaming data, which can lead to performance degradation due to the timeliness issue. To ensure model freshness, incremental learning has been widely adopted in real-world production systems. However, it is hard for the incremental update to achieve the balance of the CTR models between the adaptability to capture the fast-changing trends and generalization ability to retain common knowledge. In this paper, we propose adaptive mixture of experts (AdaMoE), a new framework to alleviate the concept drift problem by adaptive filtering in the data stream of CTR prediction. The extensive experiments on the offline industrial dataset and online A/B tests show that our AdaMoE significantly outperforms all incremental learning frameworks considered.
翻訳日:2022-04-17 07:08:27 公開日:2022-04-01
# (参考訳) 視覚と言語知識の蒸留によるエンド・ツー・エンドゼロショットHOI検出 [全文訳有]

End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge Distillation ( http://arxiv.org/abs/2204.03541v1 )

ライセンス: CC BY 4.0
Mingrui Wu, Jiaxin Gu, Yunhang Shen, Mingbao Lin, Chao Chen, Xiaoshuai Sun, Rongrong Ji(参考訳) ほとんどの既存のヒューマン・オブジェクト間インタラクション(hoi)検出手法は、事前に定義されたhoiカテゴリを持つ完全なアノテーションに大きく依存している。 ゼロショットhoi検出の進歩を目標とし,目に見えるhoisと目立たないhoisの両方を同時に検出する。 根本的な課題は、潜在的な人間と対象のペアを発見し、新しいHOIカテゴリを特定することである。 以上の課題を克服するために,視覚言語による知識蒸留による新しいゼロショットHOI検出(EoID)フレームワークを提案する。 まず,対話型スコアモジュールを2段階のバイパートマッチングアルゴリズムと組み合わせて設計し,アクションに依存しない方法で人間とオブジェクトの相互作用の区別を実現する。 そして,事前学習した視覚言語教師の行動確率分布と,観察された真実をHOIモデルに転送し,ゼロショットHOI分類を実現する。 HICO-Detデータセットの大規模な実験により、我々のモデルは潜在的な対話的ペアを発見し、目に見えないHOIの認識を可能にする。 最後に,UA設定下ではmAP全体の8.92%,UA設定下では10.18%,UA設定下ではmAP全体の6.02%,UC設定下では9.1%であった。 さらに,本手法は大規模物体検出データに一般化し,さらに動作集合をスケールアップする。 ソースコードは、https://github.com/m rwu-mac/EoID.comで入手できる。

Most existing Human-Object Interaction~(HOI) Detection methods rely heavily on full annotations with predefined HOI categories, which is limited in diversity and costly to scale further. We aim at advancing zero-shot HOI detection to detect both seen and unseen HOIs simultaneously. The fundamental challenges are to discover potential human-object pairs and identify novel HOI categories. To overcome the above challenges, we propose a novel end-to-end zero-shot HOI Detection (EoID) framework via vision-language knowledge distillation. We first design an Interactive Score module combined with a Two-stage Bipartite Matching algorithm to achieve interaction distinguishment for human-object pairs in an action-agnostic manner. Then we transfer the distribution of action probability from the pretrained vision-language teacher as well as the seen ground truth to the HOI model to attain zero-shot HOI classification. Extensive experiments on HICO-Det dataset demonstrate that our model discovers potential interactive pairs and enables the recognition of unseen HOIs. Finally, our method outperforms the previous SOTA by 8.92% on unseen mAP and 10.18% on overall mAP under UA setting, by 6.02% on unseen mAP and 9.1% on overall mAP under UC setting. Moreover, our method is generalizable to large-scale object detection data to further scale up the action sets. The source code will be available at: https://github.com/m rwu-mac/EoID.
翻訳日:2022-04-10 11:37:52 公開日:2022-04-01
# (参考訳) ニューラルシンボリック学習に基づく糖尿病網膜症分類の解説と解釈 [全文訳有]

Explainable and Interpretable Diabetic Retinopathy Classification Based on Neural-Symbolic Learning ( http://arxiv.org/abs/2204.00624v1 )

ライセンス: CC BY 4.0
Se-In Jang, Michael J.A. Girard and Alexandre H. Thiery(参考訳) 本稿では,ニューラルシンボリック学習に基づく説明可能な,解釈可能な糖尿病網膜症(ExplainDR)分類モデルを提案する。 説明可能性を得るためには、意思決定において高水準の象徴表現を考慮すべきである。 具体的には、眼の健康状態に関連する糖尿病網膜症の特徴を分類し、説明可能性を実現するヒト可読的シンボル表現を導入する。 次に、疾患予測におけるシンボル表現から得られる人間可読性特徴を含める。 糖尿病網膜症分類データセットを用いた実験結果から,本手法はIDRiDデータセットに適用した最先端手法と比較して有望な性能を示すとともに,解釈性や説明性ももたらした。

In this paper, we propose an explainable and interpretable diabetic retinopathy (ExplainDR) classification model based on neural-symbolic learning. To gain explainability, a highlevel symbolic representation should be considered in decision making. Specifically, we introduce a human-readable symbolic representation, which follows a taxonomy style of diabetic retinopathy characteristics related to eye health conditions to achieve explainability. We then include humanreadable features obtained from the symbolic representation in the disease prediction. Experimental results on a diabetic retinopathy classification dataset show that our proposed ExplainDR method exhibits promising performance when compared to that from state-of-the-art methods applied to the IDRiD dataset, while also providing interpretability and explainability.
翻訳日:2022-04-08 07:35:34 公開日:2022-04-01
# (参考訳) 行列補完アルゴリズムの調査 [全文訳有]

Survey of Matrix Completion Algorithms ( http://arxiv.org/abs/2204.01532v1 )

ライセンス: CC BY 4.0
Jafar Jafarov(参考訳) NetflixがNetflix Prize問題を発表して以来、マトリックスのコンプリート問題はさまざまな条件で調査されてきた。 多くの研究がこの分野で行われ、多くの実生活データセットが低ランクの行列で推定できることが発見された。 それ以来、適応信号検出は多くの研究者の注目を集めている。 本稿では, パッシブ方向と適応方向の方向を中心に, 行列補完法のいくつかを考察する。 まず, 凸最適化によるパッシブマトリクス補完法と, 適応信号検出法による第2のアクティブマトリクス補完法について考察する。 伝統的に、多くの機械学習問題は受動的環境で解決される。 しかし、後にアダプティブ・センシング・アルゴリズムが従来のアルゴリズムよりも効率的に動作することが観測された。 したがって、この設定におけるアルゴリズムは広く研究されている。 そこで本論文では, 受動的手法を用いて, 最新の適応行列補完アルゴリズムを提示する。

Matrix completion problem has been investigated under many different conditions since Netflix announced the Netflix Prize problem. Many research work has been done in the field once it has been discovered that many real life dataset could be estimated with a low-rank matrix. Since then compressed sensing, adaptive signal detection has gained the attention of many researchers. In this survey paper we are going to visit some of the matrix completion methods, mainly in the direction of passive and adaptive directions. First, we discuss passive matrix completion methods with convex optimization, and the second active matrix completion techniques with adaptive signal detection methods. Traditionally many machine learning problems are solved in passive environment. However, later it has been observed that adaptive sensing algorithms many times performs more efficiently than former algorithms. Hence algorithms in this setting has been extensively studied. Therefore, we are going to present some of the latest adaptive matrix completion algorithms in this paper meanwhile providing passive methods.
翻訳日:2022-04-08 07:19:59 公開日:2022-04-01
# (参考訳) Sparse Noisyows を用いたマトリックスコンプリート [全文訳有]

Matrix Completion with Sparse Noisy Rows ( http://arxiv.org/abs/2204.01530v1 )

ライセンス: CC BY 4.0
Jafar Jafarov(参考訳) 厳密な行列完了と低位行列推定問題は、異なる基底条件で研究されている。 本研究では, 非縮退性雑音モデルを用いて, 完全低ランク化について検討する。 非退化ランダムノイズモデルはこれまで、ノイズがスパースであり、いくつかの列に存在するという条件の下で多くの研究者によって研究されてきた。 本稿では,各行が列の代わりにランダムノイズを受信できると仮定し,この雑音に対して頑健な対話型アルゴリズムを提案する。 本研究では,パラメータ化手法を用いて,基礎となる行列を復元可能な条件を与え,基礎となる行列を復元するアルゴリズムを提案する。

Exact matrix completion and low rank matrix estimation problems has been studied in different underlying conditions. In this work we study exact low-rank completion under non-degenerate noise model. Non-degenerate random noise model has been previously studied by many researchers under given condition that the noise is sparse and existing in some of the columns. In this paper, we assume that each row can receive random noise instead of columns and propose an interactive algorithm that is robust to this noise. We show that we use a parametrization technique to give a condition when the underlying matrix could be recoverable and suggest an algorithm which recovers the underlying matrix.
翻訳日:2022-04-08 07:07:58 公開日:2022-04-01
# (参考訳) 視覚スラム用双方向ループクロージャ [全文訳有]

Bi-directional Loop Closure for Visual SLAM ( http://arxiv.org/abs/2204.01524v1 )

ライセンス: CC BY 4.0
Ihtisham Ali, Sari Peltonen, Atanas Gotchev(参考訳) インテリジェントな自動運転車のための視覚ナビゲーションシステムの重要な機能ブロックはループクロージャ検出とその後の再ローカライズである。 State-of-the-Artメソッドは、以前の動きの方向に沿って一方向として問題にアプローチする。 その結果、ほとんどの手法は、視点の非常に類似した重複がないために失敗する。 本研究では,双方向ループ閉鎖に対するアプローチを提案する。 これにより、初めて、反対方向に移動しても位置への再ローカライズが可能になるため、直接ループがない場合の長期的なオドメトリドリフトを著しく削減できます。 本稿では,大規模データセットからトレーニングデータを選択する手法を提案する。 このデータは、ループクロージャ検出のための2つの異なるCNNアーキテクチャのトレーニングと検証に使用され、その後、ビュー間の6-DOFカメラのポーズをエンドツーエンドで再現する。 結果はかなりの影響を伴い、直接ループ閉鎖の機会を提供しない現実世界のシナリオに大きく貢献する。 また,finnforestデータセットとpenpencosyvioデータセットの屋外データと屋内データの両方に対して,厳密な経験的比較を行い,その方法を評価した。

A key functional block of visual navigation system for intelligent autonomous vehicles is Loop Closure detection and subsequent relocalisation. State-of-the-Art methods still approach the problem as uni-directional along the direction of the previous motion. As a result, most of the methods fail in the absence of a significantly similar overlap of perspectives. In this study, we propose an approach for bi-directional loop closure. This will, for the first time, provide us with the capability to relocalize to a location even when traveling in the opposite direction, thus significantly reducing long-term odometry drift in the absence of a direct loop. We present a technique to select training data from large datasets in order to make them usable for the bi-directional problem. The data is used to train and validate two different CNN architectures for loop closure detection and subsequent regression of 6-DOF camera pose between the views in an end-to-end manner. The outcome packs a considerable impact and aids significantly to real-world scenarios that do not offer direct loop closure opportunities. We provide a rigorous empirical comparison against other established approaches and evaluate our method on both outdoor and indoor data from the FinnForest dataset and PennCOSYVIO dataset.
翻訳日:2022-04-08 07:02:00 公開日:2022-04-01
# (参考訳) 顔画像に基づく残差誘導型パーソナライズ音声合成 [全文訳有]

Residual-guided Personalized Speech Synthesis based on Face Image ( http://arxiv.org/abs/2204.01672v1 )

ライセンス: CC BY 4.0
Jianrong Wang, Zixuan Wang, Xiaosheng Hu, Xuewei Li, Qiang Fang, Li Liu(参考訳) 以前の作品は、自身の音声からなる大きなデータセット上でモデルをトレーニングすることで、パーソナライズされた音声特徴を導出している。 顔情報と音声が強く関連していることが報告された。 そこで本研究では,ニューラルボコーダを用いて,人間の顔からパーソナライズされた音声特徴を抽出し,パーソナライズされた音声を合成する。 PSS用に、音声エンコーダ、音声シンセサイザ、顔エンコーダを含む顔ベース残留個人化音声合成モデル(FR-PSS)を設計する。 本モデルでは,2つの音声先行設計を行うことにより,学習中の真の音声特徴に近づく顔特徴を導くための残差誘導戦略を導入する。 さらに,特徴の絶対値の誤差と方向バイアスを考慮し,顔エンコーダのための新しい三項目損失関数を定式化する。 実験の結果,本モデルが合成した音声は,先行研究における大量の音声データを訓練して合成したパーソナライズされた音声に匹敵することがわかった。

Previous works derive personalized speech features by training the model on a large dataset composed of his/her audio sounds. It was reported that face information has a strong link with the speech sound. Thus in this work, we innovatively extract personalized speech features from human faces to synthesize personalized speech using neural vocoder. A Face-based Residual Personalized Speech Synthesis Model (FR-PSS) containing a speech encoder, a speech synthesizer and a face encoder is designed for PSS. In this model, by designing two speech priors, a residual-guided strategy is introduced to guide the face feature to approach the true speech feature in the training. Moreover, considering the error of feature's absolute values and their directional bias, we formulate a novel tri-item loss function for face encoder. Experimental results show that the speech synthesized by our model is comparable to the personalized speech synthesized by training a large amount of audio data in previous works.
翻訳日:2022-04-08 06:39:38 公開日:2022-04-01
# (参考訳) シーンテキスト復元による超低光度画像強調 [全文訳有]

Extremely Low-light Image Enhancement with Scene Text Restoration ( http://arxiv.org/abs/2204.00630v1 )

ライセンス: CC BY 4.0
Pohao Hsu, Che-Tsung Lin, Chun Chet Ng, Jie-Long Kew, Mei Yih Tan, Shang-Hong Lai, Chee Seng Chan and Christopher Zach(参考訳) 深層学習に基づく手法は、非常に低照度な画像の高精細化に顕著な進歩を遂げている。 しかし,これらの手法のほとんどは,シーン内のテキストなど,画像の詳細を十分に回復できないことがわかった。 本稿では,極めて低照度画像条件下でのシーンテキストの精度向上と画像の全体的な品質向上を目的とした,新たな画像強調フレームワークを提案する。 主に自己正規化アテンションマップ,エッジマップ,新たなテキスト検出損失を用いた。 また, 合成低照度画像の活用は, テキスト検出における真の画像強調に有用である。 定量的・定性的な実験により,提案手法は,暗黒およびicdar15データセットにおいて,画像復元,テキスト検出,テキストスポッティングにおいて最先端手法よりも優れていることが示された。

Deep learning-based methods have made impressive progress in enhancing extremely low-light images - the image quality of the reconstructed images has generally improved. However, we found out that most of these methods could not sufficiently recover the image details, for instance, the texts in the scene. In this paper, a novel image enhancement framework is proposed to precisely restore the scene texts, as well as the overall quality of the image simultaneously under extremely low-light images conditions. Mainly, we employed a self-regularised attention map, an edge map, and a novel text detection loss. In addition, leveraging synthetic low-light images is beneficial for image enhancement on the genuine ones in terms of text detection. The quantitative and qualitative experimental results have shown that the proposed model outperforms state-of-the-art methods in image restoration, text detection, and text spotting on See In the Dark and ICDAR15 datasets.
翻訳日:2022-04-08 06:29:31 公開日:2022-04-01
# (参考訳) ケミカル・カジュアル・インシデント発生時の救急科トリアージ改善へのニューラルネットワークの次元縮小の適用 [全文訳有]

Application of Dimensional Reduction in Artificial Neural Networks to Improve Emergency Department Triage During Chemical Mass Casualty Incidents ( http://arxiv.org/abs/2204.00642v1 )

ライセンス: CC BY-SA 4.0
Nicholas D. Boltin, Joan M. Culley, Homayoun Valafar(参考訳) ケミカル・マス・カジュアルティ・インシデント(MCI)は、病院の職員や資源に重荷を課している。 機械学習(ML)ツールは、介護者に効率的な意思決定支援を提供する。 しかしながら、mlモデルは、最も正確な結果を得るために大量のデータを必要とするが、化学mciのカオス性では一般的には実現できない。 本研究では, ランダム選択, 共分散/分散, ピアソン線形相関, 原理成分分析の4つの統計的次元低減手法を適用し, 311種類の有害化学物質と79種類の兆候と症状のデータセットを削減した。 比較モデルを作成するために人工ニューラルネットワークパイプラインが開発された。 その結果,化学病原体を決定するのに必要な徴候数や症状は,モデルの精度を損なうことなく40 ssx近くまで減少できることがわかった。 また,次元縮小法の適用により,ANNモデルの性能精度が向上することが示唆された。

Chemical Mass Casualty Incidents (MCI) place a heavy burden on hospital staff and resources. Machine Learning (ML) tools can provide efficient decision support to caregivers. However, ML models require large volumes of data for the most accurate results, which is typically not feasible in the chaotic nature of a chemical MCI. This study examines the application of four statistical dimension reduction techniques: Random Selection, Covariance/Variance, Pearson's Linear Correlation, and Principle Component Analysis to reduce a dataset of 311 hazardous chemicals and 79 related signs and symptoms (SSx). An Artificial Neural Network pipeline was developed to create comparative models. Results show that the number of signs and symptoms needed to determine a chemical culprit can be reduced to nearly 40 SSx without losing significant model accuracy. Evidence also suggests that the application of dimension reduction methods can improve ANN model performance accuracy.
翻訳日:2022-04-08 06:16:37 公開日:2022-04-01
# (参考訳) QuadraLib: アーキテクチャ最適化と設計探索のための高性能な二次ニューラルネットワークライブラリ [全文訳有]

QuadraLib: A Performant Quadratic Neural Network Library for Architecture Optimization and Design Exploration ( http://arxiv.org/abs/2204.01701v1 )

ライセンス: CC BY 4.0
Zirui Xu, Fuxun Yu, Jinjun Xiong, Xiang Chen(参考訳) Deep Neural Networks (DNN) の成功は、複数の高度なDNNライブラリによって高く評価されている。 それとは対照的に、準線形ディープニューロンネットワーク(QDNN)は1次DNNよりも非線形性や学習能力が優れていることを証明した研究もあるが、そのニューロン設計は理論的性能から実用的展開へのある種の欠点を負っている。 本稿ではまず,新しいQDNNニューロンアーキテクチャ設計を提案し,アーキテクチャ最適化とQDNN設計のためのQDNNライブラリであるQuadraLibを開発した。 複数の学習課題における予測精度と計算量に関して,我々の設計は優れた性能を示した。

The significant success of Deep Neural Networks (DNNs) is highly promoted by the multiple sophisticated DNN libraries. On the contrary, although some work have proved that Quadratic Deep Neuron Networks (QDNNs) show better non-linearity and learning capability than the first-order DNNs, their neuron design suffers certain drawbacks from theoretical performance to practical deployment. In this paper, we first proposed a new QDNN neuron architecture design, and further developed QuadraLib, a QDNN library to provide architecture optimization and design exploration for QDNNs. Extensive experiments show that our design has good performance regarding prediction accuracy and computation consumption on multiple learning tasks.
翻訳日:2022-04-08 06:07:30 公開日:2022-04-01
# (参考訳) ベースラインMRIによる多発性硬化症における将来の病変活動と治療効果の個人化予測 [全文訳有]

Personalized Prediction of Future Lesion Activity and Treatment Effect in Multiple Sclerosis from Baseline MRI ( http://arxiv.org/abs/2204.01702v1 )

ライセンス: CC BY 4.0
Joshua Durso-Finley, Jean-Pierre R. Falet, Brennan Nichyporuk, Douglas L. Arnold, Tal Arbel(参考訳) 多発性硬化症(MS)のような慢性疾患の精密医療は、個々の患者に対する効果と副作用/推奨のバランスを最も良くする治療を選択することを含む。 この選択をできるだけ早く行うことは重要であり、効果的な治療法を見つけるための遅延は不可逆的な障害に繋がる可能性がある。 そこで本研究では,MS患者に対して,ベースラインMRI(baseline magnetic resonance imaging, MRI)による治療決定を個別化した最初のディープニューラルネットワークモデルを提案する。 私たちのモデル (a)多発治療におけるmriフォローアップにおけるt2重み付け(ne-t2)病変数の将来予測 b) 予測されるne-t2病変の今後の抑制によって規定される条件的平均治療効果(cate)をプラセボに対して異なる治療選択肢間で推定する。 本モデルは,MS患者が4回の多心ランダム化臨床試験で取得した1817個のマルチシーケンスMRIのプロプライエタリデータセットを用いて検証した。 本枠組みは, 5種類の治療において, 今後発症するNE-T2病変の経時的退縮率を高い精度で評価し, 治療関連リスク(副作用, 患者選好, 管理困難など)を考慮に入れたパーソナライズされた治療勧告を提供する。

Precision medicine for chronic diseases such as multiple sclerosis (MS) involves choosing a treatment which best balances efficacy and side effects/preferences for individual patients. Making this choice as early as possible is important, as delays in finding an effective therapy can lead to irreversible disability accrual. To this end, we present the first deep neural network model for individualized treatment decisions from baseline magnetic resonance imaging (MRI) (with clinical information if available) for MS patients. Our model (a) predicts future new and enlarging T2 weighted (NE-T2) lesion counts on follow-up MRI on multiple treatments and (b) estimates the conditional average treatment effect (CATE), as defined by the predicted future suppression of NE-T2 lesions, between different treatment options relative to placebo. Our model is validated on a proprietary federated dataset of 1817 multi-sequence MRIs acquired from MS patients during four multi-centre randomized clinical trials. Our framework achieves high average precision in the binarized regression of future NE-T2 lesions on five different treatments, identifies heterogeneous treatment effects, and provides a personalized treatment recommendation that accounts for treatment-associated risk (e.g. side effects, patient preference, administration difficulties).
翻訳日:2022-04-08 05:46:31 公開日:2022-04-01
# (参考訳) アクティブスピーカアテンションモジュールを用いたエンド・ツー・エンドのマルチトーカオーディオ・ビジュアルasr [全文訳有]

End-to-end multi-talker audio-visual ASR using an active speaker attention module ( http://arxiv.org/abs/2204.00652v1 )

ライセンス: CC BY 4.0
Richard Rose, Olivier Siohan(参考訳) 本稿では,エンドツーエンドの複数話者音声認識のための新しいアプローチを提案する。 視覚的コンテキストアテンションモデル(VCAM)と呼ばれるこのアプローチは、利用可能なビデオ情報を用いて、復号されたテキストを複数の可視顔の1つに割り当てるので重要である。 これにより、複数のラベル文字列をデコードできるが、正しい話者にラベル文字列を割り当てることができない、ほとんどのマルチトーカーモデリングアプローチに関連するラベル曖昧性の問題が本質的に解決される。 これはトランスデューサに基づくエンドツーエンドモデルとして実装され、YouTubeビデオから生成された2つの話者-視覚重畳音声データセットを用いて評価される。 論文では、VCAMモデルが、以前報告された音声のみおよび音声視覚マルチストーカーASRシステムに対して、性能を改善していることを示す。

This paper presents a new approach for end-to-end audio-visual multi-talker speech recognition. The approach, referred to here as the visual context attention model (VCAM), is important because it uses the available video information to assign decoded text to one of multiple visible faces. This essentially resolves the label ambiguity issue associated with most multi-talker modeling approaches which can decode multiple label strings but cannot assign the label strings to the correct speakers. This is implemented as a transformer-transduc er based end-to-end model and evaluated using a two speaker audio-visual overlapping speech dataset created from YouTube videos. It is shown in the paper that the VCAM model improves performance with respect to previously reported audio-only and audio-visual multi-talker ASR systems.
翻訳日:2022-04-08 05:28:06 公開日:2022-04-01
# (参考訳) ステップサイズの計画手法による加速学習 [全文訳有]

Learning to Accelerate by the Methods of Step-size Planning ( http://arxiv.org/abs/2204.01705v1 )

ライセンス: CC BY 4.0
Hengshuai Yao(参考訳) 勾配降下は不条件問題や非凸問題に収束するのが遅い。 加速の重要な技術はステップサイズ適応である。 本論文の第1部では,Polyak Step-Size, L4, LossGrad, Adam, IDBDなど,ステップサイズ適応手法の詳細なレビューを紹介する。 本稿の第2部では,既存の手法とは全く異なる勾配降下を加速する新しい分類法を提案する。 新しいメソッドは、"em step-size planning}"と呼ばれ、"em update experience}を使ってパラメータを更新するための改良された方法を学びます。 それぞれのメソッドは、経験をプランニングを容易にするために互いにK$のステップにまとめます。 過去の経験から,我々の計画アルゴリズムであるcsawgは,今後の更新を予測するマルチステップマシンの一形態であるステップサイズモデルを学ぶ。 私たちはCsawgを拡張して、ステップサイズの計画複数のステップを適用しました。 本稿では,今後の大規模応用に向けて,対角行列ステップサイズの投影力について論じる。 凸問題に対して、我々の手法はネステロフの加速勾配の収束率を1 - \sqrt{\mu/L}$で上回り、そこで、$\mu, L$ は損失関数 $F$ の強い凸因子であり、リプシッツ定数は $F'$ である。 古典的非凸ローゼンブロック関数では,500以上の勾配評価をゼロ誤差で達成し,勾配降下は10000の勾配評価を行ない,精度は10^{-3}である。 本稿では,強化学習,特にDynaアーキテクチャにおけるステップサイズプランニングとプランニングとの関連について論じる。 コンバージェンスと収束率の証明と手法の今後の研究のための高次元問題への応用を残している。

Gradient descent is slow to converge for ill-conditioned problems and non-convex problems. An important technique for acceleration is step-size adaptation. The first part of this paper contains a detailed review of step-size adaptation methods, including Polyak step-size, L4, LossGrad, Adam and IDBD. In the second part of this paper, we propose a new class of methods of accelerating gradient descent that are quite different from existing techniques. The new methods, which we call {\em step-size planning}, use the {\em update experience} to learn an improved way of updating the parameters. The methods organize the experience into $K$ steps away from each other to facilitate planning. From the past experience, our planning algorithm, Csawg, learns a step-size model which is a form of multi-step machine that predicts future updates. We extends Csawg to applying step-size planning multiple steps, which leads to further speedup. We discuss and highlight the projection power of the diagonal-matrix step-size for future large scale applications. We show for a convex problem, our methods can surpass the convergence rate of Nesterov's accelerated gradient, $1 - \sqrt{\mu/L}$, where $\mu, L$ are the strongly convex factor of the loss function $F$ and the Lipschitz constant of $F'$. On the classical non-convex Rosenbrock function, our planning methods achieve zero error below 500 gradient evaluations, while gradient descent takes about 10000 gradient evaluations to reach a $10^{-3}$ accuracy. We discuss the connection of step-size planing to planning in reinforcement learning, in particular, Dyna architectures. We leave convergence and convergence rate proofs and applications of the methods to high-dimensional problems for future work.
翻訳日:2022-04-08 05:15:24 公開日:2022-04-01
# (参考訳) 衛星アクティブ火災データの同化

Assimilation of Satellite Active Fires Data ( http://arxiv.org/abs/2204.00686v1 )

ライセンス: CC BY 4.0
James D. Haley(参考訳) 森林火災は我々の社会にますます深刻な問題を引き起こす。 これらの火災の数と重大度は長年にわたって高まっている。 森林火災は、生命と財産への直接的な脅威であり、空気質の低下のような補助効果による脅威である。 本論文の目的は, 衛星火災観測による野火モデリング能力の向上により, 野火の影響に対処する技術を開発することである。 他の研究者によって既に多くの研究がなされている。 本研究は,衛星データに内在する不確実性を考慮した山火事に関する情報を活用するために,数学的に健全な手法を用いて知識体を拡大することを目指している。 本論文では,衛星データを用いた山火事シミュレーションの初期化とステアリングを支援する方法について考察する。 特に,火災の歴史を構築する方法,山火事データを同化するための新しい技術,及び火災ドメイン内の燃料に関する情報を推測してモデル化された火災の挙動を変更する方法を開発する。 これらの目標は、最初に火が地理的な地域にあるすべての場所に到達した時刻を見積もることに依存している。 実際の山火事に関する詳細な知識は一般に利用できないため、この論文における手法の開発と試験の基本的な手順は、まずシミュレーションデータを用いて、生成された推定結果を既知の解と比較することである。 これらの手法は実世界のシナリオに適用される。 これらのシナリオの分析は、火の履歴とデータ同化を構築する作業が火のモデリング能力を改善することを示している。 この研究は、衛星データを使って山火事のモデルを知らせる能力と限界をより深く理解し、火の挙動をモデル化するための新たな道のりを指し示している。

Wildland fires pose an increasingly serious problem in our society. The number and severity of these fires has been rising for many years. Wildfires pose direct threats to life and property as well as threats through ancillary effects like reduced air quality. The aim of this thesis is to develop techniques to help combat the impacts of wildfires by improving wildfire modeling capabilities by using satellite fire observations. Already much work has been done in this direction by other researchers. Our work seeks to expand the body of knowledge using mathematically sound methods to utilize information about wildfires that considers the uncertainties inherent in the satellite data. In this thesis we explore methods for using satellite data to help initialize and steer wildfire simulations. In particular, we develop a method for constructing the history of a fire, a new technique for assimilating wildfire data, and a method for modifying the behavior of a modeled fire by inferring information about the fuels in the fire domain. These goals rely on being able to estimate the time a fire first arrived at every location in a geographic region of interest. Because detailed knowledge of real wildfires is typically unavailable, the basic procedure for developing and testing the methods in this thesis will be to first work with simulated data so that the estimates produced can be compared with known solutions. The methods thus developed are then applied to real-world scenarios. Analysis of these scenarios shows that the work with constructing the history of fires and data assimilation improves improves fire modeling capabilities. The research is significant because it gives us a better understanding of the capabilities and limitations of using satellite data to inform wildfire models and it points the way towards new avenues for modeling fire behavior.
翻訳日:2022-04-08 04:43:12 公開日:2022-04-01
# (参考訳) フィードフォワードニューラルネットワークトレーニングプログラムのテスト

Testing Feedforward Neural Networks Training Programs ( http://arxiv.org/abs/2204.00694v1 )

ライセンス: CC BY 4.0
Houssem Ben Braiek and Foutse Khomh(参考訳) 今日では、自動運転車のような安全クリティカルなシステムにおいて、Deep Neural Networks(DNN)のパフォーマンスと信頼性を向上させる努力が増えているのを目の当たりにしています。 DNNモデルの動作の不整合を明らかにするテストケースを生成するために,複数のテスト手法が提案されている。 これらのテクニックは、トレーニングプログラムがバグフリーで適切に設定されていることを暗黙的に仮定する。 しかし、新しい問題に対するこの仮定を満たすためには、データを作成し、DNNを設計し、トレーニングプログラムを実装し、現在の自動テストデータ生成装置がコーナーケースの振る舞いを探索するモデルを作成するために、ハイパーパラメータをチューニングするために、かなりのエンジニアリング作業が必要である。 これらのモデルトレーニングステップは、すべてエラーを起こします。 したがって、DNNベースのソフトウェアシステムのすべてのエンジニアリングステップにおいて、DNNモデルに限らずエラーを検出し、修正することが重要である。 本稿では,トレーニング課題のカタログを収集し,その症状がトレーニングプログラムの行動に与える影響に基づいて,上記の問題を自動的に検出するための実践的検証ルーチンを提案し,トレーニング中に学習力学の重要な性質が保持されていることを継続的に検証する。 そして、DNNトレーニングプログラムのためのエンドツーエンドのプロパティベースのデバッグアプローチであるTheDeepCheckerを設計する。 TheDeepCheckerが合成および実世界のバグのDLプログラムに与える影響を評価し,Amazon SageMaker Debugger (SMD)と比較した。 TheDeepCheckerのDNNベースのプログラムプロパティのオンエグゼクティブ検証は、いくつかのコーディングバグとシステム設定ミスを早期かつ低コストで明らかにすることに成功した。 さらに、TheDeepCheckerは、検出精度とDLバグカバレッジの点で、SMDのオフラインルール検証よりも優れています。

Nowadays, we are witnessing an increasing effort to improve the performance and trustworthiness of Deep Neural Networks (DNNs), with the aim to enable their adoption in safety critical systems such as self-driving cars. Multiple testing techniques are proposed to generate test cases that can expose inconsistencies in the behavior of DNN models. These techniques assume implicitly that the training program is bug-free and appropriately configured. However, satisfying this assumption for a novel problem requires significant engineering work to prepare the data, design the DNN, implement the training program, and tune the hyperparameters in order to produce the model for which current automated test data generators search for corner-case behaviors. All these model training steps can be error-prone. Therefore, it is crucial to detect and correct errors throughout all the engineering steps of DNN-based software systems and not only on the resulting DNN model. In this paper, we gather a catalog of training issues and based on their symptoms and their effects on the behavior of the training program, we propose practical verification routines to detect the aforementioned issues, automatically, by continuously validating that some important properties of the learning dynamics hold during the training. Then, we design, TheDeepChecker, an end-to-end property-based debugging approach for DNN training programs. We assess the effectiveness of TheDeepChecker on synthetic and real-world buggy DL programs and compare it with Amazon SageMaker Debugger (SMD). Results show that TheDeepChecker's on-execution validation of DNN-based program's properties succeeds in revealing several coding bugs and system misconfigurations, early on and at a low cost. Moreover, TheDeepChecker outperforms the SMD's offline rules verification on training logs in terms of detection accuracy and DL bugs coverage.
翻訳日:2022-04-08 04:41:57 公開日:2022-04-01
# (参考訳) 強化学習による段階的ロールアウトの自動化 [全文訳有]

Automating Staged Rollout with Reinforcement Learning ( http://arxiv.org/abs/2204.02189v1 )

ライセンス: CC BY 4.0
Shadow Pritchard, Vidhyashree Nagaraju, Lance Fiondella(参考訳) ステージドロールアウト(Staged rollout)は、システム障害などの壊滅的な結果を招くことなく、欠陥発見を加速するために、ソフトウェアアップデートをユーザの一部に段階的にリリースする戦略である。 過去の研究では、段階的なロールアウトの定量化と自動化について検討しているが、複数の製品やプロセスメトリクスを明示的に考慮するのをやめている。 本稿では,多目的強化学習による段階的ロールアウトの自動化の可能性を示し,新規機能の提供時間や遅延欠陥によるダウンタイムといった利害関係者のニーズを動的にバランスさせる。

Staged rollout is a strategy of incrementally releasing software updates to portions of the user population in order to accelerate defect discovery without incurring catastrophic outcomes such as system wide outages. Some past studies have examined how to quantify and automate staged rollout, but stop short of simultaneously considering multiple product or process metrics explicitly. This paper demonstrates the potential to automate staged rollout with multi-objective reinforcement learning in order to dynamically balance stakeholder needs such as time to deliver new features and downtime incurred by failures due to latent defects.
翻訳日:2022-04-08 04:39:55 公開日:2022-04-01
# (参考訳) スパースサブスペースクラスタリングの解析:実験とランダム投影 [全文訳有]

Analysis of Sparse Subspace Clustering: Experiments and Random Projection ( http://arxiv.org/abs/2204.00723v1 )

ライセンス: CC BY 4.0
Mehmet F. Demirel, Enrico Au-Yeung(参考訳) クラスタリングは、何らかの方法で要素が互いに類似している多数のグループにオブジェクトを組み立てるプロセスとして定義することができる。 顔クラスタリング、植物分類、画像分割、文書分類、クラスタリングといった多くの領域で使用される手法は、教師なし学習の最も重要な問題の1つと考えられている。 科学者たちは長年にわたってこの問題を調査し、k平均クラスタリングのような様々な手法を開発してきた。 スパース部分空間クラスタリング(sparse subspace clustering)と呼ばれる強力なクラスタリングアルゴリズムである。 本手法を用いていくつかの実験を行い,スパース部分空間クラスタリングを行うために必要な計算時間を削減できる新しい手法を提案する。

Clustering can be defined as the process of assembling objects into a number of groups whose elements are similar to each other in some manner. As a technique that is used in many domains, such as face clustering, plant categorization, image segmentation, document classification, clustering is considered one of the most important unsupervised learning problems. Scientists have surveyed this problem for years and developed different techniques that can solve it, such as k-means clustering. We analyze one of these techniques: a powerful clustering algorithm called Sparse Subspace Clustering. We demonstrate several experiments using this method and then introduce a new approach that can reduce the computational time required to perform sparse subspace clustering.
翻訳日:2022-04-08 04:31:21 公開日:2022-04-01
# 高速MRIのためのデータ・物理駆動学習モデル -CNN, GANから注意・変圧器までの基礎と方法論-

Data and Physics Driven Learning Models for Fast MRI -- Fundamentals and Methodologies from CNN, GAN to Attention and Transformers ( http://arxiv.org/abs/2204.01706v1 )

ライセンス: Link先を確認
Jiahao Huang, Yingying Fang, Yang Nan, Huanjun Wu, Yinzhe Wu, Zhifan Gao, Yang Li, Zidong Wang, Pietro Lio, Daniel Rueckert, Yonina C. Eldar, Guang Yang(参考訳) 医学画像解析において、解剖学の分割や病変の検出、疾患の診断と予後、治療計画などにおいて、データ駆動型ディープラーニングモデルを下流タスクに使用するという条件は、研究によって示されていない。 しかし、上流画像が適切に実行されていない場合(人工物を含む)、深層学習モデルは医用画像解析の補助的手段ではない。 スキャンが遅く、運動アーチファクトになりがちで、信号とノイズの比率が比較的低く、空間的および/または時間的解像度の悪いmri研究でこのことが示されています。 近年の研究では、高速MRIを推進するための深層学習技術の開発が著しい成長を遂げている。 本稿では,(1)畳み込みニューラルネットワークと生成逆数ネットワークに基づく手法を含む高速MRIのための深層学習に基づくデータ駆動手法の導入,(2)MRI再構成を高速化するための注意・変圧器ベースモデルの調査,(3)MRIアクセラレーションのための結合物理とデータ駆動モデルの研究の詳細について述べる。 最後に、いくつかの臨床応用を通して、マルチセンターおよびマルチスキャナー研究において、このような高速MRI技術におけるデータ調和と説明可能なモデルの重要性を説明し、現在の研究における共通の落とし穴と今後の研究の方向性について論じる。

Research studies have shown no qualms about using data driven deep learning models for downstream tasks in medical image analysis, e.g., anatomy segmentation and lesion detection, disease diagnosis and prognosis, and treatment planning. However, deep learning models are not the sovereign remedy for medical image analysis when the upstream imaging is not being conducted properly (with artefacts). This has been manifested in MRI studies, where the scanning is typically slow, prone to motion artefacts, with a relatively low signal to noise ratio, and poor spatial and/or temporal resolution. Recent studies have witnessed substantial growth in the development of deep learning techniques for propelling fast MRI. This article aims to (1) introduce the deep learning based data driven techniques for fast MRI including convolutional neural network and generative adversarial network based methods, (2) survey the attention and transformer based models for speeding up MRI reconstruction, and (3) detail the research in coupling physics and data driven models for MRI acceleration. Finally, we will demonstrate through a few clinical applications, explain the importance of data harmonisation and explainable models for such fast MRI techniques in multicentre and multi-scanner studies, and discuss common pitfalls in current research and recommendations for future research directions.
翻訳日:2022-04-06 14:38:53 公開日:2022-04-01
# 粘弾性イメージングのための多重モデルパラメータのグローバルオプティマイザの深いq学習

Deep Q-learning of global optimizer of multiply model parameters for viscoelastic imaging ( http://arxiv.org/abs/2204.01844v1 )

ライセンス: Link先を確認
Hongmei Zhang (1), Kai Wang (1), Yan Zhou (1), Shadab Momin (2), Xiaofeng Yang (2), Mostafa Fatemi (3), Michael F. Insana (4) ((1) Key Laboratory of Biomedical Information Engineering of Ministry of Education, School of Life Science and Technology, Xi'an Jiaotong University (2) Emory University Winship Cancer Institute, Department of Radiation Oncology, Emory University (3) Mayo Clinic Department of Physiology and Biomedical Engineering, Mayo Clinic (4) Beckman Institute for Advanced Science and Technology, Department of Bioengineering, University of Illinois at Urbana-Champaign)(参考訳) 目的: 複数のモデルパラメータのグローバルオプティマの推定は、信頼できる診断画像を形成するのに有用である。 目的関数の非凸性を考えると、異なる局所ミニマを避けることは困難である。 方法:まずパラメトリック空間におけるk-D移動の乗算パラメータのグローバル探索を定式化し,パラメータの更新を状態対応決定問題に変換する。 本研究では,Q値を最大化する動作を通じてパラメータ設定を更新することにより,モデルパラメータを大域的に最適化するDQMP(Deep Q-learning of Model Parameters)手法を提案する。 結果: DQMP法はケルビン・ヴォイグト分数微分(KVFD)モデルにより軟質物質の粘弾性イメージングにより評価された。 他の手法と比較して、DQMPによるパラメータのイメージングは、基底真理画像に対して最小の誤差 ( 2%) を得た。 dqmpは生体組織の粘弾性イメージングに応用され,診断における物理パラメータのイメージングの可能性が示唆された。 結論: DQMP法は, 粘弾性イメージングにおいて, 高精度なモデルパラメータ推定を行うことができる。 超音波乳房画像によるDQMPの評価では, 画像パラメータの整合性, 信頼性, DQMPの強力なグローバル検索能力が示された。 意義: DQMP法は複数のパラメータのイメージングに有効であり、他の多くの複雑な非凸関数のグローバル最適化や物理パラメータのイメージングに一般化することができる。

Objective: Estimation of the global optima of multiple model parameters is valuable in imaging to form a reliable diagnostic image. Given non convexity of the objective function, it is challenging to avoid from different local minima. Methods: We first formulate the global searching of multiply parameters to be a k-D move in the parametric space, and convert parameters updating to be state-action decision-making problem. We proposed a novel Deep Q-learning of Model Parameters (DQMP) method for global optimization of model parameters by updating the parameter configurations through actions that maximize a Q-value, which employs a Deep Reward Network designed to learn global reward values from both visible curve fitting errors and hidden parameter errors. Results: The DQMP method was evaluated by viscoelastic imaging on soft matter by Kelvin-Voigt fractional derivative (KVFD) modeling. In comparison to other methods, imaging of parameters by DQMP yielded the smallest errors (< 2%) to the ground truth images. DQMP was applied to viscoelastic imaging on biological tissues, which indicated a great potential of imaging on physical parameters in diagnostic applications. Conclusions: DQMP method is able to achieve global optima, yielding accurate model parameter estimates in viscoelastic imaging. Assessment of DQMP by simulation imaging and ultrasound breast imaging demonstrated the consistency, reliability of the imaged parameters, and powerful global searching ability of DQMP. Significance: DQMP method is promising for imaging of multiple parameters, and can be generalized to global optimization for many other complex nonconvex functions and imaging of physical parameters.
翻訳日:2022-04-06 14:04:38 公開日:2022-04-01
# NSGA-IIを用いたフェデレーション学習におけるコミュニケーションオーバヘッドの最適化

Optimising Communication Overhead in Federated Learning Using NSGA-II ( http://arxiv.org/abs/2204.02183v1 )

ライセンス: Link先を確認
Jos\'e \'Angel Morell and Zakaria Abdelmoiz Dahi and Francisco Chicano and Gabriel Luque and Enrique Alba(参考訳) フェデレーション学習(federated learning)は、エッジデバイス上で動作し、データのプライバシを確保するローカルモデルを使用して、サーバベースのモデルを協調的にトレーニングするトレーニングパラダイムである。 これらの装置は、かなりの通信負荷を引き起こす情報を交換し、機能効率を損なう。 このオーバーヘッドを減らすことの難しさは、モデルの効率(矛盾関係)を下げることなくこれを達成することである。 そのために、プリ/mid/ポストトレーニングモデルと通信ラウンドの圧縮を別々に調査した。 本研究の目的は、(I)多目的問題としてモデル化し、(II)多目的最適化アルゴリズム(NSGA-II)を適用してそれを解決することである。 著者の知識を最大限に活用するために、これは進化的計算がそのような問題を解決するためのアドインを探究する最初の研究であり、そして \texttt{(II)} はニューロンとデバイスの両方の特徴を一緒に考える。 サーバ/クライアントアーキテクチャを4つのスレーブでシミュレートして実験を行う。 12層, 3層, 887,530層, 33,400層からなる畳み込みニューラルネットワークと完全連結ニューラルネットワークをそれぞれ検討した。 7万枚の画像を含むtexttt{MNIST}データセットの検証を行った。 実験により,提案手法は通信を99%削減し,100%の通信を使用するfedavgアルゴリズムで得られた通信と同等の精度を維持できることが示された。

Federated learning is a training paradigm according to which a server-based model is cooperatively trained using local models running on edge devices and ensuring data privacy. These devices exchange information that induces a substantial communication load, which jeopardises the functioning efficiency. The difficulty of reducing this overhead stands in achieving this without decreasing the model's efficiency (contradictory relation). To do so, many works investigated the compression of the pre/mid/post-trained models and the communication rounds, separately, although they jointly contribute to the communication overload. Our work aims at optimising communication overhead in federated learning by (I) modelling it as a multi-objective problem and (II) applying a multi-objective optimization algorithm (NSGA-II) to solve it. To the best of the author's knowledge, this is the first work that \texttt{(I)} explores the add-in that evolutionary computation could bring for solving such a problem, and \texttt{(II)} considers both the neuron and devices features together. We perform the experimentation by simulating a server/client architecture with 4 slaves. We investigate both convolutional and fully-connected neural networks with 12 and 3 layers, 887,530 and 33,400 weights, respectively. We conducted the validation on the \texttt{MNIST} dataset containing 70,000 images. The experiments have shown that our proposal could reduce communication by 99% and maintain an accuracy equal to the one obtained by the FedAvg Algorithm that uses 100% of communications.
翻訳日:2022-04-06 12:55:54 公開日:2022-04-01
# 資源制約型無線ネットワーク制御システムにおけるセンシング設計への強化学習アプローチ

A Reinforcement Learning Approach to Sensing Design in Resource-Constrained Wireless Networked Control Systems ( http://arxiv.org/abs/2204.00703v1 )

ライセンス: Link先を確認
Luca Ballotta, Giovani Peserico, Francesco Zanini(参考訳) 本稿では,ダイナミックなプロセスを監視し,グローバルな監視と意思決定を行う基地局に計測を送信する,センサ(エージェント)の無線ネットワークについて考察する。 スマートセンサーはセンシングと計算の両方を備えており、送信前に生の計測や処理を行うことができる。 制約されたエージェントリソースは、基本的な遅延精度のトレードオフを引き起こす。 一方、生の計測は不正確であるが、生産は早い。 一方で、リソース制約のあるプラットフォームでのデータ処理は、不要な計算遅延のコストで正確な測定結果を生成する。 さらに, 処理データも圧縮された場合, 無線通信によるレイテンシが高くなる可能性がある。 したがって、ネットワーク内のセンサーがいつどこで生計測を送信すべきか、あるいは時間を要する局所処理を活用するべきかを決定することは困難である。 この課題に対処するために,各センサで計測処理を行う際に動的に決定する効率的なポリシーを学習するための強化学習手法を提案する。 提案手法の有効性は,インターネット・オブ・ドローンによるスマートセンシングのケーススタディを用いて数値シミュレーションにより検証した。

In this paper, we consider a wireless network of smart sensors (agents) that monitor a dynamical process and send measurements to a base station that performs global monitoring and decision-making. Smart sensors are equipped with both sensing and computation, and can either send raw measurements or process them prior to transmission. Constrained agent resources raise a fundamental latency-accuracy trade-off. On the one hand, raw measurements are inaccurate but fast to produce. On the other hand, data processing on resource-constrained platforms generates accurate measurements at the cost of non-negligible computation latency. Further, if processed data are also compressed, latency caused by wireless communication might be higher for raw measurements. Hence, it is challenging to decide when and where sensors in the network should transmit raw measurements or leverage time-consuming local processing. To tackle this design problem, we propose a Reinforcement Learning approach to learn an efficient policy that dynamically decides when measurements are to be processed at each sensor. Effectiveness of our proposed approach is validated through a numerical simulation with case study on smart sensing motivated by the Internet of Drones.
翻訳日:2022-04-05 17:28:57 公開日:2022-04-01
# fedrecattack:federat ed recommendationに対するモデル中毒攻撃

FedRecAttack: Model Poisoning Attack to Federated Recommendation ( http://arxiv.org/abs/2204.01499v1 )

ライセンス: Link先を確認
Dazhong Rong, Shuai Ye, Ruoyan Zhao, Hon Ning Yuen, Jianhai Chen, and Qinming He(参考訳) フェデレーテッド・リコメンデーション(FR)は、ここ数年でかなりの人気と注目を集めている。 FRでは、各ユーザに対して、その特徴ベクトルとインタラクションデータは、自身のクライアントでローカルに保持されるため、他のユーザにはプライベートである。 上記の情報にアクセスできないと、レコメンダシステムや連合学習に対する既存の中毒攻撃は有効性を失う。 この特徴から、FRは一般にかなり安全であると考えられている。 しかし、FRには依然として可能であり、必要なセキュリティ改善が可能であると論じる。 本稿では,対象項目の曝露率を高めることを目的としたモデル中毒攻撃であるFedRecAttackをFRに提示する。 ほとんどのレコメンデーションシナリオでは、プライベートなユーザとイテムのインタラクション(クリック、ウォッチ、購入など)を除いて、いくつかのインタラクションはパブリックである(例えば、フォローとコメント)。 この点に動機づけられ、feedrecattackでは、公開インタラクションを使用してユーザの機能ベクターを近似することで、攻撃者が有毒な勾配を生成し、悪意のあるユーザーがよく設計された方法で有毒な勾配をアップロードするように制御することができる。 fedrecattackの有効性と副作用を評価するため、2つの全く異なるシナリオから異なるサイズの3つの実世界のデータセットを広範囲に実験した。 実験の結果,feedrecattackの副作用は無視できるが,最先端の有効性が得られた。 さらに、悪意のあるユーザー(3%)と公的なやりとり(1%)の少ない割合(1%)にもかかわらず、feedrecattackは非常に効果的であり、frは一般に検討された人々よりも攻撃に対して脆弱であることを示している。

Federated Recommendation (FR) has received considerable popularity and attention in the past few years. In FR, for each user, its feature vector and interaction data are kept locally on its own client thus are private to others. Without the access to above information, most existing poisoning attacks against recommender systems or federated learning lose validity. Benifiting from this characteristic, FR is commonly considered fairly secured. However, we argue that there is still possible and necessary security improvement could be made in FR. To prove our opinion, in this paper we present FedRecAttack, a model poisoning attack to FR aiming to raise the exposure ratio of target items. In most recommendation scenarios, apart from private user-item interactions (e.g., clicks, watches and purchases), some interactions are public (e.g., likes, follows and comments). Motivated by this point, in FedRecAttack we make use of the public interactions to approximate users' feature vectors, thereby attacker can generate poisoned gradients accordingly and control malicious users to upload the poisoned gradients in a well-designed way. To evaluate the effectiveness and side effects of FedRecAttack, we conduct extensive experiments on three real-world datasets of different sizes from two completely different scenarios. Experimental results demonstrate that our proposed FedRecAttack achieves the state-of-the-art effectiveness while its side effects are negligible. Moreover, even with small proportion (3%) of malicious users and small proportion (1%) of public interactions, FedRecAttack remains highly effective, which reveals that FR is more vulnerable to attack than people commonly considered.
翻訳日:2022-04-05 16:57:22 公開日:2022-04-01
# 協調行動分析と神経解析のための学習可能な潜在埋め込み

Learnable latent embeddings for joint behavioral and neural analysis ( http://arxiv.org/abs/2204.00673v1 )

ライセンス: Link先を確認
Steffen Schneider, Jin Hwa Lee, Mackenzie Weygandt Mathis(参考訳) 行動行動と神経活動のマッピングは神経科学の基本的な目標である。 大規模な神経および行動データを記録できる能力が増加するにつれて、適応行動中にニューラルネットワークのダイナミクスをモデリングして神経表現を調べることへの関心が高まっている。 特に、ニューラルネットワークの潜伏埋め込みは行動の相関関係を明らかにすることができるが、関節の挙動と神経データを明示的に柔軟に活用する非線形技術は欠如している。 このギャップを埋めるために,行動と神経のデータを仮説や発見駆動の方法で併用し,一貫性のある高性能な潜在空間を作り出す新しい手法であるcebraを考案した。 その正確性を検証し、カルシウムおよび電気生理学のデータセット、感覚および運動のタスク、および種間における単純または複雑な行動において、このツールの有用性を実証する。 これにより、シングルセッションとマルチセッションデータセットを仮説テストに活用したり、ラベルフリーで使用できる。 最後に、CEBRAは、空間のマッピング、複雑なキネマティックな特徴の発見、視覚野からの自然フィルムの高速かつ高精度デコードに利用できることを示す。

Mapping behavioral actions to neural activity is a fundamental goal of neuroscience. As our ability to record large neural and behavioral data increases, there is growing interest in modeling neural dynamics during adaptive behaviors to probe neural representations. In particular, neural latent embeddings can reveal underlying correlates of behavior, yet, we lack non-linear techniques that can explicitly and flexibly leverage joint behavior and neural data. Here, we fill this gap with a novel method, CEBRA, that jointly uses behavioral and neural data in a hypothesis- or discovery-driven manner to produce consistent, high-performance latent spaces. We validate its accuracy and demonstrate our tool's utility for both calcium and electrophysiology datasets, across sensory and motor tasks, and in simple or complex behaviors across species. It allows for single and multi-session datasets to be leveraged for hypothesis testing or can be used label-free. Lastly, we show that CEBRA can be used for the mapping of space, uncovering complex kinematic features, and rapid, high-accuracy decoding of natural movies from visual cortex.
翻訳日:2022-04-05 16:56:05 公開日:2022-04-01
# Nova-Cランダーの危険検出と回避

Hazard Detection And Avoidance For The Nova-C Lander ( http://arxiv.org/abs/2204.00660v1 )

ライセンス: Link先を確認
Joel Getchius, Devin Renshaw, Daniel Posada, Troy Henderson, Lillian Hong, Shen Ge and Giovanni Molina(参考訳) 2022年の初めには、Intuitive MachinesのNOVA-C Landerが月面に着陸し、天体を訪れた最初の商業的試みとなった。 NOVA-Cは6つのペイロードを月面に輸送し、様々な科学と工学の目的を達成し、商業宇宙探査と利用の新しい時代を後押しする。 しかし、ミッションを安全に達成するためには、NOVA-C着陸船は着陸地点に30cm以上の危険が無く、タッチダウン時の地形の傾斜は垂直から10度以下でなければならない。 これを実現するため、NOVA-CはIntuitive Machinesの精密ナビゲーションシステムを使用し、シーンの縮小と着陸地点のキャラクタリゼーションのためにマシンビジョンアルゴリズムと組み合わせた。 NOVA-Cアプローチのユニークな側面は、ハザード検出と回避アルゴリズムのリアルタイムな性質である。 本稿では,ハザード検出・回避アルゴリズムの理論的基礎を概観し,nova-c飛行コンピュータの実装の実際的課題を説明し,本実験と解析結果について述べる。

In early 2022, Intuitive Machines' NOVA-C Lander will touch down on the lunar surface becoming the first commercial endeavor to visit a celestial body. NOVA-C will deliver six payloads to the lunar surface with various scientific and engineering objectives, ushering in a new era of commercial space exploration and utilization. However, to safely accomplish the mission, the NOVA-C lander must ensure its landing site is free of hazards larger than 30 cm and the slope of local terrain at touchdown is less than 10 degrees off vertical. To accomplish this, NOVA-C utilizes Intuitive Machines' precision navigation system, coupled with machine vision algorithms for scene reduction and landing site characterization. A unique aspect to the NOVA-C approach is the real-time nature of the hazard detection and avoidance algorithms--which are performed 400 meters above and down range of the intended landing site and completed within 15 seconds. In this paper, we review the theoretical foundations for the hazard detection and avoidance algorithms, describe the practical challenges of implementation on the NOVA-C flight computer, and present test and analysis results.
翻訳日:2022-04-05 16:34:09 公開日:2022-04-01
# 映像キャプションによる映像モダリティの学習

Learning Audio-Video Modalities from Image Captions ( http://arxiv.org/abs/2204.00679v1 )

ライセンス: Link先を確認
Arsha Nagrani, Paul Hongsuck Seo, Bryan Seybold, Anja Hauth, Santiago Manen, Chen Sun and Cordelia Schmid(参考訳) テキストビデオとテキストオーディオ検索における大きな課題は、大規模トレーニングデータの欠如である。 これは、データセットが数百万のサンプルの順番にあるイメージキャプチャとは異なります。 このギャップを埋めるために,画像キャプションデータセットからビデオクリップへのキャプションを,手作業による追加作業なしで転送する,新たなビデオマイニングパイプラインを提案する。 このパイプラインを使って、数百万のクリップとキャプションからなる、新しい大規模で弱いラベル付きオーディオビデオキャプションデータセットを作成します。 このデータに基づくマルチモーダルトランスフォーメーションモデルのトレーニングは,ビデオ検索や動画キャプション,マッチング,さらには20倍のクリップでhowto100mの事前トレーニングに匹敵するパフォーマンスを実現している。 また,マイニングしたクリップは,テキスト音声の事前学習に適しており,音声検索の課題に対して,芸術的な結果が得られていることを示す。

A major challenge in text-video and text-audio retrieval is the lack of large-scale training data. This is unlike image-captioning, where datasets are in the order of millions of samples. To close this gap we propose a new video mining pipeline which involves transferring captions from image captioning datasets to video clips with no additional manual effort. Using this pipeline, we create a new large-scale, weakly labelled audio-video captioning dataset consisting of millions of paired clips and captions. We show that training a multimodal transformed based model on this data achieves competitive performance on video retrieval and video captioning, matching or even outperforming HowTo100M pretraining with 20x fewer clips. We also show that our mined clips are suitable for text-audio pretraining, and achieve state of the art results for the task of audio retrieval.
翻訳日:2022-04-05 16:33:49 公開日:2022-04-01
# 安全なサイバー物理空間のためのインターネットのアーキテクチャ:VISOR Experience Report

Internet-of-Things Architectures for Secure Cyber-Physical Spaces: the VISOR Experience Report ( http://arxiv.org/abs/2204.01531v1 )

ライセンス: Link先を確認
Daniel De Pascale, Giuseppe Cascavilla, Mirella Sangiovanni, Damian A. Tamburri, Willem-Jan van den Heuvel(参考訳) モノのインターネット(iot)技術は、一般的な都市空間における民間生活の中でますます広く普及し、急速にサイバー物理空間へと変化しつつある。 同時に、そのような公共空間におけるテロや犯罪に対する恐怖はますます高まっている。 セキュリティの需要が増大したため、ビデオベースのIoT監視システムは研究の重要領域となっている。 不正認識作業に関わる機器の多さを考慮し,オランダのイースター音楽祭において,パフォーマンスと結果の観点で最も適切なデバイス構成を選択するためのバイザーと呼ばれる国益プロジェクトにおいて,フィールドスタディを行った。 iotデバイスを用いたサイバー物理空間のセキュリティのためのソリューションを反復的に設計した。 我々は、ドローン、クローズドサーキットテレビ、スマートフォンカメラ、スマートグラスを含む複数のフェデレーションデバイスの性能を検証し、モッシュピットやピックポケットなどの潜在的悪意のある活動の実際のシナリオを検出する。 この結果から,CCTV,ドローン,スマートグラス,カメラフォンなど,最適なIoTアーキテクチャ構成を選択することで,より安全なサイバー物理空間の実現が可能になるのです。

Internet of things (IoT) technologies are becoming a more and more widespread part of civilian life in common urban spaces, which are rapidly turning into cyber-physical spaces. Simultaneously, the fear of terrorism and crime in such public spaces is ever-increasing. Due to the resulting increased demand for security, video-based IoT surveillance systems have become an important area for research. Considering the large number of devices involved in the illicit recognition task, we conducted a field study in a Dutch Easter music festival in a national interest project called VISOR to select the most appropriate device configuration in terms of performance and results. We iteratively architected solutions for the security of cyber-physical spaces using IoT devices. We tested the performance of multiple federated devices encompassing drones, closed-circuit television, smart phone cameras, and smart glasses to detect real-case scenarios of potentially malicious activities such as mosh-pits and pick-pocketing. Our results pave the way to select optimal IoT architecture configurations -- i.e., a mix of CCTV, drones, smart glasses, and camera phones in our case -- to make safer cyber-physical spaces' a reality.
翻訳日:2022-04-05 16:29:29 公開日:2022-04-01
# 風力予測のための誤差補正転送学習による知識蒸留

Knowledge distillation with error-correcting transfer learning for wind power prediction ( http://arxiv.org/abs/2204.00649v1 )

ライセンス: Link先を確認
Hao Chen(参考訳) 風力発電の予測は、特にタービンにとって、電力会社の運用、制御可能性、経済に不可欠である。 予報に先進データ科学と天気予報を組み合わせたハイブリッド手法を漸進的に応用した。 それでも個別に巨大なタービンをスクラッチからモデル化し、天気予報をタービンのサイズにダウンスケールすることは容易でも経済的でもない。 そこで本稿では,タービン動力予測のための数学的基礎を持つ新しい枠組みを提案する。 この枠組みは、知識蒸留をエネルギー予測に取り入れ、確立された公園モデルから知識を学習することでタービンモデルの正確かつ経済的構築を可能にした最初の例である。 さらに、予測電力誤差の伝達学習により、非明示的な公園規模の天気予報をタービンにマッピングし、モデル補正を行い、性能を向上する。 提案手法は,北極風公園の地形を特徴とする5つのタービンに配置し,アブレーション調査の競合相手に対して評価を行った。 提案したフレームワークは, 良好な知識蒸留と伝達学習パラメータチューニングに基づいて開発され, 競争相手の3.3%から23.9%に向上した。 この利点は風力エネルギー物理学や計算効率の観点からも存在し、予測品質率と計算時間によって検証される。

Wind power prediction, especially for turbines, is vital for the operation, controllability, and economy of electricity companies. Hybrid methodologies combining advanced data science with weather forecasting have been incrementally applied to the predictions. Nevertheless, individually modeling massive turbines from scratch and downscaling weather forecasts to turbine size are neither easy nor economical. Aiming at it, this paper proposes a novel framework with mathematical underpinnings for turbine power prediction. This framework is the first time to incorporate knowledge distillation into energy forecasting, enabling accurate and economical constructions of turbine models by learning knowledge from the well-established park model. Besides, park-scale weather forecasts non-explicitly are mapped to turbines by transfer learning of predicted power errors, achieving model correction for better performance. The proposed framework is deployed on five turbines featuring various terrains in an Arctic wind park, the results are evaluated against the competitors of ablation investigation. The major findings reveal that the proposed framework, developed on favorable knowledge distillation and transfer learning parameters tuning, yields performance boosts from 3.3 % to 23.9 % over its competitors. This advantage also exists in terms of wind energy physics and computing efficiency, which are verified by the prediction quality rate and calculation time.
翻訳日:2022-04-05 16:26:11 公開日:2022-04-01
# 機械学習による外惑星の同定--予備的研究

Identifying Exoplanets with Machine Learning Methods: A Preliminary Study ( http://arxiv.org/abs/2204.00721v1 )

ライセンス: Link先を確認
Yucheng Jin, Lanyi Yang, Chia-En Chiang(参考訳) 居住可能な太陽系外惑星の発見は、長い間天文学における熱い話題であった。 従来の太陽系外惑星の同定法には、ウォブル法、直接撮像法、重力マイクロレンズ法などがあり、これは人力、時間、お金のかなりの投資を必要とするだけでなく、天文望遠鏡の性能にも制限されている。 本研究では、太陽系外惑星の同定に機械学習を用いた方法を提案する。 我々は、nasaがケプラー宇宙天文台から収集したケプラーデータセットを用いて、太陽系外惑星候補の存在を3つのカテゴリーの分類タスクとして予測し、決定木、ランダムフォレスト、na\"ive bayes、ニューラルネットワークを用いて予測し、確認された太陽系外惑星データからなる別のnasaデータセットを使用して、k-meansクラスタリングを用いて、確認された太陽系外惑星を異なるクラスターに分割する非教師なし学習を行った。 その結果,教師あり学習タスクでは,99.06%,92.11%,88.50 %,99.79%の精度が得られた。

The discovery of habitable exoplanets has long been a heated topic in astronomy. Traditional methods for exoplanet identification include the wobble method, direct imaging, gravitational microlensing, etc., which not only require a considerable investment of manpower, time, and money, but also are limited by the performance of astronomical telescopes. In this study, we proposed the idea of using machine learning methods to identify exoplanets. We used the Kepler dataset collected by NASA from the Kepler Space Observatory to conduct supervised learning, which predicts the existence of exoplanet candidates as a three-categorical classification task, using decision tree, random forest, na\"ive Bayes, and neural network; we used another NASA dataset consisted of the confirmed exoplanets data to conduct unsupervised learning, which divides the confirmed exoplanets into different clusters, using k-means clustering. As a result, our models achieved accuracies of 99.06%, 92.11%, 88.50%, and 99.79%, respectively, in the supervised learning task and successfully obtained reasonable clusters in the unsupervised learning task.
翻訳日:2022-04-05 16:25:50 公開日:2022-04-01
# 気象風データを用いた風力モデリングのためのクラスタベースアンサンブル学習

Cluster-based ensemble learning for wind power modeling with meteorological wind data ( http://arxiv.org/abs/2204.00646v1 )

ライセンス: Link先を確認
Hao Chen(参考訳) タービン制御, 農業運転最適化, グリッド負荷バランスを理解する上で不可欠な信頼性のある電力モデル上での風力発電ヒンジの最適実装とモニタリング そこで本稿では,類似した風条件の考え方に基づき,3種類のアンサンブル学習アルゴリズム,バッキング,ブースティング,スタック,クラスタリングを秩序的に統合し,最適パワーモデリングを実現するモデリング手法を提案する。 また,風力モデリングにおけるクラスタ数決定のためのクラスタリングアルゴリズムと手法の応用について検討した。 その結果、クラスタリングを伴うアンサンブルモデルはすべて風力データの固有情報を活用し、平均で15%の精度でモデルを上回ることがわかった。 最も優れた第1のクラスタリングを持つモデルは計算的に高速で、約30%の改善とともに非常によく機能する。 モデリングは、クラスタの異なるアンサンブルを融合するスタックの導入によって、さらに5%向上している。 提案するモデリングフレームワークは、効率的でロバストなモデリング性能を提供することで、promiseを実証する。

Optimal implementation and monitoring of wind energy generation hinge on reliable power modeling that is vital for understanding turbine control, farm operational optimization, and grid load balance. Based on the idea of similar wind condition leads to similar wind power; this paper constructs a modeling scheme that orderly integrates three types of ensemble learning algorithms, bagging, boosting, and stacking, and clustering approaches to achieve optimal power modeling. It also investigates applications of different clustering algorithms and methodology for determining cluster numbers in wind power modeling. The results reveal that all ensemble models with clustering exploit the intrinsic information of wind data and thus outperform models without it by approximately 15% on average. The model with the best farthest first clustering is computationally rapid and performs exceptionally well with an improvement of around 30%. The modeling is further boosted by about 5% by introducing stacking that fuses ensembles with varying clusters. The proposed modeling framework thus demonstrates promise by delivering efficient and robust modeling performance.
翻訳日:2022-04-05 16:06:57 公開日:2022-04-01
# タイポを用いたクエリにおけるディエンスレトリバーのロバスト性向上のための文字バーストと自己学習

CharacterBERT and Self-Teaching for Improving the Robustness of Dense Retrievers on Queries with Typos ( http://arxiv.org/abs/2204.00716v1 )

ライセンス: Link先を確認
Shengyao Zhuang and Guido Zuccon(参考訳) 従来の研究では、高密度検索はドメイン外および外れ値クエリに対して堅牢ではないことが示されており、すなわち、これらのクエリに対するそれらの効果は、予想よりもはるかに貧弱である。 本稿では,このようなクエリの具体例として,タイポスを含むクエリについて考察する。 本研究では,クエリにおける小文字レベルの摂動が,高密度検索の有効性に大きな影響を及ぼすことを示す。 その根本原因がBERTの入力トークン化戦略にあることを実証する。 bert では、トークン化は bert の wordpiece tokenizer を使って行われ、typo のトークンはトークン化後に得られたトークン分布を大きく変える。 この分布変化は、密度の高い検索者のBERTベースのクエリエンコーダに渡される入力埋め込みの変化に変換される。 そして、このようなtypoクエリに頑健な高密検索メソッドを開発することに注意を向けながら、typosのないクエリの以前のメソッドと同じくらいの性能を維持しています。 本研究では, タイポを使わずにクエリから知識を抽出する自己学習(ST)と呼ばれる, バックボーンエンコーダおよび効率的なトレーニング手法として characterBERT を用いる。 実験結果から,STと組み合わせたキャラクタBERTは,従来手法と比較して,タイポスを用いたクエリに対して有意に高い効率を実現していることがわかった。 これらの結果と,提案手法のオープンソース実装とともに,MS MARCOコーパス上でのリアルタイムクエリと関連する関連性評価からなる新たなパス検索データセットも提供する。

Previous work has shown that dense retrievers are not robust to out-of-domain and outlier queries, i.e. their effectiveness on these queries is much poorer than what expected. In this paper, we consider a specific instance of such queries: queries that contain typos. We show that a small character level perturbation in queries (as caused by typos) highly impacts the effectiveness of dense retrievers. We then demonstrate that the root cause of this resides in the input tokenization strategy employed by BERT. In BERT, tokenization is performed using the BERT's WordPiece tokenizer and we show that a token with a typo will significantly change the token distributions obtained after tokenization. This distribution change translates to changes in the input embeddings passed to the BERT-based query encoder of dense retrievers. We then turn our attention to devising dense retriever methods that are robust to such typo queries, while still being as performant as previous methods on queries without typos. For this, we use CharacterBERT as the backbone encoder and an efficient yet effective training method, called Self-Teaching (ST), that distills knowledge from queries without typos into the queries with typos. Experimental results show that CharacterBERT in combination with ST achieves significantly higher effectiveness on queries with typos compared to previous methods. Along with these results and the open-sourced implementation of the methods, we also provide a new passage retrieval dataset consisting of real-world queries with typos and associated relevance assessments on the MS MARCO corpus, thus supporting the research community in the investigation of effective and robust dense retrievers.
翻訳日:2022-04-05 15:37:39 公開日:2022-04-01
# 実地臨床におけるロバストな新生児顔検出

Robust Neonatal Face Detection in Real-world Clinical Settings ( http://arxiv.org/abs/2204.00655v1 )

ライセンス: Link先を確認
Jacqueline Hausmann, Md Sirajus Salekin, Ghada Zamzmi, Dmitry Goldgof, Yu Sun(参考訳) 現在の顔検出アルゴリズムは極めて一般化されており、成人の顔を検出する際に適切な精度を得ることができる。 これらのアプローチは、例えば、成人と顔組成や表情が比較的異なる新生児の顔を検出する場合など、異常なケースを扱う場合には不十分である。 さらに、新生児集中治療ユニットなどの複雑な設定で顔を検出することも困難である。 臨床現場にラベル付き新生児顔を含むプロプライエタリデータセット上で,最先端の顔検出モデルyou-only-look-onceをトレーニングすることで,ほぼリアルタイムの新生児顔検出を実現する。 以上の結果より,新生児の顔を7.37%の精度で検出した外殻液に比べて68.7%の精度を示した。 我々のモデルを検証するにはさらなる実験が必要であるが、実世界の環境に挑戦して新生児の顔を検出できることは有望であり、その可能性を証明している。 新生児の顔の堅牢かつリアルタイムな検出は、手動のアノテーションの必要性により現在時間と労力に苦しんでいる広範囲の自動化システム(例えば、痛み認識と監視)に恩恵をもたらす。 研究コミュニティの利益を得るために、トレーニングしたウェイトをgithub(https://githu b.com/ja05haus/train ed_neonate_face)で公開しています。

Current face detection algorithms are extremely generalized and can obtain decent accuracy when detecting the adult faces. These approaches are insufficient when handling outlier cases, for example when trying to detect the face of a neonate infant whose face composition and expressions are relatively different than that of the adult. It is furthermore difficult when applied to detect faces in a complicated setting such as the Neonate Intensive Care Unit. By training a state-of-the-art face detection model, You-Only-Look-Once, on a proprietary dataset containing labelled neonate faces in a clinical setting, this work achieves near real time neonate face detection. Our preliminary findings show an accuracy of 68.7%, compared to the off the shelf solution which detected neonate faces with an accuracy of 7.37%. Although further experiments are needed to validate our model, our results are promising and prove the feasibility of detecting neonatal faces in challenging real-world settings. The robust and real-time detection of neonatal faces would benefit wide range of automated systems (e.g., pain recognition and surveillance) who currently suffer from the time and effort due to the necessity of manual annotations. To benefit the research community, we make our trained weights publicly available at github(https://githu b.com/ja05haus/train ed_neonate_face).
翻訳日:2022-04-05 14:45:41 公開日:2022-04-01
# 部分観測可能なシーンに対する一貫性駆動シーケンストランスフォーマーアテンションモデル

Consistency driven Sequential Transformers Attention Model for Partially Observable Scenes ( http://arxiv.org/abs/2204.00656v1 )

ライセンス: Link先を確認
Samrudhdhi B. Rangrej, Chetan L. Srinidhi, James J. Clark(参考訳) ほとんどのハード・アテンション・モデルは、最初は完全なシーンを観察し、視覚的視点を見つけ、知覚し、そのシーンのクラス・ラベルを予測する。 しかし、多くのアプリケーション(例えば空中イメージング)において、シーン全体を観察することは、取得できる時間と資源が限られているため、必ずしも実現不可能であるとは限らない。 本稿では,完全な画像のみを部分的に観察し,過去の視線のみに基づく情報的視線位置の予測を行うシーケンストランスフォーマー注意モデル(STAM)を開発する。 DeiT蒸留を用いてエージェントを設計し,一段階アクター批判アルゴリズムを用いて学習する。 さらに,教師モデルにより予測されるクラス分布と,エージェントによって予測されるクラス分布との一貫性を垣間見ることで,分類性能を向上させるための新たな学習目標を提案する。 エージェントが全体の画像面積のわずか4%を感知すると、提案する一貫性損失をトレーニング対象に含めることで、imagenetとfmowデータセットの精度がそれぞれ3%および8%向上する。 さらに、われわれのエージェントは、ImageNetやfMoWで27%と42%のピクセルを垣間見ることで、過去の最先端技術よりも優れています。

Most hard attention models initially observe a complete scene to locate and sense informative glimpses, and predict class-label of a scene based on glimpses. However, in many applications (e.g., aerial imaging), observing an entire scene is not always feasible due to the limited time and resources available for acquisition. In this paper, we develop a Sequential Transformers Attention Model (STAM) that only partially observes a complete image and predicts informative glimpse locations solely based on past glimpses. We design our agent using DeiT-distilled and train it with a one-step actor-critic algorithm. Furthermore, to improve classification performance, we introduce a novel training objective, which enforces consistency between the class distribution predicted by a teacher model from a complete image and the class distribution predicted by our agent using glimpses. When the agent senses only 4% of the total image area, the inclusion of the proposed consistency loss in our training objective yields 3% and 8% higher accuracy on ImageNet and fMoW datasets, respectively. Moreover, our agent outperforms previous state-of-the-art by observing nearly 27% and 42% fewer pixels in glimpses on ImageNet and fMoW.
翻訳日:2022-04-05 14:45:18 公開日:2022-04-01
# ヒステリシスに基づくRL:ハイブリッド制御による強化学習に基づくロバスト化制御

Hysteresis-Based RL: Robustifying Reinforcement Learning-based Control Policies via Hybrid Control ( http://arxiv.org/abs/2204.00654v1 )

ライセンス: Link先を確認
Jan de Priester, Ricardo G. Sanfelice, Nathan van de Wouw(参考訳) 強化学習(rl)は、複雑なシステムの制御ポリシーを導出するための有望なアプローチである。 2つの制御問題で示されるように、PPO(Proximal Policy Optimization)アルゴリズムとDQN(Deep Q-Network)アルゴリズムは、堅牢性の保証を欠いている可能性がある。 これらの問題により,ヒステリシスに基づくRL(Hysteresis-based RL)と呼ばれるハイブリッドアルゴリズムが提案され,ヒステリシススイッチングと学習の2段階を含む既存のRLアルゴリズムが強化された。 PPO と DQN が失敗する2つの例でその性質を説明する。

Reinforcement learning (RL) is a promising approach for deriving control policies for complex systems. As we show in two control problems, the derived policies from using the Proximal Policy Optimization (PPO) and Deep Q-Network (DQN) algorithms may lack robustness guarantees. Motivated by these issues, we propose a new hybrid algorithm, which we call Hysteresis-Based RL (HyRL), augmenting an existing RL algorithm with hysteresis switching and two stages of learning. We illustrate its properties in two examples for which PPO and DQN fail.
翻訳日:2022-04-05 14:15:48 公開日:2022-04-01
# TopTemp: テンポロジからの沈殿物構造の解析

TopTemp: Parsing Precipitate Structure from Temper Topology ( http://arxiv.org/abs/2204.00629v1 )

ライセンス: Link先を確認
Lara Kassab, Scott Howland, Henry Kvinge, Keerti Sahithi Kappagantula, Tegan Emerson(参考訳) 技術進歩の一部は、新しい材料や材料特性の改善をもたらす新しい製造プロセスの開発によって実現されている。 新しい製造手法の開発と評価は、高度な製造プロセスパラメータと結果として得られるミクロ組織との間の複雑で不明確な関係のため、労働、時間、資源集約的なコストである。 本研究では,TopTempと呼ばれる走査型電子顕微鏡で観察した温熱処理による材料微細構造のトポロジカル表現について述べる。 このトポロジカルな表現は、データ制限された環境での微細構造の温和な分類をサポートし、これまで見られなかったサンプルをうまく一般化し、画像の摂動に頑健であり、ドメインの解釈可能な特徴を捉えることができる。 本研究は,従来の深層学習のベースラインよりも優れており,プロセスパラメータの理解と材料特性の向上に向けた第一歩である。

Technological advances are in part enabled by the development of novel manufacturing processes that give rise to new materials or material property improvements. Development and evaluation of new manufacturing methodologies is labor-, time-, and resource-intensive expensive due to complex, poorly defined relationships between advanced manufacturing process parameters and the resulting microstructures. In this work, we present a topological representation of temper (heat-treatment) dependent material micro-structure, as captured by scanning electron microscopy, called TopTemp. We show that this topological representation is able to support temper classification of microstructures in a data limited setting, generalizes well to previously unseen samples, is robust to image perturbations, and captures domain interpretable features. The presented work outperforms conventional deep learning baselines and is a first step towards improving understanding of process parameters and resulting material properties.
翻訳日:2022-04-05 14:10:04 公開日:2022-04-01
# CipherDAug: ニューラルネットワーク翻訳のためのCiphertextベースのデータ拡張

CipherDAug: Ciphertext based Data Augmentation for Neural Machine Translation ( http://arxiv.org/abs/2204.00665v1 )

ライセンス: Link先を確認
Nishant Kambhatla, Logan Born and Anoop Sarkar(参考訳) 本稿では,ROT-$k$暗号文に基づくニューラルマシン翻訳のための新しいデータ拡張手法を提案する。 rot-$k$は、平文の文字をアルファベットの後に$k$thの文字に置き換える単純な文字置換暗号である。 まず、並列データのソース側である平文に対して$k$の異なる値を用いて、複数のROT-$k$暗号文を生成する。 次に、この暗号化されたトレーニングデータと、マルチソーストレーニングによる元の並列データを利用して、ニューラルネットワーク翻訳を改善する。 我々の手法であるCipherDAugは、協調正規化にインスパイアされたトレーニング手順を使用し、元のトレーニングデータ以外の外部データソースを必要としない。 このテクニックは、既存のデータ拡張アプローチと簡単に組み合わせることができ、特に低リソース設定で強い結果が得られる。

We propose a novel data-augmentation technique for neural machine translation based on ROT-$k$ ciphertexts. ROT-$k$ is a simple letter substitution cipher that replaces a letter in the plaintext with the $k$th letter after it in the alphabet. We first generate multiple ROT-$k$ ciphertexts using different values of $k$ for the plaintext which is the source side of the parallel data. We then leverage this enciphered training data along with the original parallel data via multi-source training to improve neural machine translation. Our method, CipherDAug, uses a co-regularization-in spired training procedure, requires no external data sources other than the original training data, and uses a standard Transformer to outperform strong data augmentation techniques on several datasets by a significant margin. This technique combines easily with existing approaches to data augmentation, and yields particularly strong results in low-resource settings.
翻訳日:2022-04-05 14:07:21 公開日:2022-04-01
# 伝達学習と能動学習による効率的なArgument構造抽出

Efficient Argument Structure Extraction with Transfer Learning and Active Learning ( http://arxiv.org/abs/2204.00707v1 )

ライセンス: Link先を確認
Xinyu Hua and Lu Wang(参考訳) 議論構造抽出の自動化は,(1)長期的文脈の符号化による包括的理解の促進,(2)高品質な議論構造の構築に要するデータ効率の向上という課題に直面する。 本稿では,5つの異なる領域において,特徴に依存するか限定された文脈のみをエンコードするモデルを大幅に上回る,新しい文脈認識トランスベース引数構造予測モデルを提案する。 データアノテーションの難しさに対処するため,2つの補完手法を検討した。 (i)新しい対象領域におけるモデル性能を高めるために既存の注釈データを活用するための転送学習 (II) 注釈のための少量のサンプルを戦略的に識別する能動的学習。 さらに,多様な領域に一般化できるモデル非依存なサンプル取得戦略を提案する。 広範にわたる実験により,本手法は3つの強力な比較結果と競合する結果をもたらすことを示す。 転送学習と組み合わせることで、ドメイン間のアクティブラーニングの初期イテレーションにおいて、実質的なF1スコアアップ(5-25)がさらに達成される。

The automation of extracting argument structures faces a pair of challenges on (1) encoding long-term contexts to facilitate comprehensive understanding, and (2) improving data efficiency since constructing high-quality argument structures is time-consuming. In this work, we propose a novel context-aware Transformer-based argument structure prediction model which, on five different domains, significantly outperforms models that rely on features or only encode limited contexts. To tackle the difficulty of data annotation, we examine two complementary methods: (i) transfer learning to leverage existing annotated data to boost model performance in a new target domain, and (ii) active learning to strategically identify a small amount of samples for annotation. We further propose model-independent sample acquisition strategies, which can be generalized to diverse domains. With extensive experiments, we show that our simple-yet-effective acquisition strategies yield competitive results against three strong comparisons. Combined with transfer learning, substantial F1 score boost (5-25) can be further achieved during the early iterations of active learning across domains.
翻訳日:2022-04-05 14:07:07 公開日:2022-04-01
# 対数レグレットとリスクを有する安全マルチアーマードバンドの戦略

Strategies for Safe Multi-Armed Bandits with Logarithmic Regret and Risk ( http://arxiv.org/abs/2204.00706v1 )

ライセンス: Link先を確認
Tianrui Chen, Aditya Gangrade, Venkatesh Saligrama(参考訳) 本研究は,安全リスク制約下でのマルチアームバンディット問題に対する自然かつ意外なアプローチについて検討する。 各アームは、安全リスクと報酬に関する未知の法則と関連付けられており、学習者の目標は、平均リスクに関する所定のしきい値によって決定される、安全でない腕をプレイしながら報酬を最大化することである。 我々は、この設定に対する疑似レグレットを定式化し、それによる報酬のゲインに関係なく、いかなる違反もソフトペナライズすることで、この安全制約をラウンドごとに強制する。 これは、総合的な意味でではなく、各ラウンドの安全を維持する必要がある臨床試験のようなシナリオに実践的に関係している。 安全リスクと報酬の両面で楽観的な指標を維持するこのシナリオの2つの楽観的な戦略について述べる。 頻繁な指標とベイズ指標の両方に基づくスキーマは、ギャップ依存の対数的後悔境界を満足し、さらに、これらが対数的にのみ安全でない腕を奏することを示す。 この理論解析は,提案したスキーマの有効性を示すシミュレーション研究と,それを用いたドメインの探索によって補完される。

We investigate a natural but surprisingly unstudied approach to the multi-armed bandit problem under safety risk constraints. Each arm is associated with an unknown law on safety risks and rewards, and the learner's goal is to maximise reward whilst not playing unsafe arms, as determined by a given threshold on the mean risk. We formulate a pseudo-regret for this setting that enforces this safety constraint in a per-round way by softly penalising any violation, regardless of the gain in reward due to the same. This has practical relevance to scenarios such as clinical trials, where one must maintain safety for each round rather than in an aggregated sense. We describe doubly optimistic strategies for this scenario, which maintain optimistic indices for both safety risk and reward. We show that schema based on both frequentist and Bayesian indices satisfy tight gap-dependent logarithmic regret bounds, and further that these play unsafe arms only logarithmically many times in total. This theoretical analysis is complemented by simulation studies demonstrating the effectiveness of the proposed schema, and probing the domains in which their use is appropriate.
翻訳日:2022-04-05 13:32:40 公開日:2022-04-01
# SIMBAR:自動運転ビジョンタスクのための効果的なデータ拡張のための単一画像ベースのシーンリライティング

SIMBAR: Single Image-Based Scene Relighting For Effective Data Augmentation For Automated Driving Vision Tasks ( http://arxiv.org/abs/2204.00644v1 )

ライセンス: Link先を確認
Xianling Zhang, Nathan Tseng, Ameerah Syed, Rohan Bhasin, Nikita Jaipuria(参考訳) 現実の自動運転データセットは、道路上のさまざまなドライブから集約された画像で構成されている。 撮影されたシーンをリライトして、目に見えない照明条件をコントロールできる能力は、現実世界で見られるような、より多様な照明条件でデータセットを増強する機会を提供する。 本稿では,単一のイメージを入力として動作可能な新しい画像ベースのリライトパイプラインSIMBARを提案する。 我々の知る限りでは、1つの画像から明示的な幾何学的表現を活用するシーンライティングに関する先行研究はない。 従来のマルチビューシーンのリライトベースラインと定性比較を行った。 To further validate and effectively quantify the benefit of leveraging SIMBAR for data augmentation for automated driving vision tasks, object detection and tracking experiments are conducted with a state-of-the-art method, a Multiple Object Tracking Accuracy (MOTA) of 93.3% is achieved with CenterTrack on SIMBAR-augmented KITTI - an impressive 9.0% relative improvement over the baseline MOTA of 85.6% with CenterTrack on original KITTI, both models trained from scratch and tested on Virtual KITTI. 詳細とSIMBARが依存するデータセットについては、プロジェクトのWebサイト(https://simbarv1.gi thub.io/)を参照してください。

Real-world autonomous driving datasets comprise of images aggregated from different drives on the road. The ability to relight captured scenes to unseen lighting conditions, in a controllable manner, presents an opportunity to augment datasets with a richer variety of lighting conditions, similar to what would be encountered in the real-world. This paper presents a novel image-based relighting pipeline, SIMBAR, that can work with a single image as input. To the best of our knowledge, there is no prior work on scene relighting leveraging explicit geometric representations from a single image. We present qualitative comparisons with prior multi-view scene relighting baselines. To further validate and effectively quantify the benefit of leveraging SIMBAR for data augmentation for automated driving vision tasks, object detection and tracking experiments are conducted with a state-of-the-art method, a Multiple Object Tracking Accuracy (MOTA) of 93.3% is achieved with CenterTrack on SIMBAR-augmented KITTI - an impressive 9.0% relative improvement over the baseline MOTA of 85.6% with CenterTrack on original KITTI, both models trained from scratch and tested on Virtual KITTI. For more details and SIMBAR relit datasets, please visit our project website (https://simbarv1.gi thub.io/).
翻訳日:2022-04-05 13:30:37 公開日:2022-04-01
# UNetFormer: 統合ビジョントランスフォーマーモデルと3次元医用画像セグメンテーションのための事前トレーニングフレームワーク

UNetFormer: A Unified Vision Transformer Model and Pre-Training Framework for 3D Medical Image Segmentation ( http://arxiv.org/abs/2204.00631v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Ziyue Xu, Dong Yang, Wenqi Li, Holger Roth and Daguang Xu(参考訳) ビジョントランスフォーマー(ViT)は、特に長距離情報をキャプチャするための優れたモデリング能力と、様々なコンピュータビジョンや医療画像解析タスクにおける最先端のパフォーマンスをもたらすデータセットやモデルサイズへのスケーラビリティにより、最近人気が高まっている。 本研究では,UNetFormerと呼ばれる2つのアーキテクチャと,3D Swin Transformerベースのエンコーダと畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのデコーダを組み合わせた統合フレームワークを導入する。 提案モデルでは,5つの異なる解像度でのスキップ接続により,エンコーダをデコーダにリンクする。 提案アーキテクチャの設計により、精度と計算コストの間の幅広いトレードオフ要件を満たすことができる。 さらに,エンコーダバックボーンの自己教師付き事前学習を学習し,可視トークンの文脈情報を用いてランダムにマスクされたボリュームトークンを予測する手法を提案する。 我々は,公開可能なctデータセットから収集した5050ドルのct画像のコホート上でフレームワークを事前学習し,マスキング比やパッチサイズなど,下流タスクの表現学習能力や性能に影響を与えるさまざまなコンポーネントの体系的調査を行った。 本研究は,MSDデータセットを用いて肝・肝腫瘍セグメンテーションタスクを微調整し,評価し,様々なセグメンテーション指標を用いて最先端のパフォーマンスを達成することによる事前トレーニングアプローチの有効性を検証する。 一般化可能性を示すために,MRI画像を用いてBraTS 21データセットを用いて,脳腫瘍セグメント化のためのモデルを訓練,試験し,Diceスコアで他の手法より優れていることを示す。 コード:https://github.com/ Project-MONAI/resear ch-contributions

Vision Transformers (ViT)s have recently become popular due to their outstanding modeling capabilities, in particular for capturing long-range information, and scalability to dataset and model sizes which has led to state-of-the-art performance in various computer vision and medical image analysis tasks. In this work, we introduce a unified framework consisting of two architectures, dubbed UNetFormer, with a 3D Swin Transformer-based encoder and Convolutional Neural Network (CNN) and transformer-based decoders. In the proposed model, the encoder is linked to the decoder via skip connections at five different resolutions with deep supervision. The design of proposed architecture allows for meeting a wide range of trade-off requirements between accuracy and computational cost. In addition, we present a methodology for self-supervised pre-training of the encoder backbone via learning to predict randomly masked volumetric tokens using contextual information of visible tokens. We pre-train our framework on a cohort of $5050$ CT images, gathered from publicly available CT datasets, and present a systematic investigation of various components such as masking ratio and patch size that affect the representation learning capability and performance of downstream tasks. We validate the effectiveness of our pre-training approach by fine-tuning and testing our model on liver and liver tumor segmentation task using the Medical Segmentation Decathlon (MSD) dataset and achieve state-of-the-art performance in terms of various segmentation metrics. To demonstrate its generalizability, we train and test the model on BraTS 21 dataset for brain tumor segmentation using MRI images and outperform other methods in terms of Dice score. Code: https://github.com/P roject-MONAI/researc h-contributions
翻訳日:2022-04-05 12:36:18 公開日:2022-04-01
# (参考訳) MyMove:音声でスマートウォッチ上で高齢者の行動ラベルを収集する [全文訳有]

MyMove: Facilitating Older Adults to Collect In-Situ Activity Labels on a Smartwatch with Speech ( http://arxiv.org/abs/2204.00145v1 )

ライセンス: CC BY 4.0
Young-Ho Kim, Diana Chou, Bongshin Lee, Margaret Danilovich, Amanda Lazar, David E. Conroy, Hernisa Kacorri, Eun Kyoung Choe(参考訳) 現在の活動追跡技術は、主に若い成人のデータに基づいて訓練されており、高齢者には適さないソリューションにつながる可能性がある。 高齢者向けアクティビティトラッカを構築するには,彼らとのトレーニングデータ収集が不可欠である。 そこで本稿では, 高齢者が活動ラベルを収集する際の課題とその実現可能性について検討する。 具体的には、音声ベースのスマートウォッチアプリmymoveを開発した。 高齢者13名の活動ラベルとスマートウォッチのセンサデータを収集し,大腿部活動モニターを装着した7日間の展開調査を行った。 参加者は非常に熱心で、合計で1,224件の報告を収集した。 努力レベルとタイムスパンに応じた1,885のアクティビティを抽出し,これらのレポートを活動ラベルとしての有用性を検討した。 個人化された活動追跡技術を用いて,高齢者支援におけるアプローチと収集データセットの影響について考察した。

Current activity tracking technologies are largely trained on younger adults' data, which can lead to solutions that are not well-suited for older adults. To build activity trackers for older adults, it is crucial to collect training data with them. To this end, we examine the feasibility and challenges with older adults in collecting activity labels by leveraging speech. Specifically, we built MyMove, a speech-based smartwatch app to facilitate the in-situ labeling with a low capture burden. We conducted a 7-day deployment study, where 13 older adults collected their activity labels and smartwatch sensor data, while wearing a thigh-worn activity monitor. Participants were highly engaged, capturing 1,224 verbal reports in total. We extracted 1,885 activities with corresponding effort level and timespan, and examined the usefulness of these reports as activity labels. We discuss the implications of our approach and the collected dataset in supporting older adults through personalized activity tracking technologies.
翻訳日:2022-04-05 01:08:10 公開日:2022-04-01
# (参考訳) Pseudo Ground-Truth Box サンプリングによる半弱監視対象検出 [全文訳有]

Semi-Weakly Supervised Object Detection by Sampling Pseudo Ground-Truth Boxes ( http://arxiv.org/abs/2204.00147v1 )

ライセンス: CC BY 4.0
Akhil Meethal, Marco Pedersoli, Zhongwen Zhu, Francisco Perdigon Romero, and Eric Granger(参考訳) 半教師付き学習と弱い教師付き学習は、ディープラーニングモデルのトレーニングに要するアノテーションのコストを軽減できるため、最近オブジェクト検出文献においてかなりの注目を集めている。 半教師付き学習に対する最先端のアプローチは、多段階のプロセスで訓練された学生-教師モデルとかなりのデータ拡張に依存している。 弱い制御された設定のためにカスタムネットワークが開発されており、異なる検出器に適応することが困難である。 本稿では,これらの学習課題を低減しつつも,弱ラベル画像の情報を有する完全ラベル画像のごく一部を活用し,最先端の性能を実現するための弱教師付き訓練手法を提案する。 特に,本研究の総合的なサンプリングベース学習戦略は,多段階学習や学生-教師ネットワーク構成の必要性を排除し,オンライン方式で擬似接地構文(GT)境界アノテーションを生成する。 これらの擬似GTボックスは、スコア伝搬プロセスを介して蓄積されたオブジェクト提案のカテゴリスコアに基づいて、弱いラベル付き画像からサンプリングされる。 Pascal VOCデータセットの実証的な結果から、VOC 2007を完全ラベルデータ、VOC 2012を弱いラベルデータとして使用する場合、提案手法によりパフォーマンスが5.0%向上することが示された。 また,5~10%の注釈付き画像では,mAPの10%以上の改善が見られ,画像レベルのアノテーションへのわずかな投資により検出性能が大幅に向上することが示された。

Semi- and weakly-supervised learning have recently attracted considerable attention in the object detection literature since they can alleviate the cost of annotation needed to successfully train deep learning models. State-of-art approaches for semi-supervised learning rely on student-teacher models trained using a multi-stage process, and considerable data augmentation. Custom networks have been developed for the weakly-supervised setting, making it difficult to adapt to different detectors. In this paper, a weakly semi-supervised training method is introduced that reduces these training challenges, yet achieves state-of-the-art performance by leveraging only a small fraction of fully-labeled images with information in weakly-labeled images. In particular, our generic sampling-based learning strategy produces pseudo-ground-truth (GT) bounding box annotations in an online fashion, eliminating the need for multi-stage training, and student-teacher network configurations. These pseudo GT boxes are sampled from weakly-labeled images based on the categorical score of object proposals accumulated via a score propagation process. Empirical results on the Pascal VOC dataset, indicate that the proposed approach improves performance by 5.0% when using VOC 2007 as fully-labeled, and VOC 2012 as weak-labeled data. Also, with 5-10% fully annotated images, we observed an improvement of more than 10% in mAP, showing that a modest investment in image-level annotation, can substantially improve detection performance.
翻訳日:2022-04-05 00:22:42 公開日:2022-04-01
# (参考訳) レーザー: 2次元視覚定位のための潜在空間レンダリング

LASER: LAtent SpacE Rendering for 2D Visual Localization ( http://arxiv.org/abs/2204.00157v1 )

ライセンス: CC BY 4.0
Zhixiang Min, Naji Khosravan, Zachary Bessinger, Manjunath Narayana, Sing Bing Kang, Enrique Dunn, Ivaylo Boyadzhiev(参考訳) 2次元フロアマップのための画像ベースモンテカルロ局在化(MCL)フレームワークであるLASERを提案する。 LASERはラテント空間レンダリングの概念を導入し、フロアマップ上の2Dポーズ仮説を直接幾何学的に構造化されたラテント空間に描画する。 タイトに結合されたレンダリングコードブックスキームにより、表示線特徴は、そのジオメトリ(長さ、入射角)に基づいてレンダリング時に動的に決定され、ビュー依存の細粒度可変で表現される。 当社のコードブック方式は,機能符号化とレンダリングを効果的に切り離し,遅延空間レンダリングを10KHz以上の速度で実行可能にする。 さらに、計量学習により、幾何学的に構造化された潜在空間は、仮説と任意の視野を持つ画像の問合せの両方に共通である。 その結果、LASERはパノラマ画像と遠近画像の両方の大規模屋内ローカライゼーションデータセット(ZInDとStructured3D)の最先端性能を達成し、既存の学習手法よりも高速である。

We present LASER, an image-based Monte Carlo Localization (MCL) framework for 2D floor maps. LASER introduces the concept of latent space rendering, where 2D pose hypotheses on the floor map are directly rendered into a geometrically-struct ured latent space by aggregating viewing ray features. Through a tightly coupled rendering codebook scheme, the viewing ray features are dynamically determined at rendering-time based on their geometries (i.e. length, incident-angle), endowing our representation with view-dependent fine-grain variability. Our codebook scheme effectively disentangles feature encoding from rendering, allowing the latent space rendering to run at speeds above 10KHz. Moreover, through metric learning, our geometrically-struct ured latent space is common to both pose hypotheses and query images with arbitrary field of views. As a result, LASER achieves state-of-the-art performance on large-scale indoor localization datasets (i.e. ZInD and Structured3D) for both panorama and perspective image queries, while significantly outperforming existing learning-based methods in speed.
翻訳日:2022-04-05 00:08:54 公開日:2022-04-01
# (参考訳) 子ども音声認識のためのフィルタベース判別オートエンコーダ [全文訳有]

Filter-based Discriminative Autoencoders for Children Speech Recognition ( http://arxiv.org/abs/2204.00164v1 )

ライセンス: CC BY 4.0
Chiang-Lin Tai, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang(参考訳) 子どもの音声認識は不可欠だが、子供の発話の多様性のために困難である。 本稿では,音響モデルのためのフィルタベース判別オートエンコーダを提案する。 様々な話者の種類やピッチの影響を除去するために、音響的特徴とともにエンコーダに話者やピッチの特徴の補助情報を入力し、音声的埋め込みを生成する。 訓練段階では、デコーダは補助情報とエンコーダによって抽出された音素埋め込みを用いて入力音響特徴を再構成する。 オートエンコーダは、ASR損失と特徴再構成誤差を同時に最小化して訓練される。 このフレームワークは音韻埋め込みを純粋にし、結果としてより正確なセノン(triphone-state)スコアが得られる。 CMUキッズコーパスのテストセットに基づいて,本システムはベースラインシステムと比較して7.8%のWER削減を実現している。 また,ドメイン適応実験において,本システムは,英知PF-STARタスクのベースラインシステムよりも優れていた。

Children speech recognition is indispensable but challenging due to the diversity of children's speech. In this paper, we propose a filter-based discriminative autoencoder for acoustic modeling. To filter out the influence of various speaker types and pitches, auxiliary information of the speaker and pitch features is input into the encoder together with the acoustic features to generate phonetic embeddings. In the training phase, the decoder uses the auxiliary information and the phonetic embedding extracted by the encoder to reconstruct the input acoustic features. The autoencoder is trained by simultaneously minimizing the ASR loss and feature reconstruction error. The framework can make the phonetic embedding purer, resulting in more accurate senone (triphone-state) scores. Evaluated on the test set of the CMU Kids corpus, our system achieves a 7.8% relative WER reduction compared to the baseline system. In the domain adaptation experiment, our system also outperforms the baseline system on the British-accent PF-STAR task.
翻訳日:2022-04-05 00:07:52 公開日:2022-04-01
# (参考訳) graftnet:幅広いスペクトルとタスク指向の特徴を持つドメイン一般化ステレオマッチングに向けて [全文訳有]

GraftNet: Towards Domain Generalized Stereo Matching with a Broad-Spectrum and Task-Oriented Feature ( http://arxiv.org/abs/2204.00179v1 )

ライセンス: CC BY 4.0
Biyang Liu, Huimin Yu, Guodong Qi(参考訳) 監視されたディープステレオマッチングネットワークは素晴らしい成果を上げているが、ドメインギャップによる一般化能力の低下により、現実のシナリオに適用できない。 本稿では,大規模データセットで訓練されたモデルの特徴を活用して,画像のさまざまなスタイルからドメインシフトを扱うことを提案する。 コサイン類似度に基づくコストボリュームをブリッジとして、この機能は通常のコスト集約モジュールに移植される。 広スペクトル表現にもかかわらず、そのような低レベル特徴はステレオマッチングを目的としない多くの一般的な情報を含んでいる。 より多くのタスク固有の情報を復元するために、コストを計算する前に変換対象の浅いネットワークに移植された特徴をさらに入力する。 広範な実験により、この広範かつタスク指向の機能により、モデル一般化能力が大幅に向上することが示された。 具体的には、PSMNetとGANetの2つのよく知られたアーキテクチャに基づいて、SceneFlowからKITTI 2015、KITTI 2012、Middleburyへの移行において、我々の手法は他の堅牢なアルゴリズムよりも優れている。 コードはhttps://github.com/S padeLiu/Graft-PSMNet で入手できる。

Although supervised deep stereo matching networks have made impressive achievements, the poor generalization ability caused by the domain gap prevents them from being applied to real-life scenarios. In this paper, we propose to leverage the feature of a model trained on large-scale datasets to deal with the domain shift since it has seen various styles of images. With the cosine similarity based cost volume as a bridge, the feature will be grafted to an ordinary cost aggregation module. Despite the broad-spectrum representation, such a low-level feature contains much general information which is not aimed at stereo matching. To recover more task-specific information, the grafted feature is further input into a shallow network to be transformed before calculating the cost. Extensive experiments show that the model generalization ability can be improved significantly with this broad-spectrum and task-oriented feature. Specifically, based on two well-known architectures PSMNet and GANet, our methods are superior to other robust algorithms when transferring from SceneFlow to KITTI 2015, KITTI 2012, and Middlebury. Code is available at https://github.com/S padeLiu/Graft-PSMNet .
翻訳日:2022-04-04 23:56:45 公開日:2022-04-01
# (参考訳) クロスデータセットオブジェクト検出のための動的スーパーバイザ [全文訳有]

Dynamic Supervisor for Cross-dataset Object Detection ( http://arxiv.org/abs/2204.00183v1 )

ライセンス: CC BY 4.0
Ze Chen, Zhihang Fu, Jianqiang Huang, Mingyuan Tao, Shengyu Li, Rongxin Jiang, Xiang Tian, Yaowu Chen and Xian-sheng Hua(参考訳) オブジェクト検出タスクにおけるクロスデータセットトレーニングの応用は、データセット間のカテゴリ範囲の不整合が教師付き学習を半教師付き学習に変換するため、複雑である。 この問題に対処するために、近年の研究は、高品質な欠落アノテーションの生成に焦点を当てている。 本研究では,まず,単一モデルを用いて高品質なアノテーションを生成するだけでは十分ではないことを指摘した。 さらに,詳細な実験解析により,ハードラベル訓練はハイリコールアノテーションの生成に寄与するが,ソフトラベル訓練は高精度アノテーションを得る傾向があると結論づけた。 上記の側面に触発されて,ハードラベルとソフトラベルを用いてトレーニングされた複数更新サブモデルを通じてアノテーションを複数回更新する動的スーパーバイザフレームワークを提案する。 最終生成アノテーションでは、ハードラベルトレーニングとソフトラベルトレーニングを統合することで、リコールと精度が大幅に向上した。 様々なデータセットの組み合わせ設定に関する広範囲な実験を行い,提案する動的スーパーバイザの性能を実証した。

The application of cross-dataset training in object detection tasks is complicated because the inconsistency in the category range across datasets transforms fully supervised learning into semi-supervised learning. To address this problem, recent studies focus on the generation of high-quality missing annotations. In this study, we first point out that it is not enough to generate high-quality annotations using a single model, which only looks once for annotations. Through detailed experimental analyses, we further conclude that hard-label training is conducive to generating high-recall annotations, while soft-label training tends to obtain high-precision annotations. Inspired by the aspects mentioned above, we propose a dynamic supervisor framework that updates the annotations multiple times through multiple-updated submodels trained using hard and soft labels. In the final generated annotations, both recall and precision improve significantly through the integration of hard-label training with soft-label training. Extensive experiments conducted on various dataset combination settings support our analyses and demonstrate the superior performance of the proposed dynamic supervisor.
翻訳日:2022-04-04 23:43:58 公開日:2022-04-01
# (参考訳) distill-vq: 濃密埋め込みからの知識の蒸留による学習検索指向ベクトル量子化 [全文訳有]

Distill-VQ: Learning Retrieval Oriented Vector Quantization By Distilling Knowledge from Dense Embeddings ( http://arxiv.org/abs/2204.00185v1 )

ライセンス: CC BY 4.0
Shitao Xiao, Zheng Liu, Weihao Han, Jianjin Zhang, Defu Lian, Yeyun Gong, Qi Chen, Fan Yang, Hao Sun, Yingxia Shao, Denvy Deng, Qi Zhang, Xing Xie(参考訳) Inverted File System(IVF)やProduct Quantization(PQ)のようなベクトル量子化(VQ)ベースのANNインデックスは、競合時間とメモリ効率のおかげで、埋め込みベースの文書検索に広く適用されている。 元々、VQは再構成損失、すなわち量子化後の元の密埋め込みと再構成埋め込みの間の歪みを最小化するために学習される。 残念なことに,このような目的は,検索品質が著しく低下する可能性のある入力クエリに対して,基幹文書を選択するという目標と矛盾しない。 近年の研究では,このような欠陥を識別し,コントラスト学習による検索損失を最小限に抑えることを提案する。 しかし、これらの手法は、ラベル付きデータの不足によって性能が制限される基底文書によるクエリに強く依存している。 本稿では, 知識蒸留フレームワークにおけるIVFとPQの学習を統一するDistill-VQを提案する。 Distill-VQでは、濃密な埋め込みを「教師」として利用し、クエリがサンプル文書との関連性を予測する。 VQモジュールは、予測された関連性を再現するために学習された「学生」として扱われ、再構成された埋め込みは密埋め込みの検索結果を完全に保存する。 これにより、蒸留vqは大量のラベルのないデータからかなりのトレーニング信号を導き出すことができ、検索品質に大きく寄与する。 我々は,vqベースの ann 指標の学習に有用な知見を提供する知識蒸留の最適実行のための包括的探索を行う。 また、ラベル付きデータはもはや高品質なベクトル量子化には必要ないことを示し、これは実際にDistill-VQの強い適用性を示している。

Vector quantization (VQ) based ANN indexes, such as Inverted File System (IVF) and Product Quantization (PQ), have been widely applied to embedding based document retrieval thanks to the competitive time and memory efficiency. Originally, VQ is learned to minimize the reconstruction loss, i.e., the distortions between the original dense embeddings and the reconstructed embeddings after quantization. Unfortunately, such an objective is inconsistent with the goal of selecting ground-truth documents for the input query, which may cause severe loss of retrieval quality. Recent works identify such a defect, and propose to minimize the retrieval loss through contrastive learning. However, these methods intensively rely on queries with ground-truth documents, whose performance is limited by the insufficiency of labeled data. In this paper, we propose Distill-VQ, which unifies the learning of IVF and PQ within a knowledge distillation framework. In Distill-VQ, the dense embeddings are leveraged as "teachers", which predict the query's relevance to the sampled documents. The VQ modules are treated as the "students", which are learned to reproduce the predicted relevance, such that the reconstructed embeddings may fully preserve the retrieval result of the dense embeddings. By doing so, Distill-VQ is able to derive substantial training signals from the massive unlabeled data, which significantly contributes to the retrieval quality. We perform comprehensive explorations for the optimal conduct of knowledge distillation, which may provide useful insights for the learning of VQ based ANN index. We also experimentally show that the labeled data is no longer a necessity for high-quality vector quantization, which indicates Distill-VQ's strong applicability in practice.
翻訳日:2022-04-04 23:26:18 公開日:2022-04-01
# (参考訳) 拡散モデルの知覚優先訓練

Perception Prioritized Training of Diffusion Models ( http://arxiv.org/abs/2204.00227v1 )

ライセンス: CC BY 4.0
Jooyoung Choi, Jungbeom Lee, Chaehun Shin, Sungwon Kim, Hyunwoo Kim, Sungroh Yoon(参考訳) 拡散モデルは、対応する損失項の重み付き和、すなわちスコアマッチング損失を最適化することにより、異なるレベルのノイズで腐敗したノイズデータを復元することを学ぶ。 本稿では,特定のノイズレベルで破損したデータを復元することで,モデルがリッチな視覚概念を学ぶための適切なプリテキストタスクが得られることを示す。 目的関数の重み付け方式を再設計することにより、トレーニング中の他のレベルよりも騒音レベルを優先することを提案する。 重み付け方式の簡単な再設計により,データセットやアーキテクチャ,サンプリング戦略に関わらず,拡散モデルの性能が大幅に向上することを示す。

Diffusion models learn to restore noisy data, which is corrupted with different levels of noise, by optimizing the weighted sum of the corresponding loss terms, i.e., denoising score matching loss. In this paper, we show that restoring data corrupted with certain noise levels offers a proper pretext task for the model to learn rich visual concepts. We propose to prioritize such noise levels over other levels during training, by redesigning the weighting scheme of the objective function. We show that our simple redesign of the weighting scheme significantly improves the performance of diffusion models regardless of the datasets, architectures, and sampling strategies.
翻訳日:2022-04-04 23:05:21 公開日:2022-04-01
# (参考訳) リニアアサインメント問題としてのオンラインパノプティカル3D再構成 [全文訳有]

Online panoptic 3D reconstruction as a Linear Assignment Problem ( http://arxiv.org/abs/2204.00231v1 )

ライセンス: CC BY 4.0
Leevi Raivio and Esa Rahtu(参考訳) リアルタイムの全体像の理解は、マシンが現在よりずっと詳細な方法で周囲を解釈できるようにする。 パンオプティカルな画像分割手法は、画像分割をこの目標に近づけるが、この情報は、マシンが効果的に活用できる3d環境に対して記述する必要がある。 本稿では,3次元画像分割から静的環境を逐次再構築する手法について検討する。 アルゴリズムはデータを厳密にオンラインで処理し、比較的高速なフレームレートで実行できなければなりません。 さらに、この方法は実用アプリケーションに十分な規模の環境にスケーラブルでなければならない。 単純だが強力なデータアソシエーションアルゴリズムを適用することで、オンライン上で純粋に動作する場合、以前の類似の作業よりも優れています。 また,本手法はリアルタイムアプリケーションに十分高いフレームレートを達成でき,大規模環境にも拡張性がある。 ソースコードとさらなるデモは、次のように公開されています。

Real-time holistic scene understanding would allow machines to interpret their surrounding in a much more detailed manner than is currently possible. While panoptic image segmentation methods have brought image segmentation closer to this goal, this information has to be described relative to the 3D environment for the machine to be able to utilise it effectively. In this paper, we investigate methods for sequentially reconstructing static environments from panoptic image segmentations in 3D. We specifically target real-time operation: the algorithm must process data strictly online and be able to run at relatively fast frame rates. Additionally, the method should be scalable for environments large enough for practical applications. By applying a simple but powerful data-association algorithm, we outperform earlier similar works when operating purely online. Our method is also capable of reaching frame-rates high enough for real-time applications and is scalable to larger environments as well. Source code and further demonstrations are released to the public at: \url{https://tutvision.gi thub.io/Online-Panop tic-3D/}
翻訳日:2022-04-04 23:04:25 公開日:2022-04-01
# (参考訳) ObjectMix:アクション認識のためのビデオにおけるコピーパッティングオブジェクトによるデータ拡張 [全文訳有]

ObjectMix: Data Augmentation by Copy-Pasting Objects in Videos for Action Recognition ( http://arxiv.org/abs/2204.00239v1 )

ライセンス: CC BY 4.0
Jun Kimata, Tomoya Nitta, Toru Tamaki(参考訳) 本稿では,インスタンスセグメンテーションを用いた行動認識のためのデータ拡張手法を提案する。 画像認識のためのデータ拡張手法は数多く提案されているが、動作認識のための方法はほとんど提案されていない。 提案手法であるObjectMixは,2つのビデオからオブジェクト領域を抽出し,それらを組み合わせて新しいビデオを生成する。 UCF101とHMDB51という2つの行動認識データセットの実験は,提案手法の有効性を示し,先行研究であるVideoMixよりも優れていることを示す。

In this paper, we propose a data augmentation method for action recognition using instance segmentation. Although many data augmentation methods have been proposed for image recognition, few methods have been proposed for action recognition. Our proposed method, ObjectMix, extracts each object region from two videos using instance segmentation and combines them to create new videos. Experiments on two action recognition datasets, UCF101 and HMDB51, demonstrate the effectiveness of the proposed method and show its superiority over VideoMix, a prior work.
翻訳日:2022-04-04 22:54:03 公開日:2022-04-01
# (参考訳) MS-HLMO:リモートセンシング画像登録のための局所主方位のマルチスケールヒストグラム [全文訳有]

MS-HLMO: Multi-scale Histogram of Local Main Orientation for Remote Sensing Image Registration ( http://arxiv.org/abs/2204.00260v1 )

ライセンス: CC BY 4.0
Chenzhong Gao, Wei Li, Ran Tao, Qian Du(参考訳) 画像間の強度、回転、スケールの違いにより、マルチソース画像登録は困難である。 マルチソースリモートセンシング画像の特徴と特徴を考慮し,MS-HLMO(Multiscale Histogram of Local Main Orientation)と呼ばれる特徴ベースの登録アルゴリズムを提案する。 ハリス角検出はまず特徴点を生成するために用いられる。 各ハリス特徴点のHLMO特徴は、高強度、回転、スケール不変性を提供する一般化した配向位置および配向ヒストグラム(GGLOH)特徴記述子を持つ部分主配向マップ(PMOM)上に抽出される。 特徴点はマルチスケールのマッチング戦略によって一致します。 提案したMS-HLMOと簡易版MS-HLMO$^+$が、他の競合登録アルゴリズムよりも効率と一般化の点で優れていることを示す。

Multi-source image registration is challenging due to intensity, rotation, and scale differences among the images. Considering the characteristics and differences of multi-source remote sensing images, a feature-based registration algorithm named Multi-scale Histogram of Local Main Orientation (MS-HLMO) is proposed. Harris corner detection is first adopted to generate feature points. The HLMO feature of each Harris feature point is extracted on a Partial Main Orientation Map (PMOM) with a Generalized Gradient Location and Orientation Histogram-like (GGLOH) feature descriptor, which provides high intensity, rotation, and scale invariance. The feature points are matched through a multi-scale matching strategy. Comprehensive experiments on 17 multi-source remote sensing scenes demonstrate that the proposed MS-HLMO and its simplified version MS-HLMO$^+$ outperform other competitive registration algorithms in terms of effectiveness and generalization.
翻訳日:2022-04-04 22:25:42 公開日:2022-04-01
# (参考訳) 対話型オープンドメイン質問応答の多面的改善 [全文訳有]

Multifaceted Improvements for Conversational Open-Domain Question Answering ( http://arxiv.org/abs/2204.00266v1 )

ライセンス: CC BY 4.0
Tingting Liang, Yixuan Jiang, Congying Xia, Ziqiang Zhao, Yuyu Yin, Philip S. Yu(参考訳) オープンドメイン質問応答 (OpenQA) は、大量の非構造化文書に基づいて与えられた質問に対する回答を発見するテキストQAの重要な分野である。 オープンドメインのソースから正しい回答を効果的にマイニングする方法はまだ十分ある。 既存のOpenQAシステムは、質問の複雑さや曖昧さ、背景知識の不足といった問題に悩まされる。 近年、会話中の豊富な文脈情報でこれらの問題に対処するために、会話型openqaが提案されている。 不正確な質問理解、通過選択のための粗いランク付け、訓練と推論フェーズにおける黄金の通過の不整合使用など、いくつかの基本的な制限がある。 本稿では,これらの制約を軽減するために,対話型オープンドメイン質問応答(MICQA)のための多面的改善フレームワークを提案する。 特に、MICQAには3つの大きな利点がある。 第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解につながる。 第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。 第3に、よく設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、読者に黄金の通路の支援なしに真の答えを見つけるように促す。 公開データセットOR-QuACで実施された大規模な実験は、対話型OpenQAタスクにおける最先端モデルよりもMICQAの方が優れていることを示す。

Open-domain question answering (OpenQA) is an important branch of textual QA which discovers answers for the given questions based on a large number of unstructured documents. Effectively mining correct answers from the open-domain sources still has a fair way to go. Existing OpenQA systems might suffer from the issues of question complexity and ambiguity, as well as insufficient background knowledge. Recently, conversational OpenQA is proposed to address these issues with the abundant contextual information in the conversation. Promising as it might be, there exist several fundamental limitations including the inaccurate question understanding, the coarse ranking for passage selection, and the inconsistent usage of golden passage in the training and inference phases. To alleviate these limitations, in this paper, we propose a framework with Multifaceted Improvements for Conversational open-domain Question Answering (MICQA). Specifically, MICQA has three significant advantages. First, the proposed KL-divergence based regularization is able to lead to a better question understanding for retrieval and answer reading. Second, the added post-ranker module can push more relevant passages to the top placements and be selected for reader with a two-aspect constrains. Third, the well designed curriculum learning strategy effectively narrows the gap between the golden passage settings of training and inference, and encourages the reader to find true answer without the golden passage assistance. Extensive experiments conducted on the publicly available dataset OR-QuAC demonstrate the superiority of MICQA over the state-of-the-art model in conversational OpenQA task.
翻訳日:2022-04-04 22:02:08 公開日:2022-04-01
# (参考訳) ニューラルネットワークIPにおける蒸留攻撃の防止 [全文訳有]

Preventing Distillation-based Attacks on Neural Network IP ( http://arxiv.org/abs/2204.00292v1 )

ライセンス: CC0 1.0
Mahdieh Grailoo, Zain Ul Abideen, Mairo Leier and Samuel Pagliarini(参考訳) ニューラルネットワーク(nns)は、現在すでにハードウェアにデプロイされており、トレーニングと最適化に時間を費やしているため、価値ある知的財産(ip)となっている。 したがって攻撃者は、コピー、リバースエンジニアリング、さらにはこのIPの変更に関心があるかもしれない。 広く研究されている論理ロック技術を含むハードウェア難読化の現在の実践は、十分に訓練されたNNの実際のIPを保護するには不十分である。 鍵ベースのスキームの裏に重みを隠すのは、非効率(資源不足)と不十分(攻撃者は知識の蒸留を利用することができる)である。 本報告では, ハードウェア実装NNにおいて, 蒸留攻撃防止の予測を直感的に行う方法を提案する。 提案手法はNNを難読化して、攻撃者がNNを完全に的確に訓練できないようにする。 本稿では,ランダム論理の難読化とNNIPの難読化の違いを強調する脅威モデルについて述べる。 この脅威モデルに基づいて,本研究のセキュリティ解析により,各種データセット上での盗難NNモデルの精度を大幅に低下させることができた。 さらに、精度と予測分布が維持され、機能に障害はなく、高いオーバーヘッドも発生しない。 最後に,提案手法は柔軟であり,nnツールチェーンの操作を必要としないことを強調する。

Neural networks (NNs) are already deployed in hardware today, becoming valuable intellectual property (IP) as many hours are invested in their training and optimization. Therefore, attackers may be interested in copying, reverse engineering, or even modifying this IP. The current practices in hardware obfuscation, including the widely studied logic locking technique, are insufficient to protect the actual IP of a well-trained NN: its weights. Simply hiding the weights behind a key-based scheme is inefficient (resource-hungry) and inadequate (attackers can exploit knowledge distillation). This paper proposes an intuitive method to poison the predictions that prevent distillation-based attacks; this is the first work to consider such a poisoning approach in hardware-implemented NNs. The proposed technique obfuscates a NN so an attacker cannot train the NN entirely or accurately. We elaborate a threat model which highlights the difference between random logic obfuscation and the obfuscation of NN IP. Based on this threat model, our security analysis shows that the poisoning successfully and significantly reduces the accuracy of the stolen NN model on various representative datasets. Moreover, the accuracy and prediction distributions are maintained, no functionality is disturbed, nor are high overheads incurred. Finally, we highlight that our proposed approach is flexible and does not require manipulation of the NN toolchain.
翻訳日:2022-04-04 21:43:20 公開日:2022-04-01
# (参考訳) GrowliFlower: cauLIFLOWerのグロース解析のための画像時系列データセット [全文訳有]

GrowliFlower: An image time series dataset for GROWth analysis of cauLIFLOWER ( http://arxiv.org/abs/2204.00294v1 )

ライセンス: CC BY 4.0
Jana Kierdorf, Laura Verena Junker-Frohn, Mike Delaney, Mariele Donoso Olave, Andreas Burkart, Hannah Jaenicke, Onno Muller, Uwe Rascher and Ribana Roscher(参考訳) この記事では、2020年と2021年に取得した2つの監視されたカリフラワーフィールドである0.39と0.60haのジオレファレンス画像に基づくUAV時系列データセットであるGrowliFlowerについて述べる。 このデータセットは、約14,000個の植物座標を導出し提供したrgbおよびマルチスペクトルオルソフォトを含んでいる。 この座標により、データセット利用者は、個々の植物を示す画像パッチの完全かつ不完全な時系列を抽出できる。 このデータセットは、発生段階、植物、カリフラワーサイズを含む740種の植物の表現型形質を収集する。 収穫物が葉で完全に覆われているため、植物IDと座標が提供され、植物の画像対を前葉と後葉に抽出し、カリフラワー頭部の大きさの推定を容易にする。 さらにデータセットには、ピクセル精度の高いリーフとプラントインスタンスのセグメンテーションに加えて、分類、検出、セグメンテーション、インスタンスのセグメンテーション、同様のコンピュータビジョンタスクといったタスクに対処するステムアノテーションが含まれている。 データセットは、機械学習アプローチの開発と評価を促進することを目的としている。 具体的には、カリフラワーの成長と発達の分析と、農業における自動化の発展を促進する表現型形質の導出に焦点を当てている。 ラベル付きインスタンスセグメンテーションデータに基づく植物および葉レベルでのインスタンスセグメンテーションの2つのベースライン結果を示す。 データセット全体が公開されている。

This article presents GrowliFlower, a georeferenced, image-based UAV time series dataset of two monitored cauliflower fields of size 0.39 and 0.60 ha acquired in 2020 and 2021. The dataset contains RGB and multispectral orthophotos from which about 14,000 individual plant coordinates are derived and provided. The coordinates enable the dataset users the extraction of complete and incomplete time series of image patches showing individual plants. The dataset contains collected phenotypic traits of 740 plants, including the developmental stage as well as plant and cauliflower size. As the harvestable product is completely covered by leaves, plant IDs and coordinates are provided to extract image pairs of plants pre and post defoliation, to facilitate estimations of cauliflower head size. Moreover, the dataset contains pixel-accurate leaf and plant instance segmentations, as well as stem annotations to address tasks like classification, detection, segmentation, instance segmentation, and similar computer vision tasks. The dataset aims to foster the development and evaluation of machine learning approaches. It specifically focuses on the analysis of growth and development of cauliflower and the derivation of phenotypic traits to foster the development of automation in agriculture. Two baseline results of instance segmentation at plant and leaf level based on the labeled instance segmentation data are presented. The entire data set is publicly available.
翻訳日:2022-04-04 21:25:26 公開日:2022-04-01
# (参考訳) 変分メタポストリエータを用いたスケーラブルな半モジュラー推論

Scalable Semi-Modular Inference with Variational Meta-Posteriors ( http://arxiv.org/abs/2204.00296v1 )

ライセンス: CC BY 4.0
Chris U. Carmona, Geoff K. Nicholls(参考訳) カット後部および関連する半モジュラー推論は、モジュラーベイズ証拠の組み合わせに対する一般化ベイズ法である。 解析は関節後方分布のモジュラーサブモデル上で分割される。 マルチモジュラーモデルにおけるモデルミス比は、モデル詳細化だけでは修正が困難であり、カット後方とsmiはこの方法を提供する。 誤特定モジュールから解析を入力した情報は、学習率に関連する影響パラメータ$\eta$によって制御される。 本論文は2つの重要な方法を含む。 まず、証拠組合せの推論目標に適合するカットとSMI後部を近似するための変分法を提案する。 高精度な近似とエンドツーエンドトレーニングのために,正規化流を用いて変動後方群をパラメタリゼーションする。 第二に, 複数のカットモデルの解析が, 新しい変分メタポストリエータを用いて実現可能であることを示す。 これは一組の変分パラメータを使って$\eta$でインデックスされたSMI後続の族を近似する。

The Cut posterior and related Semi-Modular Inference are Generalised Bayes methods for Modular Bayesian evidence combination. Analysis is broken up over modular sub-models of the joint posterior distribution. Model-misspecificati on in multi-modular models can be hard to fix by model elaboration alone and the Cut posterior and SMI offer a way round this. Information entering the analysis from misspecified modules is controlled by an influence parameter $\eta$ related to the learning rate. This paper contains two substantial new methods. First, we give variational methods for approximating the Cut and SMI posteriors which are adapted to the inferential goals of evidence combination. We parameterise a family of variational posteriors using a Normalising Flow for accurate approximation and end-to-end training. Secondly, we show that analysis of models with multiple cuts is feasible using a new Variational Meta-Posterior. This approximates a family of SMI posteriors indexed by $\eta$ using a single set of variational parameters.
翻訳日:2022-04-04 21:05:55 公開日:2022-04-01
# (参考訳) Unitail: 小売シーンにおける検出・読解・マッチング [全文訳有]

Unitail: Detecting, Reading, and Matching in Retail Scene ( http://arxiv.org/abs/2204.00298v1 )

ライセンス: CC BY 4.0
Fangyi Chen, Han Zhang, Zaiwang Li, Jiachen Dou, Shentong Mo, Hao Chen, Yongxin Zhang, Uzair Ahmed, Chenchen Zhu, Marios Savvides(参考訳) 店舗におけるコンピュータビジョン技術を完全に活用するには,小売シーンの特徴に適合する実際のニーズを検討する必要がある。 この目標を追求したunited retail datasets(unitail)は、検出、読み取り、マッチングのアルゴリズムに挑戦する製品の基本ビジュアルタスクの大規模ベンチマークである。 1.8mの四角形インスタンスがアノテーション付きで、unitailは商品の外観をよりよく整えるための検出データセットを提供する。 さらに、1454の製品カテゴリ、30kのテキストリージョン、21kの転写を含むギャラリースタイルのOCRデータセットを提供し、製品の堅牢な読み込みを可能にし、製品マッチングを動機付ける。 さまざまな最先端技術を用いたデータセットのベンチマークに加えて、製品検出のための新しい検出器をカスタマイズし、その有効性を検証するシンプルなOCRベースのマッチングソリューションを提供する。

To make full use of computer vision technology in stores, it is required to consider the actual needs that fit the characteristics of the retail scene. Pursuing this goal, we introduce the United Retail Datasets (Unitail), a large-scale benchmark of basic visual tasks on products that challenges algorithms for detecting, reading, and matching. With 1.8M quadrilateral-shaped instances annotated, the Unitail offers a detection dataset to align product appearance better. Furthermore, it provides a gallery-style OCR dataset containing 1454 product categories, 30k text regions, and 21k transcriptions to enable robust reading on products and motivate enhanced product matching. Besides benchmarking the datasets using various state-of-the-arts, we customize a new detector for product detection and provide a simple OCR-based matching solution that verifies its effectiveness.
翻訳日:2022-04-04 21:04:52 公開日:2022-04-01
# (参考訳) コールドスタートレコメンデーションのための複数のドメインによる多様な選好強化 [全文訳有]

Diverse Preference Augmentation with Multiple Domains for Cold-start Recommendations ( http://arxiv.org/abs/2204.00327v1 )

ライセンス: CC BY 4.0
Yan Zhang, Changyu Li, Ivor W. Tsang, Hui Xu, Lixin Duan, Hongzhi Yin, Wen Li, Jie Shao(参考訳) ユーザーやアイテムの急速な増加で正確なレコメンデーションを提供する上で、コールドスタートの問題はますます難しくなっている。 既存のほとんどのアプローチは、補助情報および/またはトランスファー学習を伴うクロスドメインレコメンデーションに基づくコンテンツ認識レコメンデーションを通じて、難解な問題を解決しようとする。 それらのパフォーマンスは、非常にスパースなユーザとイテムのインタラクション、利用できないサイド情報、ドメイン共有ユーザによって制約されることが多い。 近年,ラベルにノイズを付加してメタ学習を行うメタリーナーが,オーバーフィッティングを回避し,新しいタスクで優れた性能を示すことが証明されている。 本稿では,アイテムに対するユーザの嗜好をタスクとして扱うことによって,メタ学習に基づく複数のソースドメインを持つ多種多様な嗜好拡張フレームワークを提案する。 一 新しい利害関係(標的領域)において多種多様な評価を生成して、疎通の場合の過度な適合を処理し、 二 コールドスタート問題を軽減するためのメタラーニングスキームを通じて、対象領域の選好モデルを学ぶこと。 具体的には、まず2条件変分オートエンコーダによるマルチソースドメイン適応を行い、潜在表現にマルチドメインinfomax(mdi)制約を課し、ドメイン共有およびドメイン固有の選好特性を学ぶ。 オーバーフィッティングを避けるため、デコーダの出力にMutually-Exclusive(M E)制約を加えて、与えられたコンテンツデータに対して様々なレーティングを生成する。 最後に、これら生成された多種多様な評価と原評価をメタトレーニング手順に導入し、選好メタラーナーを学習し、コールドスタートレコメンデーションタスクに優れた一般化能力をもたらす。 実世界のデータセットの実験により、提案したMetaDPAは、現在の最先端のベースラインよりも明らかに優れています。

Cold-start issues have been more and more challenging for providing accurate recommendations with the fast increase of users and items. Most existing approaches attempt to solve the intractable problems via content-aware recommendations based on auxiliary information and/or cross-domain recommendations with transfer learning. Their performances are often constrained by the extremely sparse user-item interactions, unavailable side information, or very limited domain-shared users. Recently, meta-learners with meta-augmentation by adding noises to labels have been proven to be effective to avoid overfitting and shown good performance on new tasks. Motivated by the idea of meta-augmentation, in this paper, by treating a user's preference over items as a task, we propose a so-called Diverse Preference Augmentation framework with multiple source domains based on meta-learning (referred to as MetaDPA) to i) generate diverse ratings in a new domain of interest (known as target domain) to handle overfitting on the case of sparse interactions, and to ii) learn a preference model in the target domain via a meta-learning scheme to alleviate cold-start issues. Specifically, we first conduct multi-source domain adaptation by dual conditional variational autoencoders and impose a Multi-domain InfoMax (MDI) constraint on the latent representations to learn domain-shared and domain-specific preference properties. To avoid overfitting, we add a Mutually-Exclusive (ME) constraint on the output of decoders to generate diverse ratings given content data. Finally, these generated diverse ratings and the original ratings are introduced into the meta-training procedure to learn a preference meta-learner, which produces good generalization ability on cold-start recommendation tasks. Experiments on real-world datasets show our proposed MetaDPA clearly outperforms the current state-of-the-art baselines.
翻訳日:2022-04-04 20:37:55 公開日:2022-04-01
# (参考訳) きめ細かい用語表現の学習による生物医学用語の自動クラスタリング [全文訳有]

Automatic Biomedical Term Clustering by Learning Fine-grained Term Representations ( http://arxiv.org/abs/2204.00391v1 )

ライセンス: CC BY 4.0
Sihang Zeng, Zheng Yuan, Sheng Yu(参考訳) 用語クラスタリングは生物医学的知識グラフ構築において重要である。 用語埋め込み間の類似性の利用は、用語クラスタリングに有用である。 最先端の用語埋め込みは、事前訓練された言語モデルを利用して用語をエンコードし、知識グラフから同義語と関係知識を使って対照的な学習を導く。 これらの埋め込みは、同じ概念に属する項に対して密接な埋め込みを与える。 しかし,本実験では,これらの埋め込みは,バイオメディカルな用語クラスタリングの失敗につながる小さなテキスト差に敏感ではない。 この問題を軽減するため,比較学習中に動的に強正・負のサンプルを供給し,バイオメディカルな用語のクラスタリングの改善をもたらす微細な表現を学習することで,事前学習におけるサンプリング戦略を調整する。 我々は提案手法をCODER++と命名し,新たにリリースされたBIOSというバイオメディカル知識グラフのバイオメディカル概念のクラスタリングに適用した。

Term clustering is important in biomedical knowledge graph construction. Using similarities between terms embedding is helpful for term clustering. State-of-the-art term embeddings leverage pretrained language models to encode terms, and use synonyms and relation knowledge from knowledge graphs to guide contrastive learning. These embeddings provide close embeddings for terms belonging to the same concept. However, from our probing experiments, these embeddings are not sensitive to minor textual differences which leads to failure for biomedical term clustering. To alleviate this problem, we adjust the sampling strategy in pretraining term embeddings by providing dynamic hard positive and negative samples during contrastive learning to learn fine-grained representations which result in better biomedical term clustering. We name our proposed method as CODER++, and it has been applied in clustering biomedical concepts in the newly released Biomedical Knowledge Graph named BIOS.
翻訳日:2022-04-04 20:05:14 公開日:2022-04-01
# (参考訳) ECOTS: オープンタイムシリーズの早期分類 [全文訳有]

ECOTS: Early Classification in Open Time Series ( http://arxiv.org/abs/2204.00392v1 )

ライセンス: CC BY 4.0
Youssef Achenchabe, Alexis Bondu, Antoine Cornu\'ejols, Vincent Lemaire(参考訳) オープンタイムシリーズのイベントを事前に予測する学習は難しい。 初期の時系列分類 (ects) では、オンライン上で予測の正確さと、時系列全体に対するユニークなラベルを持つ有限長の時系列である場合に決定を遅らせるコストのバランスをとる問題に対処している。 驚くべきことに、このトレードオフは、未決定長で同じ時系列の各列に対して異なるクラスを持つオープン時系列に対して調査されたことはない。 本稿では,ECTS の手法を Open Time Series (ECOTS) の初期分類に適用するための原則的手法を提案する。 本稿では,この新たなシナリオにおいて,分類器の構築方法と決定トリガシステムがどうなるかを示す。 我々は,予測保守分野における意思決定の課題に対処する。 ECOTSシナリオのための2つの最先端ECTSアルゴリズムを変換し、新しいアプローチの実用性を示す予測保守のための実際のデータセットに関する数値実験を報告する。

Learning to predict ahead of time events in open time series is challenging. While Early Classification of Time Series (ECTS) tackles the problem of balancing online the accuracy of the prediction with the cost of delaying the decision when the individuals are time series of finite length with a unique label for the whole time series. Surprisingly, this trade-off has never been investigated for open time series with undetermined length and with different classes for each subsequence of the same time series. In this paper, we propose a principled method to adapt any technique for ECTS to the Early Classification in Open Time Series (ECOTS). We show how the classifiers must be constructed and what the decision triggering system becomes in this new scenario. We address the challenge of decision making in the predictive maintenance field. We illustrate our methodology by transforming two state-of-the-art ECTS algorithms for the ECOTS scenario and report numerical experiments on a real dataset for predictive maintenance that demonstrate the practicality of the novel approach.
翻訳日:2022-04-04 19:57:56 公開日:2022-04-01
# (参考訳) 言語知識のための音声感情認識トランスフォーマーの探索 [全文訳有]

Probing Speech Emotion Recognition Transformers for Linguistic Knowledge ( http://arxiv.org/abs/2204.00400v1 )

ライセンス: CC BY 4.0
Andreas Triantafyllopoulos, Johannes Wagner, Hagen Wierstorf, Maximilian Schmitt, Uwe Reichel, Florian Eyben, Felix Burkhardt, Bj\"orn W. Schuller(参考訳) 自己アテンション層(トランスフォーマー)で構成される大規模事前学習ニューラルネットワークが、先日、いくつかの音声感情認識(ser)データセットで最先端の結果を達成した。 これらのモデルは通常、自動音声認識性能を改善すること、そして言語情報を理解することを目的として、自己指導型で事前訓練される。 本研究では,この情報をサーの微調整時に活用する範囲について検討する。 オープンソースツールに基づく再現可能な手法を用いて、テキストの感情を変化させながら、韻律的に中立な発話を合成する。 変圧器モデルの妥当性の予測は、否定と同様に、肯定的および否定的な感情内容に対して非常に反応するが、増強剤や還元剤には反応しない。 これらの結果から,トランスフォーマは言語情報を利用して原子価予測を改善し,言語分析を検査に含めるべきであることが示唆された。

Large, pre-trained neural networks consisting of self-attention layers (transformers) have recently achieved state-of-the-art results on several speech emotion recognition (SER) datasets. These models are typically pre-trained in self-supervised manner with the goal to improve automatic speech recognition performance -- and thus, to understand linguistic information. In this work, we investigate the extent in which this information is exploited during SER fine-tuning. Using a reproducible methodology based on open-source tools, we synthesise prosodically neutral speech utterances while varying the sentiment of the text. Valence predictions of the transformer model are very reactive to positive and negative sentiment content, as well as negations, but not to intensifiers or reducers, while none of those linguistic features impact arousal or dominance. These findings show that transformers can successfully leverage linguistic information to improve their valence predictions, and that linguistic analysis should be included in their testing.
翻訳日:2022-04-04 19:43:42 公開日:2022-04-01
# (参考訳) 分散還元を用いた半滑らかなニュートン確率的近位点アルゴリズム [全文訳有]

A Semismooth Newton Stochastic Proximal Point Algorithm with Variance Reduction ( http://arxiv.org/abs/2204.00406v1 )

ライセンス: CC BY 4.0
Andre Milzarek, Fabian Schaipp, Michael Ulbrich(参考訳) 弱凸, 複合最適化問題に対して, 実装可能な確率的近位点(SPP)法を開発した。 確率的近位点アルゴリズムは分散低減機構を導入し、その結果のSPP更新は不正確な半滑らかなニュートンフレームワークを用いて解決する。 本研究では,spfステップの不正確性を考慮し,(近位)確率分散還元勾配法の既存の収束保証に従って,詳細な収束結果を確立する。 数値実験により,提案アルゴリズムは他の最先端手法と良好に競合し,ステップサイズの選択に関して高いロバスト性を実現することが示された。

We develop an implementable stochastic proximal point (SPP) method for a class of weakly convex, composite optimization problems. The proposed stochastic proximal point algorithm incorporates a variance reduction mechanism and the resulting SPP updates are solved using an inexact semismooth Newton framework. We establish detailed convergence results that take the inexactness of the SPP steps into account and that are in accordance with existing convergence guarantees of (proximal) stochastic variance-reduced gradient methods. Numerical experiments show that the proposed algorithm competes favorably with other state-of-the-art methods and achieves higher robustness with respect to the step size selection.
翻訳日:2022-04-04 19:27:16 公開日:2022-04-01
# (参考訳) 合成太陽光発電・風力予測データ [全文訳有]

Synthetic Photovoltaic and Wind Power Forecasting Data ( http://arxiv.org/abs/2204.00411v1 )

ライセンス: CC BY 4.0
Stephan Vogt and Jens Schreiber and Bernhard Sick(参考訳) 再生可能エネルギーのシェアが高い電力系統における太陽光発電と風力発電の予測は、いくつかの応用において不可欠である。 これには安定したグリッド運用、利益のある電力取引、前向きのシステム計画が含まれる。 しかし、機械学習に基づく予測方法を研究するために利用可能なデータセットが不足している。 本稿では,現実的な合成電力データを持つオープンアクセス可能な時系列データセットを提供する。 他の公開および公開されていないデータセットには、正確な地理的座標、タイムスタンプ、静的発電所情報、例えばビジネスシークレットを保護するための情報がないことが多い。 反対に、このデータセットはこれらを提供する。 このデータセットは120の太陽光発電プラントと273の風力発電プラントで構成されており、時間分解能の500日からドイツ全土に異なる側面がある。 この多数の側面によって、空間相関を含む予測実験や、転送とマルチタスク学習における実験の実行が可能になる。 ICON-EU気象モデルからのサイド固有、電源依存、非合成入力機能を含んでいる。 物理モデルと実際の気象測定による仮想発電所のシミュレーションは、現実的な合成電力測定時系列を提供する。 これらの時系列は、各気象測定位置における仮想発電所の出力に対応する。 合成時系列は気象観測のみに基づいており、気象予報の誤差は実際の電力データと同等である。 データ記述に加えて、簡易な物理モデルと機械学習モデルを比較することにより、気象予測に基づく電力予測の品質を評価する。 この実験により, 合成電力データにおける誤差の予測は, 実世界の歴史的電力測定に匹敵することがわかった。

Photovoltaic and wind power forecasts in power systems with a high share of renewable energy are essential in several applications. These include stable grid operation, profitable power trading, and forward-looking system planning. However, there is a lack of publicly available datasets for research on machine learning based prediction methods. This paper provides an openly accessible time series dataset with realistic synthetic power data. Other publicly and non-publicly available datasets often lack precise geographic coordinates, timestamps, or static power plant information, e.g., to protect business secrets. On the opposite, this dataset provides these. The dataset comprises 120 photovoltaic and 273 wind power plants with distinct sides all over Germany from 500 days in hourly resolution. This large number of available sides allows forecasting experiments to include spatial correlations and run experiments in transfer and multi-task learning. It includes side-specific, power source-dependent, non-synthetic input features from the ICON-EU weather model. A simulation of virtual power plants with physical models and actual meteorological measurements provides realistic synthetic power measurement time series. These time series correspond to the power output of virtual power plants at the location of the respective weather measurements. Since the synthetic time series are based exclusively on weather measurements, possible errors in the weather forecast are comparable to those in actual power data. In addition to the data description, we evaluate the quality of weather-prediction-b ased power forecasts by comparing simplified physical models and a machine learning model. This experiment shows that forecasts errors on the synthetic power data are comparable to real-world historical power measurements.
翻訳日:2022-04-04 18:40:39 公開日:2022-04-01
# (参考訳) アナログクラスタリングを用いたベイズネットワークを用いた石油貯留層回復因子の評価

Oil reservoir recovery factor assessment using Bayesian networks based on advanced approaches to analogues clustering ( http://arxiv.org/abs/2204.00413v1 )

ライセンス: CC BY 4.0
Petr Andriushchenko, Irina Deeva, Anna Bubnova, Anton Voskresenskiy, Nikita Bukhanov, Nikolay Nikitin and Anna Kalyuzhnaya(参考訳) この研究は、石油・ガス貯水池パラメータのモデル化と計算、特にベイズネットワーク(BN)を用いた石油回収係数(RF)予測の問題に焦点を当てている。 回復予測は石油・ガス産業にとって、会社の利益に直接影響を及ぼすため、非常に重要である。 しかし、現在のRF予測手法は複雑で計算コストが高い。 加えて、大量のデータを必要としており、貯水池開発の初期段階では制約が難しい。 この問題に対処するために、BNアプローチを提案し、パラメータ予測の精度を改善する方法について述べる。 bnsの様々なトレーニング用ハイパーパラメータが検討され、最良のものを使用した。 構造とパラメータ学習,データの離散化と正規化,対象貯水池の類似点のサブサンプリング,ネットワークのクラスタリング,データフィルタリングについて検討した。 最後に、合成油貯留層の物理モデルを用いて、BNsのRF予測を検証した。 BNに基づくモデリングのすべてのアプローチは、物理モデルによって予測されるRFの信頼区間を網羅するが、同時にモデリングの時間とデータも少なく、貯水池開発の初期段階での使用の可能性を示している。 この研究の主な成果は、少数のデータに基づいて構築されたベイジアンネットワークに基づく貯水池のパラメータを最小限の知識で研究する方法論の開発であると考えられる。 本手法は, 回復因子インプテーションの問題を例として検証した。

The work focuses on the modelling and imputation of oil and gas reservoirs parameters, specifically, the problem of predicting the oil recovery factor (RF) using Bayesian networks (BNs). Recovery forecasting is critical for the oil and gas industry as it directly affects a company's profit. However, current approaches to forecasting the RF are complex and computationally expensive. In addition, they require vast amount of data and are difficult to constrain in the early stages of reservoir development. To address this problem, we propose a BN approach and describe ways to improve parameter predictions' accuracy. Various training hyperparameters for BNs were considered, and the best ones were used. The approaches of structure and parameter learning, data discretization and normalization, subsampling on analogues of the target reservoir, clustering of networks and data filtering were considered. Finally, a physical model of a synthetic oil reservoir was used to validate BNs' predictions of the RF. All approaches to modelling based on BNs provide full coverage of the confidence interval for the RF predicted by the physical model, but at the same time require less time and data for modelling, which demonstrates the possibility of using in the early stages of reservoirs development. The main result of the work can be considered the development of a methodology for studying the parameters of reservoirs based on Bayesian networks built on small amounts of data and with minimal involvement of expert knowledge. The methodology was tested on the example of the problem of the recovery factor imputation.
翻訳日:2022-04-04 18:28:57 公開日:2022-04-01
# (参考訳) 単一または多時期関節sarおよび光画像からの曇り光画像再構成のための畳み込みニューラルネットワークの比較 [全文訳有]

Comparison of convolutional neural networks for cloudy optical images reconstruction from single or multitemporal joint SAR and optical images ( http://arxiv.org/abs/2204.00424v1 )

ライセンス: CC BY 4.0
R\'emi Cresson, Nicolas Nar\c{c}on, Raffaele Gaetano, Aurore Dupuis, Yannick Tanguy, St\'ephane May, and Benjamin Commandre(参考訳) センチネル星座による光学・合成開口レーダ(SAR)画像の利用可能化と深層学習の爆発により,近年,雲の影響を受けない光学画像の再構築に向けた新たな手法が出現している。 本稿では,sar画像と光学画像とを併用した畳み込みニューラルネットワークの評価について検討する。 光画像再構成を目的としたディープネットのトレーニングのためのデータセット作成と、機械学習に基づく決定論的アプローチの検証を容易にするための簡単なフレームワークを提案する。 これらの手法は入力画像の制約という点ではかなり異なり、それらを比較することは文献にない問題である。 空間分割データ構造が,クラウドカバレッジ,相対的取得日,画素の妥当性,SARと光学画像との相対的近接といった点において,サンプルのクエリにどのように役立つかを示す。 sarと光学画像のペアを使用するネットワークと、複数のペアを使用するネットワークと、時間領域で補間を行う従来の決定論的アプローチを比較するために、いくつかのデータセットを生成する。

With the increasing availability of optical and synthetic aperture radar (SAR) images thanks to the Sentinel constellation, and the explosion of deep learning, new methods have emerged in recent years to tackle the reconstruction of optical images that are impacted by clouds. In this paper, we focus on the evaluation of convolutional neural networks that use jointly SAR and optical images to retrieve the missing contents in one single polluted optical image. We propose a simple framework that ease the creation of datasets for the training of deep nets targeting optical image reconstruction, and for the validation of machine learning based or deterministic approaches. These methods are quite different in terms of input images constraints, and comparing them is a problematic task not addressed in the literature. We show how space partitioning data structures help to query samples in terms of cloud coverage, relative acquisition date, pixel validity and relative proximity between SAR and optical images. We generate several datasets to compare the reconstructed images from networks that use a single pair of SAR and optical image, versus networks that use multiple pairs, and a traditional deterministic approach performing interpolation in temporal domain.
翻訳日:2022-04-04 18:27:05 公開日:2022-04-01
# (参考訳) 化合物成分のセンスの曖昧化 [全文訳有]

Sense disambiguation of compound constituents ( http://arxiv.org/abs/2204.00429v1 )

ライセンス: CC BY 4.0
Carlo Schackow, Stefan Conrad and Ingo Plag(参考訳) 分布論的意味論では、名詞-名詞化合物の意味(例えば、starfish、bank account、houseboat)において、構成的ポリセミーの重要な役割は、ほとんど役に立たない(cf. starfish vs. star cluster vs. star athlete)。 成分の異なる意味を平均化する意味的ベクトルの代わりに、これらのより特定の構成的意味が化合物全体の意味に何をもたらすかを確認するために、成分の曖昧なベクトルが必要である。 本稿では,この単語感覚の曖昧さという問題に対する新しいアプローチを提案する。 mahabal et al. (2018) によって開発されたアプローチに基づいており、これは元々アナロジー問題を解くために設計されたものである。 我々はそれらの手法を複合成分の曖昧さを解消する問題に対処するように修正した。 約9000の化合物からなるデータセット(LADEC, Gagn\'e et al. 2019)による実験の結果、このアプローチは成功しているが、その成功は化合物が証明される頻度に敏感である。

In distributional semantic accounts of the meaning of noun-noun compounds (e.g. starfish, bank account, houseboat) the important role of constituent polysemy remains largely unaddressed(cf. the meaning of star in starfish vs. star cluster vs. star athlete). Instead of semantic vectors that average over the different meanings of a constituent, disambiguated vectors of the constituents would be needed in order to see what these more specific constituent meanings contribute to the meaning of the compound as a whole. This paper presents a novel approach to this specific problem of word sense disambiguation: set expansion. We build on the approach developed by Mahabal et al. (2018) which was originally designed to solve the analogy problem. We modified their method in such a way that it can address the problem of sense disambiguation of compound constituents. The results of experiments with a data set of almost 9000 compounds (LADEC, Gagn\'e et al. 2019) suggest that this approach is successful, yet the success is sensitive to the frequency with which the compounds are attested.
翻訳日:2022-04-04 18:10:10 公開日:2022-04-01
# (参考訳) ガイド画像生成のためのマージナルコントラスト対応 [全文訳有]

Marginal Contrastive Correspondence for Guided Image Generation ( http://arxiv.org/abs/2204.00442v1 )

ライセンス: CC BY 4.0
Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Shijian Lu, Changgong Zhang(参考訳) 例題ベース画像翻訳は、条件入力と例題(2つの異なる領域から)の密接な対応を確立し、詳細な例題スタイルを活用して現実的な画像翻訳を実現する。 既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。 ドメイン不変性の明示的な利用がなければ、このアプローチはドメインギャップを効果的に減らさず、しばしば準最適対応や画像翻訳につながる可能性がある。 我々は,実例に基づく画像翻訳のための領域不変特徴を学習するために,コントラスト学習を探索する辺縁的コントラスト学習ネットワーク(mcl-net)を設計する。 具体的には, 密接な対応を明示的に確立するための, 画期的な辺縁的コントラスト損失をデザインする。 それでも、ドメイン不変のセマンティクスだけではテクスチャパターンが損なわれ、劣化したテクスチャ生成につながる可能性がある。 そこで我々は,シーン構造を補助情報として組み込んだ自己相関マップ(scm)を設計し,構築された対応を実質的に改善する。 マルチファーラス画像翻訳タスクの定量的および定性的な実験により,提案手法が常に最先端技術を上回ることを示す。

Exemplar-based image translation establishes dense correspondences between a conditional input and an exemplar (from two different domains) for leveraging detailed exemplar styles to achieve realistic image translation. Existing work builds the cross-domain correspondences implicitly by minimizing feature-wise distances across the two domains. Without explicit exploitation of domain-invariant features, this approach may not reduce the domain gap effectively which often leads to sub-optimal correspondences and image translation. We design a Marginal Contrastive Learning Network (MCL-Net) that explores contrastive learning to learn domain-invariant features for realistic exemplar-based image translation. Specifically, we design an innovative marginal contrastive loss that guides to establish dense correspondences explicitly. Nevertheless, building correspondence with domain-invariant semantics alone may impair the texture patterns and lead to degraded texture generation. We thus design a Self-Correlation Map (SCM) that incorporates scene structures as auxiliary information which improves the built correspondences substantially. Quantitative and qualitative experiments on multifarious image translation tasks show that the proposed method outperforms the state-of-the-art consistently.
翻訳日:2022-04-04 18:00:43 公開日:2022-04-01
# (参考訳) 時間シフトによる視覚変換器による効果的な行動認識 [全文訳有]

Vision Transformer with Cross-attention by Temporal Shift for Efficient Action Recognition ( http://arxiv.org/abs/2204.00452v1 )

ライセンス: CC BY 4.0
Ryota Hashiguchi, Toru Tamaki(参考訳) 視覚変換器(ViT)のマルチヘッド自己認識機構(MSA)の構造に基づいて,動作認識のための時間的クロスアテンション機構を導入するマルチヘッド自己認識機構(MSCA)を提案する。 ビデオフレームの各フレームにViTを適用するだけでフレームの特徴をキャプチャできるが、時間的特徴をモデル化することはできない。 しかし、単にcnnやトランスフォマーで時間情報をモデル化するだけでは計算コストがかかる。 機能シフトを行うTSMはCNNを仮定し、ViT構造を利用することができない。 提案モデルは,vitのmsa計算において,クエリ,キー,値のシフトによって時間情報をキャプチャする。 これは余分な造語的努力を伴わずに効率的であり、時相的にViTを拡張するのに適した構造である。 Kineitcs400の実験は,提案手法の有効性と従来手法よりも優れていることを示す。

We propose Multi-head Self/Cross-Attention (MSCA), which introduces a temporal cross-attention mechanism for action recognition, based on the structure of the Multi-head Self-Attention (MSA) mechanism of the Vision Transformer (ViT). Simply applying ViT to each frame of a video frame can capture frame features, but cannot model temporal features. However, simply modeling temporal information with CNN or Transfomer is computationally expensive. TSM that perform feature shifting assume a CNN and cannot take advantage of the ViT structure. The proposed model captures temporal information by shifting the Query, Key, and Value in the calculation of MSA of ViT. This is efficient without additional coinformationmputati onal effort and is a suitable structure for extending ViT over temporal. Experiments on Kineitcs400 show the effectiveness of the proposed method and its superiority over previous methods.
翻訳日:2022-04-04 17:46:53 公開日:2022-04-01
# (参考訳) 知識強化言語モデルを用いた偽ニュース検出の評価 [全文訳有]

Evaluation of Fake News Detection with Knowledge-Enhanced Language Models ( http://arxiv.org/abs/2204.00458v1 )

ライセンス: CC BY 4.0
Chenxi Whitehouse, Tillman Weyde, Pranava Madhyastha, Nikos Komninos(参考訳) 偽ニュース検出の最近の進歩は、大規模事前学習言語モデル(PLM)の成功を生かしている。 最先端のアプローチは、ラベル付きフェイクニュースデータセットの微調整 PLM に基づいている。 しかし、大規模PLMは一般に、構造化された事実データに基づいて訓練されていないため、事実的正確な知識に基づく事前知識は持たない。 知識ベース(KB)を人事情報に富んだ情報と組み合わせることで、偽ニュースの検出をより効果的かつ堅牢にすることができる。 本稿では,偽ニュース検出における PLM への知識統合の効果について検討する。 主にWikidataをKBとして使用し、政治ベースのデータセットであるLIARと、新型コロナウイルスパンデミックに関連するソーシャルメディアに投稿されたメッセージのデータセットであるCOVID-19の2つの人気のある偽ニュースデータセットについて、知識統合に関する最先端のアプローチを調査した。 実験の結果,知識強化モデルにより,KBが関連しかつ最新であるLIAR上での偽ニュース検出が大幅に改善できることが示唆された。 COVID-19の混合結果は、スタイリスティックな特徴への依存と、ドメイン固有および現在のKBの重要性を強調している。

Recent advances in fake news detection have exploited the success of large-scale pre-trained language models (PLMs). The predominant state-of-the-art approaches are based on fine-tuning PLMs on labelled fake news datasets. However, large-scale PLMs are generally not trained on structured factual data and hence may not possess priors that are grounded in factually accurate knowledge. The use of existing knowledge bases (KBs) with rich human-curated factual information has thus the potential to make fake news detection more effective and robust. In this paper, we investigate the impact of knowledge integration into PLMs for fake news detection. We study several state-of-the-art approaches for knowledge integration, mostly using Wikidata as KB, on two popular fake news datasets - LIAR, a politics-based dataset, and COVID-19, a dataset of messages posted on social media relating to the COVID-19 pandemic. Our experiments show that knowledge-enhanced models can significantly improve fake news detection on LIAR where the KB is relevant and up-to-date. The mixed results on COVID-19 highlight the reliance on stylistic features and the importance of domain specific and current KBs.
翻訳日:2022-04-04 17:31:58 公開日:2022-04-01
# (参考訳) 調音表現分解のための深層神経畳み込み行列因子分解 [全文訳有]

Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition ( http://arxiv.org/abs/2204.00465v1 )

ライセンス: CC BY 4.0
Jiachen Lian and Alan W Black and Louis Goldstein Gopala Krishna Anumanchipalli(参考訳) データ駆動型音声表現学習の研究の多くは、生音声をエンドツーエンドに焦点を合わせ、内部の音韻学やジェスチャー構造にはほとんど注意を払わない。 本研究は, 調音運動学信号から導かれる音声表現を調査し, 調音データを解釈可能なジェスチャーとジェスチャースコアに分解するために, 畳み込み行列分解のニューラル実装を用いる。 スパース制約を適用することで、音韻的ジェスチャーの離散的な組合せ特性を利用する。 また,音素認識実験を行い,音韻スコアが音韻情報に有効であることを確認した。 提案する研究は、情報、知性、解釈可能、効率的な音声表現を活用するために、調音音声学とディープニューラルネットワークの橋渡しとなる。

Most of the research on data-driven speech representation learning has focused on raw audios in an end-to-end manner, paying little attention to their internal phonological or gestural structure. This work, investigating the speech representations derived from articulatory kinematics signals, uses a neural implementation of convolutive sparse matrix factorization to decompose the articulatory data into interpretable gestures and gestural scores. By applying sparse constraints, the gestural scores leverage the discrete combinatorial properties of phonological gestures. Phoneme recognition experiments were additionally performed to show that gestural scores indeed code phonological information successfully. The proposed work thus makes a bridge between articulatory phonology and deep neural networks to leverage informative, intelligible, interpretable,and efficient speech representations.
翻訳日:2022-04-04 17:23:18 公開日:2022-04-01
# (参考訳) ジェネリックイベント境界キャプション:状態変化の理解のためのベンチマーク

Generic Event Boundary Captioning: A Benchmark for Status Changes Understanding ( http://arxiv.org/abs/2204.00486v1 )

ライセンス: CC BY 4.0
Yuxuan Wang, Difei Gao, Licheng Yu, Stan Weixian Lei, Matt Feiszli, Mike Zheng Shou(参考訳) 認知科学は、人間が支配的な被験者の状態変化によって分離された出来事の観点からビデオを認識することを示した。 状態の変化は新しいイベントを引き起こし、知覚される大量の冗長な情報の中で最も有用である。 しかし、従来の研究では、内部の微細な状態変化を評価せずにセグメント全体の理解に焦点を当てていた。 本稿では,Kineetic-GEBC(Gener ic Event Boundary Captioning)と呼ばれる新しいデータセットを提案する。 データセットは、12Kビデオにおけるジェネリックイベントの状態変化を記述するキャプションに関連する170万以上のバウンダリで構成されている。 この新しいデータセットでは,よりきめ細かな,堅牢で,人間的な映像理解を支援する3つのタスクを,ステータス変更を通じて提案する。 我々はデータセットの多くの代表的ベースラインを評価し、現在の最先端のバックボーンに対する新しいPD(Temporal-based Pairwise difference)モデリング手法を設計し、大幅な性能改善を実現した。 さらに, 異なる粒度の利用, 視覚的差異の表現, 状態変化の正確な局所化など, 現状の手法には依然として重大な課題があることが示された。 さらに分析した結果,我々のデータセットは,状況変化を理解するためのより強力な手法の開発を促進し,ビデオレベルの理解を改善することができることがわかった。

Cognitive science has shown that humans perceive videos in terms of events separated by state changes of dominant subjects. State changes trigger new events and are one of the most useful among the large amount of redundant information perceived. However, previous research focuses on the overall understanding of segments without evaluating the fine-grained status changes inside. In this paper, we introduce a new dataset called Kinetic-GEBC (Generic Event Boundary Captioning). The dataset consists of over 170k boundaries associated with captions describing status changes in the generic events in 12K videos. Upon this new dataset, we propose three tasks supporting the development of a more fine-grained, robust, and human-like understanding of videos through status changes. We evaluate many representative baselines in our dataset, where we also design a new TPD (Temporal-based Pairwise Difference) Modeling method for current state-of-the-art backbones and achieve significant performance improvements. Besides, the results show there are still formidable challenges for current methods in the utilization of different granularities, representation of visual difference, and the accurate localization of status changes. Further analysis shows that our dataset can drive developing more powerful methods to understand status changes and thus improve video level comprehension.
翻訳日:2022-04-04 17:14:29 公開日:2022-04-01
# (参考訳) Robust and Accurate -- ランダムな平滑化のための構成アーキテクチャ [全文訳有]

Robust and Accurate -- Compositional Architectures for Randomized Smoothing ( http://arxiv.org/abs/2204.00487v1 )

ライセンス: CC BY 4.0
Mikl\'os Z. Horv\'ath, Mark Niklas M\"uller, Marc Fischer, Martin Vechev(参考訳) ランダム化平滑化(Randomized Smoothing, RRS)は、挑戦的なタスクに対する確実な堅牢なモデルを得るための最先端のアプローチであると考えられている。 しかし、現在のRSアプローチでは、非摂動データの標準精度が大幅に低下し、現実のユーティリティが大幅に制限されている。 この制限に対処するために,保証付きスムーズな予測モデルを使用するか,保証無しでより正確な標準モデルを適用すべきかを,サンプル毎に確実に決定する合成アーキテクチャACESを提案する。 これは、従来のアプローチとは対照的に、高い標準精度と大きな証明可能な堅牢性の両方を可能にする。 ImageNetのような困難なタスクについて、例えば、$r=1.0$の$\ell_2$摂動に対して80.0%$自然精度と28.2\%$認証精度を得る。 コードとモデルはhttps://github.com/e th-sri/acesでリリースします。

Randomized Smoothing (RS) is considered the state-of-the-art approach to obtain certifiably robust models for challenging tasks. However, current RS approaches drastically decrease standard accuracy on unperturbed data, severely limiting their real-world utility. To address this limitation, we propose a compositional architecture, ACES, which certifiably decides on a per-sample basis whether to use a smoothed model yielding predictions with guarantees or a more accurate standard model without guarantees. This, in contrast to prior approaches, enables both high standard accuracies and significant provable robustness. On challenging tasks such as ImageNet, we obtain, e.g., $80.0\%$ natural accuracy and $28.2\%$ certifiable accuracy against $\ell_2$ perturbations with $r=1.0$. We release our code and models at https://github.com/e th-sri/aces.
翻訳日:2022-04-04 17:13:26 公開日:2022-04-01
# (参考訳) 変分推論を用いた解釈可能な予測のための確率的概念学習

Provable concept learning for interpretable predictions using variational inference ( http://arxiv.org/abs/2204.00492v1 )

ライセンス: CC BY 4.0
Armeen Taeb, Nicolo Ruggeri, Carina Schnuck, Fanny Yang(参考訳) 安全クリティカルなアプリケーションでは、解釈可能な説明が得られない場合、実践者はニューラルネットワークを信頼しがちである。 このような説明を提供する多くの試みは、ピクセルレベルの属性や、以前に知られていた概念について論じている。 本稿では,<emph{high-level, previously unknown concepts} の同定によって説明することを目的とする。 この目的のために,線形予測器として視覚的に解釈可能な概念を用いるVAEに基づく分類器である(C)oncept (L)earning and (P)rediction (CLAP) を導出する確率論的モデリングフレームワークを提案する。 データ生成機構が予測概念を含むと仮定すると、この手法は最適な分類精度を保ちながらそれらを識別できることを証明できる。 実世界(PlantVillageとChestXRay)のデータセットでは、CLAPが病気を分類するための解釈可能な因子を効果的に発見することを示す。

In safety critical applications, practitioners are reluctant to trust neural networks when no interpretable explanations are available. Many attempts to provide such explanations revolve around pixel level attributions or use previously known concepts. In this paper we aim to provide explanations by provably identifying \emph{high-level, previously unknown concepts}. To this end, we propose a probabilistic modeling framework to derive (C)oncept (L)earning and (P)rediction (CLAP) -- a VAE-based classifier that uses visually interpretable concepts as linear predictors. Assuming that the data generating mechanism involves predictive concepts, we prove that our method is able to identify them while attaining optimal classification accuracy. We use synthetic experiments for validation, and also show that on real-world (PlantVillage and ChestXRay) datasets, CLAP effectively discovers interpretable factors for classifying diseases.
翻訳日:2022-04-04 16:21:07 公開日:2022-04-01
# (参考訳) デジタル社会のユーザーを力づけるためにプライバシプロファイルを活用する

Leveraging Privacy Profiles to Empower Users in the Digital Society ( http://arxiv.org/abs/2204.00011v1 )

ライセンス: CC BY 4.0
Davide Di Ruscio, Paola Inverardi, Patrizio Migliarini, Phuong T. Nguyen(参考訳) 市民のプライバシーと倫理は、ますますデジタル社会によって引き起こされる懸念の中核にある。 プロファイリングユーザ(プロファイリングユーザ)は、プライバシー設定を適切に管理するために、ユーザの必要性を誘発するソフトウェアアプリケーションの標準的なプラクティスである。 ユーザーは、個人識別可能な情報を保護し、個人の倫理的好みを表現するために、ソフトウェアのプライバシー設定を適切に管理する必要がある。 個人の倫理的嗜好を反映してデジタル世界と対話することを可能にするAI技術は、信頼できるデジタル社会の鍵となる。 我々は、フィットネス領域から収集された既存のデータセットに関する実証的研究を通じて、プライバシの次元に注目し、上記の方向のステップに貢献する。 ユーザの好みに応じてユーザを区別するのに適した質問がどれかを見出す。 その結果、(ドメインに依存しないプライバシ優先に関する)セマンティックな質問のコンパクトなセットは、複雑なドメインに依存した質問よりもユーザを識別するのに役立ちます。 これは、モラルの態度が収集すべき情報の一部であるという研究の仮説を裏付ける。 この結果に基づいて,プライバシ選択に関する適切なレコメンデーションをユーザに提供可能なレコメンデーションシステムを実装した。 次に,提案手法がユーザに対して適切な設定を提供し,精度が高いことを示す。

Privacy and ethics of citizens are at the core of the concerns raised by our increasingly digital society. Profiling users is standard practice for software applications triggering the need for users, also enforced by laws, to properly manage privacy settings. Users need to manage software privacy settings properly to protect personally identifiable information and express personal ethical preferences. AI technologies that empower users to interact with the digital world by reflecting their personal ethical preferences can be key enablers of a trustworthy digital society. We focus on the privacy dimension and contribute a step in the above direction through an empirical study on an existing dataset collected from the fitness domain. We find out which set of questions is appropriate to differentiate users according to their preferences. The results reveal that a compact set of semantic-driven questions (about domain-independent privacy preferences) helps distinguish users better than a complex domain-dependent one. This confirms the study's hypothesis that moral attitudes are the relevant piece of information to collect. Based on the outcome, we implement a recommender system to provide users with suitable recommendations related to privacy choices. We then show that the proposed recommender system provides relevant settings to users, obtaining high accuracy.
翻訳日:2022-04-04 16:20:06 公開日:2022-04-01
# (参考訳) Semi-FairVAE: 逆変分オートエンコーダを用いた半教師付きフェア表現学習 [全文訳有]

Semi-FairVAE: Semi-supervised Fair Representation Learning with Adversarial Variational Autoencoder ( http://arxiv.org/abs/2204.00536v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang(参考訳) 敵対的学習(adversarial learning)は、データ表現から繊細な属性のバイアスを取り除くためにフェア表現学習で広く使われるテクニックである。 通常、センシティブな属性ラベルを予測ターゲットとして組み込む必要がある。 しかし、多くの場合において、多くのサンプルのセンシティブな属性ラベルは未知であり、観測された属性ラベルの少ないデータに基づいて強力な識別器を訓練することは困難であり、不公平な表現を生み出す可能性がある。 本稿では,ラベル付きデリケートな属性を持つデータに対する敵意的フェアモデルの依存性を低減できる,逆変分オートエンコーダに基づく半教師付きフェア表現学習手法を提案する。 より具体的には、入力データから感度属性を正確に予測することで、バイアス認識モデルを用いて、感度属性の固有バイアス情報をキャプチャし、バイアスのないモデルを用いて、逆学習を用いてバイアス情報を除去し、バイアスのない公正表現を学習する。 2つのモデルによって学習された隠れ表現は直交的に正規化される。 さらに、2つのモデルによって予測されるソフトラベルを半教師付き変分オートエンコーダに統合して入力データを再構成し、さらにエントロピー正規化を適用し、バイアスフリーモデルから推定される属性ラベルを高エントロピーにする。 このように、バイアスフリーモデルでは、入力データが十分に再構成された場合、機密属性に対する識別性が低い一方で、属性情報をよりよくキャプチャできる。 異なるタスクのための2つのデータセットに関する広範囲な実験は、感度の高い属性ラベルを持つ限られたデータの下で、優れた表現学習フェアネスを達成することができることを検証します。

Adversarial learning is a widely used technique in fair representation learning to remove the biases on sensitive attributes from data representations. It usually requires to incorporate the sensitive attribute labels as prediction targets. However, in many scenarios the sensitive attribute labels of many samples can be unknown, and it is difficult to train a strong discriminator based on the scarce data with observed attribute labels, which may lead to generate unfair representations. In this paper, we propose a semi-supervised fair representation learning approach based on adversarial variational autoencoder, which can reduce the dependency of adversarial fair models on data with labeled sensitive attributes. More specifically, we use a bias-aware model to capture inherent bias information on sensitive attribute by accurately predicting sensitive attributes from input data, and we use a bias-free model to learn debiased fair representations by using adversarial learning to remove bias information from them. The hidden representations learned by the two models are regularized to be orthogonal. In addition, the soft labels predicted by the two models are further integrated into a semi-supervised variational autoencoder to reconstruct the input data, and we apply an additional entropy regularization to encourage the attribute labels inferred from the bias-free model to be high-entropy. In this way, the bias-aware model can better capture attribute information while the bias-free model is less discriminative on sensitive attributes if the input data is well reconstructed. Extensive experiments on two datasets for different tasks validate that our approach can achieve good representation learning fairness under limited data with sensitive attribute labels.
翻訳日:2022-04-04 16:19:03 公開日:2022-04-01
# (参考訳) 統一的・効果的アンサンブル知識蒸留 [全文訳有]

Unified and Effective Ensemble Knowledge Distillation ( http://arxiv.org/abs/2204.00548v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Tao Qi and Yongfeng Huang(参考訳) 知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。 既存の手法の多くはラベル付きデータのみに留学生モデルを学習・蒸留する。 しかし、教師モデルは通常同じラベル付きデータに基づいて学習され、それらの予測はグラッドトルスラベルと高い相関関係を持つ。 したがって、学生教育のためのタスクラベルを補完する十分な知識を提供できない。 未発見のデータを蒸留することは、教師から生徒への知識伝達を高める可能性がある。 本稿では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。 異なる教師は、同じサンプルに対して様々な予測正当性を持つ可能性があるので、ラベル付きデータでは、その正当性に応じて異なる教師の予測を重み付けする。 さらに,教師アンサンブルの全体的な予測精度に基づいて蒸留損失を加重し,高品質な知識を蒸留する。 ラベルのないデータでは、予測の正確性を評価する根拠はありません。 幸いなことに,教師間の不一致はサンプル硬度を示すものであり,教師の不一致に基づく蒸留損失を重み付けし,重要なサンプルに対する知識蒸留を強調する。 4つのデータセットに対する実験により,提案手法の有効性が示された。

Ensemble knowledge distillation can extract knowledge from multiple teacher models and encode it into a single student model. Many existing methods learn and distill the student model on labeled data only. However, the teacher models are usually learned on the same labeled data, and their predictions have high correlations with groudtruth labels. Thus, they cannot provide sufficient knowledge complementary to task labels for student teaching. Distilling on unseen unlabeled data has the potential to enhance the knowledge transfer from the teachers to the student. In this paper, we propose a unified and effective ensemble knowledge distillation method that distills a single student model from an ensemble of teacher models on both labeled and unlabeled data. Since different teachers may have diverse prediction correctness on the same sample, on labeled data we weight the predictions of different teachers according to their correctness. In addition, we weight the distillation loss based on the overall prediction correctness of the teacher ensemble to distill high-quality knowledge. On unlabeled data, there is no groundtruth to evaluate prediction correctness. Fortunately, the disagreement among teachers is an indication of sample hardness, and thereby we weight the distillation loss based on teachers' disagreement to emphasize knowledge distillation on important samples. Extensive experiments on four datasets show the effectiveness of our proposed ensemble distillation method.
翻訳日:2022-04-04 16:03:56 公開日:2022-04-01
# (参考訳) Nowruz at SemEval-2022 Task 7: Transformer と Ordinal Regression でクローズテストに取り組む [全文訳有]

Nowruz at SemEval-2022 Task 7: Tackling Cloze Tests with Transformers and Ordinal Regression ( http://arxiv.org/abs/2204.00556v1 )

ライセンス: CC BY 4.0
Mohammadmahdi Nouriborji, Omid Rohanian, David Clifton(参考訳) 本稿では,前訓練されたトランスフォーマーをバックボーンとして,webサイトwikihow上で,クローズタスクの最良のフィラーを見つけるためのマルチタスク分類とランク付けのタスクを目標とした。 このシステムは2つの順序回帰成分を組み合わせて、マルチタスク学習シナリオでこのタスクに取り組みました。 共有タスクの公式リーダーボードによると、このシステムは21チーム中5位、サブタスク分類では7位にランクされた。 さらなる実験により、モデルはさらに最適化された。

This paper outlines the system using which team Nowruz participated in SemEval 2022 Task 7 Identifying Plausible Clarifications of Implicit and Underspecified Phrases for both subtasks A and B. Using a pre-trained transformer as a backbone, the model targeted the task of multi-task classification and ranking in the context of finding the best fillers for a cloze task related to instructional texts on the website Wikihow. The system employed a combination of two ordinal regression components to tackle this task in a multi-task learning scenario. According to the official leaderboard of the shared task, this system was ranked 5th in the ranking and 7th in the classification subtasks out of 21 participating teams. With additional experiments, the models have since been further optimised.
翻訳日:2022-04-04 15:55:48 公開日:2022-04-01
# (参考訳) ストリーム型音声言語理解のためのセマンティックデコーダを用いたマルチタスクRNN-T [全文訳有]

Multi-task RNN-T with Semantic Decoder for Streamable Spoken Language Understanding ( http://arxiv.org/abs/2204.00558v1 )

ライセンス: CC BY 4.0
Xuandi Fu, Feng-Ju Chang, Martin Radfar, Kai Wei, Jing Liu, Grant P. Strimel, Kanthashree Mysore Sathyendra(参考訳) E2E SLU(End-to-end Spoken Language Understanding)は、従来のカスケードパイプラインと比較して、共同最適化と低レイテンシの利点により、関心を集めている。 既存のE2E SLUモデルは通常、2段階構成に従っており、まずASR(Automatic Speech Recognition)ネットワークが書き起こしを予測して自然言語理解(NLU)モジュールに渡され、インテントやスロットタグなどのセマンティックラベルを推論する。 しかし、この設計では、書き起こし予測をしながらNLU後部を考慮せず、事前に予測されたワードピースを考慮すれば即座にNLU予測誤差を補正しない。 さらに、2段階システムのNLUモデルは、音声セグメントの処理が完了するのを待たなければならないため、ストリーミングできないため、最終的にSLUシステムのレイテンシに影響を及ぼす。 本研究では,これらの課題に対処するためのマルチタスクセマンティックトランスデューサモデルを提案する。 提案アーキテクチャは, ASR と NLU のラベルを自動回帰的に予測し, セマンティックデコーダを用いて従来予測されていたワードピースとスロットタグの両方を取り込み, 融合ネットワークを介して集約する。 産業規模のSLUと公共FSCデータセットを用いて、提案モデルがASRおよびNLUの指標に対して2段階のE2E SLUモデルより優れていることを示す。

End-to-end Spoken Language Understanding (E2E SLU) has attracted increasing interest due to its advantages of joint optimization and low latency when compared to traditionally cascaded pipelines. Existing E2E SLU models usually follow a two-stage configuration where an Automatic Speech Recognition (ASR) network first predicts a transcript which is then passed to a Natural Language Understanding (NLU) module through an interface to infer semantic labels, such as intent and slot tags. This design, however, does not consider the NLU posterior while making transcript predictions, nor correct the NLU prediction error immediately by considering the previously predicted word-pieces. In addition, the NLU model in the two-stage system is not streamable, as it must wait for the audio segments to complete processing, which ultimately impacts the latency of the SLU system. In this work, we propose a streamable multi-task semantic transducer model to address these considerations. Our proposed architecture predicts ASR and NLU labels auto-regressively and uses a semantic decoder to ingest both previously predicted word-pieces and slot tags while aggregating them through a fusion network. Using an industry scale SLU and a public FSC dataset, we show the proposed model outperforms the two-stage E2E SLU model for both ASR and NLU metrics.
翻訳日:2022-04-04 15:47:47 公開日:2022-04-01
# (参考訳) Connect, not Collapse: Unsupervised Domain Adaptationにおけるコントラスト学習の解説

Connect, Not Collapse: Explaining Contrastive Learning for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2204.00570v1 )

ライセンス: CC BY 4.0
Kendrick Shen, Robbie Jones, Ananya Kumar, Sang Michael Xie, Jeff Z. HaoChen, Tengyu Ma, and Percy Liang(参考訳) 我々は、ソースドメイン(例えば写真)からのラベル付きデータとターゲットドメインからのラベル付きデータ(例えばスケッチ)が対象ドメインの分類子を学ぶために使用される教師なしドメイン適応(uda)を検討する。 従来のudaメソッド(例えば、ドメイン敵訓練)は、対象ドメインへの一般化を改善するために、ドメイン不変機能を学ぶ。 本稿では,ラベル付きソースとターゲットデータの特徴を学習し,ラベル付きソースデータに微調整を行うコントラスト事前学習が,強力なUDA手法と競合することを示す。 しかし、対照的な事前学習は、従来の UDA の直観から逸脱して、ドメイン不変の特徴を学習しないことがわかった。 対照的な事前学習は、ドメインとクラス情報をアンタングルすることで、ドメイン間でサブテナントに異なる特徴を学習できるが、それでも対象ドメインに一般化できることを理論的に示す。 以上の結果から,UDAにはドメイン不変性が不要であることが示唆された。 私たちはベンチマークビジョンデータセットで理論を実証的に検証します。

We consider unsupervised domain adaptation (UDA), where labeled data from a source domain (e.g., photographs) and unlabeled data from a target domain (e.g., sketches) are used to learn a classifier for the target domain. Conventional UDA methods (e.g., domain adversarial training) learn domain-invariant features to improve generalization to the target domain. In this paper, we show that contrastive pre-training, which learns features on unlabeled source and target data and then fine-tunes on labeled source data, is competitive with strong UDA methods. However, we find that contrastive pre-training does not learn domain-invariant features, diverging from conventional UDA intuitions. We show theoretically that contrastive pre-training can learn features that vary subtantially across domains but still generalize to the target domain, by disentangling domain and class information. Our results suggest that domain invariance is not necessary for UDA. We empirically validate our theory on benchmark vision datasets.
翻訳日:2022-04-04 15:35:37 公開日:2022-04-01
# (参考訳) 産業生産におけるロボット協調のための高速自動物体登録 [全文訳有]

Fast and Automatic Object Registration for Human-Robot Collaboration in Industrial Manufacturing ( http://arxiv.org/abs/2204.00597v1 )

ライセンス: CC BY 4.0
Manuela Gei{\ss}, Martin Baresch, Georgios Chasparis, Edwin Schweiger, Nico Teringl, Michael Zwick(参考訳) ロボット協調作業における物体検出モデルの高速再学習のためのエンドツーエンドフレームワークを提案する。 我々のFaster R-CNNベースのセットアップは、自動画像生成とラベリング、現場でのモデル再トレーニング、FPGAエッジデバイスでの推論のワークフロー全体をカバーしています。 人間のオペレータの介入は、新しいオブジェクトをラベルと共に提供し、トレーニングプロセスを開始することを減らす。 さらに,オープンワールド認識の問題に取り組むために,新たな損失であるintraspread-objectos phere lossを提案する。 完全な解決には至らなかったが、未知の物体の偽陽性検出の回数を大幅に減少させる。

We present an end-to-end framework for fast retraining of object detection models in human-robot-collabor ation. Our Faster R-CNN based setup covers the whole workflow of automatic image generation and labeling, model retraining on-site as well as inference on a FPGA edge device. The intervention of a human operator reduces to providing the new object together with its label and starting the training process. Moreover, we present a new loss, the intraspread-objectos phere loss, to tackle the problem of open world recognition. Though it fails to completely solve the problem, it significantly reduces the number of false positive detections of unknown objects.
翻訳日:2022-04-04 15:34:29 公開日:2022-04-01
# WavFT:ラベリング・アンラベリングデータを用いた音響モデルファインタニング

WavFT: Acoustic model finetuning with labelled and unlabelled data ( http://arxiv.org/abs/2204.00348v1 )

ライセンス: Link先を確認
Utkarsh Chauhan, Vikas Joshi, Rupesh R. Mehta(参考訳) 教師なしおよび自己教師付き学習手法は、事前訓練されたモデルを改善するために、未学習のデータを活用する。 しかし,これらの手法は大量の未ラベルデータを必要としており,そのような大量のデータを持つ訓練モデルの計算コストは禁断的に高い。 私たちは、事前トレーニングではなく、微調整中にラベルなしのデータを使用することでこの問題に対処します。 ラベル付きおよび非ラベル付きデータを用いた音響モデルファインタニング(FT)を提案する。 このモデルはセノンを分類する表現を学ぶために共同で訓練され、文脈音響表現を学ぶ。 本研究の目的は,音響表現の学習に適した分類タスクに適したクロスエントロピー損失と,コントラスト損失の組み合わせである。 提案手法は,グジャラート語とベンガル語でそれぞれ11.2%,9.19%の単語誤り率(WERR)を削減した。

Unsupervised and self-supervised learning methods have leveraged unlabelled data to improve the pretrained models. However, these methods need significantly large amount of unlabelled data and the computational cost of training models with such large amount of data can be prohibitively high. We address this issue by using unlabelled data during finetuning, instead of pretraining. We propose acoustic model finetuning (FT) using labelled and unlabelled data. The model is jointly trained to learn representations to classify senones, as well as learn contextual acoustic representations. Our training objective is a combination of cross entropy loss, suitable for classification task, and contrastive loss, suitable to learn acoustic representations. The proposed approach outperforms conventional finetuning with 11.2% and 9.19% word error rate relative (WERR) reduction on Gujarati and Bengali languages respectively.
翻訳日:2022-04-04 15:26:00 公開日:2022-04-01
# 音声認識・音声強調・自己教師あり学習表現のエンドツーエンド統合

End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation ( http://arxiv.org/abs/2204.00540v1 )

ライセンス: Link先を確認
Xuankai Chang, Takashi Maekaku, Yuya Fujita, Shinji Watanabe(参考訳) 本研究は, 自己教師型学習表現(IRIS)を用いた統合音声認識(Integrated Speech Recognition)と呼ばれる, 頑健な音声認識をターゲットとしたエンドツーエンド自動音声認識(ASR)モデルを提案する。 従来のE2E ASRモデルと比較して,提案モデルでは音声強調(SE)モジュールと自己教師付き学習表現(SSLR)モジュールの2つの重要なモジュールを統合している。 SEモジュールはノイズの多い音声を強化する。 次に、SSLRモジュールは、音声認識(ASR)に使用される拡張音声から特徴を抽出する。 提案モデルを学習するために,効率的な学習手法を確立する。 モナウラルCHiME-4タスクの評価結果から,IRISモデルは単一チャネルCHiME-4ベンチマーク(実開発では2.0%,実テストでは3.9%)において,強力なトレーニング済みSSLRモジュールと微調整SEモジュールのおかげで,文献で報告された最高の性能を達成することが示された。

This work presents our end-to-end (E2E) automatic speech recognition (ASR) model targetting at robust speech recognition, called Integraded speech Recognition with enhanced speech Input for Self-supervised learning representation (IRIS). Compared with conventional E2E ASR models, the proposed E2E model integrates two important modules including a speech enhancement (SE) module and a self-supervised learning representation (SSLR) module. The SE module enhances the noisy speech. Then the SSLR module extracts features from enhanced speech to be used for speech recognition (ASR). To train the proposed model, we establish an efficient learning scheme. Evaluation results on the monaural CHiME-4 task show that the IRIS model achieves the best performance reported in the literature for the single-channel CHiME-4 benchmark (2.0% for the real development and 3.9% for the real test) thanks to the powerful pre-trained SSLR module and the fine-tuned SE module.
翻訳日:2022-04-04 15:25:47 公開日:2022-04-01
# エピポーラ焦点スペクトル:新しい光場表現と高密度視野再構成への応用

Epipolar Focus Spectrum: A Novel Light Field Representation and Application in Dense-view Reconstruction ( http://arxiv.org/abs/2204.00193v1 )

ライセンス: Link先を確認
Yaning Li, Xue Wang, Hao Zhu, Guoqing Zhou, and Qing Wang(参考訳) エピポーラ平面画像(epi)やサブアパーチャ画像といった既存の光場表現は、ビュー全体の構造的特徴を考慮していないため、フォローアップタスクには追加の差異と空間構造手がかりが必要である。 また、オクルージョンや大きな格差シーンを扱うのに苦労している。 そこで本研究では,EPIスペクトルを再構成することで,新しいエピポーラ焦点スペクトル(EFS)表現を提案する。 EPIラインが特定の深さに対応する古典的なEPI表現とは異なり、EFSラインからビューへの1対1マッピングが存在する。 したがって、疎サンプリング光場と比較して、同じ視野(FoV)を持つ密サンプリング光は、対応する EFS において同じ開口角を持つ二重錐状領域において、そのような線形構造のよりコンパクトな分布をもたらす。 したがって、EFS表現はシーン深さに不変である。 その効果を示すために,光電界再構成のための訓練可能なefsベースのパイプラインを開発した。このパイプラインでは,光電界が狭く,特に重度な閉塞と大きな偏差がある場合において,透過型efsラインを補償することにより,密集した光電界を再構築することができる。 合成および実世界の両方のデータセットに対する実験結果は,SOTA法よりも提案手法の有効性と優位性を示す。

Existing light field representations, such as epipolar plane image (EPI) and sub-aperture images, do not consider the structural characteristics across the views, so they usually require additional disparity and spatial structure cues for follow-up tasks. Besides, they have difficulties dealing with occlusions or larger disparity scenes. To this end, this paper proposes a novel Epipolar Focus Spectrum (EFS) representation by rearranging the EPI spectrum. Different from the classical EPI representation where an EPI line corresponds to a specific depth, there is a one-to-one mapping from the EFS line to the view. Accordingly, compared to a sparsely-sampled light field, a densely-sampled one with the same field of view (FoV) leads to a more compact distribution of such linear structures in the double-cone-shaped region with the identical opening angle in its corresponding EFS. Hence the EFS representation is invariant to the scene depth. To demonstrate its effectiveness, we develop a trainable EFS-based pipeline for light field reconstruction, where a dense light field can be reconstructed by compensating the "missing EFS lines" given a sparse light field, yielding promising results with cross-view consistency, especially in the presence of severe occlusion and large disparity. Experimental results on both synthetic and real-world datasets demonstrate the validity and superiority of the proposed method over SOTA methods.
翻訳日:2022-04-04 15:24:25 公開日:2022-04-01
# ニューラルネット分類器による顔識別

Face identification by means of a neural net classifier ( http://arxiv.org/abs/2204.00305v1 )

ライセンス: Link先を確認
Virginia Espinosa-Duro, Marcos Faundez-Zanuy(参考訳) 本稿では,固有面理論とニューラルネットを組み合わせた新しい顔識別法について述べる。 固有顔法を用いて入力画像の寸法を低減し,その識別処理を行うニューラルネットワーク分類器を提案する。 提案手法は,表情,表情の細部,照明条件の変動を考慮した顔認識を行う。 認識率は87%を超え、トルコとペントランドの古典的な手法は75.5%に達している。

This paper describes a novel face identification method that combines the eigenfaces theory with the Neural Nets. We use the eigenfaces methodology in order to reduce the dimensionality of the input image, and a neural net classifier that performs the identification process. The method presented recognizes faces in the presence of variations in facial expression, facial details and lighting conditions. A recognition rate of more than 87% has been achieved, while the classical method of Turk and Pentland achieves a 75.5%.
翻訳日:2022-04-04 15:24:02 公開日:2022-04-01
# 光フィールド生成と実デフォーカス画像を用いたデブラル学習

Learning to Deblur using Light Field Generated and Real Defocus Images ( http://arxiv.org/abs/2204.00367v1 )

ライセンス: Link先を確認
Lingyan Ruan, Bin Chen, Jizhou Li, Miuling Lam(参考訳) デフォーカス・デブロワーリングは、デフォーカス・ボケの性質が空間的に変化するため、困難な作業である。 深層学習のアプローチは画像復元の問題を解決する上で大きな可能性を秘めているが、デフォーカスの除去は、収集が難しいオールインフォーカスとデフォーカスの画像ペアからなる正確なトレーニングデータを要求する。 単焦点画像対と全焦点画像対の画素ワイズ対応が達成できない。 光場の合成開口は、正確な画像対を生成するより信頼できる方法であることが示唆されている。 しかし、電界データから発生するデフォーカスのぼかしは、従来のデジタルカメラで撮影された画像とは異なる。 本稿では,その強度を活かし,光場の欠点を克服した,新しい深部デフォーカスデブラリングネットワークを提案する。 まず,高精細な画像対応のために,ライトフィールド生成データセット上でネットワークをトレーニングする。 次に、2ショット法で収集した他のデータセットに特徴損失を用いてネットワークを微調整し、2つの領域に存在するデフォーカスのぼかしの違いを緩和する。 この戦略は非常に効果的であることが証明され、複数のテストセット上で定量的かつ質的に最先端のパフォーマンスを達成することができる。 各ネットワークモジュールが最終的な性能に与える影響を解析するために、広範囲にわたるアブレーション研究が行われた。

Defocus deblurring is a challenging task due to the spatially varying nature of defocus blur. While deep learning approach shows great promise in solving image restoration problems, defocus deblurring demands accurate training data that consists of all-in-focus and defocus image pairs, which is difficult to collect. Naive two-shot capturing cannot achieve pixel-wise correspondence between the defocused and all-in-focus image pairs. Synthetic aperture of light fields is suggested to be a more reliable way to generate accurate image pairs. However, the defocus blur generated from light field data is different from that of the images captured with a traditional digital camera. In this paper, we propose a novel deep defocus deblurring network that leverages the strength and overcomes the shortcoming of light fields. We first train the network on a light field-generated dataset for its highly accurate image correspondence. Then, we fine-tune the network using feature loss on another dataset collected by the two-shot method to alleviate the differences between the defocus blur exists in the two domains. This strategy is proved to be highly effective and able to achieve the state-of-the-art performance both quantitatively and qualitatively on multiple test sets. Extensive ablation studies have been conducted to analyze the effect of each network module to the final performance.
翻訳日:2022-04-04 15:23:56 公開日:2022-04-01
# 完全畳み込みニューラルネットワークによる小惑星の自律クレーター検出

Autonomous crater detection on asteroids using a fully-convolutional neural network ( http://arxiv.org/abs/2204.00477v1 )

ライセンス: Link先を確認
Francesco Latorre, Dario Spiller and Fabio Curti(参考訳) 本稿では,完全畳み込みニューラルネットワークU-Netを用いた自律クレーター検出のCeresへの適用について述べる。 u-netは、lroと手動クレーターカタログから収集されたデータに基づいて、月の地球形態モザイクの光学画像に基づいて訓練されている。 月で訓練されたネットワークは、ceresの夜明けの光学画像でテストされる。 訓練されたモデルは、Ceresの100、500、1000の画像を使って微調整されている。 テスト性能は、画像を見ることのなかった350で測定され、それぞれ96.24%、96.95%、97.19%の精度に達した。 これは、月とケレスに固有の違いがあるにもかかわらず、TLは奨励的な結果をもたらすことを意味する。 U-Netの出力には予測クレーターが含まれており、画像二項化のグローバルしきい値処理と、画素空間におけるクレーターの位置と半径を抽出するためのテンプレートマッチングアルゴリズムが後処理される。 ポストプロセスされたクレーターは、精度、リコール、f1スコアなどの画像セグメンテーションメトリクスを計算するために、地上の真理データと比較される。 これらの指標は計算され、その効果はクレーターの自動カタログ作成や光学ナビゲーションなどのタスクで議論される。

This paper shows the application of autonomous Crater Detection using the U-Net, a Fully-Convolutional Neural Network, on Ceres. The U-Net is trained on optical images of the Moon Global Morphology Mosaic based on data collected by the LRO and manual crater catalogues. The Moon-trained network will be tested on Dawn optical images of Ceres: this task is accomplished by means of a Transfer Learning (TL) approach. The trained model has been fine-tuned using 100, 500 and 1000 additional images of Ceres. The test performance was measured on 350 never before seen images, reaching a testing accuracy of 96.24%, 96.95% and 97.19%, respectively. This means that despite the intrinsic differences between the Moon and Ceres, TL works with encouraging results. The output of the U-Net contains predicted craters: it will be post-processed applying global thresholding for image binarization and a template matching algorithm to extract craters positions and radii in the pixel space. Post-processed craters will be counted and compared to the ground truth data in order to compute image segmentation metrics: precision, recall and F1 score. These indices will be computed, and their effect will be discussed for tasks such as automated crater cataloguing and optical navigation.
翻訳日:2022-04-04 15:22:51 公開日:2022-04-01
# 周波数LowCut Pooling -- 破滅的なオーバーフィッティングに対するプラグ&プレイ

FrequencyLowCut Pooling -- Plug & Play against Catastrophic Overfitting ( http://arxiv.org/abs/2204.00491v1 )

ライセンス: Link先を確認
Julia Grabinski, Steffen Jung, Janis Keuper and Margret Keuper(参考訳) 過去数年間、畳み込みニューラルネットワーク(cnns)は、幅広いコンピュータビジョンタスクにおいて、ニューラルネットワークアーキテクチャを支配してきた。 画像と信号処理の観点からすると、ほとんどのcnnの固有の空間ピラミッド設計は、サンプリング定理のような基本的な信号処理法則に違反しているように見えるため、この成功は少々驚きかもしれない。 しかし, モデル精度に悪影響を及ぼさないため, モデルロバスト性が注目されるようになるまで, この問題は広く無視されてきた。 敵対的攻撃と分布シフトの文脈における最近の研究[17]は、結局、cnnの脆弱性と、ダウンサンプリング操作の貧弱さによって引き起こされたエイリアスアーティファクトとの間に強い相関があることを示した。 本稿では,これらの知見に基づいて,任意のCNNアーキテクチャに簡単に接続可能なフリーダウンサンプリング操作を提案する。 我々の実験は、単純かつ高速なFGSM逆行訓練と組み合わせることで、ハイパーパラメータフリーオペレーターがモデル堅牢性を大幅に改善し、破滅的なオーバーフィッティングを回避することを示した。

Over the last years, Convolutional Neural Networks (CNNs) have been the dominating neural architecture in a wide range of computer vision tasks. From an image and signal processing point of view, this success might be a bit surprising as the inherent spatial pyramid design of most CNNs is apparently violating basic signal processing laws, i.e. Sampling Theorem in their down-sampling operations. However, since poor sampling appeared not to affect model accuracy, this issue has been broadly neglected until model robustness started to receive more attention. Recent work [17] in the context of adversarial attacks and distribution shifts, showed after all, that there is a strong correlation between the vulnerability of CNNs and aliasing artifacts induced by poor down-sampling operations. This paper builds on these findings and introduces an aliasing free down-sampling operation which can easily be plugged into any CNN architecture: FrequencyLowCut pooling. Our experiments show, that in combination with simple and fast FGSM adversarial training, our hyper-parameter free operator significantly improves model robustness and avoids catastrophic overfitting.
翻訳日:2022-04-04 15:22:29 公開日:2022-04-01
# LoCoV:ポートフォリオ最適化のための低次元共分散投票アルゴリズム

LoCoV: low dimension covariance voting algorithm for portfolio optimization ( http://arxiv.org/abs/2204.00204v1 )

ライセンス: Link先を確認
JunTao Duan, Ionel Popescu(参考訳) 最小分散ポートフォリオ最適化は最適なポートフォリオを得るために正確な共分散推定器に依存する。 しかし、通常、サンプルサイズ$n$が資産数$p$よりも大きくない場合、サンプル共分散行列による大きな誤差に苦しむ。 ポートフォリオ最適化のランダムマトリクスを解析し,サンプル最適ポートフォリオ重量における誤差の順序を同定し,サンプル使用時のポートフォリオリスクが過小評価されていることを示す。 また,ランダムサンプルから受け継いだ誤差を低減させるロコフ法(low dimension covariance voting)を提案する。 様々な実験から、LoCoVは古典的手法よりも大きなマージンで優れていることが示された。

Minimum-variance portfolio optimizations rely on accurate covariance estimator to obtain optimal portfolios. However, it usually suffers from large error from sample covariance matrix when the sample size $n$ is not significantly larger than the number of assets $p$. We analyze the random matrix aspects of portfolio optimization and identify the order of errors in sample optimal portfolio weight and show portfolio risk are underestimated when using samples. We also provide LoCoV (low dimension covariance voting) algorithm to reduce error inherited from random samples. From various experiments, LoCoV is shown to outperform the classical method by a large margin.
翻訳日:2022-04-04 15:21:54 公開日:2022-04-01
# ユーザ定義によるキーワードスポッティングにおける自己教師付き学習とメタラーニングの統合効率について

On the Efficiency of Integrating Self-supervised Learning and Meta-learning for User-defined Few-shot Keyword Spotting ( http://arxiv.org/abs/2204.00352v1 )

ライセンス: Link先を確認
Wei-Tsung Kao, Yuen-Kwei Wu, Chia Ping Chen, Zhi-Sheng Chen, Yu-Pao Tsai, Hung-Yi Lee(参考訳) ユーザ定義キーワードスポッティングは、ユーザが定義する新しい音声用語を検出するタスクである。 これは、ユーザが多くの例を提供することで、所望のキーワードを定義できないため、数発の学習問題と見なすことができる。 この問題を解決するために、従来の研究は自己教師付き学習モデルやメタ学習アルゴリズムを適用しようとしていた。 しかし,自己指導型学習とメタラーニングが相補的であるか否かは明らかであり,この2つのアプローチの組み合わせは,数発のキーワード発見に最も有効である。 本研究では,様々な自己教師付き学習モデルを活用し,様々なメタ学習アルゴリズムと組み合わせることで,これらの質問を体系的に研究する。 この結果から,HuBERTとMatching Networkを組み合わせることで,最も優れた結果が得られ,少数例の変更に対して堅牢であることがわかった。

User-defined keyword spotting is a task to detect new spoken terms defined by users. This can be viewed as a few-shot learning problem since it is unreasonable for users to define their desired keywords by providing many examples. To solve this problem, previous works try to incorporate self-supervised learning models or apply meta-learning algorithms. But it is unclear whether self-supervised learning and meta-learning are complementary and which combination of the two types of approaches is most effective for few-shot keyword discovery. In this work, we systematically study these questions by utilizing various self-supervised learning models and combining them with a wide variety of meta-learning algorithms. Our result shows that HuBERT combined with Matching network achieves the best result and is robust to the changes of few-shot examples.
翻訳日:2022-04-04 15:19:06 公開日:2022-04-01
# DNNを用いた安全クリティカルシステムにおけるハザードトリガー現象のシミュレータによる説明とデバッグ

Simulator-based explanation and debugging of hazard-triggering events in DNN-based safety-critical systems ( http://arxiv.org/abs/2204.00480v1 )

ライセンス: Link先を確認
Hazem Fahmy, Fabrizio Pastore, Lionel Briand(参考訳) 安全クリティカルなシステムでDeep Neural Networks(DNN)を使用する場合、エンジニアはテスト中に観察されたDNNエラーに関連する安全性リスクを決定する必要がある。 画像を処理するDNNでは、エンジニアがすべてのエラー誘発画像を視覚的に検査し、それらの共通特性を決定する。 このような特徴は、安全分析に必須の入力であるハザードトリガリングイベント(例えば、低照度)に対応する。 情報的ではあるが、そのような活動は高価でエラーを起こしやすい。 このような安全分析の実践を支援するため,実世界の誤り生成における共通点の読みやすい記述を生成する手法であるSEDEを提案し,効果的なリトレーニングによってDNNを改善する。 SEDEは、サイバー物理システムで一般的に使用されるシミュレータの可用性を活用している。 sedeは、テストセット内のエラーを誘発する実世界画像と類似した画像を生成するために、遺伝的アルゴリズムに依存しており、ルール学習アルゴリズムを使用して、シミュレータパラメータの値で共通性をキャプチャする表現を導出する。 派生した式は、DNNを再トレーニングし改善するために追加のイメージを生成するために使用される。 DNNが車内検知タスクを実行することで、SEDEはDNNの精度低下につながるハザードトリガリングイベントをうまく特徴付けることができた。 また、SEDEはDNNの精度を最大18ポイント向上するために再トレーニングを可能にした。

When Deep Neural Networks (DNNs) are used in safety-critical systems, engineers should determine the safety risks associated with DNN errors observed during testing. For DNNs processing images, engineers visually inspect all error-inducing images to determine common characteristics among them. Such characteristics correspond to hazard-triggering events (e.g., low illumination) that are essential inputs for safety analysis. Though informative, such activity is expensive and error-prone. To support such safety analysis practices, we propose SEDE, a technique that generates readable descriptions for commonalities in error-inducing, real-world images and improves the DNN through effective retraining. SEDE leverages the availability of simulators, which are commonly used for cyber-physical systems. SEDE relies on genetic algorithms to drive simulators towards the generation of images that are similar to error-inducing, real-world images in the test set; it then leverages rule learning algorithms to derive expressions that capture commonalities in terms of simulator parameter values. The derived expressions are then used to generate additional images to retrain and improve the DNN. With DNNs performing in-car sensing tasks, SEDE successfully characterized hazard-triggering events leading to a DNN accuracy drop. Also, SEDE enabled retraining to achieve significant improvements in DNN accuracy, up to 18 percentage points.
翻訳日:2022-04-04 15:18:50 公開日:2022-04-01
# 風速予測のための物理インフォームド浅層機械学習

Physics Informed Shallow Machine Learning for Wind Speed Prediction ( http://arxiv.org/abs/2204.00495v1 )

ライセンス: Link先を確認
Daniele Lagomarsino-Oneto, Giacomo Meanti, Nicol\`o Pagliana, Alessandro Verri, Andrea Mazzino, Lorenzo Rosasco, Agnese Seminara(参考訳) 風力予測能力は、エネルギー生産と天気予報の両方に不可欠である。 従来の予測の基礎となるメカニカルモデルは、地面の近くではうまく機能しない。 本稿では,教師付き学習に基づく代替データ駆動アプローチを提案する。 イタリア中部と北西の2つの地域(アブルッツォとリグリア)の32箇所で10mの高さの風速計から測定した膨大な風力データセットを分析した。 我々は,過去の風の歴史を用いて教師付き学習アルゴリズムを訓練し,その価値を未来(水平)に予測する。 1つの位置と時間軸のデータを使用して、入出力変数、入力のメモリ、線形学習モデルと非線形学習モデルが異なるいくつかのアルゴリズムを体系的に比較する。 そして、すべての場所で最高のアルゴリズムのパフォーマンスと予測の地平線を比較します。 最適設計と性能は場所によって異なることがわかった。 再現可能な日周期の存在が,この変動を理解する根拠となることを実証した。 最後に,最先端のアルゴリズムと系統的な比較を行い,モデルが正確に設計されている場合,浅いアルゴリズムはより複雑な深層アーキテクチャと競合することを示した。

The ability to predict wind is crucial for both energy production and weather forecasting. Mechanistic models that form the basis of traditional forecasting perform poorly near the ground. In this paper, we take an alternative data-driven approach based on supervised learning. We analyze a massive dataset of wind measured from anemometers located at 10 m height in 32 locations in two central and north west regions of Italy (Abruzzo and Liguria). We train supervised learning algorithms using the past history of wind to predict its value at a future time (horizon). Using data from a single location and time horizon we compare systematically several algorithms where we vary the input/output variables, the memory of the input and the linear vs non-linear learning model. We then compare performance of the best algorithms across all locations and forecasting horizons. We find that the optimal design as well as its performance vary with the location. We demonstrate that the presence of a reproducible diurnal cycle provides a rationale to understand this variation. We conclude with a systematic comparison with state of the art algorithms and show that, when the model is accurately designed, shallow algorithms are competitive with more complex deep architectures.
翻訳日:2022-04-04 15:18:27 公開日:2022-04-01
# ダンス映像からの複雑な音楽生成のための量子化GAN

Quantized GAN for Complex Music Generation from Dance Videos ( http://arxiv.org/abs/2204.00604v1 )

ライセンス: Link先を確認
Ye Zhu, Kyle Olszewski, Yu Wu, Panos Achlioptas, Menglei Chai, Yan Yan and Sergey Tulyakov(参考訳) D2M-GAN(Dance2Music- GAN、Dance2Music-GAN)は、ダンスビデオに条件付けされた複雑な音楽サンプルを生成する新しいマルチモーダルフレームワークである。 提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。 シンボリックなオーディオ表現(例えばmidi)を用いて特定の種類のモノインストゥルメンタルな音を生成する既存の条件付き音楽生成作品(例えば、midi)とは異なり、本作品では、ベクトル量子化(vq)オーディオ表現を用いて複雑なスタイル(例えば、ポップ、ブレイクダンスなど)のダンス音楽を生成し、その一般性とそのシンボリックおよび連続的な表現の抽象化能力の両方を活用する。 複数のデータセットで広範な実験を行い、包括的な評価プロトコルに従って、いくつかの代替案に対して、このアプローチのジェネレーティブ品質を評価する。 提案手法の有効性を明らかにするために,音楽の一貫性,ビート対応,音楽の多様性を定量的に測定した。 最後に重要なこととして、私たちは、現実世界のアプリケーションにおける我々のアプローチの有効性をさらに実証するために使用される、野生のtiktokビデオの難しいダンス音楽データセットをキュレーションします。

We present Dance2Music-GAN (D2M-GAN), a novel adversarial multi-modal framework that generates complex musical samples conditioned on dance videos. Our proposed framework takes dance video frames and human body motion as input, and learns to generate music samples that plausibly accompany the corresponding input. Unlike most existing conditional music generation works that generate specific types of mono-instrumental sounds using symbolic audio representations (e.g., MIDI), and that heavily rely on pre-defined musical synthesizers, in this work we generate dance music in complex styles (e.g., pop, breakdancing, etc.) by employing a Vector Quantized (VQ) audio representation, and leverage both its generality and the high abstraction capacity of its symbolic and continuous counterparts. By performing an extensive set of experiments on multiple datasets, and following a comprehensive evaluation protocol, we assess the generative quality of our approach against several alternatives. The quantitative results, which measure the music consistency, beats correspondence, and music diversity, clearly demonstrate the effectiveness of our proposed method. Last but not least, we curate a challenging dance-music dataset of in-the-wild TikTok videos, which we use to further demonstrate the efficacy of our approach in real-world applications - and which we hope to serve as a starting point for relevant future research.
翻訳日:2022-04-04 15:16:48 公開日:2022-04-01
# ロバスト入射ニューラルネットワークとフィードフォワードニューラルネットワークの時間的到達性の比較解析

Comparative Analysis of Interval Reachability for Robust Implicit and Feedforward Neural Networks ( http://arxiv.org/abs/2204.00187v1 )

ライセンス: Link先を確認
Alexander Davydov, Saber Jafarpour, Matthew Abate, Francesco Bullo, Samuel Coogan(参考訳) 我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。 INNは、暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスであり、従来のディープニューラルネットワークよりもいくつかの顕著な利点を示すことが示されている。 まず、入力出力マップの最も厳密な長方形オーバー近似を提供するニューラルネットワークの厳密な包摂関数が、局所リプシッツ定数のよく研究された頑健性測定よりも強固性保証をもたらすことを確かめる。 リプシッツ定数と同様に、密包摂関数は計算的に取得が困難であり、INNに対する密包摂関数の計算効率の良い推定値を得るために混合単調性と縮合理論を用いる。 提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には優れていることを示す。 我々は、ロバスト INN をトレーニングするための新しい最適化問題を設計し、適切にトレーニングされた INN がフィードフォワードネットワークよりも堅牢であることを示す実証的な証拠を提供する。

We use interval reachability analysis to obtain robustness guarantees for implicit neural networks (INNs). INNs are a class of implicit learning models that use implicit equations as layers and have been shown to exhibit several notable benefits over traditional deep neural networks. We first establish that tight inclusion functions of neural networks, which provide the tightest rectangular over-approximation of an input-output map, lead to sharper robustness guarantees than the well-studied robustness measures of local Lipschitz constants. Like Lipschitz constants, tight inclusions functions are computationally challenging to obtain, and we thus propose using mixed monotonicity and contraction theory to obtain computationally efficient estimates of tight inclusion functions for INNs. We show that our approach performs at least as well as, and generally better than, applying state-of-the-art interval bound propagation methods to INNs. We design a novel optimization problem for training robust INNs and we provide empirical evidence that suitably-trained INNs can be more robust than comparably-trained feedforward networks.
翻訳日:2022-04-04 15:16:24 公開日:2022-04-01
# デジタル画像相関測定から生体組織をモデル化する物理誘導ニューラルオペレーター学習手法

A Physics-Guided Neural Operator Learning Approach to Model Biological Tissues from Digital Image Correlation Measurements ( http://arxiv.org/abs/2204.00205v1 )

ライセンス: Link先を確認
Huaiqian You, Quinn Zhang, Colton J. Ross, Chung-Hao Lee, Ming-Chen Hsu, Yue Yu(参考訳) 本稿では, 生体組織モデリングのためのデータ駆動ワークフローについて述べる。このワークフローは, 特定の構成モデル形式を仮定せず, 材料ミクロ構造に関する知識も持たずに, 未知の負荷シナリオ下でのデジタル画像相関(DIC)測定に基づいて変位場を予測することを目的としている。 この目的のために, ブタ三尖弁前葉部における複数の二軸伸展プロトコルのdic変位追跡測定から材料データベースを構築し, ニューラルオペレータ学習モデルを構築した。 材料応答は負荷から変位場への解演算子としてモデル化され、材料微細構造特性はデータから暗黙的に学習され、ネットワークパラメータに自然に埋め込まれる。 ローディングプロトコルの様々な組み合わせを用いて, フェノメノロジー・ファング型モデルに基づく有限要素解析と, このフレームワークの予測性を比較した。 分布試験から, 本手法の予測性は, 異なる荷重条件に対して良好な一般化性を示し, 従来の構成構成モデルよりも約1桁高い値を示した。 分配外負荷比をテストすると、ニューラル演算子学習アプローチはより効果的になる。 フレームワークの一般化性を改善するために,部分物理学知識を取り入れた物理誘導型ニューラル演算子学習モデルを提案する。 本手法は,小変形機構におけるモデル外挿性能の向上を図っている。 以上の結果から, 従来の構成的モデリングよりも, データ駆動型アプローチは, 物理制約から十分なデータカバレッジやガイダンスを得られることが示唆された。

We present a data-driven workflow to biological tissue modeling, which aims to predict the displacement field based on digital image correlation (DIC) measurements under unseen loading scenarios, without postulating a specific constitutive model form nor possessing knowledges on the material microstructure. To this end, a material database is constructed from the DIC displacement tracking measurements of multiple biaxial stretching protocols on a porcine tricuspid valve anterior leaflet, with which we build a neural operator learning model. The material response is modeled as a solution operator from the loading to the resultant displacement field, with the material microstructure properties learned implicitly from the data and naturally embedded in the network parameters. Using various combinations of loading protocols, we compare the predictivity of this framework with finite element analysis based on the phenomenological Fung-type model. From in-distribution tests, the predictivity of our approach presents good generalizability to different loading conditions and outperforms the conventional constitutive modeling at approximately one order of magnitude. When tested on out-of-distribution loading ratios, the neural operator learning approach becomes less effective. To improve the generalizability of our framework, we propose a physics-guided neural operator learning model via imposing partial physics knowledge. This method is shown to improve the model's extrapolative performance in the small-deformation regime. Our results demonstrate that with sufficient data coverage and/or guidance from partial physics constraints, the data-driven approach can be a more effective method for modeling biological materials than the traditional constitutive modeling.
翻訳日:2022-04-04 15:16:02 公開日:2022-04-01
# 雑音データの存在下でのパラメトリックな対流拡散反応問題に対する機械学習による階層モデル削減

Hierarchical model reduction driven by machine learning for parametric advection-diffusion- reaction problems in the presence of noisy data ( http://arxiv.org/abs/2204.00538v1 )

ライセンス: Link先を確認
Massimiliano Lupo Pasini, Simona Perotto(参考訳) 本稿では,雑音データの存在下で,パラメトリック楕円問題に対する信頼度低減モデルを生成する新しい手法を提案する。 基準モデル縮小法は、オフライン/オンラインのパラダイムに従って階層モデル還元と標準の固有直交分解を組み合わせた方向HiPOD法である。 本稿では,問題データがノイズの影響を受ければ,方向方向のHiPODが精度的にゆるめられることを示す。 これは、オンラインフェーズを駆動する補間によるもので、定義上はノイズの傾向を再現するためである。 この限界を克服するため、無関係な非構造雑音からデータ中の関連する物理的特徴を識別する機械学習適合モデルに補間を置き換える。 予備的な数値評価は、新しいアプローチの可能性を確認するものである。

We propose a new approach to generate a reliable reduced model for a parametric elliptic problem, in the presence of noisy data. The reference model reduction procedure is the directional HiPOD method, which combines Hierarchical Model reduction with a standard Proper Orthogonal Decomposition, according to an offline/online paradigm. In this paper we show that directional HiPOD looses in terms of accuracy when problem data are affected by noise. This is due to the interpolation driving the online phase, since it replicates, by definition, the noise trend. To overcome this limit, we replace interpolation with Machine Learning fitting models which better discriminate relevant physical features in the data from irrelevant unstructured noise. The numerical assessment, although preliminary, confirms the potentialities of the new approach.
翻訳日:2022-04-04 15:15:34 公開日:2022-04-01
# トポロジー最適化による連合エッジ学習の高速化

Accelerating Federated Edge Learning via Topology Optimization ( http://arxiv.org/abs/2204.00489v1 )

ライセンス: Link先を確認
Shanfeng Huang, Zezhong Zhang, Shuai Wang, Rui Wang, Kaibin Huang(参考訳) フェデレートエッジラーニング(FEEL)は、プライバシー保護の分散ラーニングを実現するための有望なパラダイムとして考えられている。 しかし、ストラグラーデバイスが存在するため、過剰な学習時間を消費する。 本稿では,新しいトポロジ最適化フェデレーションエッジ学習(TOFEL)手法を提案し,フェデレーション学習における不均一性問題に対処し,通信・計算効率を向上させる。 具体的には、集約トポロジと計算速度を協調的に最適化する問題を定式化し、エネルギー消費と遅延の重み付け和を最小化する。 混合整数非線形問題を解くために,軽度条件下で原始問題の定常点に収束するペナルティに基づく連続凸近似の新しい解法を提案する。 リアルタイム意思決定を容易にするために、深層ニューラルネットワーク(DNN)をオフラインでトレーニングし、ペナルティベースの手法を模倣し、訓練された模倣DNNをオンライン推論のためにエッジデバイスに展開する模倣学習法を開発した。 これにより、効率的な模倣学習ベースのアプローチがTOFELフレームワークにシームレスに統合される。 シミュレーションの結果,提案手法が連合学習プロセスを加速し,高いエネルギー効率を実現することを示す。 さらに,CARLAシミュレータにおける多車点クラウドデータセットを用いた3次元物体検出手法を適用した。 その結果,同じ資源と期限制約を持つ従来の設計よりもtofelスキームの学習性能が優れていることが確認された。

Federated edge learning (FEEL) is envisioned as a promising paradigm to achieve privacy-preserving distributed learning. However, it consumes excessive learning time due to the existence of straggler devices. In this paper, a novel topology-optimized federated edge learning (TOFEL) scheme is proposed to tackle the heterogeneity issue in federated learning and to improve the communication-and-co mputation efficiency. Specifically, a problem of jointly optimizing the aggregation topology and computing speed is formulated to minimize the weighted summation of energy consumption and latency. To solve the mixed-integer nonlinear problem, we propose a novel solution method of penalty-based successive convex approximation, which converges to a stationary point of the primal problem under mild conditions. To facilitate real-time decision making, an imitation-learning based method is developed, where deep neural networks (DNNs) are trained offline to mimic the penalty-based method, and the trained imitation DNNs are deployed at the edge devices for online inference. Thereby, an efficient imitate-learning based approach is seamlessly integrated into the TOFEL framework. Simulation results demonstrate that the proposed TOFEL scheme accelerates the federated learning process, and achieves a higher energy efficiency. Moreover, we apply the scheme to 3D object detection with multi-vehicle point cloud datasets in the CARLA simulator. The results confirm the superior learning performance of the TOFEL scheme over conventional designs with the same resource and deadline constraints.
翻訳日:2022-04-04 15:15:04 公開日:2022-04-01
# (参考訳) シームズ表現学習における非対称性の重要性について [全文訳有]

On the Importance of Asymmetry for Siamese Representation Learning ( http://arxiv.org/abs/2204.00613v1 )

ライセンス: CC BY 4.0
Xiao Wang, Haoqi Fan, Yuandong Tian, Daisuke Kihara, Xinlei Chen(参考訳) 視覚表現学習のための近年の自己教師型フレームワークの多くは、ある種のシームズネットワークに基づいている。 このようなネットワークは、2つの並列エンコーダと概念的に対称であるが、多くのメカニズムが対称性を破るために考案されるため、実際は非対称である。 本研究では,ネットワーク内の2つのエンコーダを明示的に区別することにより,非対称性の重要性に関する公式な研究を行う。 私たちの重要な洞察は、ソースよりもターゲットのばらつきが比較的低いことが、一般的に学習に役立ちます。 これは分散指向設計の異なる5つのケーススタディの結果によって実証的に正当化され、ベースラインに関する予備的な理論的分析と一致している。 さらに、非対称設計の改善により、より長いトレーニングスケジュール、複数のフレームワーク、新しいバックボーンが一般化される。 最後に、いくつかの非対称設計の組合せ効果は、imagenet線形プローブにおける最先端精度と下流転送における競合結果を達成する。 我々は、シームズ表現学習のための非対称性の活用により多くの研究を刺激することを期待している。

Many recent self-supervised frameworks for visual representation learning are based on certain forms of Siamese networks. Such networks are conceptually symmetric with two parallel encoders, but often practically asymmetric as numerous mechanisms are devised to break the symmetry. In this work, we conduct a formal study on the importance of asymmetry by explicitly distinguishing the two encoders within the network -- one produces source encodings and the other targets. Our key insight is keeping a relatively lower variance in target than source generally benefits learning. This is empirically justified by our results from five case studies covering different variance-oriented designs, and is aligned with our preliminary theoretical analysis on the baseline. Moreover, we find the improvements from asymmetric designs generalize well to longer training schedules, multiple other frameworks and newer backbones. Finally, the combined effect of several asymmetric designs achieves a state-of-the-art accuracy on ImageNet linear probing and competitive results on downstream transfer. We hope our exploration will inspire more research in exploiting asymmetry for Siamese representation learning.
翻訳日:2022-04-04 15:13:11 公開日:2022-04-01
# コンサルテーションノート作成における人的評価と自動メトリクスとの相関

Human Evaluation and Correlation with Automatic Metrics in Consultation Note Generation ( http://arxiv.org/abs/2204.00447v1 )

ライセンス: Link先を確認
Francesco Moramarco, Alex Papadopoulos Korfiatis, Mark Perera, Damir Juric, Jack Flann, Ehud Reiter, Anya Belz, Aleksandar Savkov(参考訳) 近年,機械学習モデルが臨床コンサルテーションノートの作成において急速に改善しつつあるが,臨床医と患者の臨床安全性に与える影響を理解するために,生成されたコンサルテーションノートを適切に評価する方法は少ない。 これを解決するために,5人の臨床医が診察ノートを幅広く評価する。 (i)57回模式相談を聴く。 (二)自筆自筆 (iii)自動生成音符の編集後、及び (iv) 量的および定性的両方の誤りを抽出する。 次に,18の自動品質指標と人間の判断との相関研究を行った。 単純でキャラクタベースのlevenshtein距離メトリックは、bertscoreのような一般的なモデルベースのメトリクスと同等に機能する。 すべての発見とアノテーションはオープンソースです。

In recent years, machine learning models have rapidly become better at generating clinical consultation notes; yet, there is little work on how to properly evaluate the generated consultation notes to understand the impact they may have on both the clinician using them and the patient's clinical safety. To address this we present an extensive human evaluation study of consultation notes where 5 clinicians (i) listen to 57 mock consultations, (ii) write their own notes, (iii) post-edit a number of automatically generated notes, and (iv) extract all the errors, both quantitative and qualitative. We then carry out a correlation study with 18 automatic quality metrics and the human judgements. We find that a simple, character-based Levenshtein distance metric performs on par if not better than common model-based metrics like BertScore. All our findings and annotations are open-sourced.
翻訳日:2022-04-04 14:48:23 公開日:2022-04-01
# 不確かさはシーケンス・ツー・シーケンスモデルにおけるモードの妥当性と復号性を決定する

Uncertainty Determines the Adequacy of the Mode and the Tractability of Decoding in Sequence-to-Sequence Models ( http://arxiv.org/abs/2204.00471v1 )

ライセンス: Link先を確認
Felix Stahlberg, Ilia Kulikov and Shankar Kumar(参考訳) 多くの自然言語処理(NLP)タスクでは、同じ入力(例えば、ソース文)は複数の可能な出力(例えば、翻訳)を持つことができる。 この曖昧性(本質的不確実性)がニューラルシーケンスモデルによって学習される分布をどのように形成するかを分析するために、機械翻訳(mt)と文法的誤り訂正(gec)の2つの異なるnlpタスクからの複数参照テストセットにおける参照間の重なりの程度を計算し、文レベルの不確実性を測定する。 文レベルとタスクレベルの両方において、本質的不確かさは、ビーム探索における帰納的バイアスや正確な探索の複雑さなど、検索の様々な側面に大きな意味を持つ。 特に,ビーム探索誤差の多さ,モードの不十分さ,ビームサイズが大きいシステム性能の低下などのよく知られた病態が,MTなどの曖昧性が高いタスクに適用されるが,ECCのような不確実性の低いタスクには適用されないことを示す。 さらに, ニューラルシーケンスモデルに対する高精度なn$-best探索アルゴリズムを提案するとともに, 不確定なタスクや文の確率質量を過大に分散する傾向から, 内在的不確かさがモデル不確実性に影響を与えることを示した。

In many natural language processing (NLP) tasks the same input (e.g. source sentence) can have multiple possible outputs (e.g. translations). To analyze how this ambiguity (also known as intrinsic uncertainty) shapes the distribution learned by neural sequence models we measure sentence-level uncertainty by computing the degree of overlap between references in multi-reference test sets from two different NLP tasks: machine translation (MT) and grammatical error correction (GEC). At both the sentence- and the task-level, intrinsic uncertainty has major implications for various aspects of search such as the inductive biases in beam search and the complexity of exact search. In particular, we show that well-known pathologies such as a high number of beam search errors, the inadequacy of the mode, and the drop in system performance with large beam sizes apply to tasks with high level of ambiguity such as MT but not to less uncertain tasks such as GEC. Furthermore, we propose a novel exact $n$-best search algorithm for neural sequence models, and show that intrinsic uncertainty affects model uncertainty as the model tends to overly spread out the probability mass for uncertain tasks and sentences.
翻訳日:2022-04-04 14:48:11 公開日:2022-04-01
# 表現的拡張を用いた最適計画のための記号探索

Symbolic Search for Optimal Planning with Expressive Extensions ( http://arxiv.org/abs/2204.00288v1 )

ライセンス: Link先を確認
David Speck(参考訳) 古典的な計画において、目標は、知的エージェントが自分たちが見いだすあらゆる状況から、その目標を満たすものへと移動できるようにする一連の行動を引き出すことである。 古典的な計画法は、ドメインに依存しない、すなわち特定のアプリケーションに限らず、様々なタイプの推論問題を解くのに使うことができる。 しかし実際には、計画問題のいくつかの性質は、それらを捕捉しモデル化するために標準的な古典的計画形式を表現的に拡張する必要がある。 これらの拡張の重要性はよく知られているが、ほとんどのプランナー、特に最適なプランナーはこれらの拡張計画形式を支持していない。 サポートの欠如は、特定の問題に対するこれらのプランナーの使用を制限するだけでなく、たとえこれらの拡張なしで問題をモデル化することができるとしても、しばしばモデリングの労力を増加させ、必要な問題エンコーディングサイズが指数関数的に増加するにつれてモデリングを事実上不可能にする。 本論文では,古典的計画の異なる表現的拡張に対して,コスト最適計画のための記号的探索法を提案する。 特に,公理による計画,国家依存行動コストによる計画,過剰加入計画,トップk計画について検討する。 すべての形式について、複雑性とコンパイル可能性の結果を示し、それに対応する機能をネイティブにサポートすることが望ましいこと、さらには必要であることを強調する。 記号的ヒューリスティック探索を分析し,探索性能が必ずしもヒューリスティックの利用の恩恵を受けるとは限らないこと,検索性能が最善の状況,すなわち完全ヒューリスティックにおいても指数関数的に低下することを示した。 これは、シンボリックブラインド検索が現在主流のシンボリック検索戦略であり、他の最先端のコスト最適化計画戦略と同等であることを補強するものだ。

In classical planning, the goal is to derive a course of actions that allows an intelligent agent to move from any situation it finds itself in to one that satisfies its goals. Classical planning is considered domain-independent, i.e., it is not limited to a particular application and can be used to solve different types of reasoning problems. In practice, however, some properties of a planning problem at hand require an expressive extension of the standard classical planning formalism to capture and model them. Although the importance of many of these extensions is well known, most planners, especially optimal planners, do not support these extended planning formalisms. The lack of support not only limits the use of these planners for certain problems, but even if it is possible to model the problems without these extensions, it often leads to increased effort in modeling or makes modeling practically impossible as the required problem encoding size increases exponentially. In this thesis, we propose to use symbolic search for cost-optimal planning for different expressive extensions of classical planning, all capturing different aspects of the problem. In particular, we study planning with axioms, planning with state-dependent action costs, oversubscription planning, and top-k planning. For all formalisms, we present complexity and compilability results, highlighting that it is desirable and even necessary to natively support the corresponding features. We analyze symbolic heuristic search and show that the search performance does not always benefit from the use of a heuristic and that the search performance can exponentially deteriorate even under the best possible circumstances, namely the perfect heuristic. This reinforces that symbolic blind search is the dominant symbolic search strategy nowadays, on par with other state-of-the-art cost-optimal planning strategies...
翻訳日:2022-04-04 14:47:46 公開日:2022-04-01
# 分散型部分可観測マルコフ決定過程における因果関係と責任帰属

Actual Causality and Responsibility Attribution in Decentralized Partially Observable Markov Decision Processes ( http://arxiv.org/abs/2204.00302v1 )

ライセンス: Link先を確認
Stelios Triantafyllou, Adish Singla, Goran Radanovic(参考訳) 実際の因果関係と密接に関連する責任帰属の概念は、説明責任のある意思決定の中心である。 実際の因果関係は特定の結果に焦点を当て、関心の成果を実現する上で重要な決定(行動)を識別することを目的としている。 責任帰属(Responsibility attribution)は補完的であり、意思決定者(エージェント)がこの結果にどの程度の責任を持つかを特定することを目的としている。 本稿では,不確実性を考慮したマルチエージェントシーケンシャル意思決定の枠組みとして,分散部分可観測マルコフ決定プロセス(dec-pomdps)について検討する。 近年のRLにおけるPOMDPと構造因果モデル(Structure Causal Models, SCM)の対応性を示す研究に続いて、最初にDec-POMDPとSCMの関連性を確立する。 この接続により,dec-pomdpsにおける実因果関係の既存定義を学習し,先行研究から実因果関係を記述できる言語を活用できる。 既知の定義のいくつかが直観に反する実際の原因につながる可能性があることを考慮し、エージェントのアクション間の因果関係をより明確に説明できる新しい定義を導入する。 次に、実際の因果性に基づく責任帰属に転換し、エージェントに責任を課す際には、エージェントが参加する実際の原因の数と、その責任の程度を操作する能力の両方を考慮することが重要であると論じる。 これらの議論に動機づけられたのが,先述の考察を考慮しつつ,先行業務を拡張する責任帰属法である。 最後に,シミュレーションに基づく実験により,実際の因果関係と責任帰属方法の異なる定義を比較する。 実験の結果,実因果関係の定義と因果関係の因果関係との質的差異が示された。

Actual causality and a closely related concept of responsibility attribution are central to accountable decision making. Actual causality focuses on specific outcomes and aims to identify decisions (actions) that were critical in realizing an outcome of interest. Responsibility attribution is complementary and aims to identify the extent to which decision makers (agents) are responsible for this outcome. In this paper, we study these concepts under a widely used framework for multi-agent sequential decision making under uncertainty: decentralized partially observable Markov decision processes (Dec-POMDPs). Following recent works in RL that show correspondence between POMDPs and Structural Causal Models (SCMs), we first establish a connection between Dec-POMDPs and SCMs. This connection enables us to utilize a language for describing actual causality from prior work and study existing definitions of actual causality in Dec-POMDPs. Given that some of the well-known definitions may lead to counter-intuitive actual causes, we introduce a novel definition that more explicitly accounts for causal dependencies between agents' actions. We then turn to responsibility attribution based on actual causality, where we argue that in ascribing responsibility to an agent it is important to consider both the number of actual causes in which the agent participates, as well as its ability to manipulate its own degree of responsibility. Motivated by these arguments we introduce a family of responsibility attribution methods that extends prior work, while accounting for the aforementioned considerations. Finally, through a simulation-based experiment, we compare different definitions of actual causality and responsibility attribution methods. The empirical results demonstrate the qualitative difference between the considered definitions of actual causality and their impact on attributed responsibility.
翻訳日:2022-04-04 14:47:16 公開日:2022-04-01
# ドメイン間変更検出のためのエンドツーエンドドメイン適応フレームワーク

An End-to-end Supervised Domain Adaptation Framework for Cross-Domain Change Detection ( http://arxiv.org/abs/2204.00154v1 )

ライセンス: Link先を確認
Jia Liu, Wenjie Xuan, Yuhang Gan, Juhua Liu, Bo Du(参考訳) 既存のディープラーニングに基づく変化検出手法は、強力な特徴表現を持つ複雑なニューラルネットワークを精巧に設計しようとするが、輝度変動や事前画像と後画像の季節変化など、時間変化の土地被覆変化によって引き起こされる普遍的な領域シフトを無視し、準最適結果を生み出す。 本稿では、両時間画像間の領域シフトを効果的に軽減し、変化予測を改善するために、ドメイン間変化検出のためのエンドツーエンドのドメイン適応フレームワークSDACDを提案する。 特に,sdacdは,教師付き学習による画像と特徴の両方の視点からの協調的適応を示す。 画像適応は、サイクル整合性制約による生成逆学習を利用して、クロスドメインスタイルの変換を行い、ドメインギャップを効果的に両面生成方式で狭める。 特徴適応について,特徴空間内の異なる特徴分布を整列する領域不変特徴を抽出することにより,クロスドメイン画像の領域間ギャップをさらに低減する。 さらに性能向上のために、初期入力両時間画像と、先行領域と後領域から生成された2つの生成両時間画像を含む、最終変更予測のための3種類のバイテンポラル画像を組み合わせる。 2つのベンチマークに関する大規模な実験と分析は、提案フレームワークの有効性と普遍性を示している。 我々のフレームワークは、いくつかの代表的ベースラインモデルを新しいState-Of-The-Artレコードに押し上げ、それぞれCDDとWHU構築データセットで97.34%と92.36%を達成した。 ソースコードとモデルはhttps://github.com/P erfect-You/SDACDで公開されている。

Existing deep learning-based change detection methods try to elaborately design complicated neural networks with powerful feature representations, but ignore the universal domain shift induced by time-varying land cover changes, including luminance fluctuations and season changes between pre-event and post-event images, thereby producing sub-optimal results. In this paper, we propose an end-to-end Supervised Domain Adaptation framework for cross-domain Change Detection, namely SDACD, to effectively alleviate the domain shift between bi-temporal images for better change predictions. Specifically, our SDACD presents collaborative adaptations from both image and feature perspectives with supervised learning. Image adaptation exploits generative adversarial learning with cycle-consistency constraints to perform cross-domain style transformation, effectively narrowing the domain gap in a two-side generation fashion. As to feature adaptation, we extract domain-invariant features to align different feature distributions in the feature space, which could further reduce the domain gap of cross-domain images. To further improve the performance, we combine three types of bi-temporal images for the final change prediction, including the initial input bi-temporal images and two generated bi-temporal images from the pre-event and post-event domains. Extensive experiments and analyses on two benchmarks demonstrate the effectiveness and universality of our proposed framework. Notably, our framework pushes several representative baseline models up to new State-Of-The-Art records, achieving 97.34% and 92.36% on the CDD and WHU building datasets, respectively. The source code and models are publicly available at https://github.com/P erfect-You/SDACD.
翻訳日:2022-04-04 14:44:47 公開日:2022-04-01
# 立体非構造化:ビュー合成のための複数ホログラフィー画像

Stereo Unstructured Magnification: Multiple Homography Image for View Synthesis ( http://arxiv.org/abs/2204.00156v1 )

ライセンス: Link先を確認
Qi Zhang and Xin Huang and Ying Feng and Xue Wang and Hongdong Li and Qing Wang(参考訳) 本稿では,一対の画像から一定の回転量を持つビュー合成の問題,すなわちステレオ非構造拡大問題について検討する。 多面画像表現は深度不変なビュー合成に適しているが、非構造化ビューへの一般化は依然として大きな課題である。 これは主にカメラ前面の平行表現による深度依存性に起因する。 本稿では,固定正規と距離を持つシーン平面の集合からなる,新しい多重ホモグラフィ画像(mhi)表現を提案する。 新規なビュー合成のための2段階ネットワークを開発した。 Stage-1はMHIの再構成モジュールで、MHIと合成物が通常の方向に沿って多重正規画像を生成する。 stage-2 は、重みをブレンドする通常のモジュールである。 また,複数の正規画像のブレンドを誘導するための角度に基づくコストも導出する。 最新の手法と比較して,特にカメラが回転する場合には,映像合成の質的,定量的に優れた性能が得られる。

This paper studies the problem of view synthesis with certain amount of rotations from a pair of images, what we called stereo unstructured magnification. While the multi-plane image representation is well suited for view synthesis with depth invariant, how to generalize it to unstructured views remains a significant challenge. This is primarily due to the depth-dependency caused by camera frontal parallel representation. Here we propose a novel multiple homography image (MHI) representation, comprising of a set of scene planes with fixed normals and distances. A two-stage network is developed for novel view synthesis. Stage-1 is an MHI reconstruction module that predicts the MHIs and composites layered multi-normal images along the normal direction. Stage-2 is a normal-blending module to find blending weights. We also derive an angle-based cost to guide the blending of multi-normal images by exploiting per-normal geometry. Compared with the state-of-the-art methods, our method achieves superior performance for view synthesis qualitatively and quantitatively, especially for cases when the cameras undergo rotations.
翻訳日:2022-04-04 14:44:18 公開日:2022-04-01
# 弱教師付き物体定位における分類と局在のギャップの橋渡し

Bridging the Gap between Classification and Localization for Weakly Supervised Object Localization ( http://arxiv.org/abs/2204.00220v1 )

ライセンス: Link先を確認
Eunji Kim, Siwon Kim, Jungbeom Lee, Hyunwoo Kim, Sungroh Yoon(参考訳) 弱教師付きオブジェクトローカライゼーションは、画像レベルラベルのような弱い監督しか持たない対象領域を所定の画像内に見つけることを目的としている。 既存のほとんどのメソッドでは、クラスアクティベーションマップ(CAM)を使用してローカライズマップを生成するが、CAMは対象の領域全体ではなく、対象の最も識別性の高い部分のみを特定する。 本研究では,入力特徴量とクラス固有重みの方向の不一致の観点から,分類と局所化のギャップを見出した。 本研究は,識別度が低いが対象対象物に属する領域におけるCAMの活性化を抑制することを実証する。 このギャップを埋めるために,特徴方向をクラス固有の重みで整列する方法を提案する。 提案手法は, CUB-200-2011 および ImageNet-1K ベンチマーク上での最先端のローカライゼーション性能を実現する。

Weakly supervised object localization aims to find a target object region in a given image with only weak supervision, such as image-level labels. Most existing methods use a class activation map (CAM) to generate a localization map; however, a CAM identifies only the most discriminative parts of a target object rather than the entire object region. In this work, we find the gap between classification and localization in terms of the misalignment of the directions between an input feature and a class-specific weight. We demonstrate that the misalignment suppresses the activation of CAM in areas that are less discriminative but belong to the target object. To bridge the gap, we propose a method to align feature directions with a class-specific weight. The proposed method achieves a state-of-the-art localization performance on the CUB-200-2011 and ImageNet-1K benchmarks.
翻訳日:2022-04-04 14:44:01 公開日:2022-04-01
# 一様集中損失:正規回帰のための完全適応ラベル分布学習

Unimodal-Concentrate d Loss: Fully Adaptive Label Distribution Learning for Ordinal Regression ( http://arxiv.org/abs/2204.00309v1 )

ライセンス: Link先を確認
Qiang Li, Jingjing Wang, Zhaoliang Yao, Yachun Li, Pengju Yang, Jingwei Yan, Chunmao Wang, Shiliang Pu(参考訳) ラベル分布からの学習は、顔年齢や頭部ポーズ推定などの順序回帰タスクにおいて有望な成果を上げており、近年、アダプティブラベル分布学習(ALDL)の概念は理論上の優位性のために多くの注目を集めている。 しかし,固定形ラベル分布を仮定する手法と比較して,ALDL法は性能が良くない。 既存のALDLアルゴリズムは順序回帰の本質的な性質を完全に活用していない。 本稿では,順序回帰課題における適応ラベル分布の学習が3つの原則に従うべきであることを,本論で要約する。 第一に、接地関係に対応する確率はラベル分布において最高であるべきである。 第二に、隣接するラベルの確率は、接地からの距離の増加に伴い減少すべきであり、すなわち分布は不定値である。 第三に、ラベルの分布はサンプルの変化によって異なり、異なる難易度とあいまいさのために同じラベルを持つ異なるインスタンスで区別されることもある。 これらの原理を前提として,完全適応ラベル分布学習のための新しい損失関数,すなわちユニモーダル集中損失を提案する。 具体的には,学習者のランク付け戦略から得られる一元的損失は,一元的分布を制約する。 さらに, 予測分布の予測誤差と予測分布のばらつきを, 提案した集中損失に統合し, 予測分布を起点として最大化し, 予測の不確実性に応じて変化させる。 年齢や頭部ポーズ推定を含む典型的な順序回帰タスクに関する広範囲な実験結果から,提案する単調集中損失は,既存損失関数と比較して優れていることが示された。

Learning from a label distribution has achieved promising results on ordinal regression tasks such as facial age and head pose estimation wherein, the concept of adaptive label distribution learning (ALDL) has drawn lots of attention recently for its superiority in theory. However, compared with the methods assuming fixed form label distribution, ALDL methods have not achieved better performance. We argue that existing ALDL algorithms do not fully exploit the intrinsic properties of ordinal regression. In this paper, we emphatically summarize that learning an adaptive label distribution on ordinal regression tasks should follow three principles. First, the probability corresponding to the ground-truth should be the highest in label distribution. Second, the probabilities of neighboring labels should decrease with the increase of distance away from the ground-truth, i.e., the distribution is unimodal. Third, the label distribution should vary with samples changing, and even be distinct for different instances with the same label, due to the different levels of difficulty and ambiguity. Under the premise of these principles, we propose a novel loss function for fully adaptive label distribution learning, namely unimodal-concentrate d loss. Specifically, the unimodal loss derived from the learning to rank strategy constrains the distribution to be unimodal. Furthermore, the estimation error and the variance of the predicted distribution for a specific sample are integrated into the proposed concentrated loss to make the predicted distribution maximize at the ground-truth and vary according to the predicting uncertainty. Extensive experimental results on typical ordinal regression tasks including age and head pose estimation, show the superiority of our proposed unimodal-concentrate d loss compared with existing loss functions.
翻訳日:2022-04-04 14:43:47 公開日:2022-04-01
# CAT-Det:マルチモーダル3Dオブジェクト検出のためのコントラスト拡張変換器

CAT-Det: Contrastively Augmented Transformer for Multi-modal 3D Object Detection ( http://arxiv.org/abs/2204.00325v1 )

ライセンス: Link先を確認
Yanan Zhang, Jiaxin Chen, Di Huang(参考訳) 自律運転では、LiDARポイントクラウドとRGBイメージが2つの主要なデータモダリティであり、3Dオブジェクト検出のための補完的なキューである。 しかし,モード間差異が大きいため,十分に使用するのは非常に困難である。 この問題に対処するため,マルチモーダル3Dオブジェクト検出(CAT-Det)のためのContrastively Augmented Transformerを提案する。 具体的には、CAT-DetはPointformer (PT) ブランチと Imageformer (IT) ブランチとCMT (Cross-Modal Transformer) モジュールで構成される2ストリーム構造を採用している。 PT、IT、CMTは、オブジェクトを表現するためのモダル内およびモダル間長距離コンテキストを共同で符号化し、検出のためのマルチモーダル情報を完全に探索する。 さらに,一方向マルチモーダルデータ拡張 (OMDA) 手法を,点レベルと対象レベルでの階層的コントラスト学習により効果的に提案する。 KITTIベンチマークの大規模な実験は、CAT-Detが新たな最先端を実現し、その有効性を強調していることを示している。

In autonomous driving, LiDAR point-clouds and RGB images are two major data modalities with complementary cues for 3D object detection. However, it is quite difficult to sufficiently use them, due to large inter-modal discrepancies. To address this issue, we propose a novel framework, namely Contrastively Augmented Transformer for multi-modal 3D object Detection (CAT-Det). Specifically, CAT-Det adopts a two-stream structure consisting of a Pointformer (PT) branch, an Imageformer (IT) branch along with a Cross-Modal Transformer (CMT) module. PT, IT and CMT jointly encode intra-modal and inter-modal long-range contexts for representing an object, thus fully exploring multi-modal information for detection. Furthermore, we propose an effective One-way Multi-modal Data Augmentation (OMDA) approach via hierarchical contrastive learning at both the point and object levels, significantly improving the accuracy only by augmenting point-clouds, which is free from complex generation of paired samples of the two modalities. Extensive experiments on the KITTI benchmark show that CAT-Det achieves a new state-of-the-art, highlighting its effectiveness.
翻訳日:2022-04-04 14:41:38 公開日:2022-04-01
# DIP:高分解能光流のための深部逆パッチマッチ

DIP: Deep Inverse Patchmatch for High-Resolution Optical Flow ( http://arxiv.org/abs/2204.00330v1 )

ライセンス: Link先を確認
Zihua Zheng, Ni Nie, Zhi Ling, Pengfei Xiong, Jiangyu Liu, Hao Wang, Jiankun Li(参考訳) 近年, 高密度相関体積法が光流れの最先端性能を実現する。 しかし相関ボリューム計算には大量のメモリを必要とするため,高解像度画像では予測が困難となる。 本稿では,高分解能光フロー推定のための新しいPatchmatchベースのフレームワークを提案する。 具体的には、最初のエンドツーエンドのPatchmatchベースのディープラーニング光学フローを紹介する。 伝播とPatchmatchの局所探索の恩恵を受け、低メモリで高精度な結果が得られる。 さらに、複数の繰り返しの計算を著しく削減できる複雑な伝搬操作を分離するために、新しい逆伝播法を提案する。 提案時点では,提案手法はkitti2015ベンチマークのすべての指標で第1位であり,sintel cleanベンチマークではepeで第2位である。 実験の結果,F1-allが13.73%を達成し,KITTI2015の17.4%から21%の削減を実現した。 さらに,本手法では,高分解能データセットDAVISの保存結果をよく示し,RAFTよりも2倍少ないメモリを消費する。

Recently, the dense correlation volume method achieves state-of-the-art performance in optical flow. However, the correlation volume computation requires a lot of memory, which makes prediction difficult on high-resolution images. In this paper, we propose a novel Patchmatch-based framework to work on high-resolution optical flow estimation. Specifically, we introduce the first end-to-end Patchmatch based deep learning optical flow. It can get high-precision results with lower memory benefiting from propagation and local search of Patchmatch. Furthermore, a new inverse propagation is proposed to decouple the complex operations of propagation, which can significantly reduce calculations in multiple iterations. At the time of submission, our method ranks first on all the metrics on the popular KITTI2015 benchmark, and ranks second on EPE on the Sintel clean benchmark among published optical flow methods. Experiment shows our method has a strong cross-dataset generalization ability that the F1-all achieves 13.73%, reducing 21% from the best published result 17.4% on KITTI2015. What's more, our method shows a good details preserving result on the high-resolution dataset DAVIS and consumes 2x less memory than RAFT.
翻訳日:2022-04-04 14:41:16 公開日:2022-04-01
# RMS-FlowNet:大規模点雲の効率的かつロバストなマルチスケールシーンフロー推定

RMS-FlowNet: Efficient and Robust Multi-Scale Scene Flow Estimation for Large-Scale Point Clouds ( http://arxiv.org/abs/2204.00354v1 )

ライセンス: Link先を確認
Ramy Battrawy, Ren\'e Schuster, Mohammad-Ali Nikouei Mahani and Didier Stricker(参考訳) 提案するRMS-FlowNetは,高精度かつ効率的なシーンフロー推定のための,エンドツーエンドの学習ベースアーキテクチャである。 階層的なシーンフロー推定では、既存の手法は高価なFarthest-Point-Sampl ing (FPS) か、多数のポイントを扱う能力を減らす構造ベースのスケーリングに依存する。 これらの手法とは異なり、我々はRandom-Sampling (RS) に基づいて、マルチスケールのシーンフロー予測を行う。 そこで本研究では,より堅牢なシーンフローをRSとともに予測できる新しいフロー埋め込み設計を提案する。 高い精度を示すrms-flownetは最先端の手法よりも高速な予測を提供し、250万点以上の連続した密集点雲上で効率的に動作する。 本研究は,異なる点雲密度を持つ確立されたflyingthings3dデータセット上でのrms-flownetの精度を検証し,設計上の選択を検証した。 さらに,本モデルでは,微調整を行なわずに,KITTIデータセットの現実のシーンを一般化する能力を示す。

The proposed RMS-FlowNet is a novel end-to-end learning-based architecture for accurate and efficient scene flow estimation which can operate on point clouds of high density. For hierarchical scene flow estimation, the existing methods depend on either expensive Farthest-Point-Sampl ing (FPS) or structure-based scaling which decrease their ability to handle a large number of points. Unlike these methods, we base our fully supervised architecture on Random-Sampling (RS) for multiscale scene flow prediction. To this end, we propose a novel flow embedding design which can predict more robust scene flow in conjunction with RS. Exhibiting high accuracy, our RMS-FlowNet provides a faster prediction than state-of-the-art methods and works efficiently on consecutive dense point clouds of more than 250K points at once. Our comprehensive experiments verify the accuracy of RMS-FlowNet on the established FlyingThings3D data set with different point cloud densities and validate our design choices. Additionally, we show that our model presents a competitive ability to generalize towards the real-world scenes of KITTI data set without fine-tuning.
翻訳日:2022-04-04 14:40:58 公開日:2022-04-01
# アイリス提示検出のための周波数に基づく一級ドメイン適応

Few-shot One-class Domain Adaptation Based on Frequency for Iris Presentation Attack Detection ( http://arxiv.org/abs/2204.00376v1 )

ライセンス: Link先を確認
Yachun Li, Ying Lian, Jingjing Wang, Yuhui Chen, Chunmao Wang, Shiliang Pu(参考訳) アイリス提示攻撃検知(PAD)はアイリス認識システムの信頼性と安全性を確保するために大きな成功を収めた。 既存の手法のほとんどは、空間領域における識別的特徴を活用し、データセット内設定下で優れた性能を報告している。 しかし、ドメインシフトに苦しむクロスデータセット設定ではパフォーマンスの低下は避けられない。 実世界の応用を考えると、少量のボナフィドサンプルが容易にアクセス可能である。 そこで本研究では, 少数のボナフィドサンプルのみに依存する, マイノショットワンクラスドメイン適応 (foda) と呼ばれる新しいドメイン適応設定を定義した。 この問題に対処するために,周波数情報の表現力に基づく新しいFODAフレームワークを提案する。 具体的には、2つのモジュールを通して周波数関連情報を統合する。 周波数ベースの注意モジュール(FAM)は、周波数情報を空間的注意に集約し、高周波の微細な特徴を明確に強調する。 周波数混合モジュール(FMM)は、特定の周波数成分を混合し、限定されたターゲットボナフィドサンプルに適応するための大規模ターゲットスタイルのサンプルを生成する。 livdet-iris 2017データセットの広範な実験により、クロスデータセットとイントラデータセット設定の両方において、提案手法が最先端または競合性能を達成することを実証した。

Iris presentation attack detection (PAD) has achieved remarkable success to ensure the reliability and security of iris recognition systems. Most existing methods exploit discriminative features in the spatial domain and report outstanding performance under intra-dataset settings. However, the degradation of performance is inevitable under cross-dataset settings, suffering from domain shift. In consideration of real-world applications, a small number of bonafide samples are easily accessible. We thus define a new domain adaptation setting called Few-shot One-class Domain Adaptation (FODA), where adaptation only relies on a limited number of target bonafide samples. To address this problem, we propose a novel FODA framework based on the expressive power of frequency information. Specifically, our method integrates frequency-related information through two proposed modules. Frequency-based Attention Module (FAM) aggregates frequency information into spatial attention and explicitly emphasizes high-frequency fine-grained features. Frequency Mixing Module (FMM) mixes certain frequency components to generate large-scale target-style samples for adaptation with limited target bonafide samples. Extensive experiments on LivDet-Iris 2017 dataset demonstrate the proposed method achieves state-of-the-art or competitive performance under both cross-dataset and intra-dataset settings.
翻訳日:2022-04-04 14:40:37 公開日:2022-04-01
# 顔行動単位認識のための局所的・時間的学習の弱化

Weakly Supervised Regional and Temporal Learning for Facial Action Unit Recognition ( http://arxiv.org/abs/2204.00379v1 )

ライセンス: Link先を確認
Jingwei Yan, Jingjing Wang, Qiang Li, Chunmao Wang, Shiliang Pu(参考訳) 自動顔動作ユニット(AU)認識は手動アノテーションが不足しているため難しい課題である。 この問題を軽減するために、多数の未ラベルデータを活用する弱い教師付き手法の活用に多くの努力が注がれている。 しかし、地域特性や関係特性など、AUの特異性に関する多くの側面は、以前の研究では十分に解明されていない。 そこで我々は,AUプロパティを考慮し,制限付きアノテーションとモデル性能のギャップをラベルなしデータを介して自己管理的に埋める2つの補助的AU関連タスクを提案する。 具体的には、AU関係埋め込みによる地域特徴の識別を強化するために、ランダムに収穫されたAUパッチを復元するRoIの塗装タスクを設計する。 一方, 顔筋の動的変化を活用し, 運動情報を大域的特徴表現にエンコードするために, 単一画像に基づく光フロー推定タスクが提案されている。 これら2つの自己監督型補助課題に基づき、AUの局所的特徴、相互関係、動きの手がかりをバックボーンネットワークでよりよく捉えた。 さらに,半教師付き学習を組み込むことにより,au認識のためのweakly supervised regional and temporal learning (wsrtl) というエンドツーエンド学習フレームワークを提案する。 BP4D と DISFA の大規模実験により,本手法の優位性を実証し,新しい最先端性能を実現する。

Automatic facial action unit (AU) recognition is a challenging task due to the scarcity of manual annotations. To alleviate this problem, a large amount of efforts has been dedicated to exploiting various weakly supervised methods which leverage numerous unlabeled data. However, many aspects with regard to some unique properties of AUs, such as the regional and relational characteristics, are not sufficiently explored in previous works. Motivated by this, we take the AU properties into consideration and propose two auxiliary AU related tasks to bridge the gap between limited annotations and the model performance in a self-supervised manner via the unlabeled data. Specifically, to enhance the discrimination of regional features with AU relation embedding, we design a task of RoI inpainting to recover the randomly cropped AU patches. Meanwhile, a single image based optical flow estimation task is proposed to leverage the dynamic change of facial muscles and encode the motion information into the global feature representation. Based on these two self-supervised auxiliary tasks, local features, mutual relation and motion cues of AUs are better captured in the backbone network. Furthermore, by incorporating semi-supervised learning, we propose an end-to-end trainable framework named weakly supervised regional and temporal learning (WSRTL) for AU recognition. Extensive experiments on BP4D and DISFA demonstrate the superiority of our method and new state-of-the-art performances are achieved.
翻訳日:2022-04-04 14:40:15 公開日:2022-04-01
# DFNet: 直接の特徴マッチングによるAboslute Pose回帰の強化

DFNet: Enhance Aboslute Pose Regression with Direct Feature Matching ( http://arxiv.org/abs/2204.00559v1 )

ライセンス: Link先を確認
Shuai Chen, Xinghui Li, Zirui Wang, Victor Prisacariu(参考訳) 絶対ポーズ回帰(APR)と直接特徴マッチングを組み合わせたカメラ再局在パイプラインを導入する。 既存の測光手法は、例えば屋外環境のような大きな測光歪みのある場面で問題となる。 露光適応型新規ビュー合成を取り入れることで,本手法は課題に対処できる。 さらに,領域不変特徴マッチングを導入することで,ラベルなしデータで半教師付き学習をしながらポーズ回帰精度を向上させることができる。 特にパイプラインは、Novell View SynthesizerとFeatureNet(DFNet)の2つのコンポーネントで構成されている。 前者は露出の変化を補う新しいビューを合成し、後者はカメラのポーズを取り、実際の画像と合成画像の間の領域ギャップを埋める堅牢な特徴を抽出する。 ドメイン不変特徴マッチングは,室内と屋外の両方において,カメラのポーズ推定を効果的に向上させる。 そこで本手法は,既存の単一画像apr法を最大56%上回り,3次元構造ベース法に匹敵する精度を実現している。

We introduce a camera relocalization pipeline that combines absolute pose regression (APR) and direct feature matching. Existing photometric-based methods have trouble on scenes with large photometric distortions, e.g. outdoor environments. By incorporating an exposure-adaptive novel view synthesis, our methods can successfully address the challenges. Moreover, by introducing domain-invariant feature matching, our solution can improve pose regression accuracy while using semi-supervised learning on unlabeled data. In particular, the pipeline consists of two components, Novel View Synthesizer and FeatureNet (DFNet). The former synthesizes novel views compensating for changes in exposure and the latter regresses camera poses and extracts robust features that bridge the domain gap between real images and synthetic ones. We show that domain invariant feature matching effectively enhances camera pose estimation both in indoor and outdoor scenes. Hence, our method achieves a state-of-the-art accuracy by outperforming existing single-image APR methods by as much as 56%, comparable to 3D structure-based methods.
翻訳日:2022-04-04 14:39:54 公開日:2022-04-01
# コンピュータネットワークの侵入検出のための機械学習分類器の性能に及ぼす合成データを用いたデータバランスの影響

Effect of Balancing Data Using Synthetic Data on the Performance of Machine Learning Classifiers for Intrusion Detection in Computer Networks ( http://arxiv.org/abs/2204.00144v1 )

ライセンス: Link先を確認
Ayesha S. Dina and A. B. Siddique and D. Manivannan(参考訳) コンピュータネットワークへの攻撃は、そのような攻撃を起動するための高度なツールが利用可能であることや、それをサポートするための地下サイバー犯罪経済が繁栄していることから、近年著しく増加している。 過去数年間、学界や産業の研究者は、コンピュータネットワークのための侵入検知システム(idses)の設計と実装に機械学習(ml)技術を用いた。 これらの研究者の多くは、さまざまな組織が収集したデータセットを使用して、侵入を予測するMLモデルをトレーニングした。 このようなシステムで使用される多くのデータセットでは、データは不均衡である(つまり、すべてのクラスが同じ量のサンプルを持っているわけではない)。 MLアルゴリズムを用いて開発された予測モデルは、不均衡なデータを用いて、侵入の予測精度に影響を与える不満足な分類器を生成する。 従来、研究者はデータセット内のデータのバランスをとるために過剰サンプリングとアンダーサンプリングを使用していた。 本研究では、オーバーサンプリングに加えて、CTGAN(Conditional Generative Adversarial Network)と呼ばれる合成データ生成手法を用いて、データのバランスをとり、さまざまなML分類器への影響を研究する。 我々の知る限りでは、CTGANを使って合成サンプルを生成して侵入検出データセットのバランスをとる人はいない。 広範に使用されているデータセットNSL-KDDを用いた広範な実験の結果,CTGANが生成した合成サンプルとバランスの取れたデータセット上でのMLモデルのトレーニングは,非バランスなデータ上でのMLモデルのトレーニングと比較して,予測精度を最大8\%向上することがわかった。 また,不均衡データ上でトレーニングされた同一mlモデルと比較して,ランダムなオーバーサンプリング低下を伴うデータバランスでトレーニングされたmlモデルの精度を示す実験を行った。

Attacks on computer networks have increased significantly in recent days, due in part to the availability of sophisticated tools for launching such attacks as well as thriving underground cyber-crime economy to support it. Over the past several years, researchers in academia and industry used machine learning (ML) techniques to design and implement Intrusion Detection Systems (IDSes) for computer networks. Many of these researchers used datasets collected by various organizations to train ML models for predicting intrusions. In many of the datasets used in such systems, data are imbalanced (i.e., not all classes have equal amount of samples). With unbalanced data, the predictive models developed using ML algorithms may produce unsatisfactory classifiers which would affect accuracy in predicting intrusions. Traditionally, researchers used over-sampling and under-sampling for balancing data in datasets to overcome this problem. In this work, in addition to over-sampling, we also use a synthetic data generation method, called Conditional Generative Adversarial Network (CTGAN), to balance data and study their effect on various ML classifiers. To the best of our knowledge, no one else has used CTGAN to generate synthetic samples to balance intrusion detection datasets. Based on extensive experiments using a widely used dataset NSL-KDD, we found that training ML models on dataset balanced with synthetic samples generated by CTGAN increased prediction accuracy by up to $8\%$, compared to training the same ML models over unbalanced data. Our experiments also show that the accuracy of some ML models trained over data balanced with random over-sampling decline compared to the same ML models trained over unbalanced data.
翻訳日:2022-04-04 14:38:27 公開日:2022-04-01
# 階層的不均一性を考慮した協調学習フレームワーク

Federated Learning Framework Coping with Hierarchical Heterogeneity in Cooperative ITS ( http://arxiv.org/abs/2204.00215v1 )

ライセンス: Link先を確認
Rui Song, Liguo Zhou, Venkatnarayanan Lakshminarasimhan, Andreas Festag, Alois Knoll(参考訳) 本稿では,階層的不均一性(H2-Fed)に対処するフェデレーション学習フレームワークを提案する。 このフレームワークは、車載ネットワーク内の接続された公共交通機関からのデータを、ユーザのデータプライバシに影響を与えることなく活用する。 道路側ユニットや道路交通雲を含む既存の交通インフラをコーディネートすることにより、モデルパラメータを車両通信により効率よく分散し、階層的に集約する。 トラフィックエージェントと道路側ユニット間のデータ分散,計算および通信能力の個別の不均一性を考慮すると,フレームワークアーキテクチャの異なる集約層,すなわち道路側ユニットとクラウドの層間のアグリゲーションに対処する新しい手法を用いる。 実験の結果,本手法は,現在の通信ネットワークにおける不均一性の知識に応じて,学習精度と安定性のバランスをとることができることがわかった。 他のベースラインアプローチと比較して、非IID MNISTデータセットによる評価は、通信品質の低いアプリケーションシナリオにおいて、我々のフレームワークがより汎用的で能力が高いことを示している。 エージェントの80%が時間的に切断された場合でも、事前学習されたディープラーニングモデルは安定して収束させられ、収束後の68%から93%まで精度を高めることができる。

In this paper, we introduce a federated learning framework coping with Hierarchical Heterogeneity (H2-Fed), which can notably enhance the conventional pre-trained deep learning model. The framework exploits data from connected public traffic agents in vehicular networks without affecting user data privacy. By coordinating existing traffic infrastructure, including roadside units and road traffic clouds, the model parameters are efficiently disseminated by vehicular communications and hierarchically aggregated. Considering the individual heterogeneity of data distribution, computational and communication capabilities across traffic agents and roadside units, we employ a novel method that addresses the heterogeneity of different aggregation layers of the framework architecture, i.e., aggregation in layers of roadside units and cloud. The experiment results indicate that our method can well balance the learning accuracy and stability according to the knowledge of heterogeneity in current communication networks. Compared to other baseline approaches, the evaluation on a Non-IID MNIST dataset shows that our framework is more general and capable especially in application scenarios with low communication quality. Even when 80% of the agents are timely disconnected, the pre-trained deep learning model can still be forced to converge stably and its accuracy can be enhanced from 68% to 93% after convergence.
翻訳日:2022-04-04 14:38:00 公開日:2022-04-01
# 深層強化学習による意思決定林の構築

Building Decision Forest via Deep Reinforcement Learning ( http://arxiv.org/abs/2204.00306v1 )

ライセンス: Link先を確認
Guixuan Wen and Kaigui Wu(参考訳) 基本分類器が決定木であるアンサンブル学習方法は、通常、袋詰めまたはブースティングに属する。 しかし、我々の知識の最良のところへの長期的な回帰を最大化することによってアンサンブル分類器を構築した以前の研究はない。 本稿では,MA-H-SAC-DFと呼ばれる森林決定手法を提案する。 まず、構築プロセスは分散部分可観測マルコフ決定プロセスとしてモデル化され、協調エージェントのセットは、すべてのベース分類器を共同で構築する。 第2に、親ノードの情報と現在の位置に基づいて、グローバル状態と局所観測が定義される。 最後に、最先端の深層補強法であるハイブリッドSACをCTDEアーキテクチャの下でマルチエージェントシステムに拡張し、最適な森林建設方針を求める。 実験によれば、ma-h-sac-dfは、バランスの取れたデータセット上でランダムフォレスト、adaboost、gbdtと同等の性能を持ち、不バランスなデータセットでそれを上回る。

Ensemble learning methods whose base classifier is a decision tree usually belong to the bagging or boosting. However, no previous work has ever built the ensemble classifier by maximizing long-term returns to the best of our knowledge. This paper proposes a decision forest building method called MA-H-SAC-DF for binary classification via deep reinforcement learning. First, the building process is modeled as a decentralized partial observable Markov decision process, and a set of cooperative agents jointly constructs all base classifiers. Second, the global state and local observations are defined based on informations of the parent node and the current location. Last, the state-of-the-art deep reinforcement method Hybrid SAC is extended to a multi-agent system under the CTDE architecture to find an optimal decision forest building policy. The experiments indicate that MA-H-SAC-DF has the same performance as random forest, Adaboost, and GBDT on balanced datasets and outperforms them on imbalanced datasets.
翻訳日:2022-04-04 14:37:37 公開日:2022-04-01
# 広告アロケーション強化学習におけるディープページレベル関心ネットワーク

Deep Page-Level Interest Network in Reinforcement Learning for Ads Allocation ( http://arxiv.org/abs/2204.00377v1 )

ライセンス: Link先を確認
Guogang Liao, Xiaowen Shi, Ze Wang, Xiaoxu Wu, Chuheng Zhang, Yongkang Wang, Xingxing Wang, Dong Wang(参考訳) 広告とオーガニックアイテムの混合リストは、通常フィードに表示され、収益を最大化するために制限されたスロットを割り当てる方法が重要な問題である。 一方、過去の行動によるユーザの嗜好をモデル化することは、推奨や広告(CTR予測や広告アロケーションなど)において不可欠である。 これまでのユーザ行動モデリングでは、ページレベルのフィードバック情報を無視した履歴的なポイントレベルのポジティブなフィードバック(例えばクリック)のみをモデル化していた。 この目的のために,ページレベルのユーザ嗜好をモデル化し,複数のタイプのフィードバックを活用するために,Deep Page Level Interest Network (DPIN)を提案する。 具体的には、入力として4種類のページレベルのフィードバックを導入し、マルチチャネルインタラクションモジュールを介して、異なる受容フィールド下のアイテム配置のユーザ嗜好をキャプチャする。 Meituanのフードデリバリープラットフォームにおける大規模なオフラインおよびオンライン実験を通じて,DPINがページレベルのユーザの嗜好を効果的にモデル化し,プラットフォームに対する収益を増大させることができることを示す。

A mixed list of ads and organic items is usually displayed in feed and how to allocate the limited slots to maximize the overall revenue is a key problem. Meanwhile, modeling user preference with historical behavior is essential in recommendation and advertising (e.g., CTR prediction and ads allocation). Most previous works for user behavior modeling only model user's historical point-level positive feedback (i.e., click), which neglect the page-level information of feedback and other types of feedback. To this end, we propose Deep Page-level Interest Network (DPIN) to model the page-level user preference and exploit multiple types of feedback. Specifically, we introduce four different types of page-level feedback as input, and capture user preference for item arrangement under different receptive fields through the multi-channel interaction module. Through extensive offline and online experiments on Meituan food delivery platform, we demonstrate that DPIN can effectively model the page-level user preference and increase the revenue for the platform.
翻訳日:2022-04-04 14:37:18 公開日:2022-04-01
# CTAB-GAN+: 語彙データ合成の強化

CTAB-GAN+: Enhancing Tabular Data Synthesis ( http://arxiv.org/abs/2204.00401v1 )

ライセンス: Link先を確認
Zilong Zhao, Aditya Kunar, Robert Birke and Lydia Y. Chen(参考訳) データ共有は知識開発に不可欠であるが、プライバシーの懸念と厳格な規制(例えば、欧州一般データ保護規則(GDPR))は、その完全な有効性を制限している。 合成表データは、規制とプライバシーの制約を満たしながらデータ共有を可能にする代替手段として出現する。 最先端の表型データシンセサイザーは、gan(generative adversarial networks)から方法論を引き出す。 合成データを改良するGANは、プライバシーを漏らそうとする真のデータに、ますます似ている。 差分プライバシー(DP)は、プライバシー損失に関する理論的保証を提供するが、データユーティリティを劣化させる。 最高のトレードオフの達成はまだ難しい研究課題である。 我々はCTAB-GAN+を新しい条件付き表型GANとして提案する。 CTAB-GAN+による最先端化 (i)分類及び回帰ドメインの双方において高機能な合成データのために条件付きganに下流損失を加えること。 (ii)より良い訓練収束のための勾配ペナルティ付きワッサースタイン損失の使用 (iii)不均衡データ又は歪データを有する混合連続類型変数及び変数を対象とする新規エンコーダの導入 (4)厳格なプライバシー保証を課すため、DP確率勾配降下による訓練。 我々はCTAB-GAN+を、最先端の表状GANに対するデータ類似性と分析ユーティリティで広範囲に評価した。 結果は、CTAB-GAN+が、複数のデータセットと異なるプライバシー予算下での学習タスクに対して、少なくとも48.16%高いユーティリティでプライバシー保護データを合成していることを示している。

While data sharing is crucial for knowledge development, privacy concerns and strict regulation (e.g., European General Data Protection Regulation (GDPR)) limit its full effectiveness. Synthetic tabular data emerges as alternative to enable data sharing while fulfilling regulatory and privacy constraints. State-of-the-art tabular data synthesizers draw methodologies from Generative Adversarial Networks (GAN). As GANs improve the synthesized data increasingly resemble the real data risking to leak privacy. Differential privacy (DP) provides theoretical guarantees on privacy loss but degrades data utility. Striking the best trade-off remains yet a challenging research question. We propose CTAB-GAN+ a novel conditional tabular GAN. CTAB-GAN+ improves upon state-of-the-art by (i) adding downstream losses to conditional GANs for higher utility synthetic data in both classification and regression domains; (ii) using Wasserstein loss with gradient penalty for better training convergence; (iii) introducing novel encoders targeting mixed continuous-categoric al variables and variables with unbalanced or skewed data; and (iv) training with DP stochastic gradient descent to impose strict privacy guarantees. We extensively evaluate CTAB-GAN+ on data similarity and analysis utility against state-of-the-art tabular GANs. The results show that CTAB-GAN+ synthesizes privacy-preserving data with at least 48.16% higher utility across multiple datasets and learning tasks under different privacy budgets.
翻訳日:2022-04-04 14:36:59 公開日:2022-04-01
# パーキンソン病の歩行から検出する1d信号のトランスフォーマー

Transformers for 1D Signals in Parkinson's Disease Detection from Gait ( http://arxiv.org/abs/2204.00423v1 )

ライセンス: Link先を確認
Duc Minh Dimitri Nguyen, Mehdi Miah, Guillaume-Alexandre Bilodeau, Wassim Bouachir(参考訳) 本稿では,患者の歩行分析に基づくパーキンソン病の検出に焦点を当てた。 自然言語処理と画像認識におけるトランスフォーマネットワークの普及と成功は,トランスフォーマによる自動特徴抽出に基づくこの問題に対する新しい手法の開発を促した。 1D信号におけるトランスフォーマーの使用は、まだ普及していないが、1D信号から関連する特徴を抽出するのに有効であることを示す。 トランスフォーマーは大量のメモリを必要とするため、時間情報と空間情報を分離してモデルを小さくする。 私たちのアーキテクチャは、時間的トランスフォーマー、データ次元を減らすための次元縮小層、空間的トランスフォーマー、2つの完全連結層、最終予測のための出力層を用いています。 本モデルは,パーキンソン病患者を生理学的データセット上の健康な患者と区別する上で,現在の最先端アルゴリズムを95.2\%精度で上回っている。 この研究から学んだ重要なことは、トランスフォーマーが結果の安定性を高めることだ。 ソースコードと事前トレーニングされたモデルはhttps://github.com/D ucMinhDimitriNguyen/ Transformers-for-1D- signals-in-Parkinson -s-disease-detection -from-gait.gitで公開されている。

This paper focuses on the detection of Parkinson's disease based on the analysis of a patient's gait. The growing popularity and success of Transformer networks in natural language processing and image recognition motivated us to develop a novel method for this problem based on an automatic features extraction via Transformers. The use of Transformers in 1D signal is not really widespread yet, but we show in this paper that they are effective in extracting relevant features from 1D signals. As Transformers require a lot of memory, we decoupled temporal and spatial information to make the model smaller. Our architecture used temporal Transformers, dimension reduction layers to reduce the dimension of the data, a spatial Transformer, two fully connected layers and an output layer for the final prediction. Our model outperforms the current state-of-the-art algorithm with 95.2\% accuracy in distinguishing a Parkinsonian patient from a healthy one on the Physionet dataset. A key learning from this work is that Transformers allow for greater stability in results. The source code and pre-trained models are released in https://github.com/D ucMinhDimitriNguyen/ Transformers-for-1D- signals-in-Parkinson -s-disease-detection -from-gait.git
翻訳日:2022-04-04 14:36:39 公開日:2022-04-01
# ニューラルネットワークを用いた未知多変量関数のサンプル値からのヤコビ行列の推定

Estimating the Jacobian matrix of an unknown multivariate function from sample values by means of a neural network ( http://arxiv.org/abs/2204.00523v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Latr\'emoli\`ere, Sadananda Narayanappa and Petr Vojt\v{e}chovsk\'y(参考訳) 未知の多変量関数のヤコビ行列$J$を推定するために、ニューラルネットワークを訓練するための新しい手法を記述、実装、テストする。 トレーニングセットは有限個のペア$(x, F(x))$から構成され、$J$に関する明示的な情報は含まない。 バックプロパゲーションの損失関数は、線形近似とサンプルデータ内の最も近い近傍探索に基づいている。 我々は、アルゴリズムによって提供される推定ヤコビ行列と実際のヤコビ行列との間に、その関数上の自然な仮定の下で、トレーニングセット上で、およびトレーニング中のニューラルネットワークの損失に基づいて、誤差の均一なノルムの上界を演算ノルムで正式に確立する。 多変量関数のヤコビ行列は、関数に関する豊富な情報を含み、科学や工学において多くの応用がある。 この方法は、ニューラルネットワークによる関数のブラックボックス近似から、問題の関数に関するいくつかの構造情報を提供する近似へ移行するステップを表す。

We describe, implement and test a novel method for training neural networks to estimate the Jacobian matrix $J$ of an unknown multivariate function $F$. The training set is constructed from finitely many pairs $(x,F(x))$ and it contains no explicit information about $J$. The loss function for backpropagation is based on linear approximations and on a nearest neighbor search in the sample data. We formally establish an upper bound on the uniform norm of the error, in operator norm, between the estimated Jacobian matrix provided by the algorithm and the actual Jacobian matrix, under natural assumptions on the function, on the training set and on the loss of the neural network during training. The Jacobian matrix of a multivariate function contains a wealth of information about the function and it has numerous applications in science and engineering. The method given here represents a step in moving from black-box approximations of functions by neural networks to approximations that provide some structural information about the function in question.
翻訳日:2022-04-04 14:36:19 公開日:2022-04-01
# Monarch: 効率的かつ正確なトレーニングのための表現型構造化行列

Monarch: Expressive Structured Matrices for Efficient and Accurate Training ( http://arxiv.org/abs/2204.00595v1 )

ライセンス: Link先を確認
Tri Dao, Beidi Chen, Nimit Sohoni, Arjun Desai, Michael Poli, Jessica Grogan, Alexander Liu, Aniruddh Rao, Atri Rudra, Christopher R\'e(参考訳) 大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。 計算やメモリの要求を減らす一般的なアプローチは、密度の高い行列を構造化された行列(例えばスパース、ローランク、フーリエ変換)に置き換えることである。 これらの手法は,(1)好ましくない効率-品質トレードオフによるエンドツーエンドトレーニング,(2)与えられた重み行列を近似するトラクタブルアルゴリズムの欠如による細粒度調整において広く採用されていない。 これらの問題に対処するために、ハードウェア効率(ハードウェア利用性を向上させるために2つのブロック対角行列の積としてパラメータ化される)と表現力(多くの一般的な変換を表現できる)を持つ行列(モナック)のクラスを提案する。 驚くべきことに、密重行列を君主行列と近似する問題は、非凸であるが、解析的最適解を持つ。 君主行列のこれらの性質は、微弱で密集した模型を訓練する新しい方法を解き明かす。 画像ネット分類におけるViTおよびGPT-2トレーニングとWikitext-103言語モデリングを2倍のモデル品質で高速化し、PDE解決およびMRI再構成タスクにおける誤差を40%削減する。 sparse-to-denseトレーニングでは、"reverse sparsification"と呼ばれる単純なテクニックで、モナール行列は、品質低下なしにOpenWebText上の2倍のGPT-2事前トレーニングをスピードアップする便利な中間表現として機能する。 同じテクニックは、MLPerf 1.1を記録づけたNvidiaによる非常に最適化された実装よりも23%高速なBERTプリトレーニングをもたらす。 密度とスパースによる微調整では、概念実証として、我々のMonarch近似アルゴリズムは、GLUE上のBERT微調整を1.7倍の精度で高速化する。

Large neural networks excel in many domains, but they are expensive to train and fine-tune. A popular approach to reduce their compute or memory requirements is to replace dense weight matrices with structured ones (e.g., sparse, low-rank, Fourier transform). These methods have not seen widespread adoption (1) in end-to-end training due to unfavorable efficiency--quality tradeoffs, and (2) in dense-to-sparse fine-tuning due to lack of tractable algorithms to approximate a given dense weight matrix. To address these issues, we propose a class of matrices (Monarch) that is hardware-efficient (they are parameterized as products of two block-diagonal matrices for better hardware utilization) and expressive (they can represent many commonly used transforms). Surprisingly, the problem of approximating a dense weight matrix with a Monarch matrix, though nonconvex, has an analytical optimal solution. These properties of Monarch matrices unlock new ways to train and fine-tune sparse and dense models. We empirically validate that Monarch can achieve favorable accuracy-efficiency tradeoffs in several end-to-end sparse training applications: speeding up ViT and GPT-2 training on ImageNet classification and Wikitext-103 language modeling by 2x with comparable model quality, and reducing the error on PDE solving and MRI reconstruction tasks by 40%. In sparse-to-dense training, with a simple technique called "reverse sparsification," ; Monarch matrices serve as a useful intermediate representation to speed up GPT-2 pretraining on OpenWebText by 2x without quality drop. The same technique brings 23% faster BERT pretraining than even the very optimized implementation from Nvidia that set the MLPerf 1.1 record. In dense-to-sparse fine-tuning, as a proof-of-concept, our Monarch approximation algorithm speeds up BERT fine-tuning on GLUE by 1.7x with comparable accuracy.
翻訳日:2022-04-04 14:36:00 公開日:2022-04-01
# InterAug: CTCベースのASRのためのノイズの多い中間予測

InterAug: Augmenting Noisy Intermediate Predictions for CTC-based ASR ( http://arxiv.org/abs/2204.00174v1 )

ライセンス: Link先を確認
Yu Nakagome, Tatsuya Komatsu, Yusuke Fujita, Shuta Ichimura, Yusuke Kida(参考訳) 本稿では,CTCをベースとしたASRの新しいトレーニング手法であるInterAugを提案する。 提案手法は, 自己条件付きCTCの条件付けフレームワークを利用して, 「ノイズ」中間予測を用いて頑健なモデルを訓練する。 トレーニング中、中間予測は誤った中間予測に変更され、コンディショニングのために次の層に供給される。 その後の層は、誤った中間予測を中間損失で補正するように訓練される。 拡張と修正を繰り返すことで、通常特別なデコーダを必要とする反復的な改善は、オーディオエンコーダでのみ実現できる。 ノイズの多い中間予測を生成するために,典型的な誤りをシミュレートするために設計された中間特徴空間拡張と中間トークン空間増強という,新たな拡張を導入する。 提案されたInterAugフレームワークと新たな拡張の組み合わせにより、堅牢なオーディオエンコーダの明示的なトレーニングが可能になる。 削除,挿入,置換誤差を模擬した拡張実験において,訓練されたモデルが各誤差に対して頑健性を獲得し,強い自己条件CTCベースラインの音声認識性能を高めることを確認した。

This paper proposes InterAug: a novel training method for CTC-based ASR using augmented intermediate representations for conditioning. The proposed method exploits the conditioning framework of self-conditioned CTC to train robust models by conditioning with "noisy" intermediate predictions. During the training, intermediate predictions are changed to incorrect intermediate predictions, and fed into the next layer for conditioning. The subsequent layers are trained to correct the incorrect intermediate predictions with the intermediate losses. By repeating the augmentation and the correction, iterative refinements, which generally require a special decoder, can be realized only with the audio encoder. To produce noisy intermediate predictions, we also introduce new augmentation: intermediate feature space augmentation and intermediate token space augmentation that are designed to simulate typical errors. The combination of the proposed InterAug framework with new augmentation allows explicit training of the robust audio encoders. In experiments using augmentations simulating deletion, insertion, and substitution error, we confirmed that the trained model acquires robustness to each error, boosting the speech recognition performance of the strong self-conditioned CTC baseline.
翻訳日:2022-04-04 14:34:14 公開日:2022-04-01
# ctcベースasrのマルチシーケンス中間条件付け

Multi-sequence Intermediate Conditioning for CTC-based ASR ( http://arxiv.org/abs/2204.00175v1 )

ライセンス: Link先を確認
Yusuke Fujita, Tatsuya Komatsu, Yusuke Kida(参考訳) エンドツーエンドの自動音声認識(asr)は、発音語彙を使わずに入力音声を文字列に直接マッピングする。 しかし、日本語やマンダリンなど数千文字の言語では、データ不足のため、これらすべての文字をモデル化することが問題となっている。 この問題を軽減するために,自己条件接続型時間分類(CTC)技術を用いて,文字と音節間の明示的な相互作用を伴うマルチタスク学習モデルを提案する。 提案手法では,各中間層に補助的ctc損失を適用して文字レベルの中間予測を推定する一方で,他の中間層における音節レベルの中間予測を推定する。 文字レベルと音節レベルの予測は、文字と音節間の相互依存を扱う条件付けとして交互に使用される。 日本語とマンダリンのデータセットを用いた実験結果から,提案手法は従来のマルチタスク方式と自己条件CTC方式よりも優れていた。

End-to-end automatic speech recognition (ASR) directly maps input speech to a character sequence without using pronunciation lexica. However, in languages with thousands of characters, such as Japanese and Mandarin, modeling all these characters is problematic due to data scarcity. To alleviate the problem, we propose a multi-task learning model with explicit interaction between characters and syllables by utilizing Self-conditioned connectionist temporal classification (CTC) technique. While the original Self-conditioned CTC estimates character-level intermediate predictions by applying auxiliary CTC losses to a set of intermediate layers, the proposed method additionally estimates syllable-level intermediate predictions in another set of intermediate layers. The character-level and syllable-level predictions are alternately used as conditioning features to deal with mutual dependency between characters and syllables. Experimental results on Japanese and Mandarin datasets show that the proposed multi-sequence intermediate conditioning outperformed the conventional multi-task-based and Self-conditioned CTC-based methods.
翻訳日:2022-04-04 14:33:54 公開日:2022-04-01
# CTC推論を改善する中間体

Better Intermediates Improve CTC Inference ( http://arxiv.org/abs/2204.00176v1 )

ライセンス: Link先を確認
Tatsuya Komatsu, Yusuke Fujita, Jaesong Lee, Lukas Lee, Shinji Watanabe, Yusuke Kida(参考訳) 本稿では,検索中間子とマルチパス条件付きCTC推論の改良手法を提案する。 本稿では、まず、中間予測を潜在表現として確率モデルとして自己条件CTCを定式化し、トラクタブルコンディショニングフレームワークを提供する。 次に,新しい定式化に基づく2つの新しい条件付け手法を提案する。(1)ビームサーチによる中間予測を洗練させる検索中間条件付け,(2)先行推論の予測を次の推論に使用するマルチパス条件付け。 これらの新しいアプローチにより、推論中のオリジナルの自己条件CTCよりもより良い条件付けが可能になり、最終的な性能が向上する。 librispeechデータセットを用いた実験では、元のセルフコンディショニングctcと比較して、テストクリーン/その他セットの最大性能が3%/12%向上した。

This paper proposes a method for improved CTC inference with searched intermediates and multi-pass conditioning. The paper first formulates self-conditioned CTC as a probabilistic model with an intermediate prediction as a latent representation and provides a tractable conditioning framework. We then propose two new conditioning methods based on the new formulation: (1) Searched intermediate conditioning that refines intermediate predictions with beam-search, (2) Multi-pass conditioning that uses predictions of previous inference for conditioning the next inference. These new approaches enable better conditioning than the original self-conditioned CTC during inference and improve the final performance. Experiments with the LibriSpeech dataset show relative 3%/12% performance improvement at the maximum in test clean/other sets compared to the original self-conditioned CTC.
翻訳日:2022-04-04 14:33:36 公開日:2022-04-01
# 競合型asrシステムにおける大規模言語モデル補完の効果と解析

Effect and Analysis of Large-scale Language Model Rescoring on Competitive ASR Systems ( http://arxiv.org/abs/2204.00212v1 )

ライセンス: Link先を確認
Takuma Udagawa, Masayuki Suzuki, Gakuto Kurata, Nobuyasu Itoh, George Saon(参考訳) GPT-2、BERT、RoBERTaのような大規模言語モデル (LLM) は、ASR N-best Rescoringに適用されている。 しかし、彼らが競争力を享受できるかどうかに関わらず、最先端のasrシステムはまだ未調査のままである。 本研究では,LLM再構成を最も競争力のあるASRベースラインである Conformer-Transducer モデルに組み込む。 我々は,LLMの双方向性,事前学習,ドメイン内微調整,コンテキスト拡張によって一貫した改善が達成されることを実証した。 さらに,各成分がASR性能にどのように寄与しているかを語彙解析により明らかにした。

Large-scale language models (LLMs) such as GPT-2, BERT and RoBERTa have been successfully applied to ASR N-best rescoring. However, whether or how they can benefit competitive, near state-of-the-art ASR systems remains unexplored. In this study, we incorporate LLM rescoring into one of the most competitive ASR baselines: the Conformer-Transducer model. We demonstrate that consistent improvement is achieved by the LLM's bidirectionality, pretraining, in-domain finetuning and context augmentation. Furthermore, our lexical analysis sheds light on how each of these components may be contributing to the ASR performance.
翻訳日:2022-04-04 14:33:23 公開日:2022-04-01
# 独立ベクトル解析を用いたエンドツーエンドマルチスピーカASR

End-to-End Multi-speaker ASR with Independent Vector Analysis ( http://arxiv.org/abs/2204.00218v1 )

ライセンス: Link先を確認
Robin Scheibler, Wangyou Zhang, Xuankai Chang, Shinji Watanabe, Yanmin Qian(参考訳) マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。 本稿では, 独立ベクトル解析(IVA)パラダイムに基づく共同音源分離と残響のフロントエンドを提案する。 高速で安定した反復的ソースステアリングアルゴリズムとニューラルソースモデルを使用する。 ASRモジュールとニューラルソースモデルからのパラメータは、ASR損失自体から共同で最適化される。 神経ビームフォーミングフロントエンドを用いて,従来システムとの競合性能を示す。 まず、トレーニングとテストにさまざまなチャネルを使用する場合のトレードオフについて検討する。 第2に,クリーンミックスのみのトレーニングにおいても,提案したIVAフロントエンドがノイズの多いデータに対して良好に動作することを示す。 さらに、3と4の混合話者で示される、より多くの話者の分離に再訓練することなく拡張する。

We develop an end-to-end system for multi-channel, multi-speaker automatic speech recognition. We propose a frontend for joint source separation and dereverberation based on the independent vector analysis (IVA) paradigm. It uses the fast and stable iterative source steering algorithm together with a neural source model. The parameters from the ASR module and the neural source model are optimized jointly from the ASR loss itself. We demonstrate competitive performance with previous systems using neural beamforming frontends. First, we explore the trade-offs when using various number of channels for training and testing. Second, we demonstrate that the proposed IVA frontend performs well on noisy data, even when trained on clean mixtures only. Furthermore, it extends without retraining to the separation of more speakers, which is demonstrated on mixtures of three and four speakers.
翻訳日:2022-04-04 14:33:14 公開日:2022-04-01
# 低リソース音声認識のためのテキスト音声データ拡張

Text-To-Speech Data Augmentation for Low Resource Speech Recognition ( http://arxiv.org/abs/2204.00291v1 )

ライセンス: Link先を確認
Rodolfo Zevallos(参考訳) 近年,自動音声認識(ASR)モデルの開発に用いられているディープラーニング技術の主な問題は,転写データの欠如である。 本研究の目的は、集約型および低リソース言語のためのASRモデルを改善するための新しいデータ拡張手法を提案することである。 この新規データ拡張方法は、合成テキストと合成音声の両方を生成する。 凝集的かつ低資源言語であるケチュア語のコーパスを用いていくつかの実験を行った。 本研究では,Cechuaの音声合成モデルを用いた合成音声生成に加えて,シーケンス・トゥ・シーケンス(seq2seq)モデルを適用して合成テキストを生成する。 その結果,新しいデータ拡張手法は,ケチュアのASRモデルを改善するのに有効であることがわかった。 本研究では,合成テキストと合成音声の組み合わせを用いて,ASRモデルの単語誤り率(WER)を8.73%改善した。

Nowadays, the main problem of deep learning techniques used in the development of automatic speech recognition (ASR) models is the lack of transcribed data. The goal of this research is to propose a new data augmentation method to improve ASR models for agglutinative and low-resource languages. This novel data augmentation method generates both synthetic text and synthetic audio. Some experiments were conducted using the corpus of the Quechua language, which is an agglutinative and low-resource language. In this study, a sequence-to-sequence (seq2seq) model was applied to generate synthetic text, in addition to generating synthetic speech using a text-to-speech (TTS) model for Quechua. The results show that the new data augmentation method works well to improve the ASR model for Quechua. In this research, an 8.73% improvement in the word-error-rate (WER) of the ASR model is obtained using a combination of synthetic text and synthetic speech.
翻訳日:2022-04-04 14:33:03 公開日:2022-04-01
# (参考訳) 自己教師付き学習と下流分類における単純埋め込み [全文訳有]

Simplicial Embeddings in Self-Supervised Learning and Downstream Classification ( http://arxiv.org/abs/2204.00616v1 )

ライセンス: CC BY 4.0
Samuel Lavoie, Christos Tsirigotis, Max Schwarzer, Kenji Kawaguchi, Ankit Vani, Aaron Courville(参考訳) 我々は,自己教師付きモデルの符号化表現を,Softmax演算を用いてそれぞれ$V$次元の$L$に制限する方法として,Simplicial Embeddings (SEM)を導入する。 この手順は、下流の分類器を訓練するために表現性を減らす構造を課し、より一般化するのに役立つ。 具体的には、SEM表現の表現性に対するSoftmax演算制御の温度$\tau$は、非正規化表現を用いた分類器よりも強い下流分類器の一般化を導出できることを示す。 我々は,SEMがCIFAR-100やImageNetなどの自然画像データセットの一般化を著しく改善することを示す。 最後に,semsに意味的に関連のある特徴が出現する証拠を示す。

We introduce Simplicial Embeddings (SEMs) as a way to constrain the encoded representations of a self-supervised model to $L$ simplices of $V$ dimensions each using a Softmax operation. This procedure imposes a structure on the representations that reduce their expressivity for training downstream classifiers, which helps them generalize better. Specifically, we show that the temperature $\tau$ of the Softmax operation controls for the SEM representation's expressivity, allowing us to derive a tighter downstream classifier generalization bound than that for classifiers using unnormalized representations. We empirically demonstrate that SEMs considerably improve generalization on natural image datasets such as CIFAR-100 and ImageNet. Finally, we also present evidence of the emergence of semantically relevant features in SEMs, a pattern that is absent from baseline self-supervised models.
翻訳日:2022-04-04 14:31:24 公開日:2022-04-01
# 多文書要約による臨床試験における介入承認の予測

Predicting Intervention Approval in Clinical Trials through Multi-Document Summarization ( http://arxiv.org/abs/2204.00290v1 )

ライセンス: Link先を確認
Georgios Katsimpras, Georgios Paliouras(参考訳) 臨床試験は、新しい治療法を発見し、医療知識を前進させる基本的な機会を提供する。 しかし、裁判の結果の不確実性は、予期せぬコストと挫折につながる可能性がある。 本研究では,臨床試験における介入の有効性を予測する新しい方法を提案する。 本手法は,研究中の介入に関する文献から,複数の資料から情報的要約を生成することに依存する。 具体的には、まず、介入に関連するPubMed記事の要約を収集する。 そして、各要約から、介入の有効性に関する情報を伝達する証拠文を自動的に抽出する。 要約から抽出された証拠文の集合に基づき、介入に関する簡単な要約を構築する。 最後に、生成した要約を用いてBERTベースの分類器を訓練し、介入の有効性を推測する。 提案手法を評価するために,臨床実験のコレクションである新しいデータセットと関連するPubMed記事を紹介する。 本実験は,短い情報要約を作成し,介入の有効性を予測するための有効性を示すものである。

Clinical trials offer a fundamental opportunity to discover new treatments and advance the medical knowledge. However, the uncertainty of the outcome of a trial can lead to unforeseen costs and setbacks. In this study, we propose a new method to predict the effectiveness of an intervention in a clinical trial. Our method relies on generating an informative summary from multiple documents available in the literature about the intervention under study. Specifically, our method first gathers all the abstracts of PubMed articles related to the intervention. Then, an evidence sentence, which conveys information about the effectiveness of the intervention, is extracted automatically from each abstract. Based on the set of evidence sentences extracted from the abstracts, a short summary about the intervention is constructed. Finally, the produced summaries are used to train a BERT-based classifier, in order to infer the effectiveness of an intervention. To evaluate our proposed method, we introduce a new dataset which is a collection of clinical trials together with their associated PubMed articles. Our experiments, demonstrate the effectiveness of producing short informative summaries and using them to predict the effectiveness of an intervention.
翻訳日:2022-04-04 13:59:31 公開日:2022-04-01
# 構造化プルーニングはコンパクトで正確なモデルを学ぶ

Structured Pruning Learns Compact and Accurate Models ( http://arxiv.org/abs/2204.00408v1 )

ライセンス: Link先を確認
Mengzhou Xia, Zexuan Zhong, Danqi Chen(参考訳) ニューラルネットワークのモデルのサイズが大きくなると、モデル圧縮に注目が集まっている。 2つの主要なアプローチは、プレトレーニングされたモデルから徐々に重量を除去するプルーニング(pruning)と、より小さなコンパクトモデルでより大きなモデルと一致するように訓練する蒸留である。 プルーニング法はモデルサイズを著しく削減できるが、蒸留として大きなスピードアップを達成できない。 しかし、蒸留法は大量のラベルのないデータを必要とし、訓練に費用がかかる。 本研究では,高度に並列化可能なサブネットワークを供給し,ラベルのないデータに頼らずに蒸留法を精度とレイテンシの両立させるタスク特有な構造的プルーニング手法であるcofi(coarse- and fine-fine-pruning)を提案する。 我々の重要な洞察は、粗い粒度(例えば層)と細粒度(例えば、頭と隠れた単位)のモジュールを共同でプーンし、異なる粒度のマスクで各パラメータのプルーニング決定を制御することである。 また,最適化中に未熟モデルから未熟モデルへ知識を伝達するための層別蒸留戦略も考案した。 接着剤およびスクワッドデータセットを用いた実験により,cofiは10倍以上の速度アップを持つモデルに対して,精度低下が小さいことを示し,従来のプルーニングおよび蒸留法と比較して,その有効性と効率を示した。

The growing size of neural language models has led to increased attention in model compression. The two predominant approaches are pruning, which gradually removes weights from a pre-trained model, and distillation, which trains a smaller compact model to match a larger one. Pruning methods can significantly reduce the model size but hardly achieve large speedups as distillation. However, distillation methods require large amounts of unlabeled data and are expensive to train. In this work, we propose a task-specific structured pruning method CoFi (Coarse- and Fine-grained Pruning), which delivers highly parallelizable subnetworks and matches the distillation methods in both accuracy and latency, without resorting to any unlabeled data. Our key insight is to jointly prune coarse-grained (e.g., layers) and fine-grained (e.g., heads and hidden units) modules, which controls the pruning decision of each parameter with masks of different granularity. We also devise a layerwise distillation strategy to transfer knowledge from unpruned to pruned models during optimization. Our experiments on GLUE and SQuAD datasets show that CoFi yields models with over 10x speedups with a small accuracy drop, showing its effectiveness and efficiency compared to previous pruning and distillation approaches.
翻訳日:2022-04-04 13:59:16 公開日:2022-04-01
# 否定と不確かさの無関係表現の学習

Learning Disentangled Representations of Negation and Uncertainty ( http://arxiv.org/abs/2204.00511v1 )

ライセンス: Link先を確認
Jake Vasilakes, Chrysoula Zerva, Makoto Miwa, Sophia Ananiadou(参考訳) 否定と不確実性モデリングは自然言語処理における長年のタスクである。 言語理論は、否定と不確実性の表現が意味的に互いに独立であり、それらが修正する内容であると仮定している。 しかし、表現学習に関する以前の研究は、この独立性を明示的にモデル化していない。 そこで我々は変分オートエンコーダを用いて否定,不確実性,内容の表現を解消しようとする。 潜在表現を単純に監督することで、良好な不絡み合いが得られるが、逆学習と相互情報最小化に基づく補助的目的により、さらなる不絡み合いがもたらされる。

Negation and uncertainty modeling are long-standing tasks in natural language processing. Linguistic theory postulates that expressions of negation and uncertainty are semantically independent from each other and the content they modify. However, previous works on representation learning do not explicitly model this independence. We therefore attempt to disentangle the representations of negation, uncertainty, and content using a Variational Autoencoder. We find that simply supervising the latent representations results in good disentanglement, but auxiliary objectives based on adversarial learning and mutual information minimization can provide additional disentanglement gains.
翻訳日:2022-04-04 13:58:45 公開日:2022-04-01
# adaspeech 4: ゼロショットシナリオにおける音声適応テキスト

AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios ( http://arxiv.org/abs/2204.00436v1 )

ライセンス: Link先を確認
Yihan Wu, Xu Tan, Bohan Li, Lei He, Sheng Zhao, Ruihua Song, Tao Qin, Tie-Yan Liu(参考訳) アダプティブテキスト・トゥ・スピーチ(TTS)は、話者の音声データに適応することなく、よく訓練されたソースTSモデルを用いて、ゼロショットシナリオにおける新しい音声を効率的に合成することができる。 目に見えない話者には様々な特徴があるため、ゼロショット適応TSは話者特性に強力な一般化能力を必要とし、モデリング上の課題をもたらす。 本稿では,高品質音声合成のためのゼロショット適応ttsシステムadaspeech 4を開発した。 話者特性を体系的にモデル化し、新しい話者の一般化を改善する。 一般に、話者特性のモデル化は、話者表現を抽出し、この話者表現を条件として、この話者表現を合成する3つのステップに分けられる。 したがって、3つのステップでモデリングを改善する。 1)より一般化された話者表現を抽出するために,話者特性を基本ベクトルに分解し,これらの基本ベクトルの重み付けにより話者表現を抽出する。 2) 条件層正規化を利用して抽出した話者表現をTSモデルに統合する。 3) 生成されたメルスペクトログラムにおける対応する話者特性を維持するための基底ベクトル分布に基づく新しい監督損失を提案する。 微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。

Adaptive text to speech (TTS) can synthesize new voices in zero-shot scenarios efficiently, by using a well-trained source TTS model without adapting it on the speech data of new speakers. Considering seen and unseen speakers have diverse characteristics, zero-shot adaptive TTS requires strong generalization ability on speaker characteristics, which brings modeling challenges. In this paper, we develop AdaSpeech 4, a zero-shot adaptive TTS system for high-quality speech synthesis. We model the speaker characteristics systematically to improve the generalization on new speakers. Generally, the modeling of speaker characteristics can be categorized into three steps: extracting speaker representation, taking this speaker representation as condition, and synthesizing speech/mel-spectrogr am given this speaker representation. Accordingly, we improve the modeling in three steps: 1) To extract speaker representation with better generalization, we factorize the speaker characteristics into basis vectors and extract speaker representation by weighted combining of these basis vectors through attention. 2) We leverage conditional layer normalization to integrate the extracted speaker representation to TTS model. 3) We propose a novel supervision loss based on the distribution of basis vectors to maintain the corresponding speaker characteristics in generated mel-spectrograms. Without any fine-tuning, AdaSpeech 4 achieves better voice quality and similarity than baselines in multiple datasets.
翻訳日:2022-04-04 13:58:35 公開日:2022-04-01
# graph-in-graph (gig): 生物・医療分野における非ユークリッド領域における理解可能な潜在グラフの学習

Graph-in-Graph (GiG): Learning interpretable latent graphs in non-Euclidean domain for biological and healthcare applications ( http://arxiv.org/abs/2204.00323v1 )

ライセンス: Link先を確認
Kamilia Mullakaeva, Luca Cosmo, Anees Kazi, Seyed-Ahmad Ahmadi, Nassir Navab and Michael M. Bronstein(参考訳) グラフは、医療領域のユビキタスな非構造化非ユークリッドデータを表現および分析するための強力なツールである。 2つの顕著な例は分子特性予測と脳コネクトーム解析である。 近年の研究では、入力データサンプル間の関係を考慮すると、医療アプリケーションにおける下流タスクに対する正の正の正則化効果が示されている。 これらの関係は、入力サンプル間の(おそらく未知の)グラフ構造によって自然にモデル化される。 本稿では,入力データサンプルのグラフ表現とその潜在関係を利用した,タンパク質分類と脳イメージングのためのニューラルネットワークアーキテクチャであるgraph-in-graph(gig)を提案する。 グラフ値入力データ間の初期未知の潜時グラフ構造を仮定し、入力グラフを接続する潜時構造とともに、入力グラフサンプル内および横断的なメッセージパッシングのためのパラメトリックモデルをエンドツーエンドに学習することを提案する。 さらに,予測された潜在関係構造を正則化する度数分布損失を導入する。 この正規化は下流のタスクを大幅に改善することができる。 さらに、得られた潜伏グラフは、患者集団モデルまたは分子クラスターのネットワークを表現することができ、医療における特定の価値の入力領域における解釈可能性と知識発見のレベルを提供する。

Graphs are a powerful tool for representing and analyzing unstructured, non-Euclidean data ubiquitous in the healthcare domain. Two prominent examples are molecule property prediction and brain connectome analysis. Importantly, recent works have shown that considering relationships between input data samples have a positive regularizing effect for the downstream task in healthcare applications. These relationships are naturally modeled by a (possibly unknown) graph structure between input samples. In this work, we propose Graph-in-Graph (GiG), a neural network architecture for protein classification and brain imaging applications that exploits the graph representation of the input data samples and their latent relation. We assume an initially unknown latent-graph structure between graph-valued input data and propose to learn end-to-end a parametric model for message passing within and across input graph samples, along with the latent structure connecting the input graphs. Further, we introduce a degree distribution loss that helps regularize the predicted latent relationships structure. This regularization can significantly improve the downstream task. Moreover, the obtained latent graph can represent patient population models or networks of molecule clusters, providing a level of interpretability and knowledge discovery in the input domain of particular value in healthcare.
翻訳日:2022-04-04 13:58:13 公開日:2022-04-01
# 部分解釈を用いたニューラルネットワークからの規則抽出

Extracting Rules from Neural Networks with Partial Interpretations ( http://arxiv.org/abs/2204.00360v1 )

ライセンス: Link先を確認
Cosimo Persia, Ana Ozaki(参考訳) ニューラルネットワークモデルからホーン論理で表現された規則を抽出する問題について検討する。 私たちの研究は、学習者がクエリを通じて教師(ニューラルネットワークモデル)と対話し、抽象的な対象概念を学習する正確な学習モデルに基づいています。 クエリを定式化する部分的な解釈を検討する。 これらは命題の真理性に関する知識の一部が不明な世界の表現として理解することができる。 クエリによるHhornルールの学習にAngluin sアルゴリズムを使用し、我々の戦略を実証的に評価する。

We investigate the problem of extracting rules, expressed in Horn logic, from neural network models. Our work is based on the exact learning model, in which a learner interacts with a teacher (the neural network model) via queries in order to learn an abstract target concept, which in our case is a set of Horn rules. We consider partial interpretations to formulate the queries. These can be understood as a representation of the world where part of the knowledge regarding the truthiness of propositions is unknown. We employ Angluin s algorithm for learning Horn rules via queries and evaluate our strategy empirically.
翻訳日:2022-04-04 13:56:28 公開日:2022-04-01
# 配電系統における負荷予測のためのグローバルモデリング手法

A Global Modeling Approach for Load Forecasting in Distribution Networks ( http://arxiv.org/abs/2204.00493v1 )

ライセンス: Link先を確認
Miha Grabner, Yi Wang, Qingsong Wen, Bo\v{s}tjan Bla\v{z}i\v{c}, Vitomir \v{S}truc(参考訳) 配電網の可観測性向上には効率的な負荷予測が必要であるが, スマートメーターの設置数の増加により, このような予測が可能となる。 配電網は, 個別消費者, 変圧器局, フィーダ等の多種多様な集約レベルでの負荷を多量に含むため, 各負荷に対して個別(あるいは局所)予測モデルを開発することは実用的ではない。 さらに,このようなローカルモデルでは,その空間的近接性や分散ネットワークの特性から,異なる負荷間の強い依存性を無視できる。 そこで本研究では,分散ネットワークにおける大量の負荷を効率的に予測するための,ディープラーニングに基づくグローバルモデリング手法を提案する。 このようにして、大量の局所予測モデルのトレーニングの計算負荷を大幅に削減することができ、異なる負荷間で共有される直列情報を利用することができる。 また,予測モデルを異なる負荷群に局所化/パーソナライズし,さらに予測精度を向上させるために,教師なし局所化機構と最適アンサンブル構築戦略を提案する。 実世界のスマートメータデータを用いて総合的な実験を行い,提案手法が競合手法よりも優れていることを示す。

Efficient load forecasting is needed to ensure better observability in the distribution networks, whereas such forecasting is made possible by an increasing number of smart meter installations. Because distribution networks include a large amount of different loads at various aggregation levels, such as individual consumers, transformer stations and feeders loads, it is impractical to develop individual (or so-called local) forecasting models for each load separately. Furthermore, such local models ignore the strong dependencies between different loads that might be present due to their spatial proximity and the characteristics of the distribution network. To address these issues, this paper proposes a global modeling approach based on deep learning for efficient forecasting of a large number of loads in distribution networks. In this way, the computational burden of training a large amount of local forecasting models can be largely reduced, and the cross-series information shared among different loads can be utilized. Additionally, an unsupervised localization mechanism and optimal ensemble construction strategy are also proposed to localize/personalize the forecasting model to different groups of loads and to improve the forecasting accuracy further. Comprehensive experiments are conducted on real-world smart meter data to demonstrate the superiority of the proposed approach compared to competing methods.
翻訳日:2022-04-04 13:56:18 公開日:2022-04-01
# 強化学習における補助的タスクの意義--目標政策の効果について

What makes useful auxiliary tasks in reinforcement learning: investigating the effect of the target policy ( http://arxiv.org/abs/2204.00565v1 )

ライセンス: Link先を確認
Banafsheh Rafiee, Jun Jin, Jun Luo, Adam White(参考訳) 補助タスクは強化学習における表現学習に有用であると論じられている。 多くの補助タスクがメインタスクの学習を加速するのに有効であることが実証的に示されているが、何が補助タスクに役に立つのかはまだ明らかではない。 最も有望な結果のいくつかはピクセル制御、報酬予測、そして次の状態予測補助タスクである。 補助的なタスクがメインタスクの学習にどのように役立つか、慎重な調査が必要である。 本稿では,汎用値関数として定式化された補助的タスクの有用性に対する目標ポリシの効果について検討する。 一般値関数は3つの中核要素から構成される。 1)政策 2)累積体 3)継続機能。 本研究は, エージェントが予測を行う行動と, エージェントが指導する状態-行動分布が, メインタスク学習にさらに影響を及ぼすという事実から, 補助タスクの目標方針の役割に焦点が当てられている。 欲張りの政策は、他の政策に比べて改善率が向上するのだろうか? 補助タスクポリシーをメインタスクポリシーと同じものにするのが最善か? 目標ポリシーの選択は、達成したパフォーマンス向上や、均一にランダムなポリシーを使用するなど、ポリシーを設定するための単純な戦略にも大きな影響を与えるだろうか? 私たちの経験的な結果は 1)欲求政策の補助的タスクは有用である傾向にある。 2)一様無作為政策を含むほとんどの政策は基準よりも改善する傾向にある。 3) 意外なことに、メインタスクポリシーは他のポリシーに比べて実用性が低い傾向にある。

Auxiliary tasks have been argued to be useful for representation learning in reinforcement learning. Although many auxiliary tasks have been empirically shown to be effective for accelerating learning on the main task, it is not yet clear what makes useful auxiliary tasks. Some of the most promising results are on the pixel control, reward prediction, and the next state prediction auxiliary tasks; however, the empirical results are mixed, showing substantial improvements in some cases and marginal improvements in others. Careful investigations of how auxiliary tasks help the learning of the main task is necessary. In this paper, we take a step studying the effect of the target policies on the usefulness of the auxiliary tasks formulated as general value functions. General value functions consist of three core elements: 1) policy 2) cumulant 3) continuation function. Our focus on the role of the target policy of the auxiliary tasks is motivated by the fact that the target policy determines the behavior about which the agent wants to make a prediction and the state-action distribution that the agent is trained on, which further affects the main task learning. Our study provides insights about questions such as: Does a greedy policy result in bigger improvement gains compared to other policies? Is it best to set the auxiliary task policy to be the same as the main task policy? Does the choice of the target policy have a substantial effect on the achieved performance gain or simple strategies for setting the policy, such as using a uniformly random policy, work as well? Our empirical results suggest that: 1) Auxiliary tasks with the greedy policy tend to be useful. 2) Most policies, including a uniformly random policy, tend to improve over the baseline. 3) Surprisingly, the main task policy tends to be less useful compared to other policies.
翻訳日:2022-04-04 13:55:57 公開日:2022-04-01
# DBCal:不確実性定量化のための分類器予測の密度に基づく校正

DBCal: Density Based Calibration of classifier predictions for uncertainty quantification ( http://arxiv.org/abs/2204.00150v1 )

ライセンス: Link先を確認
Alex Hagen, Karl Pazdernik, Nicole LaHaye, Marjolein Oostrom(参考訳) 機械学習手法による予測の不確実性の測定は、科学的領域や応用において重要である。 我々は,分類器からの予測の不確かさを定量化し,分類器の信念と性能の両方を考慮に入れた最初の手法を提案する。 本手法は、2つのニューラルネットワークの出力が2つの分類器で0.2%未満の予測校正誤差を示し、極端なクラス不均衡を持つ意味セグメンテーションネットワーク上で3%未満の精度で正しい確率を推定できることを実証する。 本手法により得られた不確実性は,分類器の予測が正しい確率の正確な測定であり,不確実性伝播に広く有効であることを示す。

Measurement of uncertainty of predictions from machine learning methods is important across scientific domains and applications. We present, to our knowledge, the first such technique that quantifies the uncertainty of predictions from a classifier and accounts for both the classifier's belief and performance. We prove that our method provides an accurate estimate of the probability that the outputs of two neural networks are correct by showing an expected calibration error of less than 0.2% on a binary classifier, and less than 3% on a semantic segmentation network with extreme class imbalance. We empirically show that the uncertainty returned by our method is an accurate measurement of the probability that the classifier's prediction is correct and, therefore has broad utility in uncertainty propagation.
翻訳日:2022-04-04 13:54:46 公開日:2022-04-01
# DAG-WGAN: Wasserstein Generative Adversarial Networks を用いた因果構造学習

DAG-WGAN: Causal Structure Learning With Wasserstein Generative Adversarial Networks ( http://arxiv.org/abs/2204.00387v1 )

ライセンス: Link先を確認
Hristo Petkov, Colin Hanley and Feng Dong(参考訳) 組合せ探索空間はデータから因果関係を学習する上で重要な課題である。 近年、この問題は非循環性制約付き連続最適化フレームワークに定式化され、深層生成モデルの探索により、データサンプル分布をよりよく把握し、基礎となるデータ分布を忠実に表現するダイレクト非循環グラフ(DAG)の発見を支援することができる。 しかし, 生成モデルによる因果構造学習におけるwasserstein距離の利用についての研究は行われていない。 本稿では、自動エンコーダアーキテクチャであるワッサーシュタインに基づく対向損失と非循環性制約を組み合わせたDAG-WGANという新しいモデルを提案する。 DAG-WGANは同時に因果構造を学習し、ワッサーシュタイン距離計量の強度を利用してデータ生成能力を向上させる。 他のモデルと比較して、スケールが良く、連続データと離散データの両方を処理する。 我々はDAG-WGANを最先端技術に対して評価し,その性能を実証した。

The combinatorial search space presents a significant challenge to learning causality from data. Recently, the problem has been formulated into a continuous optimization framework with an acyclicity constraint, allowing for the exploration of deep generative models to better capture data sample distributions and support the discovery of Directed Acyclic Graphs (DAGs) that faithfully represent the underlying data distribution. However, so far no study has investigated the use of Wasserstein distance for causal structure learning via generative models. This paper proposes a new model named DAG-WGAN, which combines the Wasserstein-based adversarial loss, an auto-encoder architecture together with an acyclicity constraint. DAG-WGAN simultaneously learns causal structures and improves its data generation capability by leveraging the strength from the Wasserstein distance metric. Compared with other models, it scales well and handles both continuous and discrete data. Our experiments have evaluated DAG-WGAN against the state-of-the-art and demonstrated its good performance.
翻訳日:2022-04-04 13:54:32 公開日:2022-04-01
# ドメイン適応型Pose推定のための統一フレームワーク

A Unified Framework for Domain Adaptive Pose Estimation ( http://arxiv.org/abs/2204.00172v1 )

ライセンス: Link先を確認
Donghyun Kim, Kaihong Wang, Kate Saenko, Margrit Betke, Stan Sclaroff(参考訳) ポーズ推定は重要なコンピュータビジョンタスクであるが、高価なアノテーションが必要であり、ドメインシフトに苦しむ。 本稿では,合成音源領域から学習した知識を,教師なしの目的領域に転送するドメイン適応型2Dポーズ推定の問題について検討する。 最近、いくつかのドメイン適応ポーズ推定モデルが提案されているが、それは一般的なものではなく、人間のポーズまたは動物のポーズ推定にのみ焦点を当てている。 本稿では,様々な領域適応ポーズ推定問題に対してよく一般化した統一フレームワークを提案する。 本稿では,入力レベルと出力レベルの手がかり(ピクセルとポーズラベル)の両方を用いて表現を調整し,ソースドメインからラベルなしのターゲットドメインへの知識伝達を容易にすることを提案する。 実験の結果,本手法は様々なドメインシフト下での最先端性能を実現する。 提案手法は,最大4.5ポイント (pp), 手のポーズ推定を7.4pp, 動物のポーズ推定を最大4.8pp, ヒツジを3.3ppと, 既存のヒトのポーズ推定基準を上回った。 これらの結果から,本手法は様々なタスクや未認識のドメインやオブジェクト(例えば馬で訓練され,犬でテストされたり)に対するドメインシフトを軽減できることが示唆された。

While pose estimation is an important computer vision task, it requires expensive annotation and suffers from domain shift. In this paper, we investigate the problem of domain adaptive 2D pose estimation that transfers knowledge learned on a synthetic source domain to a target domain without supervision. While several domain adaptive pose estimation models have been proposed recently, they are not generic but only focus on either human pose or animal pose estimation, and thus their effectiveness is somewhat limited to specific scenarios. In this work, we propose a unified framework that generalizes well on various domain adaptive pose estimation problems. We propose to align representations using both input-level and output-level cues (pixels and pose labels, respectively), which facilitates the knowledge transfer from the source domain to the unlabeled target domain. Our experiments show that our method achieves state-of-the-art performance under various domain shifts. Our method outperforms existing baselines on human pose estimation by up to 4.5 percent points (pp), hand pose estimation by up to 7.4 pp, and animal pose estimation by up to 4.8 pp for dogs and 3.3 pp for sheep. These results suggest that our method is able to mitigate domain shift on diverse tasks and even unseen domains and objects (e.g., trained on horse and tested on dog).
翻訳日:2022-04-04 13:53:24 公開日:2022-04-01
# 不確実性推定のためのオートエンコーダアトラクタ

Autoencoder Attractors for Uncertainty Estimation ( http://arxiv.org/abs/2204.00382v1 )

ライセンス: Link先を確認
Steve Dias Da Cruz, Bertram Taetz, Thomas Stifter, Didier Stricker(参考訳) 機械学習モデルの予測の信頼性評価は、安全クリティカルなアプリケーションのデプロイにおいて重要な量である。 アウトオブディストリビューション(out-of-distribution )や異常サンプル(anomaly sample)といった、新たな景色の検出に使用できるだけでなく、トレーニングデータ分布の欠陥を判断する上でも有効だ。 有望な研究の方向性の多くは、ガウス的プロセスのような伝統的な方法や、ベイズ的視点から解釈することでディープラーニングベースのアプローチを提案している。 本稿では,オートエンコーダモデルに基づく不確実性推定のための新しい手法を提案する。 事前訓練されたオートエンコーダモデルの再帰的適用は,トレーニング例をアトラクタとして格納する動的システムとして解釈できる。 既知のサンプルに近い入力画像は同一または類似のアトラクタに収束するが、未知の特徴を含む入力サンプルは不安定であり、特徴を除去または変更することで異なるトレーニングサンプルに収束する。 トレーニングと推論におけるドロップアウトの使用は、トレーニング分布に近いサンプルでは堅牢だが、新機能では不安定である、同様の力学系のファミリにつながる。 モデルがこれらの特徴を確実に除去するか、結果の不安定性を利用して問題のある入力サンプルを検出することができる。 我々は、いくつかのデータセットの組み合わせに対するアプローチと、新しい合成データセットを新たにリリースした車内における占有者分類の産業的応用について評価した。

The reliability assessment of a machine learning model's prediction is an important quantity for the deployment in safety critical applications. Not only can it be used to detect novel sceneries, either as out-of-distribution or anomaly sample, but it also helps to determine deficiencies in the training data distribution. A lot of promising research directions have either proposed traditional methods like Gaussian processes or extended deep learning based approaches, for example, by interpreting them from a Bayesian point of view. In this work we propose a novel approach for uncertainty estimation based on autoencoder models: The recursive application of a previously trained autoencoder model can be interpreted as a dynamical system storing training examples as attractors. While input images close to known samples will converge to the same or similar attractor, input samples containing unknown features are unstable and converge to different training samples by potentially removing or changing characteristic features. The use of dropout during training and inference leads to a family of similar dynamical systems, each one being robust on samples close to the training distribution but unstable on new features. Either the model reliably removes these features or the resulting instability can be exploited to detect problematic input samples. We evaluate our approach on several dataset combinations as well as on an industrial application for occupant classification in the vehicle interior for which we additionally release a new synthetic dataset.
翻訳日:2022-04-04 13:53:02 公開日:2022-04-01
# 合成から実一般化のためのオートエンコーダ:単純からより複雑なシーンへ

Autoencoder for Synthetic to Real Generalization: From Simple to More Complex Scenes ( http://arxiv.org/abs/2204.00386v1 )

ライセンス: Link先を確認
Steve Dias Da Cruz, Bertram Taetz, Thomas Stifter, Didier Stricker(参考訳) 合成データの学習と結果のプロパティを実際のデータに転送することは、コスト削減と機械学習の安全性向上に重要な課題である。 本研究では、オートエンコーダアーキテクチャに着目し、同じシナリオを示すシミュレーション画像と実画像間の領域シフトに起因する帰納的バイアスに不変な潜在空間表現を学習することを目的とする。 合成画像のみを訓練し,汎用性の向上と,視覚複雑性の増大による実データセットへのセマンティクスの保存性の向上を図る。 予め訓練された特徴抽出器(例えば、vgg)は、より複雑な画像の一般化には十分であるが、視覚的により複雑なシーンではさらなる改善が必要となる。 この目的のために,画像の意味的に重要な部分をランダム化しながら,他の部分をランダム化しながら,顕著な特徴抽出と重要でない部分を無視する新しいサンプリング手法を提案する。 これは実データへの一般化に役立ち、我々のアプローチが微調整された分類モデルを上回ることをさらに示します。

Learning on synthetic data and transferring the resulting properties to their real counterparts is an important challenge for reducing costs and increasing safety in machine learning. In this work, we focus on autoencoder architectures and aim at learning latent space representations that are invariant to inductive biases caused by the domain shift between simulated and real images showing the same scenario. We train on synthetic images only, present approaches to increase generalizability and improve the preservation of the semantics to real datasets of increasing visual complexity. We show that pre-trained feature extractors (e.g. VGG) can be sufficient for generalization on images of lower complexity, but additional improvements are required for visually more complex scenes. To this end, we demonstrate a new sampling technique, which matches semantically important parts of the image, while randomizing the other parts, leads to salient feature extraction and a neglection of unimportant parts. This helps the generalization to real data and we further show that our approach outperforms fine-tuned classification models.
翻訳日:2022-04-04 13:52:39 公開日:2022-04-01
# 画像分類機能の適正再利用によるオブジェクト検出の改善

Proper Reuse of Image Classification Features Improves Object Detection ( http://arxiv.org/abs/2204.00484v1 )

ライセンス: Link先を確認
Cristina Vasconcelos, Vighnesh Birodkar, Vincent Dumoulin(参考訳) トランスファーラーニングの一般的な実践は、データに基づく上流タスクで事前学習することで、下流モデルの重み付けを初期化することである。 特にオブジェクト検出では、機能バックボーンはimagenet分類器で初期化され、オブジェクト検出タスクで微調整される。 近年の研究では、長いトレーニング体制下では必須ではないことが示されており、背骨をスクラッチからトレーニングするためのレシピを提供している。 我々は、このエンドツーエンドのトレーニングトレンドの反対方向を調査し、知識保存の極端な形態 -- 分類器初期化バックボーンの凍結 -- が、多くの異なる検出モデルを改善し、かなりのリソース節約につながることを示した。 凍結したバックボーンを有効利用するためには,残りの検出器部品の容量と構造が重要な要素である,という仮説とコロボケートを実験的に検討した。 私たちの研究の即時的な応用には、長い尾のオブジェクトクラスの検出や、計算資源が少ない研究者がフィールドにアクセスしやすいようにするための計算およびメモリリソースの節約など、ハードケースのパフォーマンス改善が含まれる。

A common practice in transfer learning is to initialize the downstream model weights by pre-training on a data-abundant upstream task. In object detection specifically, the feature backbone is typically initialized with Imagenet classifier weights and fine-tuned on the object detection task. Recent works show this is not strictly necessary under longer training regimes and provide recipes for training the backbone from scratch. We investigate the opposite direction of this end-to-end training trend: we show that an extreme form of knowledge preservation -- freezing the classifier-initializ ed backbone -- consistently improves many different detection models, and leads to considerable resource savings. We hypothesize and corroborate experimentally that the remaining detector components capacity and structure is a crucial factor in leveraging the frozen backbone. Immediate applications of our findings include performance improvements on hard cases like detection of long-tail object classes and computational and memory resource savings that contribute to making the field more accessible to researchers with access to fewer computational resources.
翻訳日:2022-04-04 13:52:22 公開日:2022-04-01
# 複合現実テレプレゼンスのための相互シーン合成

Mutual Scene Synthesis for Mixed Reality Telepresence ( http://arxiv.org/abs/2204.00161v1 )

ライセンス: Link先を確認
Mohammad Keshavarzi, Michael Zollhoefer, Allen Y. Yang, Patrick Peluse, Luisa Caldas(参考訳) 次世代の複合現実プラットフォームによるリモートテレプレゼンスは、コンピュータを媒介とするコミュニケーションにおいてより高いレベルの没入性を提供し、参加者がこれまで2dスクリーンベースのコミュニケーションでは不可能だった幅広い活動に関わることができる。 しかし、複合現実体験は各ユーザの物理的環境に限定されているため、ユーザが自由に動き、対話できる共通のバーチャルグラウンドを見つけることは困難である。 本稿では,参加者の空間を入力とする新たな相互シーン合成手法を提案し,各参加者の局所空間の機能的特徴に対応する仮想合成シーンを生成する。 本手法は,相互関数最適化モジュールと深層学習条件付きシーン拡張プロセスを組み合わせることで,複合現実テレプレゼンスシナリオの全参加者に対して相互に物理的にアクセス可能なシーンを生成する。 合成されたシーンは、お互いの歩行可能、座位可能、作業可能な機能を保持でき、すべてがユーザの実際の環境内の物理的オブジェクトに対応する。 我々はmatterport3dデータセットを用いて実験を行い,本システムの有効性を評価するために比較ユーザ調査を行う。 提案手法は,次世代空間コンピューティングプラットフォームにおいて,コンテキスト化されたテレプレゼンスシステムを実現するための有望な研究方向性であることを示す。

Remote telepresence via next-generation mixed reality platforms can provide higher levels of immersion for computer-mediated communications, allowing participants to engage in a wide spectrum of activities, previously not possible in 2D screen-based communication methods. However, as mixed reality experiences are limited to the local physical surrounding of each user, finding a common virtual ground where users can freely move and interact with each other is challenging. In this paper, we propose a novel mutual scene synthesis method that takes the participants' spaces as input, and generates a virtual synthetic scene that corresponds to the functional features of all participants' local spaces. Our method combines a mutual function optimization module with a deep-learning conditional scene augmentation process to generate a scene mutually and physically accessible to all participants of a mixed reality telepresence scenario. The synthesized scene can hold mutual walkable, sittable and workable functions, all corresponding to physical objects in the users' real environments. We perform experiments using the MatterPort3D dataset and conduct comparative user studies to evaluate the effectiveness of our system. Our results show that our proposed approach can be a promising research direction for facilitating contextualized telepresence systems for next-generation spatial computing platforms.
翻訳日:2022-04-04 13:51:43 公開日:2022-04-01
# CTR予測のための知識蒸留を用いた位置バイアスモデリングの再考

Rethinking Position Bias Modeling with Knowledge Distillation for CTR Prediction ( http://arxiv.org/abs/2204.00270v1 )

ライセンス: Link先を確認
Congcong Liu, Yuejiang Li, Jian Zhu, Xiwei Zhao, Changping Peng, Zhangang Lin, Jingping Shao(参考訳) クリックスルーレート(CTR)予測は、現実世界のオンライン広告システムにおいて非常に重要である。 CTR予測タスクの課題の1つは、クリックしたアイテムからユーザの本当の関心を捉えることである。 既存の研究の一般的な行は、コストが高く非効率な結果のランダム化による位置バイアスの明示的に推定すること、あるいは確率推定の品質に大きく依存する逆確率重み付け(IPW)に焦点を当てている。 もうひとつの一般的な解決策は、オフライントレーニング中の機能としての位置をモデリングすることと、サービス時に固定値やドロップアウトのトリックを採用することだ。 しかし、トレーニング推論の不整合は、準最適性能をもたらす可能性がある。 さらに、CTR予測において、位置値などのポストクリック情報はあまり活用されないが、情報的である。 本研究は,位置バイアスの影響を緩和し,位置情報を活用してCTR予測を改善するための,シンプルで効率的な知識蒸留フレームワークを提案する。 提案手法を実世界の実運用データセットとオンラインA/Bテストで実演し、競合するベースラインモデルよりも大幅に改善した。 提案手法は現実世界のオンライン広告システムに展開され、世界最大の電子商取引プラットフォームの1つで主要なトラフィックを提供する。

Click-through rate (CTR) Prediction is of great importance in real-world online ads systems. One challenge for the CTR prediction task is to capture the real interest of users from their clicked items, which is inherently biased by presented positions of items, i.e., more front positions tend to obtain higher CTR values. A popular line of existing works focuses on explicitly estimating position bias by result randomization which is expensive and inefficient, or by inverse propensity weighting (IPW) which relies heavily on the quality of the propensity estimation. Another common solution is modeling position as features during offline training and simply adopting fixed value or dropout tricks when serving. However, training-inference inconsistency can lead to sub-optimal performance. Furthermore, post-click information such as position values is informative while less exploited in CTR prediction. This work proposes a simple yet efficient knowledge distillation framework to alleviate the impact of position bias and leverage position information to improve CTR prediction. We demonstrate the performance of our proposed method on a real-world production dataset and online A/B tests, achieving significant improvements over competing baseline models. The proposed method has been deployed in the real world online ads systems, serving main traffic on one of the world's largest e-commercial platforms.
翻訳日:2022-04-04 13:49:59 公開日:2022-04-01
# Swarm-Guidanceのためのニューラルネットワーク学習エージェントの解釈可能な知識

Fusing Interpretable Knowledge of Neural Network Learning Agents For Swarm-Guidance ( http://arxiv.org/abs/2204.00272v1 )

ライセンス: Link先を確認
Duy Tung Nguyen, Kathryn Kasmarik, Hussein Abbass(参考訳) ニューラルネットワークベースの学習エージェントは、内部のニューラルネットワークを使用して決定する。 ある状況では、この知識が人間と機械の両方に友好的な形で再解釈されることが重要になる。 エージェントが、外部の人間のオブザーバの存在下で、透過的な方法で学習した知識を伝える必要がある場合、人間とマシンがタスクで協力する必要がある場合や、エージェント間で交換された知識を検証する必要がある場合などである。 本稿では,ニューラルベース学習エージェントに適した解釈可能な知識融合フレームワークを提案し,弱状態領域(powsa)再訓練手法の優先順位を提案する。 まず,提案手法を合成二分分類タスクで検証し,シェパーディングに基づくマルチエージェント群誘導タスクで評価する。 提案手法は,スワム誘導環境における成功率を11%向上させ,計算コストが14.5%増加し,解釈可能性の向上に寄与することを示した。 さらに、このフレームワークはエージェントが学習した知識を人間にやさしい表現で提示し、エージェントの知識のより記述的な視覚的表現へと導く。

Neural-based learning agents make decisions using internal artificial neural networks. In certain situations, it becomes pertinent that this knowledge is re-interpreted in a friendly form to both the human and the machine. These situations include: when agents are required to communicate the knowledge they learn to each other in a transparent way in the presence of an external human observer, in human-machine teaming settings where humans and machines need to collaborate on a task, or where there is a requirement to verify the knowledge exchanged between the agents. We propose an interpretable knowledge fusion framework suited for neural-based learning agents, and propose a Priority on Weak State Areas (PoWSA) retraining technique. We first test the proposed framework on a synthetic binary classification task before evaluating it on a shepherding-based multi-agent swarm guidance task. Results demonstrate that the proposed framework increases the success rate on the swarm-guidance environment by 11% and better stability in return for a modest increase in computational cost of 14.5% to achieve interpretability. Moreover, the framework presents the knowledge learnt by an agent in a human-friendly representation, leading to a better descriptive visual representation of an agent's knowledge.
翻訳日:2022-04-04 13:49:38 公開日:2022-04-01
# i-Razor:大規模レコメンダシステムにおける特徴選択と次元探索のためのニューラル入力ラザ

i-Razor: A Neural Input Razor for Feature Selection and Dimension Search in Large-Scale Recommender Systems ( http://arxiv.org/abs/2204.00281v1 )

ライセンス: Link先を確認
Yao Yao, Bin Liu, Haoxun He, Dakui Sheng, Ke Wang, Li Xiao, Huanhuan Cao(参考訳) 入力機能は、ユーザ、アイテム、コンテキスト、およびそれらのインタラクションから何千ものカテゴリと継続的フィールドを持つdnnベースの産業レコメンデーションシステムの予測性能において重要な役割を果たす。 ノイズのある特徴や不適切な埋め込み次元の割り当ては、レコメンダシステムのパフォーマンスを損なう可能性があり、モデルトレーニングやオンラインサービスに不要な複雑さをもたらす。 特徴選択や埋め込み次元割り当てを含むDNNモデルの入力構成を最適化することは、特徴工学において重要なトピックの1つとなっている。 通常、特徴選択と埋め込み次元探索は順次に最適化され、まず特徴選択を行い、次に埋め込み次元探索を行い、選択された特徴の最適な次元サイズを決定する。 対照的に,本稿では特徴選択と埋め込み次元探索の協調最適化について検討する。 この目的のために、微分可能なニューラルな \textbf{i}nput \textbf{razor} 、すなわち \textbf{i-Razor} を提案する。 具体的には,ニューラルアーキテクチャ検索の最近の進歩に触発されて,各機能の異なる埋め込み領域間の相対的重要性を学ぶために,エンドツーエンドの微分可能モデルを導入する。 さらに,特徴フィルタリングと次元サイズの導出を同時に行うために,フレキシブルプルーニングアルゴリズムを提案する。 click-through-rate (ctr) 予測タスクにおける2つの大規模パブリックデータセットに関する広範な実験は、モデルの複雑さとパフォーマンスのバランスにおけるi-razorの有効性と優位性を示している。

Input features play a crucial role in the predictive performance of DNN-based industrial recommender systems with thousands of categorical and continuous fields from users, items, contexts, and their interactions. Noisy features and inappropriate embedding dimension assignments can impair the performance of recommender systems and introduce unnecessary complexity in model training and online serving. Optimizing the input configuration of DNN models, including feature selection and embedding dimension assignment, has become one of the essential topics in feature engineering. Typically, feature selection and embedding dimension search are optimized sequentially, i.e., feature selection is performed first, followed by embedding dimension search to determine the optimal dimension size for each selected feature. In contrast, this paper studies the joint optimization of feature selection and embedding dimension search. To this end, we propose a differentiable neural \textbf{i}nput \textbf{razor}, namely \textbf{i-Razor}. Specifically, inspired by recent advances in neural architecture search, we introduce an end-to-end differentiable model to learn the relative importance between different embedding regions of each feature. Furthermore, a flexible pruning algorithm is proposed to simultaneously achieve feature filtering and dimension size derivation. Extensive experiments on two large-scale public datasets in the Click-Through-Rate (CTR) prediction task demonstrate the efficacy and superiority of i-Razor in balancing model complexity and performance.
翻訳日:2022-04-04 13:49:16 公開日:2022-04-01
# 分離して征服するヒューリスティックは、様々な種類のデータからコントラスト集合をロバストにマイニングする

Separate and conquer heuristic allows robust mining of contrast sets from various types of data ( http://arxiv.org/abs/2204.00497v1 )

ライセンス: Link先を確認
Adam Gudy\'s and Marek Sikora and {\L}ukasz Wr\'obel(参考訳) グループ間の差異を特定することは、最も重要な知識発見問題の1つである。 この手順はコントラストセットマイニングとしても知られ、医療、産業、経済など幅広い分野に適用されている。 本稿では、逐次被覆に基づくコントラストセットマイニングのアルゴリズムであるルールKit-CSについて述べる。 属性ペナリゼーションスキームを伴う複数のパスは、標準的なシーケンシャルカバーとは異なり、異なる属性で同じ例を記述するコントラストセットを生成することができる。 既存のアルゴリズムでは提供されていないレグレッションデータセットとサバイバルデータセットのコントラストセットを識別する機能は、さらにルールKit-CSのユーザビリティを高める。 幅広いデータセットの実験により、ルールKit-CSは定義されたグループ間の差異を発見するのに有用なツールであると確認された。 このアルゴリズムはGitHubのGNU AGPL 3ライセンス(https://github.com/ adaa-polsl/RuleKit)で利用できるRe RuleKitスイートの一部である。 キーワード:コントラストセット、シーケンシャルカバー、ルール誘導、回帰、生存、知識発見

Identifying differences between groups is one of the most important knowledge discovery problems. The procedure, also known as contrast sets mining, is applied in a wide range of areas like medicine, industry, or economics. In the paper we present RuleKit-CS, an algorithm for contrast set mining based on a sequential covering - a well established heuristic for decision rule induction. Multiple passes accompanied with an attribute penalization scheme allow generating contrast sets describing same examples with different attributes, unlike the standard sequential covering. The ability to identify contrast sets in regression and survival data sets, the feature not provided by the existing algorithms, further extends the usability of RuleKit-CS. Experiments on wide range of data sets confirmed RuleKit-CS to be a useful tool for discovering differences between defined groups. The algorithm is a part of the RuleKit suite available at GitHub under GNU AGPL 3 licence (https://github.com/ adaa-polsl/RuleKit). Keywords: Contrast sets, Sequential covering, Rule induction, Regression, Survival, Knowledge discovery
翻訳日:2022-04-04 13:48:53 公開日:2022-04-01
# 分散学習におけるロバストかつ効率的な集約

Robust and Efficient Aggregation for Distributed Learning ( http://arxiv.org/abs/2204.00586v1 )

ライセンス: Link先を確認
Stefan Vlaski, Christian Schroth, Michael Muma, Abdelhak M. Zoubir(参考訳) 連合学習や分散学習のような分散学習パラダイムは、エージェントの集合全体にわたってモデルの協調を可能にし、生データを交換する必要がない。 その代わり、エージェントは利用可能なデータに基づいてモデル更新をローカルに計算し、その後、更新モデルをパラメータサーバや仲間と共有する。 これに続き、伝統的に(重み付けされた)平均の形をとる集約ステップが続く。 平均化に基づく分散学習スキームは、外れ値に影響を受けやすいことが知られている。 1つの悪意のあるエージェントは平均ベースの分散学習アルゴリズムを任意に貧弱なモデルに駆動することができる。 これは、中央値とトリミング平均のバリエーションに基づくロバストな集約スキームの開発を動機付けた。 このような手順は、異常値や悪意のある振る舞いに対する堅牢性を保証するが、サンプル効率を大幅に低下させるコストがかかる。 これは、現在のロバストなアグリゲーションスキームは、非汚染環境における平均ベースのアグリゲーションよりも、与えられたレベルのパフォーマンスを達成するために、エージェントの参加率を著しく高くする必要があることを意味する。 本研究では,分散学習のための統計的に効率的でロバストなアグリゲーションスキームを開発することで,この欠点を解消する。

Distributed learning paradigms, such as federated and decentralized learning, allow for the coordination of models across a collection of agents, and without the need to exchange raw data. Instead, agents compute model updates locally based on their available data, and subsequently share the update model with a parameter server or their peers. This is followed by an aggregation step, which traditionally takes the form of a (weighted) average. Distributed learning schemes based on averaging are known to be susceptible to outliers. A single malicious agent is able to drive an averaging-based distributed learning algorithm to an arbitrarily poor model. This has motivated the development of robust aggregation schemes, which are based on variations of the median and trimmed mean. While such procedures ensure robustness to outliers and malicious behavior, they come at the cost of significantly reduced sample efficiency. This means that current robust aggregation schemes require significantly higher agent participation rates to achieve a given level of performance than their mean-based counterparts in non-contaminated settings. In this work we remedy this drawback by developing statistically efficient and robust aggregation schemes for distributed learning.
翻訳日:2022-04-04 13:47:06 公開日:2022-04-01
# 条件法則の学習:フィルタリングと拡散過程の予測におけるシグネチャと条件GAN

Learning the conditional law: signatures and conditional GANs in filtering and prediction of diffusion processes ( http://arxiv.org/abs/2204.00611v1 )

ライセンス: Link先を確認
Fabian Germ, Marc Sabate-Vidales(参考訳) 拡散過程におけるフィルタリングと予測の問題を考える。 信号と観測は、ウィナー過程によって駆動される確率微分方程式(SDE)によってモデル化される。 古典的推定理論では、フィルタリングと予測のための測度値確率偏微分方程式(SPDE)が導出される。 これらの方程式は数値的に解くのが難しい。 条件付き生成逆逆ネットワーク(gans)と粗い経路理論の対象であるシグネチャを用いた近似アルゴリズムを提案する。 十分に滑らかな経路の符号が経路を完全に決定する。 場合によっては、署名に基づくGANは確率過程の法則を効率的に近似することが示されている。 本稿では,この手法を拡張して,雑音観測による予測測度を近似する。 制御微分方程式 (CDEs) を普遍近似器として, 条件および予測法則の近似器を提案する。 厳密な数学的枠組みを提供することで、適切性を示す。 計算結果は,アルゴリズムの効率性を示す。

We consider the filtering and prediction problem for a diffusion process. The signal and observation are modeled by stochastic differential equations (SDEs) driven by Wiener processes. In classical estimation theory, measure-valued stochastic partial differential equations (SPDEs) are derived for the filtering and prediction measures. These equations can be hard to solve numerically. We provide an approximation algorithm using conditional generative adversarial networks (GANs) and signatures, an object from rough path theory. The signature of a sufficiently smooth path determines the path completely. In some cases, GANs based on signatures have been shown to efficiently approximate the law of a stochastic process. In this paper we extend this method to approximate the prediction measure conditional to noisy observation. We use controlled differential equations (CDEs) as universal approximators to propose an estimator for the conditional and prediction law. We show well-posedness in providing a rigorous mathematical framework. Numerical results show the efficiency of our algorithm.
翻訳日:2022-04-04 13:46:46 公開日:2022-04-01
# NC-DRE:文書レベルの関係抽出のための非親密度情報を活用する

NC-DRE: Leveraging Non-entity Clue Information for Document-level Relation Extraction ( http://arxiv.org/abs/2204.00255v1 )

ライセンス: Link先を確認
Liang Zhang, Yidong Cheng(参考訳) 複雑な間関係を識別するために異なる文内の複数のエンティティの推論を必要とする文書レベルの関係抽出(re)は、文レベルのreよりも難しい。 複雑な文間関係を抽出するために、従来の研究では、異種文書グラフの推論にグラフニューラルネットワーク(GNN)を用いた。 彼らの大きな成功にもかかわらず、グラフベースの手法は、通常、グラフの構築や推論の過程で言及される単語のみを考慮し、言及には含まれないが関係推論の重要な手がかりとなる単語を無視する傾向にある。 この問題を軽減するために、通常、訓練済み言語モデルをエンコーダとして、GNNモデルをデコーダとして使用するエンコーダ・デコーダ・フレームワークとしてグラフベースの文書レベルREモデルを扱い、文書レベルの関係抽出に非エンテンシティ・クルー情報を活用するためにデコーダ・トゥ・エンコーダの注意機構を導入する新しいグラフベースモデルNC-DREを提案する。

Document-level relation extraction (RE), which requires reasoning on multiple entities in different sentences to identify complex inter-sentence relations, is more challenging than sentence-level RE. To extract the complex inter-sentence relations, previous studies usually employ graph neural networks (GNN) to perform inference upon heterogeneous document-graphs. Despite their great successes, these graph-based methods, which normally only consider the words within the mentions in the process of building graphs and reasoning, tend to ignore the non-entity clue words that are not in the mentions but provide important clue information for relation reasoning. To alleviate this problem, we treat graph-based document-level RE models as an encoder-decoder framework, which typically uses a pre-trained language model as the encoder and a GNN model as the decoder, and propose a novel graph-based model NC-DRE that introduces decoder-to-encoder attention mechanism to leverage Non-entity Clue information for Document-level Relation Extraction.
翻訳日:2022-04-04 13:46:12 公開日:2022-04-01
# PriMock57:プライマリケアモックコンサルティングのデータセット

PriMock57: A Dataset Of Primary Care Mock Consultations ( http://arxiv.org/abs/2204.00333v1 )

ライセンス: Link先を確認
Alex Papadopoulos Korfiatis, Francesco Moramarco, Radmila Sarac, Aleksandar Savkov(参考訳) 近年のASR(Automatic Speech Recognition)の進歩により、臨床医と患者の会話の自動書き起こしを確実に作成できるようになった。 しかし、患者のプライバシーのために臨床データセットへのアクセスは厳しく制限されており、通常の研究の慣行を遅くする。 音声記録や手動による発話レベルの書き起こし,関連する相談ノートなど,57件のモック化されたプライマリ・ケア・コンサルテーションからなる,パブリック・アクセスの高品質データセットの開発について詳述する。 我々の研究は、データセットが会話型医療ASRのベンチマークや、テキストからのコンサルティングノート生成にどのように使用できるかを説明する。

Recent advances in Automatic Speech Recognition (ASR) have made it possible to reliably produce automatic transcripts of clinician-patient conversations. However, access to clinical datasets is heavily restricted due to patient privacy, thus slowing down normal research practices. We detail the development of a public access, high quality dataset comprising of57 mocked primary care consultations, including audio recordings, their manual utterance-level transcriptions, and the associated consultation notes. Our work illustrates how the dataset can be used as a benchmark for conversational medical ASR as well as consultation note generation from transcripts.
翻訳日:2022-04-04 13:45:50 公開日:2022-04-01
# platform-aware adversarial encoding によるソーシャルメディアプラットフォーム間のサイバーいじめ検出

Cyberbullying detection across social media platforms via platform-aware adversarial encoding ( http://arxiv.org/abs/2204.00334v1 )

ライセンス: Link先を確認
Peiling Yi, Arkaitz Zubiaga(参考訳) サイバーいじめ検出への関心は高まっているが、既存の取り組みは単一のプラットフォームでの実験に限られており、ソーシャルメディアプラットフォーム間での汎用性は、あまり注目されていない。 変換器と逆学習に基づく新しいクロスプラットフォームフレームワークXP-CBを提案する。 XP-CBは、ソースとターゲットプラットフォームからの不正なデータを活用して、プラットフォーム固有のトレーニングを防止しながら、共通の表現を思いつくトランスフォーマーを強化することができる。 提案するフレームワークを検証するために,3つのプラットフォームから6つのクロスプラットフォーム構成を通じてデータセットをサイバブリングする実験を行い,基盤となるTransformerモデルとしてBERTとRoBERTaの有効性を示した。

Despite the increasing interest in cyberbullying detection, existing efforts have largely been limited to experiments on a single platform and their generalisability across different social media platforms have received less attention. We propose XP-CB, a novel cross-platform framework based on Transformers and adversarial learning. XP-CB can enhance a Transformer leveraging unlabelled data from the source and target platforms to come up with a common representation while preventing platform-specific training. To validate our proposed framework, we experiment on cyberbullying datasets from three different platforms through six cross-platform configurations, showing its effectiveness with both BERT and RoBERTa as the underlying Transformer models.
翻訳日:2022-04-04 13:45:38 公開日:2022-04-01
# PDTB-3における浅部談話の再検討 : 文内インプットの扱い

Revisiting Shallow Discourse Parsing in the PDTB-3: Handling Intra-sentential Implicits ( http://arxiv.org/abs/2204.00350v1 )

ライセンス: Link先を確認
Zheng Zhao and Bonnie Webber(参考訳) PDTB-3では、新たに数千の暗黙の言説関係が「textit{within}」個々の文に注釈付けされ、15,000以上の暗黙の関係が「textit{across}」に付加された。 これらの \textit{intra-sentential implicits} に対する引数の位置は、もはや \textit{inter-sentential implicits} ほど明確に定義されていないので、談話パーサは、位置と意味の両方を識別しなければならない。 それが現在の仕事の焦点です。 本稿では,本研究の結果を包括的に分析し,異なるシナリオ下でのモデル性能を示し,制約を指摘し,今後の方向性を示す。

In the PDTB-3, several thousand implicit discourse relations were newly annotated \textit{within} individual sentences, adding to the over 15,000 implicit relations annotated \textit{across} adjacent sentences in the PDTB-2. Given that the position of the arguments to these \textit{intra-sentential implicits} is no longer as well-defined as with \textit{inter-sentential implicits}, a discourse parser must identify both their location and their sense. That is the focus of the current work. The paper provides a comprehensive analysis of our results, showcasing model performance under different scenarios, pointing out limitations and noting future directions.
翻訳日:2022-04-04 13:45:26 公開日:2022-04-01
# (参考訳) 小グループ学習における好奇心のダイナミクス研究のための新しいマルチモーダルアプローチ [全文訳有]

A Novel Multimodal Approach for Studying the Dynamics of Curiosity in Small Group Learning ( http://arxiv.org/abs/2204.00545v1 )

ライセンス: CC BY 4.0
Tanmay Sinha, Zhen Bai, Justine Cassell(参考訳) 好奇心は教育的文脈において重要なメタ認知スキルであり、創造性や学習への愛につながる。 そして、多くの学校システムでは、テストを教えることで好奇心を弱める傾向にあるが、教師たちは学生に好奇心を呼び起こして、生涯学習やリスキルがますます重要になる世界に備える方法に興味を抱いている。 しかし、あまり注目されていない好奇心の1つの側面は、好奇心を引き出すことにおけるピアの役割である。 我々は、仲間の観察可能な行動と基礎となる好奇心状態とを結びつける好奇心の社会認知的統合的説明を述べる最初の理論的枠組みであると考えられるものを提案する。 我々は、好奇心に寄与する個人機能と対人機能と、これらの機能を満たすマルチモーダル動作を区別する。 縦型潜在変数モデリング手法を用いて,提案手法の有効性を検証する。 発見は、個人と対人機能の潜伏変数と好奇心の間の正の予測関係を、相対的に強い影響を行使する対人機能と確認する。 これらの関数の顕著な挙動実現は、データ駆動の方法でも発見される。 我々は,提案する理論フレームワークを,学習技術に組み込むための戦略と戦術のセットでインスタンス化し,その有効性を示す。 この研究は、社会的文脈における学習中のモーメント・バイ・モーメントの好奇心を認識し、誘発できる学習技術を設計し、より完全なマルチモーダル学習分析へと進むためのステップである。 この根拠は、より一般に、他のメタ認知的、社会感情的なスキルのためのコンピュータサポートの開発に適用できる。

Curiosity is a vital metacognitive skill in educational contexts, leading to creativity, and a love of learning. And while many school systems increasingly undercut curiosity by teaching to the test, teachers are increasingly interested in how to evoke curiosity in their students to prepare them for a world in which lifelong learning and reskilling will be more and more important. One aspect of curiosity that has received little attention, however, is the role of peers in eliciting curiosity. We present what we believe to be the first theoretical framework that articulates an integrated socio-cognitive account of curiosity that ties observable behaviors in peers to underlying curiosity states. We make a bipartite distinction between individual and interpersonal functions that contribute to curiosity, and multimodal behaviors that fulfill these functions. We validate the proposed framework by leveraging a longitudinal latent variable modeling approach. Findings confirm a positive predictive relationship between the latent variables of individual and interpersonal functions and curiosity, with the interpersonal functions exercising a comparatively stronger influence. Prominent behavioral realizations of these functions are also discovered in a data-driven manner. We instantiate the proposed theoretical framework in a set of strategies and tactics that can be incorporated into learning technologies to indicate, evoke, and scaffold curiosity. This work is a step towards designing learning technologies that can recognize and evoke moment-by-moment curiosity during learning in social contexts and towards a more complete multimodal learning analytics. The underlying rationale is applicable more generally for developing computer support for other metacognitive and socio-emotional skills.
翻訳日:2022-04-04 13:44:25 公開日:2022-04-01
# ソクラテスモデル:ゼロショットのマルチモーダル推論と言語

Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language ( http://arxiv.org/abs/2204.00598v1 )

ライセンス: Link先を確認
Andy Zeng, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke, Pete Florence(参考訳) 大規模なファンデーションモデルでは、トレーニング対象のデータドメインによってユニークな能力を発揮することができる。 これらのドメインはジェネリックだが、ほとんど重複することはない。 例えば、視覚言語モデル(VLM)はインターネットスケールの画像キャプションで訓練されるが、大きな言語モデル(LM)は画像のないインターネットスケールのテキスト(スプレッドシートからSAT質問まで)でさらに訓練される。 その結果、これらのモデルは異なるドメインにわたって異なる種類の常識知識を格納する。 本稿では,このモデルの多様性が共生的であることを示し,構造化ソクラテス対話を用いたaiシステムの構築に利用可能であることを示す。 自己中心的知覚の文脈において、ビデオQ&Aを短編Q&Aとして定式化し、短いストーリーに要約し、それに関する質問に答えることによって、自己中心的ビデオに関する文脈的質問に対する自由形式の回答を生成するような複雑なタスクに対して有意義な結果をもたらすソクラティックモデル(SM)のケーススタディを示す。 さらに、SMはインターネット画像のキャプションを生成し、MSR-VTT 1k-Aで42.8R@1でゼロショットビデオテキスト検索の最先端と競合する。 SMは、ドメイン固有のデータ収集なしで、ゼロショットで新しいマルチモーダル機能をキャプチャする方法を示す。 プロトタイプはsocraticmodels.githu b.ioで入手できる。

Large foundation models can exhibit unique capabilities depending on the domain of data they are trained on. While these domains are generic, they may only barely overlap. For example, visual-language models (VLMs) are trained on Internet-scale image captions, but large language models (LMs) are further trained on Internet-scale text with no images (e.g. from spreadsheets, to SAT questions). As a result, these models store different forms of commonsense knowledge across different domains. In this work, we show that this model diversity is symbiotic, and can be leveraged to build AI systems with structured Socratic dialogue -- in which new multimodal tasks are formulated as a guided language-based exchange between different pre-existing foundation models, without additional finetuning. In the context of egocentric perception, we present a case study of Socratic Models (SMs) that can provide meaningful results for complex tasks such as generating free-form answers to contextual questions about egocentric video, by formulating video Q&A as short story Q&A, i.e. summarizing the video into a short story, then answering questions about it. Additionally, SMs can generate captions for Internet images, and are competitive with state-of-the-art on zero-shot video-to-text retrieval with 42.8 R@1 on MSR-VTT 1k-A. SMs demonstrate how to compose foundation models zero-shot to capture new multimodal functionalities, without domain-specific data collection. Prototypes are available at socraticmodels.githu b.io.
翻訳日:2022-04-04 13:00:00 公開日:2022-04-01
# 音声認識を用いたゼロショット言語間失語検出

Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech Recognition ( http://arxiv.org/abs/2204.00448v1 )

ライセンス: Link先を確認
Gerasimos Chatzoudis, Manos Plitsis, Spyridoula Stamouli, Athanasia-Lida Dimou, Athanasios Katsamanis, Vassilis Katsouros(参考訳) 失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。 失語症の検出と評価は難しく、時間を要するプロセスであり、その自動化に多くの試みがなされており、失語症音声データに基づいて訓練された機械学習モデルが最も成功した。 多くの医学的応用と同様に、失語症の音声データは乏しく、その問題はいわゆる「低リソース」言語で悪化している。 英語で利用可能なデータを活用し,ギリシャ語やフランス語などの低リソース言語におけるゼロショット失語検出を実現する。 現在の言語間失語検出手法は手作業で抽出した転写文に依存している。 本稿では,言語間の音声表現を共有する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。 asrモデルのパフォーマンスをさらに向上するために、言語モデルと組み合わせることも行っています。 ASRをベースとしたエンドツーエンドパイプラインは,人間のアノテーションを用いた以前のセットアップと同等の結果が得られることを示す。

Aphasia is a common speech and language disorder, typically caused by a brain injury or a stroke, that affects millions of people worldwide. Detecting and assessing Aphasia in patients is a difficult, time-consuming process, and numerous attempts to automate it have been made, the most successful using machine learning models trained on aphasic speech data. Like in many medical applications, aphasic speech data is scarce and the problem is exacerbated in so-called "low resource" languages, which are, for this task, most languages excluding English. We attempt to leverage available data in English and achieve zero-shot aphasia detection in low-resource languages such as Greek and French, by using language-agnostic linguistic features. Current cross-lingual aphasia detection approaches rely on manually extracted transcripts. We propose an end-to-end pipeline using pre-trained Automatic Speech Recognition (ASR) models that share cross-lingual speech representations and are fine-tuned for our desired low-resource languages. To further boost our ASR model's performance, we also combine it with a language model. We show that our ASR-based end-to-end pipeline offers comparable results to previous setups using human-annotated transcripts.
翻訳日:2022-04-04 12:59:32 公開日:2022-04-01
# 統計学から因果学習へ

From Statistical to Causal Learning ( http://arxiv.org/abs/2204.00607v1 )

ライセンス: Link先を確認
Bernhard Sch\"olkopf and Julius von K\"ugelgen(参考訳) 統計的学習によるシンボリックアプローチから因果関係の概念に依存する介入モデルまで,人工知能システムの構築と理解のための基礎研究の基本概念について述べる。 機械学習とAIの難解な問題のいくつかは本質的に因果関係に関係しており、進歩にはデータから因果関係をモデル化し推測する方法の理解の進歩が必要かもしれない。

We describe basic ideas underlying research to build and understand artificially intelligent systems: from symbolic approaches via statistical learning to interventional models relying on concepts of causality. Some of the hard open problems of machine learning and AI are intrinsically related to causality, and progress may require advances in our understanding of how to model and infer causality from data.
翻訳日:2022-04-04 12:59:13 公開日:2022-04-01
# 数ショット分類のための最適移動自己教師型学習による選択課題

Selecting task with optimal transport self-supervised learning for few-shot classification ( http://arxiv.org/abs/2204.00289v1 )

ライセンス: Link先を確認
Renjie Xu, Xinghao Yang, Baodi Liu, Kai Zhang, Weifeng Liu(参考訳) Few-Shot分類は、トレーニングプロセスで利用可能なサンプルがわずかである問題を解決することを目的としている。 サンプルが不足しているため、研究者は一般的に他のドメインのトレーニングタスクを使用してターゲットタスクを支援し、アシスタントタスクとターゲットタスクの分布は通常異なる。 分散ギャップを低減するため、データ拡張やドメインアライメントなど、いくつかの手法が提案されている。 しかし、これらのアルゴリズムの共通の欠点は、トレーニング前に類似性タスクの選択を無視していることである。 基本的な問題は、補助タスクを目標タスクに近づけることである。 本稿では,Few-Shot学習に類似したタスクを選択して学習セットを構築するために,OTTS(Optimal Transport Task Selecting)という新しいタスク選択アルゴリズムを提案する。 具体的には、OTTSは最適な輸送距離を計算してタスク類似度を測定し、自己監督戦略を通じてモデルトレーニングを完了させる。 選択したタスクをOTTSで活用することにより、Few-Shot学習のトレーニングプロセスはより安定し、効果的になる。 データ拡張やドメインアライメントを含む他の提案手法はottsと共に使用することができる。 OTTSの有効性を評価するために,MiniImageNet,CIFAR, CUB,Cars,Placesなど,さまざまなデータセットに関する広範な実験を行った。 実験結果から, OTTSはMAML, マッチングネット, プロトネットなどの典型的なベースラインよりも高いマージン(平均1.72倍の精度向上)を達成できた。

Few-Shot classification aims at solving problems that only a few samples are available in the training process. Due to the lack of samples, researchers generally employ a set of training tasks from other domains to assist the target task, where the distribution between assistant tasks and the target task is usually different. To reduce the distribution gap, several lines of methods have been proposed, such as data augmentation and domain alignment. However, one common drawback of these algorithms is that they ignore the similarity task selection before training. The fundamental problem is to push the auxiliary tasks close to the target task. In this paper, we propose a novel task selecting algorithm, named Optimal Transport Task Selecting (OTTS), to construct a training set by selecting similar tasks for Few-Shot learning. Specifically, the OTTS measures the task similarity by calculating the optimal transport distance and completes the model training via a self-supervised strategy. By utilizing the selected tasks with OTTS, the training process of Few-Shot learning become more stable and effective. Other proposed methods including data augmentation and domain alignment can be used in the meantime with OTTS. We conduct extensive experiments on a variety of datasets, including MiniImageNet, CIFAR, CUB, Cars, and Places, to evaluate the effectiveness of OTTS. Experimental results validate that our OTTS outperforms the typical baselines, i.e., MAML, matchingnet, protonet, by a large margin (averagely 1.72\% accuracy improvement).
翻訳日:2022-04-04 12:59:07 公開日:2022-04-01
# コントラスト・プロンプト・チューニングによる訓練済み言語モデルの作成

Making Pre-trained Language Models End-to-end Few-shot Learners with Contrastive Prompt Tuning ( http://arxiv.org/abs/2204.00166v1 )

ライセンス: Link先を確認
Ziyun Xu, Chengyu Wang, Minghui Qiu, Fuli Luo, Runxin Xu, Songfang Huang, Jun Huang(参考訳) プレトレーニング言語モデル (PLM) は、ラベル付きトレーニングデータに基づく微調整処理を必要とするIRシステムにおいて、様々な言語理解タスクにおいて顕著な性能を達成した。 低リソースのシナリオでは、plmsのプロンプトベースの学習がプロンプトをタスクガイダンスとして活用し、ダウンストリームタスクをマスキング言語問題に変換し、効果的なマイニングを行う。 既存のほとんどのアプローチでは、プロンプトベースの学習の性能は手作りのプロンプトと言語化器に大きく依存しており、現実のシナリオにおけるそのようなアプローチの適用を制限する可能性がある。 本稿では,タスク固有のプロンプトと動詞化を手作業で設計することなく,plmを微調整する最初のエンドツーエンドのコントラスト・プロンプト・チューニング・フレームワークであるcp-tuningを提案する。 タスク不変の連続プロンプトエンコーディング技術と完全にトレーニング可能なプロンプトパラメータを統合している。 さらに,モデル最適化のためのペアワイズコストセンシティブなコントラスト学習手順を提案し,言語化なしクラスマッピングを実現し,プロンプトのタスク非分散性を高める。 異なるクラスを区別し、異なるコストを容易かつ困難なケースに割り当てることで、決定境界をよりスムーズにする。 IRシステムや異なるPLMで使用される様々な言語理解タスクの実験は、CP-Tuningが最先端の手法より優れていることを示している。

Pre-trained Language Models (PLMs) have achieved remarkable performance for various language understanding tasks in IR systems, which require the fine-tuning process based on labeled training data. For low-resource scenarios, prompt-based learning for PLMs exploits prompts as task guidance and turns downstream tasks into masked language problems for effective few-shot fine-tuning. In most existing approaches, the high performance of prompt-based learning heavily relies on handcrafted prompts and verbalizers, which may limit the application of such approaches in real-world scenarios. To solve this issue, we present CP-Tuning, the first end-to-end Contrastive Prompt Tuning framework for fine-tuning PLMs without any manual engineering of task-specific prompts and verbalizers. It is integrated with the task-invariant continuous prompt encoding technique with fully trainable prompt parameters. We further propose the pair-wise cost-sensitive contrastive learning procedure to optimize the model in order to achieve verbalizer-free class mapping and enhance the task-invariance of prompts. It explicitly learns to distinguish different classes and makes the decision boundary smoother by assigning different costs to easy and hard cases. Experiments over a variety of language understanding tasks used in IR systems and different PLMs show that CP-Tuning outperforms state-of-the-art methods.
翻訳日:2022-04-04 12:58:20 公開日:2022-04-01
# 放射線所見要約のためのグラフ強化コントラスト学習

Graph Enhanced Contrastive Learning for Radiology Findings Summarization ( http://arxiv.org/abs/2204.00203v1 )

ライセンス: Link先を確認
Jinpeng Hu, Zhuo Li, Zhihong Chen, Zhen Li, Xiang Wan, Tsung-Hui Chang(参考訳) 放射線学報告の印象部は、発見部からの最も顕著な観察を要約し、放射線医が医師に伝える上で最も重要な部分である。 要約所見は時間を要するため,未経験の放射線技師の誤診が少なく,自動印象生成が注目されている。 エンコーダ-デコーダフレームワークによって、これまでのほとんどの研究は、追加の知識(例えば、静的事前定義された臨床オントロジーや追加の背景情報)を取り入れることを検討している。 しかし、これらの知識を別のエンコーダによって符号化し、モデルへの追加入力として扱うことで、元の発見との関係を活用できる。 この制限に対処するために、重要な情報(キーワードとその関係)を適切な方法で抽出し、印象生成を容易にするために、余分な知識と元の知見の両方を統合的に活用するための統一的な枠組みを提案する。 詳細は、各入力結果について、テキストエンコーダによってエンコードされ、そのエンティティと依存ツリーを通してグラフが構築される。 次に、構築したグラフ内の関係情報をモデル化するためにグラフエンコーダ(例えば、グラフニューラルネットワーク(gnns))を採用する。 最後に, キーワードを強調するために, 正のサンプル(非キーワードをマスキングして構成)をより近くにマッピングし, 負のサンプル(キーワードをマスキングして構成)を分割する。 openi および mimic-cxr を用いた実験により,提案手法の有効性を確認した。

The impression section of a radiology report summarizes the most prominent observation from the findings section and is the most important section for radiologists to communicate to physicians. Summarizing findings is time-consuming and can be prone to error for inexperienced radiologists, and thus automatic impression generation has attracted substantial attention. With the encoder-decoder framework, most previous studies explore incorporating extra knowledge (e.g., static pre-defined clinical ontologies or extra background information). Yet, they encode such knowledge by a separate encoder to treat it as an extra input to their models, which is limited in leveraging their relations with the original findings. To address the limitation, we propose a unified framework for exploiting both extra knowledge and the original findings in an integrated way so that the critical information (i.e., key words and their relations) can be extracted in an appropriate way to facilitate impression generation. In detail, for each input findings, it is encoded by a text encoder, and a graph is constructed through its entities and dependency tree. Then, a graph encoder (e.g., graph neural networks (GNNs)) is adopted to model relation information in the constructed graph. Finally, to emphasize the key words in the findings, contrastive learning is introduced to map positive samples (constructed by masking non-key words) closer and push apart negative ones (constructed by masking key words). The experimental results on OpenI and MIMIC-CXR confirm the effectiveness of our proposed method.
翻訳日:2022-04-04 12:57:50 公開日:2022-04-01
# (参考訳) ソフトウェアパフォーマンスの学習において構成は重要か? 符号化方式に関する実証的研究 [全文訳有]

Does Configuration Encoding Matter in Learning Software Performance? An Empirical Study on Encoding Schemes ( http://arxiv.org/abs/2203.15988v2 )

ライセンス: CC BY 4.0
Jingzhi Gong, Tao Chen(参考訳) 構成可能なソフトウェアシステムのパフォーマンスを学習し、予測することは、よりよい品質保証を提供するのに役立つ。 そこで重要なエンジニアリング上の決定は、構成をモデルにエンコードする方法である。 異なる符号化スキームが存在するにもかかわらず、コミュニティはしばしば、その決定をアドホックな方法で知らせる一般的な信念に依存しているため、どちらが良いか、どのような状況下にあるかについての理解はほとんどない。 このギャップを埋めるため,本稿では,ソフトウェアのパフォーマンス学習に広く用いられている符号化方式であるラベル,スケールドラベル,ワンホットエンコーディングを比較した。 この研究は、5つのシステム、7つのモデル、3つの符号化スキームをカバーし、105件の調査に繋がった。 Our key findings reveal that: (1) conducting trial-and-error to find the best encoding scheme in a case by case manner can be rather expensive, requiring up to 400+ hours on some models and systems; (2) the one-hot encoding often leads to the most accurate results while the scaled label encoding is generally weak on accuracy over different models; (3) conversely, the scaled label encoding tends to result in the fastest training time across the models/systems while the one-hot encoding is the slowest; (4) for all models studied, label and scaled label encoding often lead to relatively less biased outcomes between accuracy and training time, but the paired model varies according to the system. 我々は,この話題をコミュニティにもっと理解してもらうために,我々の発見から導かれる実行可能な提案について議論する。 オープンサイエンスを促進するために、この作業のデータとコードはhttps://github.com/i deas-labo/MSR2022-en coding-studyで公開することができる。

Learning and predicting the performance of a configurable software system helps to provide better quality assurance. One important engineering decision therein is how to encode the configuration into the model built. Despite the presence of different encoding schemes, there is still little understanding of which is better and under what circumstances, as the community often relies on some general beliefs that inform the decision in an ad-hoc manner. To bridge this gap, in this paper, we empirically compared the widely used encoding schemes for software performance learning, namely label, scaled label, and one-hot encoding. The study covers five systems, seven models, and three encoding schemes, leading to 105 cases of investigation. Our key findings reveal that: (1) conducting trial-and-error to find the best encoding scheme in a case by case manner can be rather expensive, requiring up to 400+ hours on some models and systems; (2) the one-hot encoding often leads to the most accurate results while the scaled label encoding is generally weak on accuracy over different models; (3) conversely, the scaled label encoding tends to result in the fastest training time across the models/systems while the one-hot encoding is the slowest; (4) for all models studied, label and scaled label encoding often lead to relatively less biased outcomes between accuracy and training time, but the paired model varies according to the system. We discuss the actionable suggestions derived from our findings, hoping to provide a better understanding of this topic for the community. To promote open science, the data and code of this work can be publicly accessed at https://github.com/i deas-labo/MSR2022-en coding-study.
翻訳日:2022-04-04 12:39:28 公開日:2022-04-01
# (参考訳) 光場からのマルチモーダル深度推定に向けて [全文訳有]

Towards Multimodal Depth Estimation from Light Fields ( http://arxiv.org/abs/2203.16542v2 )

ライセンス: CC BY 4.0
Titus Leistner, Radek Mackowiak, Lynton Ardizzone, Ullrich K\"othe, Carsten Rother(参考訳) 近年,光場応用,特に光場レンダリングと深度推定が急速に進展している。 最先端の光フィールドレンダリングは半透過的および反射的オブジェクトをうまく処理するが、深さ推定法はこれらのケースを完全に無視するか、弱いパフォーマンスしか提供しない。 これは、異なる深度の複数の物体が1つのピクセルの色に寄与した場合でも、単一の「真の」深さのみを考慮に入れる現在の方法であると主張する。 1つの推定値ではなく、後深度分布を出力するという単純なアイデアに基づいて、この問題に対するいくつかの異なるディープラーニングベースのアプローチを開発し、検討する。 さらに、画素の色に寄与する全ての物体の深さを含む最初の「マルチモーダル光場深度データセット」をコントリビュートする。 これにより、マルチモーダル深度予測を監督し、予測後部のKL分散を測定することにより、すべての手法を検証することができる。 徹底的な分析と新しいデータセットによって、この分野の長年の制限を克服する新たな深さ推定研究を始めることを目標としています。

Light field applications, especially light field rendering and depth estimation, developed rapidly in recent years. While state-of-the-art light field rendering methods handle semi-transparent and reflective objects well, depth estimation methods either ignore these cases altogether or only deliver a weak performance. We argue that this is due current methods only considering a single "true" depth, even when multiple objects at different depths contributed to the color of a single pixel. Based on the simple idea of outputting a posterior depth distribution instead of only a single estimate, we develop and explore several different deep-learning-based approaches to the problem. Additionally, we contribute the first "multimodal light field depth dataset" that contains the depths of all objects which contribute to the color of a pixel. This allows us to supervise the multimodal depth prediction and also validate all methods by measuring the KL divergence of the predicted posteriors. With our thorough analysis and novel dataset, we aim to start a new line of depth estimation research that overcomes some of the long-standing limitations of this field.
翻訳日:2022-04-04 12:13:26 公開日:2022-04-01
# (参考訳) 腫瘍浸潤リンパ球分類のための連合学習 [全文訳有]

Federated Learning for the Classification of Tumor Infiltrating Lymphocytes ( http://arxiv.org/abs/2203.16622v2 )

ライセンス: CC BY 4.0
Ujjwal Baid, Sarthak Pati, Tahsin M. Kurc, Rajarsi Gupta, Erich Bremer, Shahira Abousamra, Siddhesh P. Thakur, Joel H. Saltz, Spyridon Bakas(参考訳) デジタル化組織断面解析のための深層学習モデルの開発において,フェデレートラーニング(FL)の性能を評価する。 また,全スライド画像(WSI)中の腫瘍浸潤リンパ球の分布を定量化するための分類法を例に検討した。 深層学習分類モデルをWSIから抽出した50*50平方ミクロンパッチを用いて訓練した。 The Cancer Genome Atlasレポジトリで利用可能な多数の解剖学的部位から,WSIから生成されたデータセットを8つのノードに分割したFL環境をシミュレーションした。 本研究の結果から,フェデレートトレーニングアプローチでトレーニングしたモデルは,集中的な場所で学習したトレーニングデータすべてを用いてトレーニングしたモデルと,定量的かつ定性的に類似した性能が得られることがわかった。 病理組織学画像解析のためのより堅牢で正確なモデルの開発を可能にする上で,flは大きなトレーニングデータを単一の場所で収集する必要なく,大きな可能性を秘めている。

We evaluate the performance of federated learning (FL) in developing deep learning models for analysis of digitized tissue sections. A classification application was considered as the example use case, on quantifiying the distribution of tumor infiltrating lymphocytes within whole slide images (WSIs). A deep learning classification model was trained using 50*50 square micron patches extracted from the WSIs. We simulated a FL environment in which a dataset, generated from WSIs of cancer from numerous anatomical sites available by The Cancer Genome Atlas repository, is partitioned in 8 different nodes. Our results show that the model trained with the federated training approach achieves similar performance, both quantitatively and qualitatively, to that of a model trained with all the training data pooled at a centralized location. Our study shows that FL has tremendous potential for enabling development of more robust and accurate models for histopathology image analysis without having to collect large and diverse training data at a single location.
翻訳日:2022-04-04 11:53:33 公開日:2022-04-01
# (参考訳) コンピュータビジョンを用いた運転モニタリングによる公共街灯画像のデータセット [全文訳有]

A Dataset of Images of Public Streetlights with Operational Monitoring using Computer Vision Techniques ( http://arxiv.org/abs/2203.16915v2 )

ライセンス: CC BY 4.0
Ioannis Mavromatis and Aleksandar Stanoev and Pietro Carnelli and Yichao Jin and Mahesh Sooriyabandara and Aftab Khan(参考訳) 街路灯画像のデータセットが提示される。 私たちのデータセットは、英国のサウスグロスターシャーに設置された140のUMBRELLAノードから撮影された$\sim350\textrm{k}$イメージで構成されています。 各UMBRELLAノードは、街灯柱の極に設置され、空に向かって上向きに向いたRaspberry Pi Camera Module v1と街灯灯電球を備える。 各ノードは、毎日24時間、時間間隔で画像を収集する。 データ収集期間は6ヶ月である。 各画像は、ランプポストのグローバル測位システム(GPS)座標とともに、データセット内の単一のエントリとして記録される。 データセットの全てのエントリは、ランプポストの操作、すなわちランプポストがオンかオフかに基づいて後処理されラベル付けされている。 このデータセットは、ディープニューラルネットワークのトレーニングや、スマートシティCCTVアプリケーション、スマート気象検出アルゴリズム、ストリートインフラストラクチャ監視のための機能表現を提供する事前トレーニングされたモデル生成に使用することができる。 データセットは \url{https://doi.org/10.5 281/zenodo.6046758} にある。

A dataset of street light images is presented. Our dataset consists of $\sim350\textrm{k}$ images, taken from 140 UMBRELLA nodes installed in the South Gloucestershire region in the UK. Each UMBRELLA node is installed on the pole of a lamppost and is equipped with a Raspberry Pi Camera Module v1 facing upwards towards the sky and lamppost light bulb. Each node collects an image at hourly intervals for 24h every day. The data collection spans for a period of six months. Each image taken is logged as a single entry in the dataset along with the Global Positioning System (GPS) coordinates of the lamppost. All entries in the dataset have been post-processed and labelled based on the operation of the lamppost, i.e., whether the lamppost is switched ON or OFF. The dataset can be used to train deep neural networks and generate pre-trained models providing feature representations for smart city CCTV applications, smart weather detection algorithms, or street infrastructure monitoring. The dataset can be found at \url{https://doi.org/10.5 281/zenodo.6046758}.
翻訳日:2022-04-04 11:37:39 公開日:2022-04-01
# 比較カリキュラム学習による弱教師付き時間経路表現学習-拡張版

Weakly-supervised Temporal Path Representation Learning with Contrastive Curriculum Learning -- Extended Version ( http://arxiv.org/abs/2203.16110v2 )

ライセンス: Link先を確認
Sean Bin Yang, Chenjuan Guo, Jilin Hu, Bin Yang, Jian Tang, and Christian S. Jensen(参考訳) 交通のデジタル化にともなって、旅行時間推定や旅行経路ランキングなど、経路ベースのスマートシティアプリケーションの増加を目の当たりにしている。 時間的情報(例えば出発時刻など)を含む時間的パス~(TP)は、そのようなアプリケーションを可能にするために基本的なものである。 この設定では、空間的および時間的相関を同時に考慮し、下流タスクなど様々なアプリケーションで使用できる一般的な時間的経路表現~(TPR)を学ぶことが不可欠である。 既存のメソッドはそれ以来目標達成に失敗する i) 指導方法は,訓練中に大量のタスク固有のラベルを必要とするため,取得したTPRを他のタスクに一般化することができない。 (II) 教師なし手法は汎用表現を学習できるが, 時間的側面を無視し, 準最適結果をもたらす。 既存のソリューションの限界に対抗して、Weakly-Supervised Contrastive (WSC)学習モデルを提案する。 まず,時間的経路の空間的情報と時間的情報の両方をTPRにエンコードする時間的経路エンコーダを提案する。 エンコーダを訓練するには, 入手が容易で安価で, 出発時刻からピーク時刻とオフピーク時刻を示す時間ラベルなど, 異なるタスクに関連する弱いラベルを導入する。 弱ラベルに基づいて,空間情報と時間情報の両方を考慮して有意な正・負の時間パスサンプルを構築し,正のサンプル表現を狭めながら負のサンプル表現をプッシュすることで,コントラスト学習を用いてエンコーダを訓練する。 そこで本研究では,コントラスト学習をよりよく指導するために,カリキュラム学習に基づく学習戦略を提案する。 提案手法の有効性を検証する実験を行った。

In step with the digitalization of transportation, we are witnessing a growing range of path-based smart-city applications, e.g., travel-time estimation and travel path ranking. A temporal path~(TP) that includes temporal information, e.g., departure time, into the path is of fundamental to enable such applications. In this setting, it is essential to learn generic temporal path representations~(TPR s) that consider spatial and temporal correlations simultaneously and that can be used in different applications, i.e., downstream tasks. Existing methods fail to achieve the goal since (i) supervised methods require large amounts of task-specific labels when training and thus fail to generalize the obtained TPRs to other tasks; (ii) though unsupervised methods can learn generic representations, they disregard the temporal aspect, leading to sub-optimal results. To contend with the limitations of existing solutions, we propose a Weakly-Supervised Contrastive (WSC) learning model. We first propose a temporal path encoder that encodes both the spatial and temporal information of a temporal path into a TPR. To train the encoder, we introduce weak labels that are easy and inexpensive to obtain, and are relevant to different tasks, e.g., temporal labels indicating peak vs. off-peak hour from departure times. Based on the weak labels, we construct meaningful positive and negative temporal path samples by considering both spatial and temporal information, which facilities training the encoder using contrastive learning by pulling closer the positive samples' representations while pushing away the negative samples' representations. To better guide the contrastive learning, we propose a learning strategy based on Curriculum Learning such that the learning performs from easy to hard training instances. Experiments studies verify the effectiveness of the proposed method.
翻訳日:2022-04-04 11:29:47 公開日:2022-04-01
# 集合に基づく多目的ベイズ最適化を用いた風力発電レイアウト最適化

Wind Farm Layout Optimisation using Set Based Multi-objective Bayesian Optimisation ( http://arxiv.org/abs/2203.17065v2 )

ライセンス: Link先を確認
Tinkle Chugh and Endi Ymeraj(参考訳) 風力エネルギーは最もクリーンな再生可能エネルギー源の1つであり、気候変動の課題に対応するのに役立つ。 風力発電の欠点の1つは風力発電所を設置するために必要な広い空間である。これは限られた地域に風力タービンを置くことが生産性を阻害し、経済的に便利ではないという事実から生じる。 これは自然に最適化問題につながり、(1)複数の矛盾する目的(2)計算コストのかかるシミュレーションモデル、(3)設計ベクトルではなく設計集合の最適化という3つの課題がある。 第1および第2の課題は、例えば\ bayesian multi-objective optimization(英語版)のようなsurrogateの支援によって解決できる。 しかし、問題の最適化関数は設計ベクトルではなく設計集合に依存するため、伝統的なベイズ最適化は適用できない。 本稿では,風力発電レイアウト問題の解法として,ベイズ多目的最適化の適用性を拡張した。 ガウス過程におけるセットベースのカーネルを用いて風力発電所(タービンの数が異なる)間の相関を定量化する。 風力エネルギーと方向の与えられたデータセットの結果は、セットベースベイズ多目的最適化の可能性を明らかに示している。

Wind energy is one of the cleanest renewable electricity sources and can help in addressing the challenge of climate change. One of the drawbacks of wind-generated energy is the large space necessary to install a wind farm; this arises from the fact that placing wind turbines in a limited area would hinder their productivity and therefore not be economically convenient. This naturally leads to an optimisation problem, which has three specific challenges: (1) multiple conflicting objectives (2) computationally expensive simulation models and (3) optimisation over design sets instead of design vectors. The first and second challenges can be addressed by using surrogate-assisted e.g.\ Bayesian multi-objective optimisation. However, the traditional Bayesian optimisation cannot be applied as the optimisation function in the problem relies on design sets instead of design vectors. This paper extends the applicability of Bayesian multi-objective optimisation to set based optimisation for solving the wind farm layout problem. We use a set-based kernel in Gaussian process to quantify the correlation between wind farms (with a different number of turbines). The results on the given data set of wind energy and direction clearly show the potential of using set-based Bayesian multi-objective optimisation.
翻訳日:2022-04-04 11:29:14 公開日:2022-04-01
# テキスト要約に用いるインド語データセットの概要

An Overview of Indian Language Datasets used for Text Summarization ( http://arxiv.org/abs/2203.16127v2 )

ライセンス: Link先を確認
Shagun Sinha and Girish Nath Jha(参考訳) 本稿では,低リソース言語 (LRL) であるインド言語 (IL) におけるテキスト要約 (TS) データセットについて調査する。 インド言語テキスト要約(ILTS)データセットのプールは成長しているか、それともリソースの貧困があるのか? 第一の質問に答えるために、私たちはILTSデータセットについて探している2つのサブクェリ(第一に、ILTSデータセットが持つ特徴:フォーマットとドメインは何か? 第二に、高リソース言語(HRL)、特に英語からのILTSデータセットの特徴がどの程度異なるか。 2012-2022年に公開されたILTS研究で報告されたデータセットに焦点を当てた。 ILTSと英語のデータセットの調査では、2つの類似点と1つのコントラストが明らかになった。 まず、データセットのドメインは一般的にnews(hermann et al., 2015)である。 2つめの類似点は、抽出的かつ抽象的なデータセットの形式である。 対照的に、データセット開発の研究は進展している。 ILは、英語と比較して、開発速度とデータセットの公開速度が遅い。 まず、TSツールやリソースを開発するための専用のフォーラムがないこと、そして第2に、パブリックドメインで共有可能な標準データセットがないことである。

In this paper, we survey Text Summarization (TS) datasets in Indian Languages (ILs), which are also low-resource languages (LRLs). We seek to answer one primary question: is the pool of Indian Language Text Summarization (ILTS) dataset growing or is there a resource poverty? To an-swer the primary question, we pose two sub-questions that we seek about ILTS datasets: first, what characteristics: format and domain do ILTS datasets have? Second, how different are those characteristics of ILTS datasets from high-resource languages (HRLs) particularly English. We focus on datasets reported in published ILTS research works during 2012-2022. The survey of ILTS and English datasets reveals two similarities and one contrast. The two similarities are: first, the domain of dataset commonly is news (Hermann et al., 2015). The second similarity is the format of the dataset which is both extractive and abstractive. The contrast is in how the research in dataset development has progressed. ILs face a slow speed of development and public release of datasets as compared with English. We argue that the relatively lower number of ILTS datasets is because of two reasons: first, absence of a dedicated forum for developing TS tools and resources; and second, lack of shareable standard datasets in the public domain.
翻訳日:2022-04-04 11:28:55 公開日:2022-04-01
# traffic4cast at neurips 2021 -- gridded geo-spatial processesにおける時間的および空間的少数ショット転送学習

Traffic4cast at NeurIPS 2021 -- Temporal and Spatial Few-Shot Transfer Learning in Gridded Geo-Spatial Processes ( http://arxiv.org/abs/2203.17070v2 )

ライセンス: Link先を確認
Christian Eichenberger, Moritz Neun, Henry Martin, Pedro Herruzo, Markus Spanring, Yichao Lu, Sungbin Choi, Vsevolod Konyakhin, Nina Lukashina, Aleksei Shpilman, Nina Wiedemann, Martin Raubal, Bo Wang, Hai L. Vu, Reza Mohajerpoor, Chen Cai, Inhi Kim, Luca Hermes, Andrew Melnik, Riza Velioglu, Markus Vieth, Malte Schilling, Alabi Bojesomo, Hasan Al Marzouqi, Panos Liatsis, Jay Santokhi, Dylan Hillier, Yiming Yang, Joned Sarwar, Anna Jordan, Emil Hewage, David Jonietz, Fei Tang, Aleksandra Gruca, Michael Kopp, David Kreil and Sepp Hochreiter(参考訳) NeurIPS 2019と2020のIARAI Traffic4castコンペティションによると、ニューラルネットワークは、時間と宇宙のビンで単に集計されたGPSプローブデータによって、将来1時間の交通条件を予測できる。 そこで我々は,交通条件の予測を映画完成作業として再解釈した。 u-netsは勝利したアーキテクチャであることが証明され、この複雑な実世界の地理空間プロセスで関連する特徴を抽出する能力を示した。 これまでのコンペティションに基づいて、traffic4cast 2021は現在、時間と空間にわたるモデルの堅牢性と一般化可能性の問題に焦点を当てている。 ひとつの都市からまったく別の都市へ、あるいは、新型コロナウイルスが世界を襲った後、事前に共有された時間から時間に移行することで、明確なドメインシフトがもたらされる。 したがって、このようなドメインシフトを特徴とするデータを初めてリリースします。 コンペティションは2年間で10都市をカバーし、10^12以上のGPSプローブデータから収集したデータを提供する。 勝利したソリューションは、複雑なドメインシフトに対処できるほどトラフィックのダイナミクスをうまく捉えた。 驚いたことに、これは入力として以前の1hのトラフィック動的履歴と静的道路グラフのみを必要とするように思えた。

The IARAI Traffic4cast competitions at NeurIPS 2019 and 2020 showed that neural networks can successfully predict future traffic conditions 1 hour into the future on simply aggregated GPS probe data in time and space bins. We thus reinterpreted the challenge of forecasting traffic conditions as a movie completion task. U-Nets proved to be the winning architecture, demonstrating an ability to extract relevant features in this complex real-world geo-spatial process. Building on the previous competitions, Traffic4cast 2021 now focuses on the question of model robustness and generalizability across time and space. Moving from one city to an entirely different city, or moving from pre-COVID times to times after COVID hit the world thus introduces a clear domain shift. We thus, for the first time, release data featuring such domain shifts. The competition now covers ten cities over 2 years, providing data compiled from over 10^12 GPS probe data. Winning solutions captured traffic dynamics sufficiently well to even cope with these complex domain shifts. Surprisingly, this seemed to require only the previous 1h traffic dynamic history and static road graph as input.
翻訳日:2022-04-04 11:28:37 公開日:2022-04-01
# SIT:スパイクニューラルネットワークのためのバイオン・非線形ニューロン

SIT: A Bionic and Non-Linear Neuron for Spiking Neural Network ( http://arxiv.org/abs/2203.16117v2 )

ライセンス: Link先を確認
Cheng Jin, Rui-Jie Zhu, Xiao Wu, Liang-Jian Deng(参考訳) スパイキングニューラルネットワーク(SNN)は、時間的情報処理能力と消費電力の低さから、研究者の関心を喚起している。 しかし、現在の最先端の手法では、ニューロンは単純な Leaky-Integrate-and- Fire (LIF) モデルに基づいて構築されているため、生物学的妥当性と性能が制限されている。 高レベルの動的複雑さのため、現代のニューロンモデルはSNNの実践ではほとんど実装されていない。 本研究では,神経力学の分野でよく用いられる位相平面解析(phase plane analysis, ppa)技術を用いて,最新のニューロンモデル,すなわちizhikevichニューロンを統合する。 神経科学の発展の成果に基づいて、Izhikevichニューロンモデルは、LIFニューロンと同等の計算コストを維持しながら生物学的に妥当である。 導入したPPAを利用して、修正Izhikevichモデルで構築したニューロンをSNNの練習に投入し、SIT(Standardized Izhikevich Tonic)ニューロンと呼ばれる。 静的MNIST, Fashion-MNIST, CIFAR-10データセットおよびニューロモルフィックN-MNIST, CIFAR10-DVS, DVS128ジェスチャデータセット上で, LIF- and-SIT-consisted SNNを自作したHybrid Neural Network (HNN) における画像分類タスクの評価を行った。 実験の結果,提案手法は,ほぼすべての試験データセットに対して,より生物学的に現実的な挙動を示しながら,同等の精度を達成できることが示唆された。

Spiking Neural Networks (SNNs) have piqued researchers' interest because of their capacity to process temporal information and low power consumption. However, current state-of-the-art methods limited their biological plausibility and performance because their neurons are generally built on the simple Leaky-Integrate-and- Fire (LIF) model. Due to the high level of dynamic complexity, modern neuron models have seldom been implemented in SNN practice. In this study, we adopt the Phase Plane Analysis (PPA) technique, a technique often utilized in neurodynamics field, to integrate a recent neuron model, namely, the Izhikevich neuron. Based on the findings in the advancement of neuroscience, the Izhikevich neuron model can be biologically plausible while maintaining comparable computational cost with LIF neurons. By utilizing the adopted PPA, we have accomplished putting neurons built with the modified Izhikevich model into SNN practice, dubbed as the Standardized Izhikevich Tonic (SIT) neuron. For performance, we evaluate the suggested technique for image classification tasks in self-built LIF-and-SIT-consiste d SNNs, named Hybrid Neural Network (HNN) on static MNIST, Fashion-MNIST, CIFAR-10 datasets and neuromorphic N-MNIST, CIFAR10-DVS, and DVS128 Gesture datasets. The experimental results indicate that the suggested method achieves comparable accuracy while exhibiting more biologically realistic behaviors on nearly all test datasets, demonstrating the efficiency of this novel strategy in bridging the gap between neurodynamics and SNN practice.
翻訳日:2022-04-04 11:28:18 公開日:2022-04-01
# ニューラル二部グラフマッチングによるマルチロボットアクティブマッピング

Multi-Robot Active Mapping via Neural Bipartite Graph Matching ( http://arxiv.org/abs/2203.16319v2 )

ライセンス: Link先を確認
Kai Ye, Siyan Dong, Qingnan Fan, He Wang, Li Yi, Fei Xia, Jue Wang, Baoquan Chen(参考訳) 最小時間ステップでシーンマップを構築することを目的としたマルチロボットアクティブマッピングの問題点について検討する。 この問題の鍵は、より効率的なロボットの動きを可能にする目標位置推定にある。 従来のアプローチでは、時間効率を妨げるミオピックソリューションによるゴール位置としてフロンティアを選択するか、強化学習による長期的な価値を最大化してゴール位置を直接回帰するが、完全なマップ構築は保証しない。 本稿では,両手法を活用した新しいアルゴリズムであるneuralcomappingを提案する。 この問題を二部グラフマッチングに還元し、2つのグラフ間のノード対応を確立し、ロボットとフロンティアを示す。 本稿では,より効果的なグラフマッチングのための親和性行列を満たすために,神経距離を学習する多重グラフニューラルネットワーク(mgnn)を提案する。 時間効率を優先する長期値と強化学習による地図完全性を最大化することにより,mgnnを微分可能な線形割当層で最適化する。 提案アルゴリズムを,最先端のマルチロボットアクティブマッピング手法と適応型強化学習ベースラインと比較した。 実験により,9つの屋内シーンでのみトレーニングを行う場合,様々な屋内シーンにおけるアルゴリズムの優れた性能と例外的な一般化能力を示す。

We study the problem of multi-robot active mapping, which aims for complete scene map construction in minimum time steps. The key to this problem lies in the goal position estimation to enable more efficient robot movements. Previous approaches either choose the frontier as the goal position via a myopic solution that hinders the time efficiency, or maximize the long-term value via reinforcement learning to directly regress the goal position, but does not guarantee the complete map construction. In this paper, we propose a novel algorithm, namely NeuralCoMapping, which takes advantage of both approaches. We reduce the problem to bipartite graph matching, which establishes the node correspondences between two graphs, denoting robots and frontiers. We introduce a multiplex graph neural network (mGNN) that learns the neural distance to fill the affinity matrix for more effective graph matching. We optimize the mGNN with a differentiable linear assignment layer by maximizing the long-term values that favor time efficiency and map completeness via reinforcement learning. We compare our algorithm with several state-of-the-art multi-robot active mapping approaches and adapted reinforcement-learni ng baselines. Experimental results demonstrate the superior performance and exceptional generalization ability of our algorithm on various indoor scenes and unseen number of robots, when only trained with 9 indoor scenes.
翻訳日:2022-04-04 11:27:47 公開日:2022-04-01
# 高速変圧器を用いた汎用損失圧縮機

A Fast Transformer-based General-Purpose Lossless Compressor ( http://arxiv.org/abs/2203.16114v2 )

ライセンス: Link先を確認
Yu Mao, Yufei Cui, Tei-Wei Kuo, Chun Jason Xue(参考訳) ディープラーニングベースの圧縮機は最近、圧縮比が大幅に改善されたため関心を集めている。 しかし、現代のアプローチは長い実行時間に苦しむ。 そこで本研究では,ディープラーニングを用いた圧縮機の実行時間を短縮することを目的とした。 時系列的な履歴依存(リカレントニューラルネットワークなど)の構築は、長い推論遅延の原因となる。 代わりに、トランスフォーマーをディープラーニング圧縮機に導入して、履歴依存を並列に構築する。 しかし、既存のトランスフォーマーは計算が重く、圧縮タスクと互換性がない。 本稿では, 単一層トランスを用いた圧縮親しみやすい構造を設計し, 高速汎用ロスレス圧縮機 TRACE を提案する。 まず,圧縮モデル構造の選択部分を助言するために,新しい指標を設計する。 バイトグループ化と共有ffnスキームは単層トランスフォーマの容量を十分に活用するためにさらに提案されている。 これらの特徴により、トレースは競争力のある圧縮比とより速い速度を達成することができる。 さらに,パラメータ更新オーバーヘッドを低減するためにコントローラを設計することで,圧縮手順をさらに高速化する。 実験の結果、TRACEは全体の$\sim$3xのスピードアップを達成する一方で、最先端圧縮機と同等の圧縮比を維持することがわかった。 TRACEのソースコードとデータセットへのリンクはhttps://github.com/m ynotwo/A-Fast-Transf ormer-based-General- Purpose-LosslessComp ressorで確認できる。

Deep-learning-based compressor has received interests recently due to much improved compression ratio. However, modern approaches suffer from long execution time. To ease this problem, this paper targets on cutting down the execution time of deep-learning-based compressors. Building history-dependencies sequentially (e.g., recurrent neural networks) is responsible for long inference latency. Instead, we introduce transformer into deep learning compressors to build history-dependencies in parallel. However, existing transformer is too heavy in computation and incompatible to compression tasks. This paper proposes a fast general-purpose lossless compressor, TRACE, by designing a compression-friendly structure based on a single-layer transformer. We first design a new metric to advise the selection part of compression model structures. Byte-grouping and Shared-ffn schemes are further proposed to fully utilize the capacity of the single-layer transformer. These features allow TRACE to achieve competitive compression ratio and a much faster speed. In addition, we further accelerate the compression procedure by designing a controller to reduce the parameter updating overhead. Experiments show that TRACE achieves an overall $\sim$3x speedup while keeps a comparable compression ratio to the state-of-the-art compressors. The source code for TRACE and links to the datasets are available at https://github.com/m ynotwo/A-Fast-Transf ormer-based-General- Purpose-LosslessComp ressor.
翻訳日:2022-04-04 11:27:23 公開日:2022-04-01
# (参考訳) 多人数会議における話者属性自動音声認識の比較検討 [全文訳有]

A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings ( http://arxiv.org/abs/2203.16834v2 )

ライセンス: CC BY-SA 4.0
Fan Yu, Zhihao Du, Shiliang Zhang, Yuxiao Lin, Lei Xie(参考訳) 本稿では,多人数会議シナリオにおける話者適応型自動音声認識(SA-ASR)の比較研究を行う。 特に,本研究では3つのアプローチが評価されている。 最初のアプローチであるFD-SOTは、話者を識別するフレームレベルのダイアリゼーションモデルと、発話を認識するマルチストーカーASRで構成されている。 ダイアリゼーション結果と認識仮説とを整列させて話者対応転写を得る。 しかし、このようなアライメント戦略はモジュラー独立性によって誤ったタイムスタンプに陥り、モデルの性能を著しく阻害する可能性がある。 そこで本研究では,単語レベルのダイアリゼーションモデルを導入することでアライメントエラーに対処するための第2の手法であるwd-sotを提案する。 さらにアライメント問題を緩和するために,ターゲット話者分離モジュールとASRモジュールを共同で訓練する第3のアプローチTS-ASRを提案する。 各SA-ASR手法について,実会議シナリオコーパス(AliMeeting)を用いた実験結果から,平均話者依存型文字誤り率(SD-CER)を10.7%削減できることが判明した。 さらに、TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。

In this paper, we conduct a comparative study on speaker-attributed automatic speech recognition (SA-ASR) in the multi-party meeting scenario, a topic with increasing attention in meeting rich transcription. Specifically, three approaches are evaluated in this study. The first approach, FD-SOT, consists of a frame-level diarization model to identify speakers and a multi-talker ASR to recognize utterances. The speaker-attributed transcriptions are obtained by aligning the diarization results and recognized hypotheses. However, such an alignment strategy may suffer from erroneous timestamps due to the modular independence, severely hindering the model performance. Therefore, we propose the second approach, WD-SOT, to address alignment errors by introducing a word-level diarization model, which can get rid of such timestamp alignment dependency. To further mitigate the alignment issues, we propose the third approach, TS-ASR, which trains a target-speaker separation module and an ASR module jointly. By comparing various strategies for each SA-ASR approach, experimental results on a real meeting scenario corpus, AliMeeting, reveal that the WD-SOT approach achieves 10.7% relative reduction on averaged speaker-dependent character error rate (SD-CER), compared with the FD-SOT approach. In addition, the TS-ASR approach also outperforms the FD-SOT approach and brings 16.5% relative average SD-CER reduction.
翻訳日:2022-04-04 11:25:31 公開日:2022-04-01
# (参考訳) ゼロショット量子化は教師に近づいた

It's All In the Teacher: Zero-Shot Quantization Brought Closer to the Teacher ( http://arxiv.org/abs/2203.17008v2 )

ライセンス: CC BY 4.0
Kanghyun Choi, Hye Yoon Lee, Deokki Hong, Joonsang Yu, Noseong Park, Youngsok Kim, Jinho Lee(参考訳) モデル量子化はディープニューラルネットワークのリソース要求を大幅に削減する有望な方法であると考えられている。 量子化誤差によって生じる性能低下に対処するため、トレーニングデータを用いて量子化ネットワークを微調整する手法が一般的である。 しかし、現実の環境では、そのような方法は、セキュリティ、プライバシー、機密性の懸念のためにトレーニングデータが利用できないため、しばしば実現不可能である。 ゼロショット量子化は、通常、全精度教師ネットワークの重みから情報を取り、量子化されたネットワークのパフォーマンス低下を補償することで、このような問題に対処する。 本稿では,最先端ゼロショット量子化手法の損失面を最初に解析し,いくつかの知見を提供する。 通常の知識蒸留問題とは対照的に、ゼロショット量子化はしばしば苦しむ 1)複数の損失項をまとめて最適化することの難しさ 2) 合成試料の使用による一般化能力の低下。 さらに,多くの重みが量子化ネットワークのトレーニング中に丸めしきい値を超えない場合,性能向上のために必要となる場合も観察できる。 この観測に基づいて、上記の2つの問題に対処する、ゼロショット量子化のための単純かつ強力な手法であるAITを提案する。 一 クロスエントロピー損失のみで、かつ、KL距離損失を用いること。 二 一定の重量が丸い閾値を越えた後に適切に更新されることを保証するため、勾配を操作すること。 実験により、AITは既存の多くの手法の性能を大きなマージンで上回り、この分野における最先端の総合的な地位を引き継いだ。

Model quantization is considered as a promising method to greatly reduce the resource requirements of deep neural networks. To deal with the performance drop induced by quantization errors, a popular method is to use training data to fine-tune quantized networks. In real-world environments, however, such a method is frequently infeasible because training data is unavailable due to security, privacy, or confidentiality concerns. Zero-shot quantization addresses such problems, usually by taking information from the weights of a full-precision teacher network to compensate the performance drop of the quantized networks. In this paper, we first analyze the loss surface of state-of-the-art zero-shot quantization techniques and provide several findings. In contrast to usual knowledge distillation problems, zero-shot quantization often suffers from 1) the difficulty of optimizing multiple loss terms together, and 2) the poor generalization capability due to the use of synthetic samples. Furthermore, we observe that many weights fail to cross the rounding threshold during training the quantized networks even when it is necessary to do so for better performance. Based on the observations, we propose AIT, a simple yet powerful technique for zero-shot quantization, which addresses the aforementioned two problems in the following way: AIT i) uses a KL distance loss only without a cross-entropy loss, and ii) manipulates gradients to guarantee that a certain portion of weights are properly updated after crossing the rounding thresholds. Experiments show that AIT outperforms the performance of many existing methods by a great margin, taking over the overall state-of-the-art position in the field.
翻訳日:2022-04-04 11:10:29 公開日:2022-04-01
# 芸術の深み:シングルタスク・シングルモーダルニューラルネットワークにおける芸術的理解の限界に関する実験的研究

How Deep is Your Art: An Experimental Study on the Limits of Artistic Understanding in a Single-Task, Single-Modality Neural Network ( http://arxiv.org/abs/2203.16031v2 )

ライセンス: Link先を確認
Mahan Agha Zahedi, Niloofar Gholamrezaei, Alex Doboli(参考訳) 芸術作品の数学的モデリングと審美規則抽出は複雑な活動である。 これは芸術が多次元の主観的な規律であるからである。 芸術の知覚と解釈は多くの点で、測定可能というよりむしろ相対的でオープンなものである。 本稿では,現代の2次元視覚芸術の分類において,単一タスク,単一モダリティのベンチマークコンピュータビジョンモデルが果たす限界について,人間の理解可能な方法で検討した。 この研究は、Deep Neural Networksのブラックボックスを開くための解釈方法を導入せず、むしろ、混乱行列から導かれた既存の評価指標を使用して、Deep Neural Networksが芸術を理解するメカニズムを明らかにすることが重要である。 そのため、ImageNetで事前訓練されたVGG-11は、実世界のギャラリーから設計された手作りの小型データデータセットに使用された。 美術品の表現特性や形状や色彩といった形式的要因は,非過剰な性質や歴史や意図といった内容要因よりも,芸術作品が非常に類似した表現特性を持つ場合,決定要因となる可能性がはるかに高いことを実証した。 また, 単一タスクモデルと単一モダリティモデルによる美術の理解が不十分であることを示し, 非展示性を無視した。

Mathematical modeling and aesthetic rule extraction of works of art are complex activities. This is because art is a multidimensional, subjective discipline. Perception and interpretation of art are, to many extents, relative and open-ended rather than measurable. Following the explainable Artificial Intelligence paradigm, this paper investigated in a human-understandable fashion the limits to which a single-task, single-modality benchmark computer vision model performs in classifying contemporary 2D visual arts. It is important to point out that this work does not introduce an interpreting method to open the black box of Deep Neural Networks, instead it uses existing evaluating metrics derived from the confusion matrix to try to uncover the mechanism with which Deep Neural Networks understand art. To achieve so, VGG-11, pre-trained on ImageNet and discriminatively fine-tuned, was used on handcrafted small-data datasets designed from real-world photography gallery shows. We demonstrated that the artwork's Exhibited Properties or formal factors such as shape and color, rather than Non-Exhibited Properties or content factors such as history and intention, have much higher potential to be the determinant when art pieces have very similar Exhibited Properties. We also showed that a single-task and single-modality model's understanding of art is inadequate as it largely ignores Non-Exhibited Properties.
翻訳日:2022-04-04 11:08:13 公開日:2022-04-01
# 会話における感情認識のための談話認識シーケンス学習アプローチ

A Discourse Aware Sequence Learning Approach for Emotion Recognition in Conversations ( http://arxiv.org/abs/2203.16799v2 )

ライセンス: Link先を確認
Sreyan Ghosh, Harshvardhan Srivastava and S. Umesh(参考訳) 感情の表現は人間の日常コミュニケーションの重要な部分である。 会話とシーケンシャルな文脈のモデリングは成功し、会話における感情認識(ERC)において重要な役割を果たす。 しかし、既存のアプローチは2つのうちの1つしかモデル化せず、最終的な発話表現を得るために単純なレイトフュージョン手法を用いている。 本稿では,これらの文脈を取り入れ,会話内の内在的構造をより良くモデル化する新しいアイデアを提案する。 より正確には、DCDLSTMと呼ばれる改良LSTMセルによって強化された新しいアーキテクチャを提案し、会話コンテキストとシーケンシャルコンテキストの相互作用をよりよくキャプチャする。 disclstmは、両方の世界のベストをまとめ、会話関係を通じて長距離会話の背景をよりよく捉え、繰り返しを通じてシーケンシャルなコンテキストを捉えることにより、個々の発話間の情報フローをより直感的で効率的な方法でモデル化する。 ERCのための4つのベンチマークデータセットの実験を行い、我々のモデルが最先端と競合する性能を達成し、時には他の文献のグラフベースのアプローチよりも優れた性能を発揮することを示す。 すべてのコードをgithubで公開しています。

The expression of emotions is a crucial part of daily human communication. Modeling the conversational and sequential context has seen much success and plays a vital role in Emotion Recognition in Conversations (ERC). However, existing approaches either model only one of the two or employ naive late-fusion methodologies to obtain final utterance representations. This paper proposes a novel idea to incorporate both these contexts and better model the intrinsic structure within a conversation. More precisely, we propose a novel architecture boosted by a modified LSTM cell, which we call DiscLSTM, that better captures the interaction between conversational and sequential context. DiscLSTM brings together the best of both worlds and provides a more intuitive and efficient way to model the information flow between individual utterances by better capturing long-distance conversational background through discourse relations and sequential context through recurrence. We conduct experiments on four benchmark datasets for ERC and show that our model achieves performance competitive to state-of-the-art and at times performs better than other graph-based approaches in literature, with a conversational graph that is both sparse and avoids complicated edge relations like much of previous work. We make all our codes publicly available on GitHub.
翻訳日:2022-04-04 11:07:49 公開日:2022-04-01
# 自律運転システムにおけるセンサデータ検証と運転安全

Sensor Data Validation and Driving Safety in Autonomous Driving Systems ( http://arxiv.org/abs/2203.16130v2 )

ライセンス: Link先を確認
Jindi Zhang(参考訳) 自動運転技術は、急速な開発と非常に高い商業価値のために多くの注目を集めている。 最近の自動運転の技術的飛躍は、主に環境認識の進歩に起因している。 良い環境認識は、自動運転車が安全かつ正確な運転決定と戦略を行うために必要な、正確なハイレベルな環境情報を提供する。 さらに、深層学習モデルや、光学センサー(LiDARとカメラ)、レーダー、GPSなどの高度な搭載センサーがなければ、正確な環境認識の進歩は不可能である。 しかし、先進的なセンサーとディープラーニングモデルは、最近発明された攻撃方法の傾向にある。 例えば、LiDARやカメラは光学攻撃によって損なわれ、ディープラーニングモデルは敵の例によって攻撃される。 高度なセンサーやディープラーニングモデルへの攻撃は、環境知覚の精度に大きな影響を与え、自動運転車の安全性と安全性に大きな脅威となる。 本稿では,車載センサの攻撃に対する検出方法と,攻撃されたディープラーニングモデルと自動運転車の運転安全性の関連性について検討する。 被害者センサデータの攻撃による情報歪みは、他の冗長ソースの情報と矛盾するため、攻撃を検出するために冗長データソースを利用することができる。 攻撃された深層学習モデルと運転安全の関係を調べるために

Autonomous driving technology has drawn a lot of attention due to its fast development and extremely high commercial values. The recent technological leap of autonomous driving can be primarily attributed to the progress in the environment perception. Good environment perception provides accurate high-level environment information which is essential for autonomous vehicles to make safe and precise driving decisions and strategies. Moreover, such progress in accurate environment perception would not be possible without deep learning models and advanced onboard sensors, such as optical sensors (LiDARs and cameras), radars, GPS. However, the advanced sensors and deep learning models are prone to recently invented attack methods. For example, LiDARs and cameras can be compromised by optical attacks, and deep learning models can be attacked by adversarial examples. The attacks on advanced sensors and deep learning models can largely impact the accuracy of the environment perception, posing great threats to the safety and security of autonomous vehicles. In this thesis, we study the detection methods against the attacks on onboard sensors and the linkage between attacked deep learning models and driving safety for autonomous vehicles. To detect the attacks, redundant data sources can be exploited, since information distortions caused by attacks in victim sensor data result in inconsistency with the information from other redundant sources. To study the linkage between attacked deep learning models and driving safety...
翻訳日:2022-04-04 11:07:27 公開日:2022-04-01
# 映像表現学習のための制御可能な拡張

Controllable Augmentations for Video Representation Learning ( http://arxiv.org/abs/2203.16632v2 )

ライセンス: Link先を確認
Rui Qian, Weiyao Lin, John See, Dian Li(参考訳) 本稿では,自己教師型ビデオ表現学習に焦点を当てた。 既存のアプローチのほとんどは、異なるクリップをサンプリングすることでポジティブなペアとネガティブなペアを構築するためのコントラスト学習パイプラインに従っている。 しかし、この定式化は静的背景に偏りがあり、グローバルな時間構造を確立するのが困難である。 主な理由は、正のペア、すなわち同じビデオからサンプリングされた異なるクリップは、時間的受容野が限られており、通常同様の背景を共有するが、動きが異なるためである。 そこで本研究では,局所クリップとグローバル動画を共同で活用し,地域レベルの詳細な対応や長期的関係から学ぶための枠組みを提案する。 制御可能な拡張のセットに基づいて,ソフト時空間コントラストによる正確な外観と動きパターンのアライメントを実現する。 提案方式は,相互情報最小化によって低レベルの冗長性近道を避け,一般化を改善できる。 また,ロバストな時間モデリングのためのクリップレベル表現とビデオレベルの表現のギャップを埋めるために,局所的グローバル時間次依存性を導入する。 広範な実験により,我々は,行動認識と映像検索における3つのビデオベンチマークにおいて,より正確な時間的ダイナミクスを捉えたフレームワークが優れていることを実証した。

This paper focuses on self-supervised video representation learning. Most existing approaches follow the contrastive learning pipeline to construct positive and negative pairs by sampling different clips. However, this formulation tends to bias to static background and have difficulty establishing global temporal structures. The major reason is that the positive pairs, i.e., different clips sampled from the same video, have limited temporal receptive field, and usually share similar background but differ in motions. To address these problems, we propose a framework to jointly utilize local clips and global videos to learn from detailed region-level correspondence as well as general long-term temporal relations. Based on a set of controllable augmentations, we achieve accurate appearance and motion pattern alignment through soft spatio-temporal region contrast. Our formulation is able to avoid the low-level redundancy shortcut by mutual information minimization to improve the generalization. We also introduce local-global temporal order dependency to further bridge the gap between clip-level and video-level representations for robust temporal modeling. Extensive experiments demonstrate that our framework is superior on three video benchmarks in action recognition and video retrieval, capturing more accurate temporal dynamics.
翻訳日:2022-04-04 11:07:08 公開日:2022-04-01
# 帯域フィードバックを用いたランダムベクトルの適応推定

Adaptive Estimation of Random Vectors with Bandit Feedback ( http://arxiv.org/abs/2203.16810v2 )

ライセンス: Link先を確認
Dipayan Sen, Prashanth L.A. and Aditya Gopalan(参考訳) 平均二乗誤差(mse)の意味では、各ラウンドのエントリのわずか$m < k$ を観測することによって、未知共分散のガウス的$k$-ベクトルを推定する逐次学習の問題を考える。 これにより、ベクトル全体の推定に最適な部分集合を学ぶことができる。 そこで我々はまず,観測可能な各部分集合に対するMSEの推定値の指数集中値を確立する。 次に、ベストサブセット識別設定において、推定問題をバンディットフィードバックでフレーム化する。 本稿では,適応推定問題に適合する逐次除去アルゴリズムの変種を提案し,このアルゴリズムのサンプル複雑性に基づく上限を導出する。 さらに、この適応的推定バンドイット問題のサンプル複雑性の基本的な限界を理解するために、ミニマックス下限を導出する。

We consider the problem of sequentially learning to estimate, in the mean squared error (MSE) sense, a Gaussian $K$-vector of unknown covariance by observing only $m < K$ of its entries in each round. This reduces to learning an optimal subset for estimating the entire vector. Towards this, we first establish an exponential concentration bound for an estimate of the MSE for each observable subset. We then frame the estimation problem with bandit feedback in the best-subset identification setting. We propose a variant of the successive elimination algorithm to cater to the adaptive estimation problem, and we derive an upper bound on the sample complexity of this algorithm. In addition, to understand the fundamental limit on the sample complexity of this adaptive estimation bandit problem, we derive a minimax lower bound.
翻訳日:2022-04-04 11:06:48 公開日:2022-04-01
# MMER:音声発話における感情認識のためのマルチモーダルマルチタスク学習

MMER: Multimodal Multi-task learning for Emotion Recognition in Spoken Utterances ( http://arxiv.org/abs/2203.16794v2 )

ライセンス: Link先を確認
Harshvardhan Srivastava, Sreyan Ghosh and S. Umesh(参考訳) 感情認識(ER)は、人間の発話を異なる感情カテゴリーに分類することを目的としている。 本稿では,テキストと音響モダリティの早期融合と自己注意に基づくマルチモーダル相互作用をベースとして,ERを個別発話から分離したマルチモーダルマルチタスク学習手法を提案する。 IEMOCAPベンチマーク実験により,提案手法は最先端技術の再実装よりも優れた性能を示し,文学における他の非モーダル・マルチモーダル手法よりも優れた性能を示す。 さらに, 提案手法の有効性を検証し, 高いベースラインとアブレーション研究を行った。 すべてのコードをgithubで公開しています。

Emotion Recognition (ER) aims to classify human utterances into different emotion categories. Based on early-fusion and self-attention-based multimodal interaction between text and acoustic modalities, in this paper, we propose a multimodal multitask learning approach for ER from individual utterances in isolation. Experiments on the IEMOCAP benchmark show that our proposed model performs better than our re-implementation of state-of-the-art and achieves better performance than all other unimodal and multimodal approaches in literature. In addition, strong baselines and ablation studies prove the effectiveness of our proposed approach. We make all our codes publicly available on GitHub.
翻訳日:2022-04-04 11:06:34 公開日:2022-04-01
# 音声強調のためのターゲット特徴の知覚的コントラストストストレッチ

Perceptual Contrast Stretching on Target Feature for Speech Enhancement ( http://arxiv.org/abs/2203.17152v2 )

ライセンス: Link先を確認
Rong Chao, Cheng Yu, Szu-Wei Fu, Xugang Lu, Yu Tsao(参考訳) ベース関数として深層学習(DL)モデルを用いることにより,音声強調(SE)性能は大幅に向上した。 本研究では,知覚コントラストストストストレッチ(PCS)によるSE性能向上手法を提案する。 PCSはクリティカルバンド重要度関数に基づいて導出され、SEモデルのターゲットを変更する。 具体的には、PCSは知覚的重要度に応じてターゲット特徴の契約を延長し、SE性能を向上する。 後処理ベースの実装と比較して、PCSをトレーニングフェーズに組み込むことは、パフォーマンスを保ち、オンライン計算を減らす。 また、PCSと異なるSEモデルアーキテクチャとトレーニング基準を適切に組み合わせることができる点にも注意が必要だ。 一方、PCSはSEモデルのトレーニングの因果関係や収束に影響を与えない。 VoiceBank-DEMANDデータセットによる実験結果から,提案手法は因果(PESQ=3.07)と非因果(PESQ=3.35)のSEタスクにおいて,最先端の性能を実現することができることがわかった。

Speech enhancement (SE) performance has improved considerably since the use of deep learning (DL) models as a base function. In this study, we propose a perceptual contrast stretching (PCS) approach to further improve SE performance. PCS is derived based on the critical band importance function and applied to modify the targets of the SE model. Specifically, PCS stretches the contract of target features according to perceptual importance, thereby improving the overall SE performance. Compared to post-processing based implementations, incorporating PCS into the training phase preserves performance and reduces online computation. It is also worth noting that PCS can be suitably combined with different SE model architectures and training criteria. Meanwhile, PCS does not affect the causality or convergence of the SE model training. Experimental results on the VoiceBank-DEMAND dataset showed that the proposed method can achieve state-of-the-art performance on both causal (PESQ=3.07) and non-causal (PESQ=3.35) SE tasks.
翻訳日:2022-04-04 11:06:24 公開日:2022-04-01