このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220221となっている論文です。

PDF登録状況(公開日: 20220221)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) マルチアクセスエッジコンピューティングにおけるサーバ配置とワークロード割り当てのための強化学習フレームワーク [全文訳有]

Reinforcement Learning Framework for Server Placement and Workload Allocation in Multi-Access Edge Computing ( http://arxiv.org/abs/2203.07998v1 )

ライセンス: CC BY 4.0
Anahita Mazloomi, Hani Sami, Jamal Bentahar, Hadi Otrok, Azzam Mourad(参考訳) クラウドコンピューティングは分散計算能力を提供するための信頼できるソリューションである。 しかし、IoTデバイスが5Gと6Gネットワークで生成する膨大な量のデータに対して、リアルタイムの応答は依然として難しい。 このように、エッジサーバをエンドユーザー近辺に分散して低レイテンシにするマルチアクセスエッジコンピューティング(MEC)は、処理能力の向上に加えて、現代アプリケーションの成功に欠かせない要素になりつつある。 本稿では,MECの主目的であるネットワーク遅延の最小化と,MEC設計を最小限のコストで提供するエッジサーバの数に対処する。 このMEC設計はエッジサーバ配置と基地局割り当てで構成されており、共同組合せ最適化問題(COP)となっている。 近年,強化学習(RL)はCOPに有望な結果を示した。 しかし、状態空間と行動空間が大きい場合、RLを用いた実世界の問題をモデル化するには依然として調査が必要である。 本稿では,この問題を解決するためのマルコフ決定プロセス(MDP)の設計において,状態空間,行動空間,ペナルティ関数の効率的な表現とモデル化を行う新しいRLフレームワークを提案する。

Cloud computing is a reliable solution to provide distributed computation power. However, real-time response is still challenging regarding the enormous amount of data generated by the IoT devices in 5G and 6G networks. Thus, multi-access edge computing (MEC), which consists of distributing the edge servers in the proximity of end-users to have low latency besides the higher processing power, is increasingly becoming a vital factor for the success of modern applications. This paper addresses the problem of minimizing both, the network delay, which is the main objective of MEC, and the number of edge servers to provide a MEC design with minimum cost. This MEC design consists of edge servers placement and base stations allocation, which makes it a joint combinatorial optimization problem (COP). Recently, reinforcement learning (RL) has shown promising results for COPs. However, modeling real-world problems using RL when the state and action spaces are large still needs investigation. We propose a novel RL framework with an efficient representation and modeling of the state space, action space and the penalty function in the design of the underlying Markov Decision Process (MDP) for solving our problem.
翻訳日:2022-03-21 01:02:30 公開日:2022-02-21
# (参考訳) Open-Ended Knowledge Tracing [全文訳有]

Open-Ended Knowledge Tracing ( http://arxiv.org/abs/2203.03716v1 )

ライセンス: CC BY 4.0
Naiming Liu, Zichao Wang, Richard G. Baraniuk, Andrew Lan(参考訳) 知識追跡とは、過去の回答から教育応用における質問まで、各学生の知識構成要素/スキル習得レベルを推定する問題を指す。 知識追跡の方法の1つは、将来の質問に対する各生徒のパフォーマンスを予測する能力である。 しかし、既存の知識追跡手法の鍵となる制限の一つは、学生の質問に対する応答をバイナリ値として扱うことである。 反応の正確性分析/予測はナビゲートが容易であるが、特にオープンエンドの質問では重要な情報を失う。 本稿では,オープンエンドな知識追跡システムにおいて,学生の質問に対するオープンエンドな回答の分析と予測を行う。 まず,オープンエンドな知識追跡のための汎用フレームワークを設計し,コンピュータサイエンス教育分野への応用をプログラミング問題で詳細に述べる。 この領域における一連の評価指標を定義し、実世界の学生コードデータセット上のオープンエンド知識追跡手法の境界をテストするための定量的かつ質的な実験を行う。

Knowledge tracing refers to the problem of estimating each student's knowledge component/skill mastery level from their past responses to questions in educational applications. One direct benefit knowledge tracing methods provide is the ability to predict each student's performance on the future questions. However, one key limitation of most existing knowledge tracing methods is that they treat student responses to questions as binary-valued, i.e., whether the responses are correct or incorrect. Response correctness analysis/prediction is easy to navigate but loses important information, especially for open-ended questions: the exact student responses can potentially provide much more information about their knowledge states than only response correctness. In this paper, we present our first exploration into open-ended knowledge tracing, i.e., the analysis and prediction of students' open-ended responses to questions in the knowledge tracing setup. We first lay out a generic framework for open-ended knowledge tracing before detailing its application to the domain of computer science education with programming questions. We define a series of evaluation metrics in this domain and conduct a series of quantitative and qualitative experiments to test the boundaries of open-ended knowledge tracing methods on a real-world student code dataset.
翻訳日:2022-03-13 16:06:03 公開日:2022-02-21
# (参考訳) ソーシャルメディアにおけるヘイトスピーチ対策:調査 [全文訳有]

Counter Hate Speech in Social Media: A Survey ( http://arxiv.org/abs/2203.03584v1 )

ライセンス: CC0 1.0
Dana Alsagheer, Hadi Mansourifar, Weidong Shi(参考訳) ソーシャルメディアにおける少数民族に対する攻撃的言語の普及に伴い、カウンターヘイトスピーチ(CHS)生成はこの課題に対処する自動的な方法と考えられている。 CHSは、言論の自由の原則を制限することなく、人々を教育し、社会的(赤い線)を大胆に保つための第3の声として現れるはずである。 本稿では,過去・現在における最も重要な研究を,方法論,収集データセット,統計分析などを中心に検討し,chsがソーシャルメディアに与える影響について考察する。 CHS生成は、ソーシャルメディアにおけるヘイトスピーチに介入しようとする試みがこの文脈で肯定的な役割を果たすという楽観的な仮定に基づいている。 さらに、以前の研究はCHSの前後の一連のコメントの調査を無視していた。 しかし、以前の作品で示されているように、ポジティブな影響は保証されていない。 我々の知る限り、CHSがソーシャルメディアに与える影響に関して過去の研究を比較するために、関連する研究を調査する試みは行われていない。 この方向の第一歩は、関連する作業に関する包括的なレビューを提供し、影響、方法論、データソースなど、さまざまな要因に基づいて分類することである。

With the high prevalence of offensive language against minorities in social media, counter-hate speeches (CHS) generation is considered an automatic way of tackling this challenge. The CHS is supposed to appear as a third voice to educate people and keep the social [red lines bold] without limiting the principles of freedom of speech. In this paper, we review the most important research in the past and present with a main focus on methodologies, collected datasets and statistical analysis CHS's impact on social media. The CHS generation is based on the optimistic assumption that any attempt to intervene the hate speech in social media can play a positive role in this context. Beyond that, previous works ignored the investigation of the sequence of comments before and after the CHS. However, the positive impact is not guaranteed, as shown in some previous works. To the best of our knowledge, no attempt has been made to survey the related work to compare the past research in terms of CHS's impact on social media. We take the first step in this direction by providing a comprehensive review on related works and categorizing them based on different factors including impact, methodology, data source, etc.
翻訳日:2022-03-13 15:48:27 公開日:2022-02-21
# (参考訳) rnn-transducersにおける暗黙言語モデルの適応的割引 [全文訳有]

Adaptive Discounting of Implicit Language Models in RNN-Transducers ( http://arxiv.org/abs/2203.02317v1 )

ライセンス: CC BY 4.0
Vinit Unni, Shreya Khare, Ashish Mittal, Preethi Jyothi, Sunita Sarawagi and Samarth Bharadwaj(参考訳) RNN-Transducer(RNN-T )モデルは、ストリーミングエンドツーエンドのASRシステムと同義語となっている。 多くの評価カテゴリで競合するが、レアワードはRNN-Tモデルに深刻な課題をもたらす。 稀な単語の性能低下の主な理由は、RNN-Tの内部の言語モデル(LM)が過度に信頼され、基礎となる音声と音響的に矛盾する幻覚予測につながることである。 この問題に対処するために、外部リソースや追加パラメータを必要とせずに任意のRNN-Tアーキテクチャで使用できる軽量適応LMディスカウント手法AdaptLMDを提案する。 AdaptLMDは2段階のアプローチを採用している。 1) ランダムに予測ネットワーク出力を隠蔽し、RNN-Tが出力に過度に依存しないように促す。 2) 最近予測されたトークンの希薄さとILMと暗黙的音響モデル(IAM)スコアのばらつきに基づき,暗黙的LM(ILM)をいつ割引するかを動的に選択する。 AdaptLMDを競合するRNN-Tベースラインと比較すると,会話型,コード混在型Hindi- English ASRタスクにおいて,WER全体で最大4%,レアワードPERが14%減少する。

RNN-Transducer (RNN-T) models have become synonymous with streaming end-to-end ASR systems. While they perform competitively on a number of evaluation categories, rare words pose a serious challenge to RNN-T models. One main reason for the degradation in performance on rare words is that the language model (LM) internal to RNN-Ts can become overconfident and lead to hallucinated predictions that are acoustically inconsistent with the underlying speech. To address this issue, we propose a lightweight adaptive LM discounting technique AdaptLMD, that can be used with any RNN-T architecture without requiring any external resources or additional parameters. AdaptLMD uses a two-pronged approach: 1) Randomly mask the prediction network output to encourage the RNN-T to not be overly reliant on it's outputs. 2) Dynamically choose when to discount the implicit LM (ILM) based on rarity of recently predicted tokens and divergence between ILM and implicit acoustic model (IAM) scores. Comparing AdaptLMD to a competitive RNN-T baseline, we obtain up to 4% and 14% relative reductions in overall WER and rare word PER, respectively, on a conversational, code-mixed Hindi-English ASR task.
翻訳日:2022-03-13 15:30:43 公開日:2022-02-21
# パーキンソン病の自動検出と感情脳波信号からの感情分析

Automated Parkinson's Disease Detection and Affective Analysis from Emotional EEG Signals ( http://arxiv.org/abs/2202.12936v1 )

ライセンス: Link先を確認
Ravikiran Parameshwara, Soujanya Narayana, Murugappan Murugappan, Ramanathan Subramanian, Ibrahim Radwan, Roland Goecke(参考訳) パーキンソン病(PD)は典型的には運動障害を特徴とするが、PD患者の感情知覚が低下する証拠がある。 本研究は,心電図(eeg)信号がpdと健康管理(hc)の感情的差異を理解し,pdの自動検出に有用であることを示す。 従来の機械学習とディープラーニングの手法を用いて a)次元的・分類的感情認識,及び b)感情脳波信号からのPD vs HC分類 以上の結果から, PD患者は有病率よりも覚醒度をよく理解しており, 感情カテゴリーでは, より正確で, 感情カテゴリーでは textit{fear}, \textit{disgust}, \textit{surprise}, \textit{sadness} がより正確であった。 誤記分析によりpdデータと対価感情の一致が確認された。 情動脳波応答は、ほぼ完全なPD対HC認識を達成する。 累積的に、我々の研究は、 (a) \textit{implicit} 応答のみを調べることで 一 PD患者における有病率関連障害の発見、及び (ii)hcからのpdの分化、及び b) 感情脳波分析は, PD診断, 専門家評価, 安静状態分析のための生態学的, 有効, 脆弱, 持続的ツールである。 }

While Parkinson's disease (PD) is typically characterized by motor disorder, there is evidence of diminished emotion perception in PD patients. This study examines the utility of affective Electroencephalograp hy (EEG) signals to understand emotional differences between PD vs Healthy Controls (HC), and for automated PD detection. Employing traditional machine learning and deep learning methods, we explore (a) dimensional and categorical emotion recognition, and (b) PD vs HC classification from emotional EEG signals. Our results reveal that PD patients comprehend arousal better than valence, and amongst emotion categories, \textit{fear}, \textit{disgust} and \textit{surprise} less accurately, and \textit{sadness} most accurately. Mislabeling analyses confirm confounds among opposite-valence emotions with PD data. Emotional EEG responses also achieve near-perfect PD vs HC recognition. {Cumulatively, our study demonstrates that (a) examining \textit{implicit} responses alone enables (i) discovery of valence-related impairments in PD patients, and (ii) differentiation of PD from HC, and (b) emotional EEG analysis is an ecologically-valid, effective, facile and sustainable tool for PD diagnosis vis-\'a-vis self reports, expert assessments and resting-state analysis.}
翻訳日:2022-03-06 12:31:22 公開日:2022-02-21
# トリガーリコメンデーションにおけるクリックスルーレート予測のための深層関心ハイライトネットワーク

Deep Interest Highlight Network for Click-Through Rate Prediction in Trigger-Induced Recommendation ( http://arxiv.org/abs/2202.08959v2 )

ライセンス: Link先を確認
Qijie Shen, Hong Wen, Wanjie Tao, Jing Zhang, Fuyu Lv, Zulong Chen, Zhao Li(参考訳) 多くの古典的なeコマースプラットフォームでは、パーソナライズドレコメンデーションが大きなビジネス価値を持つことが証明されており、ユーザの満足度を高め、プラットフォームの売上を増やすことができる。 本稿では,トリガ項目でユーザの即時関心を明示的に引き起こし,それに応じてフォローアップ関連対象項目を推薦する新たなレコメンデーション問題であるトリガ誘発レコメンデーション(tir)を提案する。 TIRは、電子商取引プラットフォームで広く普及している。 本稿では,従来のレコメンデーションモデルにおいて,利用者の膨大な履歴行動に基づいて利用者の興味を掘り下げることによって,従来のレコメンデーションシナリオに有効であるが,これらのシナリオの相違により,利用者のTIRシナリオに対する興味の即時発見に苦慮していることが明らかとなった。 この問題に対処するため,TIRシナリオにおけるClick-Through Rate (CTR) 予測のための,Deep Interest Highlight Network (DIHN) という新しいレコメンデーション手法を提案する。 主な構成要素は3つあります 1) ユーザインテントネットワーク(UIN)は,トリガー項目に対するユーザの意図を予測するために,正確な確率スコアを生成する。 2)UINの予測に基づいてトリガ項目とターゲット項目の埋め込みを適応的に融合させるFusion Embedding Module (FEM) と,FEMの結果に基づいてユーザの行動からユーザの興味を効果的に強調するHybrid Interest Extracting Module (HIEM) とを併用する。 実世界のeコマースプラットフォーム上での大規模なオフラインおよびオンライン評価は、最先端の手法よりもDIHNの方が優れていることを示している。

In many classical e-commerce platforms, personalized recommendation has been proven to be of great business value, which can improve user satisfaction and increase the revenue of platforms. In this paper, we present a new recommendation problem, Trigger-Induced Recommendation (TIR), where users' instant interest can be explicitly induced with a trigger item and follow-up related target items are recommended accordingly. TIR has become ubiquitous and popular in e-commerce platforms. In this paper, we figure out that although existing recommendation models are effective in traditional recommendation scenarios by mining users' interests based on their massive historical behaviors, they are struggling in discovering users' instant interests in the TIR scenario due to the discrepancy between these scenarios, resulting in inferior performance. To tackle the problem, we propose a novel recommendation method named Deep Interest Highlight Network (DIHN) for Click-Through Rate (CTR) prediction in TIR scenarios. It has three main components including 1) User Intent Network (UIN), which responds to generate a precise probability score to predict user's intent on the trigger item; 2) Fusion Embedding Module (FEM), which adaptively fuses trigger item and target item embeddings based on the prediction from UIN; and (3) Hybrid Interest Extracting Module (HIEM), which can effectively highlight users' instant interest from their behaviors based on the result of FEM. Extensive offline and online evaluations on a real-world e-commerce platform demonstrate the superiority of DIHN over state-of-the-art methods.
翻訳日:2022-02-27 17:36:23 公開日:2022-02-21
# (参考訳) 深層学習によるOCT画像の分類におけるデータ漏洩による検査精度のインフレーション [全文訳有]

Inflation of test accuracy due to data leakage in deep learning-based classification of OCT images ( http://arxiv.org/abs/2202.12267v1 )

ライセンス: CC BY 4.0
Iulian Emil Tampu, Anders Eklund and Neda Haj-Hosseini(参考訳) 光コヒーレンストモグラフィー(OCT)データへの深層学習の適用においては,体積データに基づく2次元画像を用いた分類ネットワークの訓練が一般的である。 OCTシステムのマイクロメートル分解能を考えると、連続した画像はしばしば可視構造とノイズの両方において非常によく似ている。 したがって、不適切なデータ分割は、トレーニングとテストセットの間に重複する可能性がある。 本研究では,文献で広く用いられている2つのoctオープンアクセスデータセット,kermany's ophthalmology datasetとaiims breast tissue datasetを用いて,不適切なデータセット分割がモデル評価に及ぼす影響を実証した。 その結果,不適切に分割されたデータセット上でテストされたモデルの分類精度は3.9~26パーセンテージ向上し,データハンドリングがモデル評価に与える影響を浮き彫りにした。 本研究は,OCTデータとボリュームデータを用いたディープラーニング研究において,データセット分割の重要性に対する意識を高めることを目的とする。

In the application of deep learning on optical coherence tomography (OCT) data, it is common to train classification networks using 2D images originating from volumetric data. Given the micrometer resolution of OCT systems, consecutive images are often very similar in both visible structures and noise. Thus, an inappropriate data split can result in overlap between the training and testing sets, with a large portion of the literature overlooking this aspect. In this study, the effect of improper dataset splitting on model evaluation is demonstrated for two classification tasks using two OCT open-access datasets extensively used in the literature, Kermany's ophthalmology dataset and AIIMS breast tissue dataset. Our results show that the classification accuracy is inflated by 3.9 to 26 percentage units for models tested on a dataset with improper splitting, highlighting the considerable effect of dataset handling on model evaluation. This study intends to raise awareness on the importance of dataset splitting for research on deep learning using OCT data and volumetric data in general.
翻訳日:2022-02-26 10:39:22 公開日:2022-02-21
# (参考訳) 雇用における人間-AIチームワークのパフォーマンスとバイアスに関する研究 [全文訳有]

Investigations of Performance and Bias in Human-AI Teamwork in Hiring ( http://arxiv.org/abs/2202.11812v1 )

ライセンス: CC BY 4.0
Andi Peng, Besmira Nushi, Emre Kiciman, Kori Inkpen, Ece Kamar(参考訳) AIによる意思決定では、効果的なハイブリッド(ヒューマンAI)チームワークは、AIのパフォーマンスだけでなく、人間の意思決定への影響にも依存する。 先行研究は,モデル精度が人間に与える影響を考察する一方で,モデルの予測性能とバイアスが,レコメンデーション支援決定タスクにおいてどのように人間に伝達されるかという複雑なダイナミクスを検討する。 制約のある選択設定で動作している人間が、訓練されたモデルの推論を使用して、書かれたバイオグラフィーから候補者を選択するのに役立つかどうかを選択できるML支援採用の分野を考える。 我々は,3つの異なるNLP分類器(ランダム,バッグ・オブ・ワード,ディープ・ニューラル・ネットワーク)の助けなしに,人間が与えられた候補者の接地真実の占有を予測できる,先行作業から生成された実バイオのデータセットを活用する大規模ユーザスタディを実施。 以上の結果から,ハイパフォーマンスモデルはハイブリッド環境での人的パフォーマンスを著しく向上するが,ハイブリッドバイアスを緩和するモデルもある一方で,アクセントを緩和するモデルもある。 決定適合性のレンズを通してこれらの知見を検証し、我々のモデルアーキテクチャ選択が人間-AI適合性とバイアスに与える影響を観察し、これらの複雑なダイナミクスを展開前に明確に評価する必要性を動機付けている。

In AI-assisted decision-making, effective hybrid (human-AI) teamwork is not solely dependent on AI performance alone, but also on its impact on human decision-making. While prior work studies the effects of model accuracy on humans, we endeavour here to investigate the complex dynamics of how both a model's predictive performance and bias may transfer to humans in a recommendation-aided decision task. We consider the domain of ML-assisted hiring, where humans -- operating in a constrained selection setting -- can choose whether they wish to utilize a trained model's inferences to help select candidates from written biographies. We conduct a large-scale user study leveraging a re-created dataset of real bios from prior work, where humans predict the ground truth occupation of given candidates with and without the help of three different NLP classifiers (random, bag-of-words, and deep neural network). Our results demonstrate that while high-performance models significantly improve human performance in a hybrid setting, some models mitigate hybrid bias while others accentuate it. We examine these findings through the lens of decision conformity and observe that our model architecture choices have an impact on human-AI conformity and bias, motivating the explicit need to assess these complex dynamics prior to deployment.
翻訳日:2022-02-26 10:27:57 公開日:2022-02-21
# (参考訳) Adaptive Siamese Trackingのためのジェネレーティブターゲット更新 [全文訳有]

Generative Target Update for Adaptive Siamese Tracking ( http://arxiv.org/abs/2202.09938v1 )

ライセンス: CC BY 4.0
Madhu Kiran, Le Thanh Nguyen-Meidine, Rajat Sahay, Rafael Menelau Oliveira E Cruz, Louis-Antoine Blais-Morin and Eric Granger(参考訳) シームズトラッカーはテンプレート(ターゲットモデル)と類似性マッチングを行い、検索領域内のオブジェクトを再帰的にローカライズする。 トラッカ出力に基づいてテンプレートを更新するためのいくつかの戦略が文献で提案されており、通常は現在のフレームのターゲット検索領域から抽出され、ターゲットドリフトの効果を緩和する。 しかし、テンプレート更新戦略の潜在的なメリットを制限し、テンプレートの破損につながる可能性がある。 本稿では, 生成モデルを用いて, トラッカ出力を直接使用するのではなく, 複数フレームの対象探索領域から合成テンプレートを生成する, シャム系トラッカのモデル適応法を提案する。 探索領域は対象を包含するので、探索領域からの注意が堅牢なモデル適応に使用される。 特に,対象オブジェクトの外観変化を検知し,過去のフレームのトラッカ出力からローカライズしたターゲットテンプレートセットを使用して,将来のターゲットテンプレートを予測するために,敵学習を通じてトレーニングされた自動エンコーダを用いる。 更新中のテンプレートの破損を防止するため、提案トラッカーは生成モデルを用いて変更検出を行い、トラッカーが安定するまで更新を停止し、ロバストマッチングは動的テンプレート融合によって再開できる。 VOT-16, VOT-17, OTB-50, OTB-100データセットで行った大規模な実験は,その重要成分の影響とともに,本手法の有効性を強調した。 その結果,提案手法は最先端のトラッカよりも優れており,その全体的なロバスト性は障害発生前に長時間追跡できることがわかった。

Siamese trackers perform similarity matching with templates (i.e., target models) to recursively localize objects within a search region. Several strategies have been proposed in the literature to update a template based on the tracker output, typically extracted from the target search region in the current frame, and thereby mitigate the effects of target drift. However, this may lead to corrupted templates, limiting the potential benefits of a template update strategy. This paper proposes a model adaptation method for Siamese trackers that uses a generative model to produce a synthetic template from the object search regions of several previous frames, rather than directly using the tracker output. Since the search region encompasses the target, attention from the search region is used for robust model adaptation. In particular, our approach relies on an auto-encoder trained through adversarial learning to detect changes in a target object's appearance and predict a future target template, using a set of target templates localized from tracker outputs at previous frames. To prevent template corruption during the update, the proposed tracker also performs change detection using the generative model to suspend updates until the tracker stabilizes, and robust matching can resume through dynamic template fusion. Extensive experiments conducted on VOT-16, VOT-17, OTB-50, and OTB-100 datasets highlight the effectiveness of our method, along with the impact of its key components. Results indicate that our proposed approach can outperform state-of-art trackers, and its overall robustness allows tracking for a longer time before failure.
翻訳日:2022-02-25 09:18:37 公開日:2022-02-21
# (参考訳) 空間的制約を考慮したLiDAR誘導ステレオマッチング

LiDAR-guided Stereo Matching with a Spatial Consistency Constraint ( http://arxiv.org/abs/2202.09953v1 )

ライセンス: CC BY 4.0
Yongjun Zhang, Siyuan Zou, Xinyi Liu, Xu Huang, Yi Wan, and Yongxiang Yao(参考訳) 光検出と測位(lidar)データと画像データの相補的な融合は、高精度かつ高密度な点雲を生成するための有望だが挑戦的なタスクである。 本研究では,画像の同種領域における連続的な不均一性や深さ変化に代表される空間的一貫性を考慮し,LiDAR誘導ステレオマッチング(LGSM)と呼ばれる革新的なLiDAR誘導ステレオマッチング手法を提案する。 LGSMはまず、その色や強度の類似性に基づいて、各LiDAR投影点の均一画素を検出する。 次に,LiDARプロジェクションポイントとその均一画素のコスト容積を最適化し,整合性を向上させるための河床拡張関数を提案する。 提案方式では,画像情報の誘導により,スパースライダー投影点の制約範囲を拡大し,画素のコスト体積を可能な限り最適化する。 シミュレーションデータと実データの両方に対して,lgsmをセミグローバルマッチングとアドコンサスに適用した。 シミュレーションデータセット中のLiDAR点の割合が0.16%であった場合,本手法のマッチング精度はサブピクセルレベルに達し,元のステレオマッチングアルゴリズムは3.4ピクセルであった。 実験の結果,LGSMは屋内,街路,航空,衛星画像のデータセットに適しており,半球体マッチングとAD-Census間での転送性が良好であることがわかった。 さらに, 定性的・定量的評価により, LGSMは2つの最先端最適化コストボリューム法よりも優れており, 特に難解なマッチング領域におけるミスマッチの低減とオブジェクトの境界の精細化に有効であることが示された。

The complementary fusion of light detection and ranging (LiDAR) data and image data is a promising but challenging task for generating high-precision and high-density point clouds. This study proposes an innovative LiDAR-guided stereo matching approach called LiDAR-guided stereo matching (LGSM), which considers the spatial consistency represented by continuous disparity or depth changes in the homogeneous region of an image. The LGSM first detects the homogeneous pixels of each LiDAR projection point based on their color or intensity similarity. Next, we propose a riverbed enhancement function to optimize the cost volume of the LiDAR projection points and their homogeneous pixels to improve the matching robustness. Our formulation expands the constraint scopes of sparse LiDAR projection points with the guidance of image information to optimize the cost volume of pixels as much as possible. We applied LGSM to semi-global matching and AD-Census on both simulated and real datasets. When the percentage of LiDAR points in the simulated datasets was 0.16%, the matching accuracy of our method achieved a subpixel level, while that of the original stereo matching algorithm was 3.4 pixels. The experimental results show that LGSM is suitable for indoor, street, aerial, and satellite image datasets and provides good transferability across semi-global matching and AD-Census. Furthermore, the qualitative and quantitative evaluations demonstrate that LGSM is superior to two state-of-the-art optimizing cost volume methods, especially in reducing mismatches in difficult matching areas and refining the boundaries of objects.
翻訳日:2022-02-25 09:05:52 公開日:2022-02-21
# (参考訳) StyleBERT:フォント情報による中国語事前学習 [全文訳有]

StyleBERT: Chinese pretraining by font style information ( http://arxiv.org/abs/2202.09955v1 )

ライセンス: CC BY 4.0
Chao Lv, Han Zhang, XinKai Du, Yunhao Zhang, Ying Huang, Wenhao Li, Jia Han, Shanshan Gu(参考訳) 英語事前学習ランゲージモデルを用いたダウンストリーミングタスクの成功により、中国語NLPタスクのより良いパフォーマンスを得るためには、事前学習中国語モデルも必要となる。 英語とは異なり、中国語にはグリフ情報などの特殊文字がある。 そこで本稿では,単語,ピニン,5ストローク,chaiziといった言語モデルの精通度を高めるために,以下の埋め込み情報を組み込んだ中国語事前学習言語モデルスタイルバートを提案する。 実験により,中国における幅広いNLPタスクにおいて,モデルが良好な性能を発揮することが示された。

With the success of down streaming task using English pre-trained langueage model, the pre-trained Chinese language model is also necessary to get a better performance of Chinese NLP task. Unlike the English language, Chinese has its special characters such as glyph information. So in this article, we propose the Chinese pre-trained language model StyleBERT which incorporate the following embedding information to enhance the savvy of language model, such as word, pinyin, five stroke and chaizi. The experiments show that the model achieves well performances on a wide range of Chinese NLP tasks.
翻訳日:2022-02-25 08:52:45 公開日:2022-02-21
# (参考訳) ギフト:コールドスタートビデオクリックスルー率予測のためのグラフ誘導機能転送 [全文訳有]

GIFT: Graph-guIded Feature Transfer for Cold-Start Video Click-Through Rate Prediction ( http://arxiv.org/abs/2202.11525v1 )

ライセンス: CC BY 4.0
Sihao Hu, Yi Cao, Yu Gong, Zhao Li, Yazheng Yang, Qingwen Liu, Wengwu Ou, Shouling Ji(参考訳) ショートビデオは中国で急速に成長し、taobaoのようなeコマースプラットフォームで製品の販売を促進する有望な市場を示している。 コンテンツの鮮度を確保するために、プラットフォームは毎日大量の新しいビデオをリリースする必要があるため、従来のクリックスルー率(ctr)予測モデルは、厳しいアイテムコールドスタート問題に苦しむことになる。 本稿では,コールドスタートビデオに関連するウォームアップビデオの豊富な情報を活用するために,効率的なグラフガイド機能転送システムであるGIFTを提案する。 具体的には、物理的および意味的なリンクを異種グラフに含めることで、ウォームアップビデオからコールドスタートビデオへの特徴伝達を行う。 前者のリンクは、これらの明示的な関係(例えば、同一のカテゴリを共有する、同一の著者名等)から成り、後者は2つのビデオのマルチモーダル表現の近接を測定する。 実際には、スタイル、コンテンツ、そしてレコメンデーションパターンも、物理的またはセマンティックな関連のあるビデオとかなりよく似ている。 さらに, コールドスタートビデオが特に注目する温かい隣人から得られる頑健なID表現と履歴統計を提供するため, グラフ上のメタパスに沿って, 異なるタイプのノードやエッジから異なる転送特徴を認識できるように, 転送関数を精巧に設計する。 大規模な実世界のデータセットに対する大規模な実験は、私たちのGIFTシステムがSOTAメソッドを著しく上回り、Taobao Appのホームページでクリックスルーレート(CTR)が6.82%上昇することを示している。

Short video has witnessed rapid growth in China and shows a promising market for promoting the sales of products in e-commerce platforms like Taobao. To ensure the freshness of the content, the platform needs to release a large number of new videos every day, which makes the conventional click-through rate (CTR) prediction model suffer from the severe item cold-start problem. In this paper, we propose GIFT, an efficient Graph-guIded Feature Transfer system, to fully take advantages of the rich information of warmed-up videos that related to the cold-start video. More specifically, we conduct feature transfer from warmed-up videos to those cold-start ones by involving the physical and semantic linkages into a heterogeneous graph. The former linkages consist of those explicit relationships (e.g., sharing the same category, under the same authorship etc.), while the latter measure the proximity of multimodal representations of two videos. In practice, the style, content, and even the recommendation pattern are pretty similar among those physically or semantically related videos. Besides, in order to provide the robust id representations and historical statistics obtained from warmed-up neighbors that cold-start videos covet most, we elaborately design the transfer function to make aware of different transferred features from different types of nodes and edges along the metapath on the graph. Extensive experiments on a large real-world dataset show that our GIFT system outperforms SOTA methods significantly and brings a 6.82% lift on click-through rate (CTR) in the homepage of Taobao App.
翻訳日:2022-02-25 08:26:03 公開日:2022-02-21
# (参考訳) r-g2p:制御雑音導入と文脈情報の導入による音素変換に対するグラフムのロバスト性の評価と向上 [全文訳有]

r-G2P: Evaluating and Enhancing Robustness of Grapheme to Phoneme Conversion by Controlled noise introducing and Contextual information incorporation ( http://arxiv.org/abs/2202.11194v1 )

ライセンス: CC BY 4.0
Chendong Zhao, Jianzong Wang, Xiaoyang Qu, Haoqian Wang, Jing Xiao(参考訳) Grapheme-to-phoneme (G2P)変換は、単語の書式を発音に変換する過程である。 テキスト音声合成(TTS)と自動音声認識(ASR)システムにおいて重要な役割を持つ。 本稿では,G2Pモデルのロバスト性を評価することを目的とする。 ニューラルg2pモデルは綴りミスのようなグラフの正書法的変化に非常に敏感である。 そこで本研究では,騒音学習データを合成する3つの制御雑音導入手法を提案する。 さらに,文脈情報をベースラインに組み込んで,トレーニングプロセスを安定化するための堅牢なトレーニング戦略を提案する。 実験の結果,提案したロバストなG2Pモデル(r-G2P)は,Dctベースのベンチマークでは-2.73 % WER,Real-worldソースでは-9.09 % WER)よりも有意に優れていた。

Grapheme-to-phoneme (G2P) conversion is the process of converting the written form of words to their pronunciations. It has an important role for text-to-speech (TTS) synthesis and automatic speech recognition (ASR) systems. In this paper, we aim to evaluate and enhance the robustness of G2P models. We show that neural G2P models are extremely sensitive to orthographical variations in graphemes like spelling mistakes. To solve this problem, we propose three controlled noise introducing methods to synthesize noisy training data. Moreover, we incorporate the contextual information with the baseline and propose a robust training strategy to stabilize the training process. The experimental results demonstrate that our proposed robust G2P model (r-G2P) outperforms the baseline significantly (-2.73\% WER on Dict-based benchmarks and -9.09\% WER on Real-world sources).
翻訳日:2022-02-25 08:06:10 公開日:2022-02-21
# (参考訳) 非揮発性メモリ加速幾何多スケール分解能解析 [全文訳有]

Non-Volatile Memory Accelerated Geometric Multi-Scale Resolution Analysis ( http://arxiv.org/abs/2202.11518v1 )

ライセンス: CC BY 4.0
Andrew Wood, Moshik Hershcovitch, Daniel Waddington, Sarel Cohen, Meredith Wolf, Hongjun Suh, Weiyu Zong, Peter Chin(参考訳) 次元削減アルゴリズムは研究者のツールボックスの標準ツールである。 次元還元アルゴリズムは、機械学習やデータサイエンスなどの下流タスクの強化や、複雑な現象を理解する探索的手法としてよく用いられる。 例えば、次元の縮小は生物学や神経科学で一般的に使われ、生物学的な対象から収集されたデータを理解する。 しかしながら、次元還元技術は、それらが実行するフォン・ノイマンのアーキテクチャによって制限される。 具体的には、次元削減技術のようなデータ集約アルゴリズムは、歴史的ハードウェアが同時に提供できない高速で高容量で永続的なメモリを必要とすることが多い。 本稿では,新しいメモリ技術である Memory Centric Active Storage (MCAS) によって高速化されたGeometric Multi-Scale Resolution Analysis (GMRA) という,既存の次元削減手法を再実装する。 我々の実装では、NumPy配列やPyTorchテンソルを含むPythonデータ型をネイティブにサポートするPyMMと呼ばれるMCASの特殊なバージョンを使用しています。 我々は、PyMMの実装をDRAMの実装と比較し、データがDRAMに適合すると、PyMMは競合するランタイムを提供することを示す。 データがDRAMに適合しない場合、PyMMの実装は依然としてデータを処理できます。

Dimensionality reduction algorithms are standard tools in a researcher's toolbox. Dimensionality reduction algorithms are frequently used to augment downstream tasks such as machine learning, data science, and also are exploratory methods for understanding complex phenomena. For instance, dimensionality reduction is commonly used in Biology as well as Neuroscience to understand data collected from biological subjects. However, dimensionality reduction techniques are limited by the von-Neumann architectures that they execute on. Specifically, data intensive algorithms such as dimensionality reduction techniques often require fast, high capacity, persistent memory which historically hardware has been unable to provide at the same time. In this paper, we present a re-implementation of an existing dimensionality reduction technique called Geometric Multi-Scale Resolution Analysis (GMRA) which has been accelerated via novel persistent memory technology called Memory Centric Active Storage (MCAS). Our implementation uses a specialized version of MCAS called PyMM that provides native support for Python datatypes including NumPy arrays and PyTorch tensors. We compare our PyMM implementation against a DRAM implementation, and show that when data fits in DRAM, PyMM offers competitive runtimes. When data does not fit in DRAM, our PyMM implementation is still able to process the data.
翻訳日:2022-02-25 07:48:48 公開日:2022-02-21
# 差分試験と外乱検出を用いたフェデレーション学習におけるバックドアディフェンス

Backdoor Defense in Federated Learning Using Differential Testing and Outlier Detection ( http://arxiv.org/abs/2202.11196v1 )

ライセンス: Link先を確認
Yein Kim, Huili Chen, Farinaz Koushanfar(参考訳) フェデレーション学習(fl)の目標は、ユーザのプライベートデータにアクセスせずに、エッジデバイス上で独立に更新されたモデルパラメータを集約することで、ひとつのグローバルモデルをトレーニングすることだ。 しかし、FLは、少数の悪意のあるエージェントが、汚染されたモデル更新をサーバにアップロードすることで、グローバルモデルにターゲットの誤分類動作を注入するバックドア攻撃の影響を受けやすい。 本研究では,従来の攻撃シナリオの知識やローカルモデルパラメータへの直接アクセスを必要とせず,差分テストと2段階のMAD出力検出を活用することで,FLシステムをバックドア攻撃から保護するための自動防御フレームワークであるDifFenseを提案する。 フェデレーション平均化法(federated averaging, fedavg)で訓練されたモデルに匹敵するグローバルモデルの収束を一貫して達成しつつ,この検出手法が様々な攻撃者を防いでいることを実証的に示す。 さらに,本手法の有効性と一般化性について,マルチクルムや座標偏心アグリゲーションなどの先行防衛技術と比較した。 提案手法は,グローバルモデルの平均バックドア精度を4%以下に低減し,偽陰性率ゼロを達成する。

The goal of federated learning (FL) is to train one global model by aggregating model parameters updated independently on edge devices without accessing users' private data. However, FL is susceptible to backdoor attacks where a small fraction of malicious agents inject a targeted misclassification behavior in the global model by uploading polluted model updates to the server. In this work, we propose DifFense, an automated defense framework to protect an FL system from backdoor attacks by leveraging differential testing and two-step MAD outlier detection, without requiring any previous knowledge of attack scenarios or direct access to local model parameters. We empirically show that our detection method prevents a various number of potential attackers while consistently achieving the convergence of the global model comparable to that trained under federated averaging (FedAvg). We further corroborate the effectiveness and generalizability of our method against prior defense techniques, such as Multi-Krum and coordinate-wise median aggregation. Our detection method reduces the average backdoor accuracy of the global model to below 4% and achieves a false negative rate of zero.
翻訳日:2022-02-24 16:32:18 公開日:2022-02-21
# ハイブリッド学習によるマルチユーザエッジクラウドネットワークにおけるディープラーニング推論のオーケストレーション

Hybrid Learning for Orchestrating Deep Learning Inference in Multi-user Edge-cloud Networks ( http://arxiv.org/abs/2202.11098v1 )

ライセンス: Link先を確認
Sina Shahhosseini, Tianyi Hu, Dongjoo Seo, Anil Kanduri, Bryan Donyanavard, Amir M.Rahmani, Nikil Dutt(参考訳) ディープラーニングベースのインテリジェントサービスは、スマートシティやヘルスケアなど、サイバー物理アプリケーションで普及している。 ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、計算のオフロードを通じてアプリケーション要求に対処できる、さまざまなパフォーマンスと効率を提供する。 オフロード計算の決定は、システムパラメータ(ネットワーク条件など)とワークロード特性(入力など)の両方によって異なる、通信計算の共最適化問題である。 様々なシステムダイナミクスに直面した層間機会と要件を考慮した最適オーケストレーションの同定は、困難な多次元問題である。 強化学習(RL)アプローチは以前から提案されていたが,学習プロセス中に大量の試行錯誤が発生し,時間と資源消費が過剰になる。 本稿では,モデルベースとモデルフリー強化学習を組み合わせることで,システム環境とのインタラクション数を削減できるハイブリッド学習オーケストレーションフレームワークを提案する。 当社のディープラーニング推論オーケストレーション戦略では、強化学習を使用して、最適なオーケストレーションポリシを見つけます。 さらに,rl学習プロセスを高速化し,直接サンプリング回数を削減するために,ハイブリッド学習(hl)を展開する。 我々は、最先端のRLベースの推論オーケストレーションを実験的に比較し、HL戦略が学習プロセスを最大166.6倍加速することを示す。

Deep-learning-based intelligent services have become prevalent in cyber-physical applications including smart cities and health-care. Collaborative end-edge-cloud computing for deep learning provides a range of performance and efficiency that can address application requirements through computation offloading. The decision to offload computation is a communication-comput ation co-optimization problem that varies with both system parameters (e.g., network condition) and workload characteristics (e.g., inputs). Identifying optimal orchestration considering the cross-layer opportunities and requirements in the face of varying system dynamics is a challenging multi-dimensional problem. While Reinforcement Learning (RL) approaches have been proposed earlier, they suffer from a large number of trial-and-errors during the learning process resulting in excessive time and resource consumption. We present a Hybrid Learning orchestration framework that reduces the number of interactions with the system environment by combining model-based and model-free reinforcement learning. Our Deep Learning inference orchestration strategy employs reinforcement learning to find the optimal orchestration policy. Furthermore, we deploy Hybrid Learning (HL) to accelerate the RL learning process and reduce the number of direct samplings. We demonstrate efficacy of our HL strategy through experimental comparison with state-of-the-art RL-based inference orchestration, demonstrating that our HL strategy accelerates the learning process by up to 166.6x.
翻訳日:2022-02-24 14:28:30 公開日:2022-02-21
# (参考訳) 畳み込みニューラルネットワークと銀河画像を用いた光赤方偏移推定:データ駆動手法における解離バイアスのケーススタディ [全文訳有]

Photometric Redshift Estimation with Convolutional Neural Networks and Galaxy Images: A Case Study of Resolving Biases in Data-Driven Methods ( http://arxiv.org/abs/2202.09964v1 )

ライセンス: CC BY 4.0
Q. Lin, D. Fouchez, J. Pasquet, M. Treyer, R. Ait Ouahmed, S. Arnouts, and O. Ilbert(参考訳) 深層学習モデルは、天体物理学の研究でますます利用されてきたが、そのようなデータ駆動アルゴリズムは、その後の分析に有害なバイアス付き出力を生成する傾向にある。 本研究では,畳み込みニューラルネットワーク(cnns)と銀河画像を用いた分類問題としての光メトリック赤方偏移を推定するケーススタディにおいて,クラス依存残差とモード崩壊の2つの主要なバイアスについて検討した。 本研究では,多チャンネル出力を用いた表現学習,トレーニングデータのバランス,ソフトラベルの活用など,cnnモデルに基づく2つのバイアスを解決するための一連のステップを提案する。 残差は分光赤方偏移や測光赤方偏移の関数と見なすことができ、これら2つの定義に関するバイアスは相容れないものであり、分割して扱うべきである。 分光空間におけるバイアスの解消は、測光空間におけるバイアスの解消の前提条件であることが示唆される。 実験の結果,提案手法はベンチマーク法よりもバイアス制御能力が優れており,高品質なデータを備えた各種実装および訓練条件下での堅牢性を示すことがわかった。 我々の手法は、バイアスの適切な制約を必要とする将来の宇宙論的調査を約束しており、回帰問題や他のデータ駆動モデルを利用した研究に応用できるかもしれない。 それでもバイアス分散のトレードオフと十分な統計量の要求は、より良い方法論を開発し、データ使用戦略を最適化する必要性を示唆している。

Deep Learning models have been increasingly exploited in astrophysical studies, yet such data-driven algorithms are prone to producing biased outputs detrimental for subsequent analyses. In this work, we investigate two major forms of biases, i.e., class-dependent residuals and mode collapse, in a case study of estimating photometric redshifts as a classification problem using Convolutional Neural Networks (CNNs) and galaxy images with spectroscopic redshifts. We focus on point estimates and propose a set of consecutive steps for resolving the two biases based on CNN models, involving representation learning with multi-channel outputs, balancing the training data and leveraging soft labels. The residuals can be viewed as a function of spectroscopic redshifts or photometric redshifts, and the biases with respect to these two definitions are incompatible and should be treated in a split way. We suggest that resolving biases in the spectroscopic space is a prerequisite for resolving biases in the photometric space. Experiments show that our methods possess a better capability in controlling biases compared to benchmark methods, and exhibit robustness under varying implementing and training conditions provided with high-quality data. Our methods have promises for future cosmological surveys that require a good constraint of biases, and may be applied to regression problems and other studies that make use of data-driven models. Nonetheless, the bias-variance trade-off and the demand on sufficient statistics suggest the need for developing better methodologies and optimizing data usage strategies.
翻訳日:2022-02-24 14:23:07 公開日:2022-02-21
# (参考訳) 深い特徴に基づくクロススライダー登録 [全文訳有]

Deep Feature based Cross-slide Registration ( http://arxiv.org/abs/2202.09971v1 )

ライセンス: CC BY 4.0
Ruqayya Awan, Shan E Ahmed Raza, Johannes Lotz and Nasir M. Rajpoot(参考訳) クロススライダー画像解析は、単一スライド解析と比較して異なるバイオマーカーの発現を分析することで追加情報を提供する。 異なるバイオマーカーで染色されたスライドを並べて分析し、異なるバイオマーカー間の未知の関係を明らかにする。 スライド調製時には、同じ組織ブロックの他の部分と比較して、組織部を任意の方向に配置することができる。 この問題は、組織の内容があるセクションから次のセクションへと変化する可能性があり、いくつかのスライドにユニークなアーティファクトが存在するという事実によって複雑化されている。 これにより、クロススライド分析の前に、同じ組織の参照部への各セクションの登録が重要な前提条件タスクとなる。 本稿では,データ駆動型特徴量を利用して剛性変換を推定するDFBR法を提案する。 我々は登録の質を向上させるための多段階戦略を採用した。 また,異なる倍率で登録されたwsisペアを見るための可視化ツールを開発した。 このツールの助けを借りて、ピラミッド形式で変換されたソースwsiを生成する必要なしに、オンザフライで変換を適用できる。 COMETデータセットにおける手作り機能とデータ駆動機能の性能を比較した。 当社のアプローチでは,画像の登録エラーを低減できる。 一般に、非厳密登録の成功は厳密登録の品質に依存する。 DFBR法の有効性を評価するため,ANHIR勝者のフレームワークの最初の2ステップをDFBRに置き換えて,提案した画像ペアを登録する。 修正されたフレームワークは、チャレンジ優勝チームと同等の結果を生み出します。

Cross-slide image analysis provides additional information by analysing the expression of different biomarkers as compared to a single slide analysis. Slides stained with different biomarkers are analysed side by side which may reveal unknown relations between the different biomarkers. During the slide preparation, a tissue section may be placed at an arbitrary orientation as compared to other sections of the same tissue block. The problem is compounded by the fact that tissue contents are likely to change from one section to the next and there may be unique artefacts on some of the slides. This makes registration of each section to a reference section of the same tissue block an important pre-requisite task before any cross-slide analysis. We propose a deep feature based registration (DFBR) method which utilises data-driven features to estimate the rigid transformation. We adopted a multi-stage strategy for improving the quality of registration. We also developed a visualisation tool to view registered pairs of WSIs at different magnifications. With the help of this tool, one can apply a transformation on the fly without the need to generate transformed source WSI in a pyramidal form. We compared the performance of data-driven features with that of hand-crafted features on the COMET dataset. Our approach can align the images with low registration errors. Generally, the success of non-rigid registration is dependent on the quality of rigid registration. To evaluate the efficacy of the DFBR method, the first two steps of the ANHIR winner's framework are replaced with our DFBR to register challenge provided image pairs. The modified framework produce comparable results to that of challenge winning team.
翻訳日:2022-02-24 13:30:53 公開日:2022-02-21
# (参考訳) 能動推論によるゴール指向計画とゴール理解:シミュレーション・物理ロボット実験による評価 [全文訳有]

Goal-directed Planning and Goal Understanding by Active Inference: Evaluation Through Simulated and Physical Robot Experiments ( http://arxiv.org/abs/2202.09976v1 )

ライセンス: CC BY 4.0
Takazumi Matsumoto, Wataru Ohata, Fabien C. Y. Benureau and Jun Tani(参考訳) 自由エネルギー原理を用いてテレロジカルな枠組みにおける目標指向の行動計画と生成を定式化できることを示す。 提案モデルは変動リカレントニューラルネットワークモデルに基づいて構築され,3つの本質的特徴を特徴とする。 これらの結果は,(1)目標画像が到達する静的感覚状態,(2)対象を移動させる動的プロセス,(2)モデルが目標指向の行動計画を生成するだけでなく,感覚観察によって目標を理解すること,(3)過去の感覚観測から推定した現在の状態の最良の推定に基づいて,与えられた目標に対する将来の行動計画を生成すること,の2つである。 シミュレーションされた移動体エージェントと実際のヒューマノイドロボットで物体操作を行う実験により,提案モデルの評価を行った。

We show that goal-directed action planning and generation in a teleological framework can be formulated using the free energy principle. The proposed model, which is built on a variational recurrent neural network model, is characterized by three essential features. These are that (1) goals can be specified for both static sensory states, e.g., for goal images to be reached and dynamic processes, e.g., for moving around an object, (2) the model can not only generate goal-directed action plans, but can also understand goals by sensory observation, and (3) the model generates future action plans for given goals based on the best estimate of the current state, inferred using past sensory observations. The proposed model is evaluated by conducting experiments on a simulated mobile agent as well as on a real humanoid robot performing object manipulation.
翻訳日:2022-02-24 13:16:12 公開日:2022-02-21
# (参考訳) rtgnn:確率的交通力学モデルへの新しいアプローチ [全文訳有]

RTGNN: A Novel Approach to Model Stochastic Traffic Dynamics ( http://arxiv.org/abs/2202.09977v1 )

ライセンス: CC BY 4.0
Ke Sun, Stephen Chaves, Paul Martin, Vijay Kumar(参考訳) 確率的交通力学のモデル化は自動運転車の開発に不可欠である。 人間の運転する自動車の第一原理モデルの開発は困難であるため、交通力学モデルの開発においてデータ駆動アプローチを使用する可能性は非常に高い。 この問題については広範な文献があるが、先行研究は主にデータ駆動モデルの予測精度に対処している。 さらに、これらのモデルを一般的な計画フレームワークに適用することは、その仮定を満たさないため、しばしば困難である。 本研究では,提案するモデルが既存の動き計画アルゴリズムとシームレスに統合できるように,モデルに追加構造を強制することにより,新しい確率的トラヒックモデルであるリカレントトラヒックグラフニューラルネットワーク(rtgnn)を提案する。 RTGNNはマルコフモデルであり、エゴ車両の運動に条件付けられた将来の交通状態を推測することができる。 具体的には、RTGNNは、地域内のすべてのプレイヤーの状態を含むトラフィック状態の定義を使用しており、したがって興味のあるすべてのエージェントに対して共同予測を行うことができる。 一方,エージェントの隠れ状態である「意図」をトラフィック状態の一部として明示的にモデル化し,トラフィックダイナミクスの固有の部分的可観測性を反映する。 上記の特性は、RTGNNと動き計画アルゴリズムの統合と、予測と意思決定の結合に重要である。 追加構造にもかかわらず、RTGNNは他の類似作品との比較により最先端の精度を達成可能であることを示す。

Modeling stochastic traffic dynamics is critical to developing self-driving cars. Because it is difficult to develop first principle models of cars driven by humans, there is great potential for using data driven approaches in developing traffic dynamical models. While there is extensive literature on this subject, previous works mainly address the prediction accuracy of data-driven models. Moreover, it is often difficult to apply these models to common planning frameworks since they fail to meet the assumptions therein. In this work, we propose a new stochastic traffic model, Recurrent Traffic Graph Neural Network (RTGNN), by enforcing additional structures on the model so that the proposed model can be seamlessly integrated with existing motion planning algorithms. RTGNN is a Markovian model and is able to infer future traffic states conditioned on the motion of the ego vehicle. Specifically, RTGNN uses a definition of the traffic state that includes the state of all players in a local region and is therefore able to make joint predictions for all agents of interest. Meanwhile, we explicitly model the hidden states of agents, "intentions," as part of the traffic state to reflect the inherent partial observability of traffic dynamics. The above mentioned properties are critical for integrating RTGNN with motion planning algorithms coupling prediction and decision making. Despite the additional structures, we show that RTGNN is able to achieve state-of-the-art accuracy through comparisons with other similar works.
翻訳日:2022-02-24 12:56:56 公開日:2022-02-21
# (参考訳) 有限確率ゲームにおけるダブルトンプソンサンプリング [全文訳有]

Double Thompson Sampling in Finite stochastic Games ( http://arxiv.org/abs/2202.10008v1 )

ライセンス: CC BY 4.0
Shuqing Shi, Xiaobin Wang, Zhiyou Yang, Fan Zhang and Hong Qu(参考訳) 基礎となる環境の状態遷移行列が未知のままである有限割引マルコフ決定過程における探索と搾取のトレードオフ問題を考える。 このような問題を解決するために、二重トンプソンサンプリング強化学習アルゴリズム(DTS)を提案する。 このアルゴリズムは$\tilde{\mathcal{o}}(d\sqrt{sat})$\footnote{the symbol $\tilde{\mathcal{o}}$ means $\mathcal{o}$ with log factors ignore} in time horizon $t$ with $s$ states, $a$ action and diameter $d$ という完全な後悔を実現できる。 DTSは2つの部分から構成されており、第1部は従来の部分であり、先行分布に基づいて遷移行列に後続サンプリング法を適用する。 第2部では,局所的最適動作と長期的最適動作のバランスをとるために,カウントベースの後続更新法を用いて,大域的最適ゲーム値を求める。 我々は$\tilde{\mathcal{O}}(\sqrt{T}/S^{2})$の後悔の限界を確立した。 これは、有限割引のMarkov Decision Processが私たちの知識に課した最大の後悔である。 数値的な結果は、我々のアプローチの効率と優越性を証明します。

We consider the trade-off problem between exploration and exploitation under finite discounted Markov Decision Process, where the state transition matrix of the underlying environment stays unknown. We propose a double Thompson sampling reinforcement learning algorithm(DTS) to solve this kind of problem. This algorithm achieves a total regret bound of $\tilde{\mathcal{O}}(D\sqrt{SAT})$\footnote{The symbol $\tilde{\mathcal{O}}$ means $\mathcal{O}$ with log factors ignored} in time horizon $T$ with $S$ states, $A$ actions and diameter $D$. DTS consists of two parts, the first part is the traditional part where we apply the posterior sampling method on transition matrix based on prior distribution. In the second part, we employ a count-based posterior update method to balance between the local optimal action and the long-term optimal action in order to find the global optimal game value. We established a regret bound of $\tilde{\mathcal{O}}(\sqrt{T}/S^{2})$. Which is by far the best regret bound for finite discounted Markov Decision Process to our knowledge. Numerical results proves the efficiency and superiority of our approach.
翻訳日:2022-02-24 12:39:45 公開日:2022-02-21
# (参考訳) AI/MLアルゴリズムとVLSI設計・技術への応用

AI/ML Algorithms and Applications in VLSI Design and Technology ( http://arxiv.org/abs/2202.10015v1 )

ライセンス: CC BY 4.0
Deepthi Amuru, Harsha V. Vudumula, Pavan K. Cherupally, Sushanth R. Gurram, Amir Ahmad, Andleeb Zahra, Zia Abbas(参考訳) ナノメートル系における集積回路(IC)産業の先進的な課題は、プロセスのバリエーションの増加による設計の複雑さを低減し、チップ製造のターンアラウンド時間を短縮する手法の調査と開発である。 このようなタスクに使用される従来の方法論は、主に手動である。 対照的に、人工知能(AI)のユニークな学習戦略は、超大規模統合(VLSI)設計とテストにおいて、複雑でデータ集約的なタスクを扱うための多くのエキサイティングな自動化アプローチを提供する。 VLSIの設計と製造にAIと機械学習(ML)アルゴリズムを採用することで、自動学習アルゴリズムを通じて、さまざまな抽象化レベルのデータの理解と処理の時間と労力が削減される。 これにより、ICの歩留まりが向上し、製造のターンアラウンド時間が短縮される。 本稿では、過去に導入されたVLSI設計と製造に向けたAI/ML自動化アプローチを徹底的にレビューする。 さらに、VLSI設計の分野に革命をもたらすため、将来AI/MLアプリケーションの範囲を様々な抽象化レベルで議論し、高速で高知能で効率的な実装を目指している。

An evident challenge ahead for the integrated circuit (IC) industry in the nanometer regime is the investigation and development of methods that can reduce the design complexity ensuing from growing process variations and curtail the turnaround time of chip manufacturing. Conventional methodologies employed for such tasks are largely manual; thus, time-consuming and resource-intensive. In contrast, the unique learning strategies of artificial intelligence (AI) provide numerous exciting automated approaches for handling complex and data-intensive tasks in very-large-scale integration (VLSI) design and testing. Employing AI and machine learning (ML) algorithms in VLSI design and manufacturing reduces the time and effort for understanding and processing the data within and across different abstraction levels via automated learning algorithms. It, in turn, improves the IC yield and reduces the manufacturing turnaround time. This paper thoroughly reviews the AI/ML automated approaches introduced in the past towards VLSI design and manufacturing. Moreover, we discuss the scope of AI/ML applications in the future at various abstraction levels to revolutionize the field of VLSI design, aiming for high-speed, highly intelligent, and efficient implementations.
翻訳日:2022-02-24 12:15:58 公開日:2022-02-21
# (参考訳) AI, IoT, ロボティクスによる高度農業の技術的適応に向けて: 総合的概要 [全文訳有]

Towards technological adaptation of advanced farming through AI, IoT, and Robotics: A Comprehensive overview ( http://arxiv.org/abs/2202.10459v1 )

ライセンス: CC BY 4.0
Md. Mahadi Hasan, Muhammad Usama Islam, Muhammad Jafar Sadeq(参考訳) 21世紀の人口爆発は、栽培可能な土地の供給が制限され、地球温暖化による平均気温が上昇し、カーボンフットプリントによって洪水や干ばつが激増し、食料安全保障が多くの国に深刻な不安をもたらした自然資源に悪影響を及ぼしている。 従来の方法はもはや不十分であり、人工知能(ai)、モノのインターネット(iot)、そして高い生産性、機能効率、柔軟性、農業分野での費用対効果を提供するロボティクスといった技術的上昇への道を開いた。 AI、IoT、ロボティクスベースのデバイスと方法は、農業の新しいパラダイムと機会を生み出している。 AIの既存のアプローチは、土壌管理、作物病の識別、雑草の識別、IoTデバイスとのコラボレーションによる管理である。 IoTは自動農業運転とリアルタイム監視を利用しており、リアルタイムに雇用されている人員はほとんどいない。 農業用ロボットの主な応用は、土壌の準備、植林、モニタリング、収穫、貯蔵の機能である。 本稿では,近年の農業分野におけるai,iot,ロボット工学に基づく方法論の実装,適用範囲,機会,課題,限界,今後の研究指導の概要について考察した。

The population explosion of the 21st century has adversely affected the natural resources with restricted availability of cultivable land, increased average temperatures due to global warming, and carbon footprint resulting in a drastic increase in floods as well as droughts thus making food security significant anxiety for most countries. The traditional methods were no longer sufficient which paved the way for technological ascents such as a substantial rise in Artificial Intelligence (AI), Internet of Things (IoT), as well as Robotics that provides high productivity, functional efficiency, flexibility, cost-effectiveness in the domain of agriculture. AI, IoT, and Robotics-based devices and methods have produced new paradigms and opportunities in agriculture. AI's existing approaches are soil management, crop diseases identification, weed identification, and management in collaboration with IoT devices. IoT has utilized automatic agricultural operations and real-time monitoring with few personnel employed in real-time. The major existing applications of agricultural robotics are for the function of soil preparation, planting, monitoring, harvesting, and storage. In this paper, researchers have explored a comprehensive overview of recent implementation, scopes, opportunities, challenges, limitations, and future research instructions of AI, IoT, and Robotics based methodology in the agriculture sector.
翻訳日:2022-02-24 12:14:54 公開日:2022-02-21
# (参考訳) USCORE: 機械翻訳のための教師なし評価指標に対する効果的なアプローチ [全文訳有]

USCORE: An Effective Approach to Fully Unsupervised Evaluation Metrics for Machine Translation ( http://arxiv.org/abs/2202.10062v1 )

ライセンス: CC BY 4.0
Jonas Belouadi and Steffen Eger(参考訳) 機械翻訳の評価基準の大部分が管理されている。 (i)参照翻訳の存在を前提とする。 (ii)人間のスコアで訓練する、または (iii)並列データを活用する。 これにより、そのような監視信号が利用できないケースに適用できなくなる。 本研究では,教師なし評価指標の開発を行う。 そのため,評価指標の誘導,並列コーパスマイニング,MTシステムの相似性と相乗効果を利用する。 特に、疑似並列データのマイニングには教師なし評価指標を使用し、そこでは、(反復的な方法で)不十分な基底ベクトル空間をリマップし、教師なしMTシステムを誘導し、そのメトリクスに付加的なコンポーネントとして擬似参照を提供する。 最後に,疑似パラレルデータから教師なし多言語文埋め込みを誘導する。 5つの評価データセットのうち4つで、完全に教師なしのメトリクスが効果的であることを示す。

The vast majority of evaluation metrics for machine translation are supervised, i.e., (i) assume the existence of reference translations, (ii) are trained on human scores, or (iii) leverage parallel data. This hinders their applicability to cases where such supervision signals are not available. In this work, we develop fully unsupervised evaluation metrics. To do so, we leverage similarities and synergies between evaluation metric induction, parallel corpus mining, and MT systems. In particular, we use an unsupervised evaluation metric to mine pseudo-parallel data, which we use to remap deficient underlying vector spaces (in an iterative manner) and to induce an unsupervised MT system, which then provides pseudo-references as an additional component in the metric. Finally, we also induce unsupervised multilingual sentence embeddings from pseudo-parallel data. We show that our fully unsupervised metrics are effective, i.e., they beat supervised competitors on 4 out of our 5 evaluation datasets.
翻訳日:2022-02-24 12:02:03 公開日:2022-02-21
# (参考訳) オンラインメンタルヘルスコミュニティにおけるai支援的感情支援プロセスの効果の検討 [全文訳有]

Exploring the Effects of AI-assisted Emotional Support Processes in Online Mental Health Community ( http://arxiv.org/abs/2202.10065v1 )

ライセンス: CC BY 4.0
Donghoon Shin, Subeen Park, Esther Hehsun Kim, Soomin Kim, Jinwook Seo, Hwajung Hong(参考訳) オンラインメンタルヘルスコミュニティ(OMHC)における社会的支援は、メンタルヘルスを管理する効果的な方法である。 このプロセスでは、感情的な支援を共有することが、OMHCにおける社会的支援の繁栄に不可欠であると考えられています。 共感的相互作用を支援するために,検索者の感情や文脈キーワードを引用して,他のユーザの投稿に感情的支援メッセージを書くことができるAI統合ワークフローを設計する。 予備的ユーザ調査 (n = 10) に基づき, 投稿中の感情を明確化し, 文章を具体的に記述するのに役立つことを確認した。 プロバイダは投稿に対して共感的に反応する方法を学ぶこともできる。 これらの結果に基づき,提案システムの設計手法を提案する。

Social support in online mental health communities (OMHCs) is an effective and accessible way of managing mental wellbeing. In this process, sharing emotional supports is considered crucial to the thriving social supports in OMHCs, yet often difficult for both seekers and providers. To support empathetic interactions, we design an AI-infused workflow that allows users to write emotional supporting messages to other users' posts based on the elicitation of the seeker's emotion and contextual keywords from writing. Based on a preliminary user study (N = 10), we identified that the system helped seekers to clarify emotion and describe text concretely while writing a post. Providers could also learn how to react empathetically to the post. Based on these results, we suggest design implications for our proposed system.
翻訳日:2022-02-24 11:41:18 公開日:2022-02-21
# (参考訳) グラディエントフィールドでのMomentum Ascentによるポイントクラウドのデノーミング [全文訳有]

Point Cloud Denoising via Momentum Ascent in Gradient Fields ( http://arxiv.org/abs/2202.10094v1 )

ライセンス: CC BY 4.0
Yaping Zhao, Haitian Zheng, Zhongrui Wang, Jiebo Luo, Edmund Y. Lam(参考訳) ポイントクラウドを特徴付けるために、従来の手法は幾何学的優先順位に大きく依存しており、ほとんどの学習ベースのアプローチは外れ値と詳細の喪失に苦しむ。 近年,ニューラルネットワークを用いて雑音の多い点雲から勾配場を推定し,推定した勾配に応じて各点の位置を改良する勾配法が提案されている。 しかし、予測された勾配は変動し、摂動と不安定な解、そして大きな推論時間をもたらす可能性がある。 これらの問題に対処するために,前回の反復の情報を活用して点の軌跡を決定する運動量勾配上昇法を開発し,解の安定性を改善し,推定時間を短縮する。 実験により,提案手法が,様々な点群と騒音レベルで最先端手法を上回ったことを示す。

To achieve point cloud denoising, traditional methods heavily rely on geometric priors, and most learning-based approaches suffer from outliers and loss of details. Recently, the gradient-based method was proposed to estimate the gradient fields from the noisy point clouds using neural networks, and refine the position of each point according to the estimated gradient. However, the predicted gradient could fluctuate, leading to perturbed and unstable solutions, as well as a large inference time. To address these issues, we develop the momentum gradient ascent method that leverages the information of previous iterations in determining the trajectories of the points, thus improving the stability of the solution and reducing the inference time. Experiments demonstrate that the proposed method outperforms state-of-the-art methods with a variety of point clouds and noise levels.
翻訳日:2022-02-24 11:29:25 公開日:2022-02-21
# (参考訳) デバイス上でのGPUベースのトレーニングを実践する [全文訳有]

Enabling On-Device Smartphone GPU based Training: Lessons Learned ( http://arxiv.org/abs/2202.10100v1 )

ライセンス: CC BY 4.0
Anish Das and Young D. Kwon and Jagmohan Chauhan and Cecilia Mascolo(参考訳) ディープラーニング(DL)は多くのモバイルアプリケーションで素晴らしいパフォーマンスを示している。 既存の研究の多くは、リソースに制約のあるモバイルデバイス上でDeep Neural Networks(DNN)推論を実行する際の計算オーバーヘッドとリソースオーバーヘッドの削減に重点を置いている。 しかし、DNN操作の他の側面、すなわちスマートフォンGPUでのトレーニング(前方および後方パス)は、今のところほとんど注目されていない。 そこで本研究では,モバイルgpuを用いたスマートフォンのオンデバイストレーニングの実現可能性を検討するため,初期分析を行った。 まず、オープンソースのモバイルDLフレームワーク(MNN)と、GPU上で計算カーネルを実行するためのOpenCLバックエンドを使用します。 次に、CPUでのトレーニングがGPUよりもはるかに高速であることを観察し、この観察に関連する2つのボトルネックを特定した。 (i)計算と計算 (ii)メモリボトルネック。 計算ボトルネックを解決するため,我々はOpenCLバックエンドのカーネルを最適化し,Snapdragon 8シリーズプロセッサのCPU(15-30 GFLOP)に対して2倍の改善(40-70 GFLOP)を示した。 しかし、DNNのフルトレーニングは、CPUよりもGPUの方がずっと遅く、CPUよりもGPUの低パフォーマンスにおいてメモリボトルネックが重要な役割を果たすことを示している。 データ移動は、低帯域幅のため、トレーニング時間の約91%を要する。 最後に,調査中の知見と失敗を踏まえて,今後の方向性に関する限界と実践指針を提案する。

Deep Learning (DL) has shown impressive performance in many mobile applications. Most existing works have focused on reducing the computational and resource overheads of running Deep Neural Networks (DNN) inference on resource-constrained mobile devices. However, the other aspect of DNN operations, i.e. training (forward and backward passes) on smartphone GPUs, has received little attention thus far. To this end, we conduct an initial analysis to examine the feasibility of on-device training on smartphones using mobile GPUs. We first employ the open-source mobile DL framework (MNN) and its OpenCL backend for running compute kernels on GPUs. Next, we observed that training on CPUs is much faster than on GPUs and identified two possible bottlenecks related to this observation: (i) computation and (ii) memory bottlenecks. To solve the computation bottleneck, we optimize the OpenCL backend's kernels, showing 2x improvements (40-70 GFLOPs) over CPUs (15-30 GFLOPs) on the Snapdragon 8 series processors. However, we find that the full DNN training is still much slower on GPUs than on CPUs, indicating that memory bottleneck plays a significant role in the lower performance of GPU over CPU. The data movement takes almost 91% of training time due to the low bandwidth. Lastly, based on the findings and failures during our investigation, we present limitations and practical guidelines for future directions.
翻訳日:2022-02-24 11:22:52 公開日:2022-02-21
# (参考訳) BERT WEAVER:変圧器モデルにおける平均化による生涯学習の実現 [全文訳有]

BERT WEAVER: Using WEight AVERaging to Enable Lifelong Learning for Transformer-based Models ( http://arxiv.org/abs/2202.10101v1 )

ライセンス: CC BY 4.0
Lisa Langnickel, Alexander Schulz, Barbara Hammer and Juliane Fluck(参考訳) 近年の転校学習の発展により、自然言語処理タスクの進歩が加速している。 しかし、パフォーマンスは、高品質で手動のトレーニングデータに依存する。 特にバイオメディカル領域では、新しいデータを効率的に予測できる汎用モデルを学ぶのに、1つのトレーニングコーパスでは不十分であることが示されている。 したがって、最先端のモデルは、新しいデータが利用可能になったらすぐにパフォーマンスを改善するために、一生の学習能力を必要とします。 本稿では,新しいモデルに古い知識を注入し,破滅的な忘れを低減させる,単純かつ効率的な後処理手法であるweaverを提案する。 WEAVERを逐次的に適用すると、単語の埋め込み分布は、計算効率が良く、同時に全てのデータに対する複合的なトレーニングを行うのと同じ結果が得られることを示す。 データ共有の必要がなくなるため, 提案手法は連携学習環境にも容易に適用でき, 例えば, 異なる診療所からの電子的健康記録のマイニングに有用である。

Recent developments in transfer learning have boosted the advancements in natural language processing tasks. The performance is, however, dependent on high-quality, manually annotated training data. Especially in the biomedical domain, it has been shown that one training corpus is not enough to learn generic models that are able to efficiently predict on new data. Therefore, state-of-the-art models need the ability of lifelong learning in order to improve performance as soon as new data are available - without the need of retraining the whole model from scratch. We present WEAVER, a simple, yet efficient post-processing method that infuses old knowledge into the new model, thereby reducing catastrophic forgetting. We show that applying WEAVER in a sequential manner results in similar word embedding distributions as doing a combined training on all data at once, while being computationally more efficient. Because there is no need of data sharing, the presented method is also easily applicable to federated learning settings and can for example be beneficial for the mining of electronic health records from different clinics.
翻訳日:2022-02-24 11:10:53 公開日:2022-02-21
# (参考訳) 重み付き異方性-等方性全変を用いた平滑・閾値画像分割フレームワーク [全文訳有]

A Smoothing and Thresholding Image Segmentation Framework with Weighted Anisotropic-Isotropi c Total Variation ( http://arxiv.org/abs/2202.10115v1 )

ライセンス: CC BY 4.0
Kevin Bui, Yifei Lou, Fredrick Park, Jack Xin(参考訳) 本稿では,異方性および等方性全変動(aitv)の重み付き差分を組み込んだ多段階画像分割フレームワークを提案する。 セグメンテーションフレームワークは一般的に、平滑化としきい値化という2つの段階で構成されている。 第1段階では、$\ell_1-\alpha \ell_2$正則化器の近位演算子の閉形式解と乗算器(ADMM)の交互方向法により効率よく解けるAITV正規化ムフォードシャー(MS)モデルにより滑らかな画像を得る。 ADMMアルゴリズムの収束性を分析する。 第2段階では、スムーズな画像を$k$-meansクラスタリングで閾値付けし、最終的なセグメンテーション結果を得る。 数値実験により, 提案したセグメンテーションフレームワークは, グレースケールとカラー画像の両方に汎用性があり, 高品質なセグメンテーション結果を数秒以内で生成し, ノイズやぼかし, あるいはその両方で劣化した画像に対して頑健であることが示された。 提案手法の質的,定量的優位性を示すため,AITV法と元の凸法と非凸型TV$^p (0<p<1)$法との比較を行った。

In this paper, we propose a multi-stage image segmentation framework that incorporates a weighted difference of anisotropic and isotropic total variation (AITV). The segmentation framework generally consists of two stages: smoothing and thresholding, thus referred to as SaT. In the first stage, a smoothed image is obtained by an AITV-regularized Mumford-Shah (MS) model, which can be solved efficiently by the alternating direction method of multipliers (ADMM) with a closed-form solution of a proximal operator of the $\ell_1 -\alpha \ell_2$ regularizer. Convergence of the ADMM algorithm is analyzed. In the second stage, we threshold the smoothed image by $k$-means clustering to obtain the final segmentation result. Numerical experiments demonstrate that the proposed segmentation framework is versatile for both grayscale and color images, efficient in producing high-quality segmentation results within a few seconds, and robust to input images that are corrupted with noise, blur, or both. We compare the AITV method with its original convex and nonconvex TV$^p (0<p<1)$ counterparts, showcasing the qualitative and quantitative advantages of our proposed method.
翻訳日:2022-02-24 10:55:56 公開日:2022-02-21
# (参考訳) HCMD-zero:データからバリューアラインメントメカニズムを学習する [全文訳有]

HCMD-zero: Learning Value Aligned Mechanisms from Data ( http://arxiv.org/abs/2202.10122v1 )

ライセンス: CC BY 4.0
Jan Balaguer, Raphael Koster, Ari Weinstein, Lucy Campbell-Gillingham, Christopher Summerfield, Matthew Botvinick, Andrea Tacchetti(参考訳) 機械学習エージェントは、人間、企業、組織間の相互作用がますます多くなり、近年、メカニズム設計と機械学習の交わりが深く研究されている。 しかし、メカニズム設計手法は、参加者の振る舞い(合理性など)や、設計者が優先順位(例えば、強いベースライン機構へのアクセス)にアクセスできる知識の種類について強い仮定をする。 本稿では,機構エージェント構築のための汎用手法である hcmd-zero を紹介する。 HCMD-ゼロは、参加者間の相互作用を仲介しながら学習し、自作の選挙コンテストに引き続き参加し、参加者から直接フィードバックを得る。 Our results on the Public Investment Game, a stylized resource allocation game that highlights the tension between productivity, equality and the temptation to free-ride, show that HCMD-zero produces competitive mechanism agents that are consistently preferred by human participants over baseline alternatives, and does so automatically, without requiring human knowledge, and by using human data sparingly and effectively Our detailed analysis shows HCMD-zero elicits consistent improvements over the course of training, and that it results in a mechanism with an interpretable and intuitive policy.

Artificial learning agents are mediating a larger and larger number of interactions among humans, firms, and organizations, and the intersection between mechanism design and machine learning has been heavily investigated in recent years. However, mechanism design methods make strong assumptions on how participants behave (e.g. rationality), or on the kind of knowledge designers have access to a priori (e.g. access to strong baseline mechanisms). Here we introduce HCMD-zero, a general purpose method to construct mechanism agents. HCMD-zero learns by mediating interactions among participants, while remaining engaged in an electoral contest with copies of itself, thereby accessing direct feedback from participants. Our results on the Public Investment Game, a stylized resource allocation game that highlights the tension between productivity, equality and the temptation to free-ride, show that HCMD-zero produces competitive mechanism agents that are consistently preferred by human participants over baseline alternatives, and does so automatically, without requiring human knowledge, and by using human data sparingly and effectively Our detailed analysis shows HCMD-zero elicits consistent improvements over the course of training, and that it results in a mechanism with an interpretable and intuitive policy.
翻訳日:2022-02-24 10:26:07 公開日:2022-02-21
# (参考訳) The Good Shepherd: メカニズム設計のためのOracleエージェント [全文訳有]

The Good Shepherd: An Oracle Agent for Mechanism Design ( http://arxiv.org/abs/2202.10135v1 )

ライセンス: CC BY 4.0
Jan Balaguer, Raphael Koster, Christopher Summerfield, Andrea Tacchetti(参考訳) ソーシャルネットワークからトラフィックルーティングまで、人工知能エージェントは現代の機関で中心的な役割を果たす。 したがって私たちは、自分たちの価値観や願望に沿った成果や行動を促進するために、これらのシステムを活用する方法を理解する必要があります。 近年, マルチエージェント学習が注目されているが, 人工エージェントは, 固定された非学習者との相互作用において主に評価されている。 この評価スキームにはメリットはあるが、適応的かつ継続的な学習構成員に対処しなければならない機関が直面するダイナミクスを捉えることに失敗している。 ここでは,この制限に対処し,適応型コプレーヤの学習軌跡("participants")に基づいて評価を行うエージェント("mechanisms")を構築する。 提案するアルゴリズムは,2つのネスト学習ループからなり,参加者が固定されたメカニズムに最もよく反応する内ループと,メカニズムエージェントが経験に基づいてポリシーを更新する外ループから構成される。 人工学習エージェントと人間を共同プレイヤとして組み合わせた場合のメカニズムエージェントの性能について報告する。 その結果,我々のメカニズムは参加者の戦略を望ましい結果へと導くことができ,現代の機関が構成員の戦略や行動に効果的かつ自動的に影響を与える道筋を示した。

From social networks to traffic routing, artificial learning agents are playing a central role in modern institutions. We must therefore understand how to leverage these systems to foster outcomes and behaviors that align with our own values and aspirations. While multiagent learning has received considerable attention in recent years, artificial agents have been primarily evaluated when interacting with fixed, non-learning co-players. While this evaluation scheme has merit, it fails to capture the dynamics faced by institutions that must deal with adaptive and continually learning constituents. Here we address this limitation, and construct agents ("mechanisms") that perform well when evaluated over the learning trajectory of their adaptive co-players ("participants"). The algorithm we propose consists of two nested learning loops: an inner loop where participants learn to best respond to fixed mechanisms; and an outer loop where the mechanism agent updates its policy based on experience. We report the performance of our mechanism agents when paired with both artificial learning agents and humans as co-players. Our results show that our mechanisms are able to shepherd the participants strategies towards favorable outcomes, indicating a path for modern institutions to effectively and automatically influence the strategies and behaviors of their constituents.
翻訳日:2022-02-24 10:00:49 公開日:2022-02-21
# (参考訳) 経頭蓋MR画像誘導集束超音波干渉に対するコンディショナリ・ネットワークを用いたシンセティックCTスカル生成 [全文訳有]

Synthetic CT Skull Generation for Transcranial MR Imaging-Guided Focused Ultrasound Interventions with Conditional Adversarial Networks ( http://arxiv.org/abs/2202.10136v1 )

ライセンス: CC BY 4.0
Han Liu, Michelle K. Sigona, Thomas J. Manuel, Li Min Chen, Charles F. Caskey, Benoit M. Dawant(参考訳) 経頭蓋MRIガイド下集束超音波(TcMRgFUS)は頭蓋骨内の音をMRIガイド下において非侵襲的に小さな領域に集束する治療用超音波法である。 臨床的に視床の領域を熱的にアブレートすることが認められ、脳関門開放や神経調節などの他の治療のために研究されている。 頭蓋骨を通して超音波を的確に標的にするためには、送信波が目標領域に建設的に干渉する必要がある。 しかし、音速、密度、超音波による頭蓋骨の減衰の多様性は、最適な治療計画のために患者固有のパラメータの推定を必要とする。 CTイメージングは、現在、臨床手術中に個々の頭蓋骨の音響特性を推定するための金の標準であるが、CTイメージングは患者に放射線を照射し、治療に必要な画像処置の総数を増やす。 CTを必要とせずに頭蓋骨内の音響パラメータを推定する方法が望ましい。 そこで我々は,3Dパッチを用いた条件付き画像生成対向ネットワークを用いて,日常的に取得したT1強調MRIからCT画像を合成し,経頭蓋骨集束超音波による治療計画のための合成CT画像の性能評価を行った。 kranion と k-wave acoustic simulation を用いて合成ctと実際のct画像の比較を行った。 本研究は,TcMRgFUS計画のためのMR合成CTに実際のCTを置き換えることの可能性を示した。

Transcranial MRI-guided focused ultrasound (TcMRgFUS) is a therapeutic ultrasound method that focuses sound through the skull to a small region noninvasively under MRI guidance. It is clinically approved to thermally ablate regions of the thalamus and is being explored for other therapies, such as blood brain barrier opening and neuromodulation. To accurately target ultrasound through the skull, the transmitted waves must constructively interfere at the target region. However, heterogeneity of the sound speed, density, and ultrasound attenuation in different individuals' skulls requires patient-specific estimates of these parameters for optimal treatment planning. CT imaging is currently the gold standard for estimating acoustic properties of an individual skull during clinical procedures, but CT imaging exposes patients to radiation and increases the overall number of imaging procedures required for therapy. A method to estimate acoustic parameters in the skull without the need for CT would be desirable. Here, we synthesized CT images from routinely acquired T1-weighted MRI by using a 3D patch-based conditional generative adversarial network and evaluated the performance of synthesized CT images for treatment planning with transcranial focused ultrasound. We compared the performance of synthetic CT to real CT images using Kranion and k-Wave acoustic simulation. Our work demonstrates the feasibility of replacing real CT with the MR-synthesized CT for TcMRgFUS planning.
翻訳日:2022-02-24 09:41:07 公開日:2022-02-21
# (参考訳) DeepShovel:AI支援による地球科学文学におけるデータ抽出のためのオンラインコラボレーションプラットフォーム [全文訳有]

DeepShovel: An Online Collaborative Platform for Data Extraction in Geoscience Literature with AI Assistance ( http://arxiv.org/abs/2202.10163v1 )

ライセンス: CC BY 4.0
Shao Zhang, Yuting Jia, Hui Xu, Ying Wen, Dakuo Wang, Xinbing Wang(参考訳) 地科学者や多くの分野の研究者は、関連する結果やデータを検索、抽出、集約し、将来の研究を可能にするか、科学データベースを構築するために膨大な文献を読む必要があるが、このユースケースをうまくサポートする既存のシステムは存在していない。 本稿では,地質学者が文献を共同で注釈付けし,データを抽出・集約する方法に関する形式的研究の結果に基づき,そのニーズに対応するAI支援データ抽出システムであるDeepShovelを提案する。 DeepShovelは最先端のニューラルネットワークモデルを活用し、研究者(PDF形式で)が簡単に正確に論文を注釈付けし、人間とAIのコラボレーションで表や図、地図などからデータを抽出する。 14人の研究者によるフォローアップユーザ評価では、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善し、チームはより大きな規模でより密結合されたコラボレーションを構築するように促した。

Geoscientists, as well as researchers in many fields, need to read a huge amount of literature to locate, extract, and aggregate relevant results and data to enable future research or to build a scientific database, but there is no existing system to support this use case well. In this paper, based on the findings of a formative study about how geoscientists collaboratively annotate literature and extract and aggregate data, we proposed DeepShovel, a publicly-available AI-assisted data extraction system to support their needs. DeepShovel leverages the state-of-the-art neural network models to support researcher(s) easily and accurately annotate papers (in the PDF format) and extract data from tables, figures, maps, etc. in a human-AI collaboration manner. A follow-up user evaluation with 14 researchers suggested DeepShovel improved users' efficiency of data extraction for building scientific databases, and encouraged teams to form a larger scale but more tightly-coupled collaboration.
翻訳日:2022-02-24 09:31:23 公開日:2022-02-21
# (参考訳) 確率的制約付き最適化のためのグローバル収束進化戦略と強化学習への応用 [全文訳有]

A Globally Convergent Evolutionary Strategy for Stochastic Constrained Optimization with Applications to Reinforcement Learning ( http://arxiv.org/abs/2202.10464v1 )

ライセンス: CC BY 4.0
Youssef Diouane and Aurelien Lucchi and Vihang Patil(参考訳) 進化戦略は強化学習における複雑な最適化問題に対して、競合するレベルのパフォーマンスを達成することが最近示されている。 このような問題では、例えばポリシーのエントロピーに関する制約や、エージェントがアクセス可能なアクションや状態のセットを制限するなど、一連の制約を受ける客観的関数を最適化する必要があることが多い。 しかし、確率的制約のある問題を最適化する進化戦略の収束保証は文献に欠けている。 本研究では,関数の推定値のみに基づいて収束を保証する機構を十分に備えた新しい最適化アルゴリズムを設計することで,この問題に対処する。 このアルゴリズムを2種類の実験に応用できることを実証する。 一 報酬を最大化するための制御課題 二 非緩和不能な制約の対象となる報酬を最大化すること。

Evolutionary strategies have recently been shown to achieve competing levels of performance for complex optimization problems in reinforcement learning. In such problems, one often needs to optimize an objective function subject to a set of constraints, including for instance constraints on the entropy of a policy or to restrict the possible set of actions or states accessible to an agent. Convergence guarantees for evolutionary strategies to optimize stochastic constrained problems are however lacking in the literature. In this work, we address this problem by designing a novel optimization algorithm with a sufficient decrease mechanism that ensures convergence and that is based only on estimates of the functions. We demonstrate the applicability of this algorithm on two types of experiments: i) a control task for maximizing rewards and ii) maximizing rewards subject to a non-relaxable set of constraints.
翻訳日:2022-02-24 09:05:32 公開日:2022-02-21
# (参考訳) 28nm hkmgfefetベースシナプスコアを用いたハイブリッド精密ニューラルネットワークのばらつき対応トレーニング [全文訳有]

Variation Aware Training of Hybrid Precision Neural Networks with 28nm HKMG FeFET Based Synaptic Core ( http://arxiv.org/abs/2202.10912v1 )

ライセンス: CC BY 4.0
Sunanda Thunder, Sourav De, Franz Muller, Tarek Ali, Maximillian Lederer, Thomas K\"ampfe, Po-Tsang Huang(参考訳) 本研究は、重み付き和演算を実行するeNVMベースの計算メモリユニットと、バック伝搬中の重み更新時にエラーを格納するSRAMユニットと、ハードウェアの重み更新に必要なパルス数とを備えたハイブリッド精度ニューラルネットワークトレーニングフレームワークを提案する。 シナプスデバイスとして28nmの強誘電体FET(FeFET)を用いたMLPベースニューラルネットワークのハイブリッドトレーニングアルゴリズムは、デバイスとサイクルの変動が存在する場合、最大95%の推論精度を実現する。 本アーキテクチャは,FeFETデバイスの動作モデルやマクロモデルを用いて評価され,浮動小数点法と比較して精度が向上した。

This work proposes a hybrid-precision neural network training framework with an eNVM based computational memory unit executing the weighted sum operation and another SRAM unit, which stores the error in weight update during back propagation and the required number of pulses to update the weights in the hardware. The hybrid training algorithm for MLP based neural network with 28 nm ferroelectric FET (FeFET) as synaptic devices achieves inference accuracy up to 95% in presence of device and cycle variations. The architecture is primarily evaluated using behavioral or macro-model of FeFET devices with experimentally calibrated device variations and we have achieved accuracies compared to floating-point implementations.
翻訳日:2022-02-24 08:39:12 公開日:2022-02-21
# (参考訳) 非揮発性メモリ加速後推定 [全文訳有]

Non-Volatile Memory Accelerated Posterior Estimation ( http://arxiv.org/abs/2202.10522v1 )

ライセンス: CC BY 4.0
Andrew Wood, Moshik Hershcovitch, Daniel Waddington, Sarel Cohen, Peter Chin(参考訳) ベイズ推論は、機械学習モデルが不確実性を表現することを可能にする。 現在の機械学習モデルは、予測を行う際に1つの学習可能なパラメータの組み合わせしか使用せず、その結果、予測が間違っていた場合、非常に過大評価される。 より学習可能なパラメータの組み合わせを効率的に使用するには、これらのサンプルは後方分布から引き出さなければならない。 残念なことに、後部を直接計算することは不可能であるため、研究者はしばしばガウス分布のようなよく知られた分布と近似する。 本稿では,高容量の永続ストレージを用いることで,後方分布が大きすぎて近似できないモデルが実現可能となり,下流タスクの予測精度が向上することを示す。

Bayesian inference allows machine learning models to express uncertainty. Current machine learning models use only a single learnable parameter combination when making predictions, and as a result are highly overconfident when their predictions are wrong. To use more learnable parameter combinations efficiently, these samples must be drawn from the posterior distribution. Unfortunately computing the posterior directly is infeasible, so often researchers approximate it with a well known distribution such as a Gaussian. In this paper, we show that through the use of high-capacity persistent storage, models whose posterior distribution was too big to approximate are now feasible, leading to improved predictions in downstream tasks.
翻訳日:2022-02-24 08:24:34 公開日:2022-02-21
# (参考訳) 動的サンプリングレート:省エネgpuのためのグラフィックスアプリケーションにおけるフレームコヒーレンスの利用 [全文訳有]

Dynamic Sampling Rate: Harnessing Frame Coherence in Graphics Applications for Energy-Efficient GPUs ( http://arxiv.org/abs/2202.10533v1 )

ライセンス: CC BY 4.0
Mart\'i Anglada, Enrique de Lucas, Joan-Manuel Parcerisa, Juan L. Arag\'on and Antonio Gonz\'alez(参考訳) リアルタイムレンダリングでは、3DシーンはGPUがスクリーンに投影する三角形のメッシュでモデル化される。 通常の空間間隔で各三角形をサンプリングして識別し、シェーダープログラムによってテクスチャと照明効果を追加するフラグメントを生成する。 リアルなシーンには、詳細な幾何学的モデル、複雑なシェーダー、高解像度ディスプレイ、高いスクリーンリフレッシュレートが必要です。 このコストはしばしば、サンプルされた各フラグメントに対して実行されるフラグメントシェーダによって支配される。 従来のgpuは1ピクセルに1回、三角形をサンプリングするが、同じフラグメントを生成し、品質を損なうことなく、ピクセルレートよりも低い値でサンプリングできる画面領域は少なくない。 さらに、時間フレームコヒーレンスは連続するフレームに非常によく似ているため、このようなバリエーションは通常フレームからフレームに維持される。 本研究は,グラフィックアプリケーションの冗長性を低減し,エネルギー効率を向上させるハードウェア機構である動的サンプリングレート(DSR)を提案する。 DSRは、レンダリングされたシーンの空間周波数を分析する。 そして、連続するフレームの時間的コヒーレンスを利用して、画面の各領域において、画質を維持する次のフレームで採用する最も低いサンプリングレートを決定する。 DSRで拡張された最先端のモバイルGPUアーキテクチャの性能を多種多様なアプリケーションで評価する。 実験の結果、DSRはフラグメントの粒度における色計算に固有の冗長性の大部分を除去することができ、平均速度は1.68倍、省エネは40%となっている。

In real-time rendering, a 3D scene is modelled with meshes of triangles that the GPU projects to the screen. They are discretized by sampling each triangle at regular space intervals to generate fragments which are then added texture and lighting effects by a shader program. Realistic scenes require detailed geometric models, complex shaders, high-resolution displays and high screen refreshing rates, which all come at a great compute time and energy cost. This cost is often dominated by the fragment shader, which runs for each sampled fragment. Conventional GPUs sample the triangles once per pixel, however, there are many screen regions containing low variation that produce identical fragments and could be sampled at lower than pixel-rate with no loss in quality. Additionally, as temporal frame coherence makes consecutive frames very similar, such variations are usually maintained from frame to frame. This work proposes Dynamic Sampling Rate (DSR), a novel hardware mechanism to reduce redundancy and improve the energy efficiency in graphics applications. DSR analyzes the spatial frequencies of the scene once it has been rendered. Then, it leverages the temporal coherence in consecutive frames to decide, for each region of the screen, the lowest sampling rate to employ in the next frame that maintains image quality. We evaluate the performance of a state-of-the-art mobile GPU architecture extended with DSR for a wide variety of applications. Experimental results show that DSR is able to remove most of the redundancy inherent in the color computations at fragment granularity, which brings average speedups of 1.68x and energy savings of 40%.
翻訳日:2022-02-24 08:17:35 公開日:2022-02-21
# (参考訳) フェデレーション学習システムにおける逆学習モデルのプライバシー漏洩 [全文訳有]

Privacy Leakage of Adversarial Training Models in Federated Learning Systems ( http://arxiv.org/abs/2202.10546v1 )

ライセンス: CC BY 4.0
Jingyang Zhang, Yiran Chen, Hai Li(参考訳) 敵対的トレーニング(AT)は、敵対的攻撃に対して堅牢なディープニューラルネットワークを取得するために不可欠だが、最近の研究により、モデルがプライバシ攻撃に対してより脆弱になることが判明した。 本稿では,プライバシに敏感な連合学習(fl)システムに適用可能な,新たなプライバシー攻撃を設計することで,atのこの不確実性をさらに明らかにする。 この手法を用いることで,flシステムのモデルを利用して,訓練バッチサイズが大きい場合でも,ユーザのプライベートトレーニングイメージを正確に再現することができる。 コードはhttps://github.com/z jysteven/PrivayAttac k_AT_FLで公開されている。

Adversarial Training (AT) is crucial for obtaining deep neural networks that are robust to adversarial attacks, yet recent works found that it could also make models more vulnerable to privacy attacks. In this work, we further reveal this unsettling property of AT by designing a novel privacy attack that is practically applicable to the privacy-sensitive Federated Learning (FL) systems. Using our method, the attacker can exploit AT models in the FL system to accurately reconstruct users' private training images even when the training batch size is large. Code is available at https://github.com/z jysteven/PrivayAttac k_AT_FL.
翻訳日:2022-02-24 07:57:42 公開日:2022-02-21
# (参考訳) 拡張データからの明示的勾配学習による不均衡分類 [全文訳有]

Imbalanced Classification via Explicit Gradient Learning From Augmented Data ( http://arxiv.org/abs/2202.10550v1 )

ライセンス: CC BY 4.0
Bronislav Yasinnik(参考訳) 不均衡なデータから学ぶことは、現実世界の分類タスクにおける最も重要な課題の1つである。 このような場合、ニューラルネットワークの性能は、多数派に対する嗜好によって著しく低下する。 既存のアプローチは、データの再サンプリングや学習プロセスの損失の再重み付けを通じてバイアスを取り除く。 しかし、これらの手法は少数民族の構造が極めて不規則である場合、少数民族のサンプルに過度に適合し、性能が劣る傾向にある。 本稿では,与えられた不均衡データセットを新たなマイノリティインスタンスで拡張する,新しい深層メタ学習手法を提案する。 これらの追加データは分類器のディープラーニングプロセスに組み込まれ、それらの貢献は明示的に学習される。 提案手法の利点は, 種々の不均衡比を持つ合成および実世界のデータセット上で実証される。

Learning from imbalanced data is one of the most significant challenges in real-world classification tasks. In such cases, neural networks performance is substantially impaired due to preference towards the majority class. Existing approaches attempt to eliminate the bias through data re-sampling or re-weighting the loss in the learning process. Still, these methods tend to overfit the minority samples and perform poorly when the structure of the minority class is highly irregular. Here, we propose a novel deep meta-learning technique to augment a given imbalanced dataset with new minority instances. These additional data are incorporated in the classifier's deep-learning process, and their contributions are learned explicitly. The advantage of the proposed method is demonstrated on synthetic and real-world datasets with various imbalance ratios.
翻訳日:2022-02-24 07:45:52 公開日:2022-02-21
# (参考訳) 自由形式幾何不確かさ下での設計のための階層的深層生成モデル [全文訳有]

Hierarchical Deep Generative Models for Design Under Free-Form Geometric Uncertainty ( http://arxiv.org/abs/2202.10558v1 )

ライセンス: CC BY 4.0
Wei (Wayne) Chen, Doksoo Lee, Oluwaseyi Balogun, Wei Chen(参考訳) 深層生成モデルは、幾何設計最適化を大幅に改善するコンパクトで表現豊かな設計表現を学習する効果を実証してきた。 しかし、これらのモデルは製造や製造による不確実性を考慮していない。 このような不確かさを定量化する過去の研究は、しばしば幾何学的変動の仮定を単純化するが、「実世界」や「自由形式」の不確実性とその設計性能への影響は、高次元のため定量化が困難である。 本稿では,不確実性フレームワークに基づくジェネレーティブ・アドバイサル・ネットワーク・ベース・デザイン(GAN-DUF)を提案する。このモデルには,名目(理想)設計のコンパクトな表現と,名目設計の条件付き分布を同時に学習する深層生成モデルが含まれている。 これは、1) 形状とトポロジカルデザインの両方と互換性のある普遍的不確かさ量化モデルを構築すること、2) 幾何学的変動の分布を仮定することなく自由形式の幾何学的不確実性をモデル化すること、3) 新たな名目設計に対する不確実さの迅速な予測を可能にすることの新たな可能性を開く。 提案した深部生成モデルとロバストな設計最適化と不確実な設計のための信頼性に基づく設計最適化を組み合わせることができる。 2つの実世界のエンジニアリング設計例でそのフレームワークを実演し、製造後の優れた性能を持つソリューションを見つける能力を示した。

Deep generative models have demonstrated effectiveness in learning compact and expressive design representations that significantly improve geometric design optimization. However, these models do not consider the uncertainty introduced by manufacturing or fabrication. Past work that quantifies such uncertainty often makes simplifying assumptions on geometric variations, while the "real-world", "free-form" uncertainty and its impact on design performance are difficult to quantify due to the high dimensionality. To address this issue, we propose a Generative Adversarial Network-based Design under Uncertainty Framework (GAN-DUF), which contains a deep generative model that simultaneously learns a compact representation of nominal (ideal) designs and the conditional distribution of fabricated designs given any nominal design. This opens up new possibilities of 1)~building a universal uncertainty quantification model compatible with both shape and topological designs, 2)~modeling free-form geometric uncertainties without the need to make any assumptions on the distribution of geometric variability, and 3)~allowing fast prediction of uncertainties for new nominal designs. We can combine the proposed deep generative model with robust design optimization or reliability-based design optimization for design under uncertainty. We demonstrated the framework on two real-world engineering design examples and showed its capability of finding the solution that possesses better performances after fabrication.
翻訳日:2022-02-24 07:33:40 公開日:2022-02-21
# (参考訳) ディープコントラスト潜在変数モデルとのモーメントマッチング [全文訳有]

Moment Matching Deep Contrastive Latent Variable Models ( http://arxiv.org/abs/2202.10560v1 )

ライセンス: CC BY 4.0
Ethan Weinberger, Nicasia Beebe-Wang, Su-In Lee(参考訳) コントラスト分析(ca)設定では、機械学習の実践者は、対象データセットに富むパターンを発見することに特に興味を持ち、手元のタスクとは無関係な変動源から生成される背景データセットと比較する。 例えば、バイオメディカルデータ分析者は、健康管理対象の患者と異なり、特定の疾患の患者にのみ存在するゲノムデータの変動を理解することができる。 このようなシナリオは、ターゲットデータセットとバックグラウンドデータセット間で共有されているものから、これらのターゲットデータセットに特有のバリエーションを分離するために、対照的な潜在変数モデルの開発を動機付けている。 しかし、これまで提案されたモデルは、CAの根底にある潜伏変数の制約を明示的に強制していないため、潜伏変数の2つの集合間での情報漏洩が望ましくない可能性がある。 本稿では, 平均誤差を最大化して, CAの根底にある2つの重要な潜伏変数制約を明示的に適用する, CA 用VOE (MM-cVAE) を改良したモーメントマッチング VAE (MM-cVAE) を提案する。 3つの困難なCAタスクにおいて、我々の手法は、定性的かつ定量的な測定値のセットにおいて、従来の最先端技術よりも優れていることがわかった。

In the contrastive analysis (CA) setting, machine learning practitioners are specifically interested in discovering patterns that are enriched in a target dataset as compared to a background dataset generated from sources of variation irrelevant to the task at hand. For example, a biomedical data analyst may seek to understand variations in genomic data only present among patients with a given disease as opposed to those also present in healthy control subjects. Such scenarios have motivated the development of contrastive latent variable models to isolate variations unique to these target datasets from those shared across the target and background datasets, with current state of the art models based on the variational autoencoder (VAE) framework. However, previously proposed models do not explicitly enforce the constraints on latent variables underlying CA, potentially leading to the undesirable leakage of information between the two sets of latent variables. Here we propose the moment matching contrastive VAE (MM-cVAE), a reformulation of the VAE for CA that uses the maximum mean discrepancy to explicitly enforce two crucial latent variable constraints underlying CA. On three challenging CA tasks we find that our method outperforms the previous state-of-the-art both qualitatively and on a set of quantitative metrics.
翻訳日:2022-02-24 07:20:09 公開日:2022-02-21
# (参考訳) cromosim - ディープラーニングベースのクロスモダリティ慣性測定シミュレータ [全文訳有]

CROMOSim: A Deep Learning-based Cross-modality Inertial Measurement Simulator ( http://arxiv.org/abs/2202.10562v1 )

ライセンス: CC BY 4.0
Yujiao Hao, Boyu Wang, Rong Zheng(参考訳) ウェアラブルデバイスの普及に伴い、慣性計測ユニット(IMU)データは、人間の活動認識(HAR)などの人間の移動の監視と評価に利用されてきた。 これらのタスクのためにディープニューラルネットワーク(DNN)モデルをトレーニングするには、大量のラベル付きデータが必要である。 データ不足問題を解決するため、クロモシムは、モーションキャプチャシステムや単眼rgbカメラからの高忠実度仮想imuセンサデータをシミュレートするクロスモダリティセンサシミュレータである。 3次元ボディーポーズと形状表現にスキン付き多人線形モデル(SMPL)を用いて、任意のオンボディ位置からのシミュレーションを可能にする。 DNNモデルは、計測ノイズ、校正誤差、閉塞、その他のモデリングアーティファクトによる3次元SMPLボディートリメッシュにおける不完全な軌道推定からIMUデータへの関数マッピングを学習するために訓練される。 各種HARデータセットを用いたデータ拡張において, CROMOSim シミュレーションデータの忠実度とその有用性を評価する。 広範な実験結果から,harタスクにおけるベースラインメソッドに対する6.7%の改善が得られた。

With the prevalence of wearable devices, inertial measurement unit (IMU) data has been utilized in monitoring and assessment of human mobility such as human activity recognition (HAR). Training deep neural network (DNN) models for these tasks require a large amount of labeled data, which are hard to acquire in uncontrolled environments. To mitigate the data scarcity problem, we design CROMOSim, a cross-modality sensor simulator that simulates high fidelity virtual IMU sensor data from motion capture systems or monocular RGB cameras. It utilizes a skinned multi-person linear model (SMPL) for 3D body pose and shape representations, to enable simulation from arbitrary on-body positions. A DNN model is trained to learn the functional mapping from imperfect trajectory estimations in a 3D SMPL body tri-mesh due to measurement noise, calibration errors, occlusion and other modeling artifacts, to IMU data. We evaluate the fidelity of CROMOSim simulated data and its utility in data augmentation on various HAR datasets. Extensive experiment results show that the proposed model achieves a 6.7% improvement over baseline methods in a HAR task.
翻訳日:2022-02-24 06:58:32 公開日:2022-02-21
# (参考訳) T-METASET:多様性に基づくアクティブラーニングによるメタマテリアルデータセットのタスク認識生成 [全文訳有]

T-METASET: Task-Aware Generation of Metamaterial Datasets by Diversity-Based Active Learning ( http://arxiv.org/abs/2202.10565v1 )

ライセンス: CC BY 4.0
Doksoo Lee, Yu-Chin Chan, Wei (Wayne) Chen, Liwei Wang, Anton van Beek, Wei Chen(参考訳) さまざまな領域におけるディープラーニングの成功に触発されて、データ駆動メタマテリアルデザインは、マルチスケールアーキテクチャの可能性を解き放つための魅力的な設計パラダイムとして登場した。 しかし、既存のモデル中心のアプローチは、高品質なデータ生成専用の原則的な方法論を欠いている。 形状記述子空間における空間充填設計に代えて、既存のメタマテリアルデータセットは、非常に不均衡な特性分布や、興味のある設計課題に反する性質分布に悩まされる。 この目的のために,タスク対応データセット生成のためのインテリジェントなデータ取得フレームワークであるt-METASETを提案する。 初期の設計段階ではよく見落とされがちなシナリオに対する解決策を模索する: 巨大な(~\sim O(10^4)$)形状ライブラリが、プロパティを評価せずに準備されたとき。 鍵となるアイデアは、生成モデルから学んだデータ駆動型形状記述子を活用し、スパース回帰子をスタートアップエージェントとして適合させ、多様性に関連するメトリクスを活用して、デザイナが設計目標を達成するのに役立つ領域にデータを取得することである。 提案するフレームワークを,汎用性,タスク認識性,カスタマイズ可能な3つのシナリオで検証する。 2つの大規模形状のみのメカニカルメタマテリアルデータセットがテストデータセットとして使用される。 その結果、t-METASETはタスク認識データセットを漸進的に成長させることができることがわかった。 一般的な設計表現に適用可能なt-METASETは、メタマテリアルだけでなく、他のドメインにおけるデータ駆動設計の今後の進歩を促進することができる。

Inspired by the recent success of deep learning in diverse domains, data-driven metamaterials design has emerged as a compelling design paradigm to unlock the potential of multiscale architecture. However, existing model-centric approaches lack principled methodologies dedicated to high-quality data generation. Resorting to space-filling design in shape descriptor space, existing metamaterial datasets suffer from property distributions that are either highly imbalanced or at odds with design tasks of interest. To this end, we propose t-METASET: an intelligent data acquisition framework for task-aware dataset generation. We seek a solution to a commonplace yet frequently overlooked scenario at early design stages: when a massive ($~\sim O(10^4)$) shape library has been prepared with no properties evaluated. The key idea is to exploit a data-driven shape descriptor learned from generative models, fit a sparse regressor as the start-up agent, and leverage diversity-related metrics to drive data acquisition to areas that help designers fulfill design goals. We validate the proposed framework in three hypothetical deployment scenarios, which encompass general use, task-aware use, and tailorable use. Two large-scale shape-only mechanical metamaterial datasets are used as test datasets. The results demonstrate that t-METASET can incrementally grow task-aware datasets. Applicable to general design representations, t-METASET can boost future advancements of not only metamaterials but data-driven design in other domains.
翻訳日:2022-02-24 06:47:16 公開日:2022-02-21
# (参考訳) 未熟児におけるエネルギー効率の高い呼吸異常検出 [全文訳有]

Energy-Efficient Respiratory Anomaly Detection in Premature Newborn Infants ( http://arxiv.org/abs/2202.10570v1 )

ライセンス: CC BY 4.0
Ankita Paul, Md. Abu Saleh Tajin, Anup Das, William M. Mongan, and Kapil R. Dandekar(参考訳) 早産児の呼吸速度の精密モニタリングは、必要に応じて医療介入を開始するために不可欠である。 有線技術は、患者にとって侵襲的で邪魔になる可能性がある。 乳児の体に装着した非侵襲型ウェアラブルBellypatchから無線で収集した信号を用いて呼吸停止を予測し,早期新生児に対するDeep Learning対応ウェアラブルモニタリングシステムを提案する。 データ収集とラベル付け,機能スケーリング,ハイパーパラメータチューニングによるモデル選択,モデルトレーニングと検証,モデルテストとデプロイメントを含む5段階の設計パイプラインを提案する。 使用されるモデルは、1次元畳み込みニューラルネットワーク(1DCNN)アーキテクチャで、1つの畳み込み層、1つのプーリング層、3つの完全接続層があり、精度は97.15%である。 ウェアラブル処理のエネルギー限界に対処するため、いくつかの量子化手法を探索し、その性能とエネルギー消費を分析した。 本稿では,イベント駆動型ニューロモルフィックハードウェア上で実装可能な,スポーキングニューラルネットワーク(SNN)に基づく呼吸分類ソリューションを提案する。 本稿では,ベースライン1DCNNのアナログ操作をスパイク等価に変換する手法を提案する。 変換されたSNNのパラメータを用いて設計空間を探索し、精度とエネルギーフットプリントの異なる推論解を生成する。 ベースライン1DCNNモデルに比べて18倍低いエネルギーで93.33%の精度を達成する解を選択する。 さらに、提案したSNNソリューションも同様の精度であるが、エネルギーは4倍少ない。

Precise monitoring of respiratory rate in premature infants is essential to initiate medical interventions as required. Wired technologies can be invasive and obtrusive to the patients. We propose a Deep Learning enabled wearable monitoring system for premature newborn infants, where respiratory cessation is predicted using signals that are collected wirelessly from a non-invasive wearable Bellypatch put on infant's body. We propose a five-stage design pipeline involving data collection and labeling, feature scaling, model selection with hyperparameter tuning, model training and validation, model testing and deployment. The model used is a 1-D Convolutional Neural Network (1DCNN) architecture with 1 convolutional layer, 1 pooling layer and 3 fully-connected layers, achieving 97.15% accuracy. To address energy limitations of wearable processing, several quantization techniques are explored and their performance and energy consumption are analyzed. We propose a novel Spiking-Neural-Netwo rk(SNN) based respiratory classification solution, which can be implemented on event-driven neuromorphic hardware. We propose an approach to convert the analog operations of our baseline 1DCNN to their spiking equivalent. We perform a design-space exploration using the parameters of the converted SNN to generate inference solutions having different accuracy and energy footprints. We select a solution that achieves 93.33% accuracy with 18 times lower energy compared with baseline 1DCNN model. Additionally the proposed SNN solution achieves similar accuracy but with 4 times less energy.
翻訳日:2022-02-24 06:22:30 公開日:2022-02-21
# (参考訳) 大規模クラウド登録のための高速セマンティック支援外乱除去 [全文訳有]

Fast Semantic-Assisted Outlier Removal for Large-scale Point Cloud Registration ( http://arxiv.org/abs/2202.10579v1 )

ライセンス: CC0 1.0
Giang Truong, Huu Le, Alvaro Parra, Syed Zulqarnain Gilani, Syed M. S. Islam, David Suter(参考訳) センサ(チーパー、データ量の増加)とアプリケーション(新しいタスクの可利用性の向上、新しい3Dデータの有用性)の現在のトレンドにより、個々のポイントクラウドを自動的に、確実に、安価に登録する能力への関心が高まっている。 処理するデータの量、そして依然として、登録が完全に確実に完全に自動的に行われる必要があるため、さらなる革新が必要である。 ほとんど未解決のイノベーションの領域の1つは、問題の点の「意味情報」を活用することである。 例えば、木の点は木の点と一致し、車の点とは一致しない。 さらに、このような自然な制限は明らかに人間に似ている - 人間は一般的に、セマンティクスに基づいたマッチングの候補領域を素早く排除する。 意味情報の活用は効率的であるだけでなく、自然である。 また、セマンティックな分類能力の最近の進歩により、タイムリーである。 本稿では,このテーマを,特に「剛体運動による長さの保存」を基礎とする美術登録技術が,一貫性の制約を満たした意味的情報によって拡張可能であることを示すことにより,その課題を述べる。 意味的アイデンティティは、もちろん剛体運動でも保存されるが、シーンに存在するより広い動きでも保存される。 セマンティックセグメンテーションのコストの潜在的な障害とセマンティックセグメンテーションの不確実性の潜在的な障害は、どちらも大規模ポイントクラウドの完全自動登録における速度と精度の両立を妨げるものではないことを実証する。

With current trends in sensors (cheaper, more volume of data) and applications (increasing affordability for new tasks, new ideas in what 3D data could be useful for); there is corresponding increasing interest in the ability to automatically, reliably, and cheaply, register together individual point clouds. The volume of data to handle, and still elusive need to have the registration occur fully reliably and fully automatically, mean there is a need to innovate further. One largely untapped area of innovation is that of exploiting the {\em semantic information} of the points in question. Points on a tree should match points on a tree, for example, and not points on car. Moreover, such a natural restriction is clearly human-like - a human would generally quickly eliminate candidate regions for matching based on semantics. Employing semantic information is not only efficient but natural. It is also timely - due to the recent advances in semantic classification capabilities. This paper advances this theme by demonstrating that state of the art registration techniques, in particular ones that rely on "preservation of length under rigid motion" as an underlying matching consistency constraint, can be augmented with semantic information. Semantic identity is of course also preserved under rigid-motion, but also under wider motions present in a scene. We demonstrate that not only the potential obstacle of cost of semantic segmentation, and the potential obstacle of the unreliability of semantic segmentation; are both no impediment to achieving both speed and accuracy in fully automatic registration of large scale point clouds.
翻訳日:2022-02-24 05:59:08 公開日:2022-02-21
# パーソナライズされたpate:個別プライバシ保証を備えた機械学習のためのディファレンシャルプライバシ

Personalized PATE: Differential Privacy for Machine Learning with Individual Privacy Guarantees ( http://arxiv.org/abs/2202.10517v1 )

ライセンス: Link先を確認
Christopher M\"uhl, Franziska Boenisch(参考訳) マシンラーニング(ML)を機密ドメインに適用するには、差分プライバシ(DP)などの正式なプライバシフレームワークを通じて、基礎となるトレーニングデータをプライバシ保護する必要がある。 しかし、通常、トレーニングデータのプライバシは、結果のMLモデルのユーティリティのコストを伴います。 この理由の1つは、dpがすべてのトレーニングデータポイントに対して1つの均質なプライバシ予算epsilonを使用しているためである。 実際には、異なるデータ保持者が異なるプライバシ要件と低い要件を持つデータ保持者のデータポイントを持つ場合、MLモデルのトレーニングプロセスにより多くの情報を提供する可能性がある。 そこで本研究では,pate(教師アンサンブル)のプライベートアグリゲーションをdpフレームワークに拡張し,トレーニングデータ内のプライバシ保証の異なるmlモデルのトレーニングを支援する3つの新しい手法を提案する。 提案手法を形式的に記述し,プライバシ境界の理論解析を行い,mnistおよび成人所得データセットの例として,最終モデルの有用性に対する効果を実験的に評価する。 実験により, 個人化されたプライバシ手法は, 非個人化されたベースラインよりも高い精度のモデルが得られることがわかった。 これにより、異なるデータ保有者が異なるプライバシーレベルで機密データの提供に同意するシナリオにおいて、プライバシユーティリティのトレードオフを改善することができる。

Applying machine learning (ML) to sensitive domains requires privacy protection of the underlying training data through formal privacy frameworks, such as differential privacy (DP). Yet, usually, the privacy of the training data comes at the costs of the resulting ML models' utility. One reason for this is that DP uses one homogeneous privacy budget epsilon for all training data points, which has to align with the strictest privacy requirement encountered among all data holders. In practice, different data holders might have different privacy requirements and data points of data holders with lower requirements could potentially contribute more information to the training process of the ML models. To account for this possibility, we propose three novel methods that extend the DP framework Private Aggregation of Teacher Ensembles (PATE) to support training an ML model with different personalized privacy guarantees within the training data. We formally describe the methods, provide theoretical analyses of their privacy bounds, and experimentally evaluate their effect on the final model's utility at the example of the MNIST and Adult income datasets. Our experiments show that our personalized privacy methods yield higher accuracy models than the non-personalized baseline. Thereby, our methods can improve the privacy-utility trade-off in scenarios in which different data holders consent to contribute their sensitive data at different privacy levels.
翻訳日:2022-02-23 17:01:55 公開日:2022-02-21
# Ligandformer:ロバスト解釈によるLigand特性予測のためのグラフニューラルネットワーク

Ligandformer: A Graph Neural Network for Predicting Ligand Property with Robust Interpretation ( http://arxiv.org/abs/2202.10873v1 )

ライセンス: Link先を確認
Jinjiang Guo, Qi Liu, Han Guo, Xi Lu(参考訳) QSAR法のロバストで効率的な解釈は、主観的意見(化学または生物学の専門知識)によるAI予測の合理性を検証し、洗練された化学または生物学的プロセス機構を理解し、医薬品産業における構造最適化のためのヒューリスティックなアイデアを提供するのに非常に有用である。 この目的のために,多層自己アテンションに基づくグラフニューラルネットワークフレームワーク,すなわちLigandformerを構築し,解釈によるリガンド特性の予測を行う。 Ligandformerは、異なるネットワークブロックからのリガンド構造の注意マップを統合する。 統合注意マップは、複合構造に対する機械の局所的関心を反映し、予測された複合特性とその構造との関係を示す。 この研究は主に3つの側面に貢献する。 1. リガンドフォーマーは, 深層学習法のブラックボックスを直接開き, 化学構造に関する局所的予測的根拠を提供する。 2)Ligandformerは様々な実験ラウンドで頑健な予測を行い,ディープラーニング手法のユビキタスな予測不安定性を克服する。 3. リガンドフォーマは、高い性能で異なる化学的、生物学的性質を予測するために一般化することができる。 さらに、Ligandformerは特定の特性スコアと可視的注意マップを同時に出力することができ、研究者が化学的または生物学的性質を調査し、構造を効率的に最適化するのを支援することができる。 本フレームワークは, 精度, 堅牢性, 一般化の点で性能が優れており, 複雑なシステム研究に応用できる。

Robust and efficient interpretation of QSAR methods is quite useful to validate AI prediction rationales with subjective opinion (chemist or biologist expertise), understand sophisticated chemical or biological process mechanisms, and provide heuristic ideas for structure optimization in pharmaceutical industry. For this purpose, we construct a multi-layer self-attention based Graph Neural Network framework, namely Ligandformer, for predicting ligand property with interpretation. Ligandformer integrates attention maps on ligand structure from different network blocks. The integrated attention map reflects the machine's local interest on compound structure, and indicates the relationship between predicted compound property and its structure. This work mainly contributes to three aspects: 1. Ligandformer directly opens the black-box of deep learning methods, providing local prediction rationales on chemical structures. 2. Ligandformer gives robust prediction in different experimental rounds, overcoming the ubiquitous prediction instability of deep learning methods. 3. Ligandformer can be generalized to predict different chemical or biological properties with high performance. Furthermore, Ligandformer can simultaneously output specific property score and visible attention map on structure, which can support researchers to investigate chemical or biological property and optimize structure efficiently. Our framework outperforms over counterparts in terms of accuracy, robustness and generalization, and can be applied in complex system study.
翻訳日:2022-02-23 16:58:59 公開日:2022-02-21
# 機械換気敗血症患者の人工呼吸器パラメータ予測のための深層学習法

A Deep Learning Approach to Predicting Ventilator Parameters for Mechanically Ventilated Septic Patients ( http://arxiv.org/abs/2202.10921v1 )

ライセンス: Link先を確認
Zhijun Zeng, Zhen Hou, Ting Li, Lei Deng, Jianguo Hou, Xinran Huang, Jun Li, Meirou Sun, Yunhan Wang, Qiyu Wu, Wenhao Zheng, Hua Jiang, and Qi Wang(参考訳) 本研究では,長期記憶(LSTM)リカレントニューラルネットワーク(RNN)モデルを用いて,機械的換気による敗血症患者の換気パラメータのセットを予測するための深層学習手法を開発した。 緊急集中治療室(EICU)における敗血症患者に対する人工呼吸器パラメータの短期的予測に焦点を当てた。 モデルの短期的な予測可能性により、ICUの患者の治療にタイムリーに適応するための早期の警告が医師に提供される。 患者固有の深層学習モデルは、特定の重篤な患者で訓練することができ、医師が緊急の医療状況で使用するためのインテリジェントな補助剤となる。

We develop a deep learning approach to predicting a set of ventilator parameters for a mechanically ventilated septic patient using a long and short term memory (LSTM) recurrent neural network (RNN) model. We focus on short-term predictions of a set of ventilator parameters for the septic patient in emergency intensive care unit (EICU). The short-term predictability of the model provides attending physicians with early warnings to make timely adjustment to the treatment of the patient in the EICU. The patient specific deep learning model can be trained on any given critically ill patient, making it an intelligent aide for physicians to use in emergent medical situations.
翻訳日:2022-02-23 16:57:15 公開日:2022-02-21
# 古典的対量子:lhcデータ上のテンソルネットワークに基づく量子回路の比較

Classical versus Quantum: comparing Tensor Network-based Quantum Circuits on LHC data ( http://arxiv.org/abs/2202.10471v1 )

ライセンス: Link先を確認
Jack Y. Araz and Michael Spannowsky(参考訳) テンソルネットワーク (TN) は、局所的に絡み合った量子多体系を表現するために設計された高次元テンソルの近似である。 この研究は、高度に複雑でシミュレーションされたLHCデータ上での機械学習の文脈における古典的TNとTNにインスパイアされた量子回路の包括的比較を提供する。 古典 tns は指数関数的に大きな結合次元とより高次ヒルベルト空間写像を必要とし、それらの量子対と同等に振る舞う。 このような次元性の拡張により性能は向上するが、古典的なTNは次元性の向上とともに、高度に平坦なロスランドスケープにつながり、勾配に基づく最適化手法の使用は非常に困難である。 さらに,フィッシャー情報や有効次元などの定量的指標を用いることで,古典的tnはtnに触発された量子回路と同じくらい効率的にデータを表現するために,より広範なトレーニングサンプルを必要とすることを示した。 我々はまた、ハイブリッド古典量子TNの考え方に関わり、データからより大きな位相空間を採用することが可能なアーキテクチャを示す。 我々は,3つの主要なTNアンサッツ(木テンソルネットワーク,マトリックス製品状態,マルチスケールエンタングルメント・リノベーション・アンサッツ)を用いて結果を報告する。

Tensor Networks (TN) are approximations of high-dimensional tensors designed to represent locally entangled quantum many-body systems efficiently. This study provides a comprehensive comparison between classical TNs and TN-inspired quantum circuits in the context of Machine Learning on highly complex, simulated LHC data. We show that classical TNs require exponentially large bond dimensions and higher Hilbert-space mapping to perform comparably to their quantum counterparts. While such an expansion in the dimensionality allows better performance, we observe that, with increased dimensionality, classical TNs lead to a highly flat loss landscape, rendering the usage of gradient-based optimization methods highly challenging. Furthermore, by employing quantitative metrics, such as the Fisher information and effective dimensions, we show that classical TNs require a more extensive training sample to represent the data as efficiently as TN-inspired quantum circuits. We also engage with the idea of hybrid classical-quantum TNs and show possible architectures to employ a larger phase-space from the data. We offer our results using three main TN ansatz: Tree Tensor Networks, Matrix Product States, and Multi-scale Entanglement Renormalisation Ansatz.
翻訳日:2022-02-23 16:55:05 公開日:2022-02-21
# データ駆動型トラフィックアサインメント:グラフ畳み込みニューラルネットワークを用いたトラフィックフローパターン学習のための新しいアプローチ

Data-Driven Traffic Assignment: A Novel Approach for Learning Traffic Flow Patterns Using a Graph Convolutional Neural Network ( http://arxiv.org/abs/2202.10508v1 )

ライセンス: Link先を確認
Rezaur Rahman and Samiul Hasan(参考訳) 本稿では,交通ネットワークのトラフィックフローパターンを学習するためのデータ駆動型アプローチを提案する。 ユーザの行動(例えば、ユーザ均衡やシステム最適)を想定してトラフィックフローパターンを推定するのではなく、データから直接フローパターンを学習するというアイデアを探求する。 そこで本研究では,トラフィック割り当て問題をデータ駆動学習問題として定式化し,グラフ畳み込みニューラルネットワーク(gcnn)と呼ばれるニューラルネットワークベースのフレームワークを開発した。 提案手法は,輸送ネットワークとod要求を効率的に表現し,ノードからリンクへの複数のod要求の拡散プロセスを利用する。 本稿では,Sioux FallsおよびEast Massachusettsネットワーク上での静的ユーザ平衡に基づくトラフィック割り当てから生成された解析解に対するモデルの解を検証する。 検証の結果,実装したgcnnモデルでは,各ネットワークの実際のリンクフローと推定リンクフローとの絶対差が2%未満で,フローパターンを非常によく学習できることがわかった。 モデルのトレーニングが完了すると、大規模ネットワークのトラフィックフローを即座に決定できる。 したがって、大規模なネットワーク上にトラフィック割り当てモデルを展開するという課題を克服し、データ駆動型ネットワークモデリングにおける新たな研究方向を開くことができる。

We present a novel data-driven approach of learning traffic flow patterns of a transportation network given that many instances of origin to destination (OD) travel demand and link flows of the network are available. Instead of estimating traffic flow patterns assuming certain user behavior (e.g., user equilibrium or system optimal), here we explore the idea of learning those flow patterns directly from the data. To implement this idea, we have formulated the traffic-assignment problem as a data-driven learning problem and developed a neural network-based framework known as Graph Convolutional Neural Network (GCNN) to solve it. The proposed framework represents the transportation network and OD demand in an efficient way and utilizes the diffusion process of multiple OD demands from nodes to links. We validate the solutions of the model against analytical solutions generated from running static user equilibrium-based traffic assignments over Sioux Falls and East Massachusetts networks. The validation result shows that the implemented GCNN model can learn the flow patterns very well with less than 2% mean absolute difference between the actual and estimated link flows for both networks under varying congested conditions. When the training of the model is complete, it can instantly determine the traffic flows of a large-scale network. Hence this approach can overcome the challenges of deploying traffic assignment models over large-scale networks and open new directions of research in data-driven network modeling.
翻訳日:2022-02-23 16:20:02 公開日:2022-02-21
# ReViVD:3次元形状を用いた没入環境における軌道探索とフィルタリング

ReViVD: Exploration and Filtering of Trajectories in an Immersive Environment using 3D Shapes ( http://arxiv.org/abs/2202.10545v1 )

ライセンス: Link先を確認
Fran\c{c}ois Homps, Yohan Beugin, Romain Vuillemot(参考訳) 本稿では,VRを用いた大規模軌跡ベースデータセットの探索とフィルタリングを行うReViVDを提案する。 ReViVDの斬新さは、キューブ、球体、シリンダーなどの単純な3D形状を、ユーザーが軌道の群を選択・フィルタリングするためのクエリとして使うことである。 この単純なパラダイムに基づいて、より複雑なクエリは、ユーザが作成したboolean操作のシステムを通じて、以前に作られたセレクショングループを組み合わせることで作成できる。 本稿では,GPS位置追跡からシミュレーションデータ(乱流粒子流や交通シミュレーションなど)まで,さまざまなアプリケーション領域におけるReViVDの利用を実証する。 本結果は,広範囲な探索作業における3次元形状の使いやすさと表現性を示すものである。 ReViVDは、段階的に精製し、外部の挙動を分離するのに特に有用であることが判明した。 また、通常抽象データセットの構造を聴衆に伝えるための強力なコミュニケーションツールとしても機能する。

We present ReViVD, a tool for exploring and filtering large trajectory-based datasets using virtual reality. ReViVD's novelty lies in using simple 3D shapes -- such as cuboids, spheres and cylinders -- as queries for users to select and filter groups of trajectories. Building on this simple paradigm, more complex queries can be created by combining previously made selection groups through a system of user-created Boolean operations. We demonstrate the use of ReViVD in different application domains, from GPS position tracking to simulated data (e.g., turbulent particle flows and traffic simulation). Our results show the ease of use and expressiveness of the 3D geometric shapes in a broad range of exploratory tasks. ReViVD was found to be particularly useful for progressively refining selections to isolate outlying behaviors. It also acts as a powerful communication tool for conveying the structure of normally abstract datasets to an audience.
翻訳日:2022-02-23 16:14:02 公開日:2022-02-21
# 時間的深部劣化ネットワークを用いた注意特徴抽出型複合機械の余剰寿命予測

Remaining Useful Life Prediction Using Temporal Deep Degradation Network for Complex Machinery with Attention-based Feature Extraction ( http://arxiv.org/abs/2202.10916v1 )

ライセンス: Link先を確認
Yuwen Qin, Ningbo Cai, Chen Gao, Yadong Zhang, Yonghong Cheng and Xin Chen(参考訳) 持続する有用寿命(RUL)の正確な推定は、故障率と保守コストを著しく低減できる予後分析および予測保守に不可欠である。 ニューラルネットワークを用いたセンサストリーミングデータから抽出した劣化関連特徴は,rul予測の精度を劇的に向上させる。 1次元畳み込みニューラルネットワーク(1D CNN)の特徴抽出と注意機構によって得られる劣化関連特徴をRULで予測するために、時間的深部分解ネットワーク(TDDN)モデルを提案する。 1D CNNは、ストリーミングセンサデータから時間的特徴を抽出するために使用される。 時間的特徴は変動する生センサストリーミングデータから単調な劣化傾向を示す。 注意機構は、注意重みによる断層特性と劣化進展を捉えることにより、RUL予測性能を向上させることができる。 TDDNモデルの性能は、公開C-MAPSSデータセットで評価され、既存の手法と比較される。 その結果,TDDNモデルでは,現在の機械学習モデルと比較して,複雑な条件下で最高のRUL予測精度が得られることがわかった。 高次元センサストリーミングデータから抽出された劣化関連特徴は、TDDNがターボファンエンジンRULを正確にかつ効率的に予測できる明確な劣化軌跡と劣化段階を示す。

The precise estimate of remaining useful life (RUL) is vital for the prognostic analysis and predictive maintenance that can significantly reduce failure rate and maintenance costs. The degradation-related features extracted from the sensor streaming data with neural networks can dramatically improve the accuracy of the RUL prediction. The Temporal deep degradation network (TDDN) model is proposed to make the RUL prediction with the degradation-related features given by the one-dimensional convolutional neural network (1D CNN) feature extraction and attention mechanism. 1D CNN is used to extract the temporal features from the streaming sensor data. Temporal features have monotonic degradation trends from the fluctuating raw sensor streaming data. Attention mechanism can improve the RUL prediction performance by capturing the fault characteristics and the degradation development with the attention weights. The performance of the TDDN model is evaluated on the public C-MAPSS dataset and compared with the existing methods. The results show that the TDDN model can achieve the best RUL prediction accuracy in complex conditions compared to current machine learning models. The degradation-related features extracted from the high-dimension sensor streaming data demonstrate the clear degradation trajectories and degradation stages that enable TDDN to predict the turbofan-engine RUL accurately and efficiently.
翻訳日:2022-02-23 15:43:55 公開日:2022-02-21
# 正則化マルコフ決定過程の高速化

Accelerating Primal-dual Methods for Regularized Markov Decision Processes ( http://arxiv.org/abs/2202.10506v1 )

ライセンス: Link先を確認
Haoya Li, Hsiang-fu Yu, Lexing Ying, and Inderjit Dhillon(参考訳) エントロピー規則化マルコフ決定過程は強化学習に広く用いられている。 本稿では,エントロピー正規化問題の原始双対定式化について述べる。 標準的な一階法は厳密な凸性や凹凸性の欠如により収束が遅い。 この問題に対処するために、まず、新しい二次凸凸化された原始双対公式を導入する。 新しい定式化の自然な勾配上昇は、大域収束保証と指数収束率を享受する。 また,収束をさらに加速する新たな補間計量を提案する。 提案手法の性能を複数の条件下で実証するために, 数値実験を行った。

Entropy regularized Markov decision processes have been widely used in reinforcement learning. This paper is concerned with the primal-dual formulation of the entropy regularized problems. Standard first-order methods suffer from slow convergence due to the lack of strict convexity and concavity. To address this issue, we first introduce a new quadratically convexified primal-dual formulation. The natural gradient ascent descent of the new formulation enjoys global convergence guarantee and exponential convergence rate. We also propose a new interpolating metric that further accelerates the convergence significantly. Numerical results are provided to demonstrate the performance of the proposed methods under multiple settings.
翻訳日:2022-02-23 15:43:27 公開日:2022-02-21
# 新型コロナウイルス, X線, コレステロールデータセットにおけるデータ不均衡制約下におけるプライバシ保護医療システムのマルチサイトスプリット学習の可能性

Feasibility Study of Multi-Site Split Learning for Privacy-Preserving Medical Systems under Data Imbalance Constraints in COVID-19, X-Ray, and Cholesterol Dataset ( http://arxiv.org/abs/2202.10456v1 )

ライセンス: Link先を確認
Yoo Jeong Ha, Gusang Lee, Minjae Yoo, Soyi Jung, Seehwan Yoo and Joongheon Kim(参考訳) どうやら、コンテンツやデータ、情報をオンラインでアップロードする競争が徐々に増えているようで、病院もこの傾向を無視していないようです。 病院は現在、医療データ共有の最前線にあり、医療記録の共有や患者の診断の方法における画期的な進歩を提供する。 医療データの共有は現代医学研究に不可欠である。 しかし、すべてのデータ共有技術と同様に、治療の改善と患者の個人情報の保護のバランスをとることが課題である。 本稿では,患者記録に含まれる個人データを公開することを恐れずに,複数の病院間で医療データをセキュアに転送できる「マルチサイトスプリットラーニング」という新しいスプリットラーニングアルゴリズムを提案する。 また、エンドシステムの数とデータ不均衡の比率がディープラーニングのパフォーマンスに与える影響についても検討する。 患者データのプライバシを保証する分割学習の最も最適な構成のためのガイドラインは、経験的に与えられる。 我々は、多地点分割学習アルゴリズムの利点、特にプライバシ保護因子、covid-19患者のctスキャン、x線骨スキャン、コレステロールレベルの医療データの利用について論じている。

It seems as though progressively more people are in the race to upload content, data, and information online; and hospitals haven't neglected this trend either. Hospitals are now at the forefront for multi-site medical data sharing to provide groundbreaking advancements in the way health records are shared and patients are diagnosed. Sharing of medical data is essential in modern medical research. Yet, as with all data sharing technology, the challenge is to balance improved treatment with protecting patient's personal information. This paper provides a novel split learning algorithm coined the term, "multi-site split learning", which enables a secure transfer of medical data between multiple hospitals without fear of exposing personal data contained in patient records. It also explores the effects of varying the number of end-systems and the ratio of data-imbalance on the deep learning performance. A guideline for the most optimal configuration of split learning that ensures privacy of patient data whilst achieving performance is empirically given. We argue the benefits of our multi-site split learning algorithm, especially regarding the privacy preserving factor, using CT scans of COVID-19 patients, X-ray bone scans, and cholesterol level medical data.
翻訳日:2022-02-23 15:41:09 公開日:2022-02-21
# 自己進化的クラスタリング

Self-Evolutionary Clustering ( http://arxiv.org/abs/2202.10505v1 )

ライセンス: Link先を確認
Hanxuan Wang, Na Lu, Qinyang Liu(参考訳) ディープクラスタリングは、表現学習とクラスタ割り当てを相互に促進することで、従来のクラスタリングよりも優れています。 しかし、既存のディープクラスタリング手法の多くは、2つの大きな欠点を抱えている。 まず、ほとんどのクラスタ割当法は単純な距離比較に基づいており、手作りの非線形マッピングによって生成されるターゲット分布に大きく依存している。 これらの事実は、ディープクラスタリングメソッドが到達可能なパフォーマンスを大幅に制限します。 第2に、クラスタ毎に誤って割り当てられたサンプルによって、クラスタ結果を間違った方向に容易に誘導することができる。 既存のディープクラスタリング手法は、そのようなサンプルを識別できない。 これらの問題に対処するため,新たなモジュール型自己進化クラスタリング(Self-EvoC)フレームワークが構築され,自己管理的な方法でクラスタリング性能が向上する。 ファジィ理論は、各サンプルの中間クラスタリング結果の確実性を評価する確率でサンプルメンバーシップを評価するために用いられる。 これに基づいて、最も信頼性の高いサンプルを選択および拡張することができる。 集約されたデータは、オフザシェルフのディープネットワーク分類器をクラスタリングからラベルに微調整するために使用され、結果としてターゲット分布を生成するモデルとなる。 提案フレームワークは, 自己教師型分類器の助けを借りて, サンプルアウトレーヤを効率よく識別し, より良い目標分布を生成する。 大規模な実験により、Self-EvoCは3つのベンチマークデータセットで最先端のディープクラスタリング手法を著しく上回ることがわかった。

Deep clustering outperforms conventional clustering by mutually promoting representation learning and cluster assignment. However, most existing deep clustering methods suffer from two major drawbacks. First, most cluster assignment methods are based on simple distance comparison and highly dependent on the target distribution generated by a handcrafted nonlinear mapping. These facts largely limit the possible performance that deep clustering methods can reach. Second, the clustering results can be easily guided towards wrong direction by the misassigned samples in each cluster. The existing deep clustering methods are incapable of discriminating such samples. To address these issues, a novel modular Self-Evolutionary Clustering (Self-EvoC) framework is constructed, which boosts the clustering performance by classification in a self-supervised manner. Fuzzy theory is used to score the sample membership with probability which evaluates the intermediate clustering result certainty of each sample. Based on which, the most reliable samples can be selected and augmented. The augmented data are employed to fine-tune an off-the-shelf deep network classifier with the labels from the clustering, which results in a model to generate the target distribution. The proposed framework can efficiently discriminate sample outliers and generate better target distribution with the assistance of self-supervised classifier. Extensive experiments indicate that the Self-EvoC remarkably outperforms state-of-the-art deep clustering methods on three benchmark datasets.
翻訳日:2022-02-23 15:03:49 公開日:2022-02-21
# マルチユーザエッジクラウドネットワークにおける推論オーケストレーションのためのオンライン学習

Online Learning for Orchestration of Inference in Multi-User End-Edge-Cloud Networks ( http://arxiv.org/abs/2202.10541v1 )

ライセンス: Link先を確認
Sina Shahhosseini, Dongjoo Seo, Anil Kanduri, Tianyi Hu, Sung-soo Lim, Bryan Donyanavard, Amir M.Rahmani, Nikil Dutt(参考訳) ディープラーニングベースのインテリジェントサービスは、スマートシティやヘルスケアなど、サイバー物理アプリケーションで普及している。 エンドユーザの近くにディープラーニングベースのインテリジェンスをデプロイすることで、プライバシ保護、応答性、信頼性が向上する。 リソース制約のあるエンドデバイスは、計算集約型ディープラーニングサービスのレイテンシとエネルギー要求を満たすために、慎重に管理されなければならない。 ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、計算のオフロードを通じてアプリケーション要求に対処できる、さまざまなパフォーマンスと効率を提供する。 オフロード計算の決定は、システムパラメータ(ネットワーク条件など)とワークロード特性(入力など)の両方によって異なる、通信計算の共最適化問題である。 一方、ディープラーニングモデルの最適化は、レイテンシとモデルの正確性の間の別のトレードオフ源を提供する。 このような計算通信問題を考慮したエンドツーエンドの意思決定ソリューションは、ディープラーニングサービスのための最適なオフロードポリシとモデルを見つけるために必要となる。 そこで本研究では,ディープラーニングモデル選択手法を考慮した最適オフロードポリシーを学習し,十分な精度を保ちながら応答時間を最小化する強化学習型計算オフロードソリューションを提案する。 エンドエッジクラウドシステムにおけるエッジデバイスに対するソリューションの有効性を実証し,複数のawsおよびarmコア構成を用いた実際のセットアップ実装で評価する。 我々のソリューションは、最先端のクラウドシステムでdl推論をオーケストレーションするためのオンライン学習フレームワークの可能性を実証し、0.9%未満の精度で、平均応答時間の35%のスピードアップを提供する。

Deep-learning-based intelligent services have become prevalent in cyber-physical applications including smart cities and health-care. Deploying deep-learning-based intelligence near the end-user enhances privacy protection, responsiveness, and reliability. Resource-constrained end-devices must be carefully managed in order to meet the latency and energy requirements of computationally-inte nsive deep learning services. Collaborative end-edge-cloud computing for deep learning provides a range of performance and efficiency that can address application requirements through computation offloading. The decision to offload computation is a communication-comput ation co-optimization problem that varies with both system parameters (e.g., network condition) and workload characteristics (e.g., inputs). On the other hand, deep learning model optimization provides another source of tradeoff between latency and model accuracy. An end-to-end decision-making solution that considers such computation-communic ation problem is required to synergistically find the optimal offloading policy and model for deep learning services. To this end, we propose a reinforcement-learni ng-based computation offloading solution that learns optimal offloading policy considering deep learning model selection techniques to minimize response time while providing sufficient accuracy. We demonstrate the effectiveness of our solution for edge devices in an end-edge-cloud system and evaluate with a real-setup implementation using multiple AWS and ARM core configurations. Our solution provides 35% speedup in the average response time compared to the state-of-the-art with less than 0.9% accuracy reduction, demonstrating the promise of our online learning framework for orchestrating DL inference in end-edge-cloud systems.
翻訳日:2022-02-23 15:02:36 公開日:2022-02-21
# 両面市場におけるオフポリティ評価のためのマルチエージェント強化学習フレームワーク

A Multi-Agent Reinforcement Learning Framework for Off-Policy Evaluation in Two-sided Markets ( http://arxiv.org/abs/2202.10574v1 )

ライセンス: Link先を確認
Chengchun Shi, Runzhe Wan, Ge Song, Shikai Luo, Rui Song and Hongtu Zhu(参考訳) ライドシェアリング会社のような両面の市場は、時間や場所の連続的な決定を行う被験者のグループを巻き込むことが多い。 スマートフォンとモノのインターネットの急速な発展により、彼らは人間の輸送環境を大きく変えた。 本稿では,様々な分野の複数の製品(または治療)を時間とともに受け取っているライドシェアリング企業における大規模艦隊管理について考察する。 これらの研究には、政策評価などの主要な技術的課題が生じる。 一 場所と時間の間の干渉を引き起こす空間的・時間的近接性 (ii) 位置の多さは、次元の呪いをもたらす。 両課題を同時に解決するために,政策評価を行うためのマルチエージェント強化学習(MARL)フレームワークを導入する。 状態-作用空間の高次元性にも拘わらず, 異なる積の平均結果に対する新しい推定器を提案する。 提案する推定器はシミュレーション実験で好適に機能する。 さらに,二面市場企業から得られた実データを用いて,助成方針の異なる適用効果を評価する手法について紹介する。 提案するメソッドのpython実装は、https://github.com/r unzhestat/causalmarl で利用可能である。

The two-sided markets such as ride-sharing companies often involve a group of subjects who are making sequential decisions across time and/or location. With the rapid development of smart phones and internet of things, they have substantially transformed the transportation landscape of human beings. In this paper we consider large-scale fleet management in ride-sharing companies that involve multiple units in different areas receiving sequences of products (or treatments) over time. Major technical challenges, such as policy evaluation, arise in those studies because (i) spatial and temporal proximities induce interference between locations and times; and (ii) the large number of locations results in the curse of dimensionality. To address both challenges simultaneously, we introduce a multi-agent reinforcement learning (MARL) framework for carrying policy evaluation in these studies. We propose novel estimators for mean outcomes under different products that are consistent despite the high-dimensionality of state-action space. The proposed estimator works favorably in simulation experiments. We further illustrate our method using a real dataset obtained from a two-sided marketplace company to evaluate the effects of applying different subsidizing policies. A Python implementation of the proposed method is available at https://github.com/R unzheStat/CausalMARL .
翻訳日:2022-02-23 14:58:24 公開日:2022-02-21
# MSTGD:指数収束率を持つ記憶確率sTratified Gradient Descent法

MSTGD:A Memory Stochastic sTratified Gradient Descent Method with an Exponential Convergence Rate ( http://arxiv.org/abs/2202.10923v1 )

ライセンス: Link先を確認
Aixiang (Andy) Chen, Jinting Zhang, Zanbo Zhang, Zhihong Li(参考訳) 逐次繰り返しのパラメータ更新による勾配予測と分散の変動効果は、現在の主流勾配最適化アルゴリズムによって無視または混乱されるが、この揺らぎ効果と成層化サンプリング戦略を組み合わせることで、指数収束率を持つ新しい勾配デセンド(\underline{MST}GD)アルゴリズムを設計する。 特に、mstgdは分散低減のための2つの戦略を用いる:第1の戦略は、反復前後のサンプル勾配の平均および分散から推定される使用済み履歴勾配の比率pに応じて分散低減を行うことであり、他の戦略はカテゴリごとに階層化サンプリングされる。 この2つの戦略の下で設計された統計量 \$\bar{g}_{mst}$\ は適応的に偏りがなく、その分散は幾何学的速度で減衰する。 これにより、$\bar{G}_{mst}$ に基づいた MSTGD は $\lambda^{2(k-k_0)}$($\lambda\in (0,1)$,k という形の指数収束率を得ることができ、$\lambda$ は比例 p に関連する変数である。 指数収束率を達成したと主張する他のほとんどのアルゴリズムとは異なり、収束速度はデータセットサイズN、バッチサイズnなどのパラメータとは独立であり、一定のステップサイズで達成できる。

The fluctuation effect of gradient expectation and variance caused by parameter update between consecutive iterations is neglected or confusing by current mainstream gradient optimization algorithms.Using this fluctuation effect, combined with the stratified sampling strategy, this paper designs a novel \underline{M}emory \underline{S}tochastic s\underline{T}ratified Gradient Descend(\underline{MST}GD) algorithm with an exponential convergence rate. Specifically, MSTGD uses two strategies for variance reduction: the first strategy is to perform variance reduction according to the proportion p of used historical gradient, which is estimated from the mean and variance of sample gradients before and after iteration, and the other strategy is stratified sampling by category. The statistic \ $\bar{G}_{mst}$\ designed under these two strategies can be adaptively unbiased, and its variance decays at a geometric rate. This enables MSTGD based on $\bar{G}_{mst}$ to obtain an exponential convergence rate of the form $\lambda^{2(k-k_0)}$($\lambda\in (0,1)$,k is the number of iteration steps,$\lambda$ is a variable related to proportion p).Unlike most other algorithms that claim to achieve an exponential convergence rate, the convergence rate is independent of parameters such as dataset size N, batch size n, etc., and can be achieved at a constant step size.Theoretical and experimental results show the effectiveness of MSTGD
翻訳日:2022-02-23 14:55:52 公開日:2022-02-21
# ネットワークプルーニングと知識蒸留のための新しい構造スリム化法

A Novel Architecture Slimming Method for Network Pruning and Knowledge Distillation ( http://arxiv.org/abs/2202.10461v1 )

ライセンス: Link先を確認
Dongqi Wang and Shengyu Zhang and Zhipeng Di and Xin Lin and Weihua Zhou and Fei Wu(参考訳) ネットワークプルーニングと知識蒸留は、計算コストとモデルサイズを効率的に削減する2つの一般的なモデル圧縮手法である。 プルーニングと蒸留の両方の一般的な問題は、圧縮されたアーキテクチャ、すなわち、オリジナルのモデルのキャパシティのほとんどを維持するために、層ごとのフィルタの正確な数と層構成を決定することである。 既存の作品の大きな進歩にもかかわらず、優れたアーキテクチャの決定には人間の干渉や膨大な実験が必要である。 本稿では,レイヤ構成プロセスを自動化するアーキテクチャスリム化手法を提案する。 オーバパラメータ化モデルのキャパシティは、層ごとのパラメータ分散を最大に保ったフィルタの最小個を求めることで、ほぼ保存できるという観点から始める。 圧縮アーキテクチャの決定を一段階直交線形変換として定式化し、最初の数回の射影におけるフィルタの分散を最大化する原理成分分析(pca)を統合する。 本研究は,本解析の合理性と提案手法の有効性を広範な実験により実証する。 特に, 全体的な圧縮速度において, 本手法で決定される圧縮アーキテクチャは, プルーニングおよび蒸留後のベースラインに対して有意な性能向上を示した。 驚くべきことに、結果として生じる層ワイド圧縮速度は、既存の研究で見いだされた層感度に対応している。

Network pruning and knowledge distillation are two widely-known model compression methods that efficiently reduce computation cost and model size. A common problem in both pruning and distillation is to determine compressed architecture, i.e., the exact number of filters per layer and layer configuration, in order to preserve most of the original model capacity. In spite of the great advances in existing works, the determination of an excellent architecture still requires human interference or tremendous experimentations. In this paper, we propose an architecture slimming method that automates the layer configuration process. We start from the perspective that the capacity of the over-parameterized model can be largely preserved by finding the minimum number of filters preserving the maximum parameter variance per layer, resulting in a thin architecture. We formulate the determination of compressed architecture as a one-step orthogonal linear transformation, and integrate principle component analysis (PCA), where the variances of filters in the first several projections are maximized. We demonstrate the rationality of our analysis and the effectiveness of the proposed method through extensive experiments. In particular, we show that under the same overall compression rate, the compressed architecture determined by our method shows significant performance gain over baselines after pruning and distillation. Surprisingly, we find that the resulting layer-wise compression rates correspond to the layer sensitivities found by existing works through tremendous experimentations.
翻訳日:2022-02-23 14:55:23 公開日:2022-02-21
# ダイナミック・アウェア・インプシブ・ジェネリック・ジェネラル・ネットワークによる映像生成

Generating Videos with Dynamics-aware Implicit Generative Adversarial Networks ( http://arxiv.org/abs/2202.10571v1 )

ライセンス: Link先を確認
Sihyun Yu, Jihoon Tack, Sangwoo Mo, Hyunsu Kim, Junho Kim, Jung-Woo Ha, Jinwoo Shin(参考訳) ディープラーニングの時代においては、ビデオの時空間的複雑さと連続性のために、高品質の長いビデオ生成は依然として困難である。 既存の先行研究では、動画をrgb値の3dグリッドとして表現することで、ビデオ配信のモデル化を試みた。 本稿では,連続信号をパラメータ化されたニューラルネットワークにエンコードする最近登場した暗黙的ニューラルネットワーク(inrs)のパラダイムが,この問題を効果的に緩和することを示す。 ビデオのINRを利用して、ビデオ生成のための新しい生成逆ネットワークDIGAN(Dynamics-aware implicit generative adversarial Network)を提案する。 具体的には (a)空間と時間座標を別々に操作して運動ダイナミクスを向上させるinrベースのビデオジェネレータ b) 長いフレーム列全体を観察することなく、不自然な動きを効率的に識別する動き判別器。 各種データセットにおけるDIGANの優位性を示すとともに、長大なビデオ合成、ビデオ外挿、非自己回帰ビデオ生成など、複数の興味深い特性を示す。 例えば、DIGANは以前のUCF-101のFVDスコアを30.7%改善し、128x128解像度の128フレームのビデオでトレーニングすることができる。

In the deep learning era, long video generation of high-quality still remains challenging due to the spatio-temporal complexity and continuity of videos. Existing prior works have attempted to model video distribution by representing videos as 3D grids of RGB values, which impedes the scale of generated videos and neglects continuous dynamics. In this paper, we found that the recent emerging paradigm of implicit neural representations (INRs) that encodes a continuous signal into a parameterized neural network effectively mitigates the issue. By utilizing INRs of video, we propose dynamics-aware implicit generative adversarial network (DIGAN), a novel generative adversarial network for video generation. Specifically, we introduce (a) an INR-based video generator that improves the motion dynamics by manipulating the space and time coordinates differently and (b) a motion discriminator that efficiently identifies the unnatural motions without observing the entire long frame sequences. We demonstrate the superiority of DIGAN under various datasets, along with multiple intriguing properties, e.g., long video synthesis, video extrapolation, and non-autoregressive video generation. For example, DIGAN improves the previous state-of-the-art FVD score on UCF-101 by 30.7% and can be trained on 128 frame videos of 128x128 resolution, 80 frames longer than the 48 frames of the previous state-of-the-art method.
翻訳日:2022-02-23 14:55:02 公開日:2022-02-21
# ラクダ:画像キャプションのための平均教師学習

CaMEL: Mean Teacher Learning for Image Captioning ( http://arxiv.org/abs/2202.10492v1 )

ライセンス: Link先を確認
Manuele Barraco, Matteo Stefanini, Marcella Cornia, Silvia Cascianelli, Lorenzo Baraldi, Rita Cucchiara(参考訳) 自然言語で画像を記述することは、視覚とテキストのモダリティ間の接続を自動的にモデリングするための基本的なステップである。 本稿では,画像キャプションのためのトランスフォーマーアーキテクチャであるCaMELを提案する。 提案手法は,訓練期間中に相互に学習する2つの相互接続型言語モデルの相互作用を利用する。 2つの言語モデル間の相互作用は、知識蒸留による平均的な教師学習パラダイムに従う。 実験により,COCOデータセットと異なる視覚的特徴抽出器を用いて提案手法の有効性を評価する。 既存の提案と比較すると,本モデルでは,パラメータ数を大幅に削減した,最先端のキャプション品質を提供する。 CIDErメトリックによると、外部データを使用しずにトレーニングを行う際に、COCOに関する新たな技術状態を得る。 ソースコードとトレーニングされたモデルは、https://github.com/a imagelab/camel.comで公開されている。

Describing images in natural language is a fundamental step towards the automatic modeling of connections between the visual and textual modalities. In this paper we present CaMEL, a novel Transformer-based architecture for image captioning. Our proposed approach leverages the interaction of two interconnected language models that learn from each other during the training phase. The interplay between the two language models follows a mean teacher learning paradigm with knowledge distillation. Experimentally, we assess the effectiveness of the proposed solution on the COCO dataset and in conjunction with different visual feature extractors. When comparing with existing proposals, we demonstrate that our model provides state-of-the-art caption quality with a significantly reduced number of parameters. According to the CIDEr metric, we obtain a new state of the art on COCO when training without using external data. The source code and trained models are publicly available at: https://github.com/a imagelab/camel.
翻訳日:2022-02-23 14:23:57 公開日:2022-02-21
# 半インプシットハイブリッド勾配法と対向ロバストネスへの応用

Semi-Implicit Hybrid Gradient Methods with Application to Adversarial Robustness ( http://arxiv.org/abs/2202.10523v1 )

ライセンス: Link先を確認
Beomsu Kim, Junghoon Seo(参考訳) 自然の入力に知覚不可能な摂動を加えることで構築された敵対的な例は、ディープニューラルネットワーク(DNN)を簡単に騙すことができる。 逆向きに堅牢なDNNを訓練する最も成功した方法の1つは、逆向きトレーニング(AT)アルゴリズムを用いて非凸非凹極小問題を解くことである。 しかし、多くのATアルゴリズムのうち、Dynamic AT (DAT) と You Only Propagate Once (YOPO) のみが定常点への収束を保証する。 本研究では, 半単純ハイブリッド勾配法 (SI-HGs) を用いて, 非凸非凸極小問題の定常点を求める。 SI-HG は$O(1/K)$で、DAT と YOPO の$O(1/K^{1/2})$で改善される。 我々は、SI-HGの実用的な変種を考案し、収束速度と堅牢性の観点から他のATアルゴリズムよりも優れていることを示す。

Adversarial examples, crafted by adding imperceptible perturbations to natural inputs, can easily fool deep neural networks (DNNs). One of the most successful methods for training adversarially robust DNNs is solving a nonconvex-nonconcave minimax problem with an adversarial training (AT) algorithm. However, among the many AT algorithms, only Dynamic AT (DAT) and You Only Propagate Once (YOPO) guarantee convergence to a stationary point. In this work, we generalize the stochastic primal-dual hybrid gradient algorithm to develop semi-implicit hybrid gradient methods (SI-HGs) for finding stationary points of nonconvex-nonconcave minimax problems. SI-HGs have the convergence rate $O(1/K)$, which improves upon the rate $O(1/K^{1/2})$ of DAT and YOPO. We devise a practical variant of SI-HGs, and show that it outperforms other AT algorithms in terms of convergence speed and robustness.
翻訳日:2022-02-23 14:22:25 公開日:2022-02-21
# (参考訳) 予測を再開した非サーベイラントスケジューリング [全文訳有]

Non-Clairvoyant Scheduling with Predictions Revisited ( http://arxiv.org/abs/2202.10199v1 )

ライセンス: CC BY 4.0
Alexander Lindermayr, Nicole Megow(参考訳) 非クレアボイトスケジューリングでは、未処理の未処理条件でジョブをスケジューリングするためのオンライン戦略を見つけ、総(重み付けされた)完了時間を最小化する。 オンラインアルゴリズム設計における予測(信頼できない)を統合した,最近普及した学習型学習環境において,このよく検討された問題を再検討する。 従来の作業では,処理要求に対する予測が用いられていたが,未知の入力の一部ではなく,アルゴリズム的な動作を予測できるような,ジョブの相対的な順序の予測モデルが提案されている。 これらの予測には所望の特性があり、自然な誤差測定と強力な性能保証を持つアルゴリズムを認め、理論と実践の両方で学習可能であることを示す。 Kumarらによるセミナー論文(NeurIPS'18)で提案されたアルゴリズムの枠組みを一般化し、重み付けされたジョブと無関係なマシンに対する最初の学習強化スケジューリング結果を示す。 実験では,従来提案していたシングルマシンアルゴリズムと比較して実用性と優れた性能を示す。

In non-clairvoyant scheduling, the task is to find an online strategy for scheduling jobs with a priori unknown processing requirements with the objective to minimize the total (weighted) completion time. We revisit this well-studied problem in a recently popular learning-augmented setting that integrates (untrusted) predictions in online algorithm design. While previous works used predictions on processing requirements, we propose a new prediction model, which provides a relative order of jobs which could be seen as predicting algorithmic actions rather than parts of the unknown input. We show that these predictions have desired properties, admit a natural error measure as well as algorithms with strong performance guarantees and that they are learnable in both, theory and practice. We generalize the algorithmic framework proposed in the seminal paper by Kumar et al. (NeurIPS'18) and present the first learning-augmented scheduling results for weighted jobs and unrelated machines. We demonstrate in empirical experiments the practicability and superior performance compared to the previously suggested single-machine algorithms.
翻訳日:2022-02-23 14:20:38 公開日:2022-02-21
# (参考訳) 単語レベルデータに基づくオフラインテキスト非依存ライタ識別 [全文訳有]

Offline Text-Independent Writer Identification based on word level data ( http://arxiv.org/abs/2202.10207v1 )

ライセンス: CC BY 4.0
Vineet Kumar and Suresh Sundaram(参考訳) 本稿では,個人の手書き入力語画像に基づいて,文書の著者を識別する新しい手法を提案する。 提案手法はテキスト非依存であり、検討中の入力語画像のサイズに制限を課さない。 まず、SIFTアルゴリズムを用いて、様々な抽象レベル(アログラフ、文字、文字の組み合わせを含む)の複数のキーポイントを抽出する。 これらのキーポイントはトレーニングされたcnnネットワークを通過し、畳み込み層に対応する特徴マップを生成する。 しかし、SIFTキーポイントに対応するスケールのため、生成された特徴写像のサイズが異なる場合がある。 この問題に対する緩和として、勾配のヒストグラムを特徴写像に適用して固定表現を生成する。 通常、CNNでは、ネットワークの深さに応じて、各畳み込みブロックのフィルタ数が増加する。 これにより、畳み込み特徴マップ毎にヒストグラム特徴を抽出することにより、計算負荷だけでなく寸法が増大する。 この側面に対処するために,アルゴリズムのトレーニングフェーズにおいて,特定のCNN層の特徴写像の重み付けをエントロピー法を用いて学習する。 本システムの有効性は,CVL と IAM の2つの公開データベース上で実証されている。 得られた結果が,従来の作品と比較して有望であることを実証的に示す。

This paper proposes a novel scheme to identify the authorship of a document based on handwritten input word images of an individual. Our approach is text-independent and does not place any restrictions on the size of the input word images under consideration. To begin with, we employ the SIFT algorithm to extract multiple key points at various levels of abstraction (comprising allograph, character, or combination of characters). These key points are then passed through a trained CNN network to generate feature maps corresponding to a convolution layer. However, owing to the scale corresponding to the SIFT key points, the size of a generated feature map may differ. As an alleviation to this issue, the histogram of gradients is applied on the feature map to produce a fixed representation. Typically, in a CNN, the number of filters of each convolution block increase depending on the depth of the network. Thus, extracting histogram features for each of the convolution feature map increase the dimension as well as the computational load. To address this aspect, we use an entropy-based method to learn the weights of the feature maps of a particular CNN layer during the training phase of our algorithm. The efficacy of our proposed system has been demonstrated on two publicly available databases namely CVL and IAM. We empirically show that the results obtained are promising when compared with previous works.
翻訳日:2022-02-23 13:56:31 公開日:2022-02-21
# (参考訳) 偽ノードアプローチによるマルチモーダル医用画像におけるgibbs効果の低減 [全文訳有]

Reducing the Gibbs effect in multimodal medical imaging by the Fake Nodes Approach ( http://arxiv.org/abs/2202.10325v1 )

ライセンス: CC BY 4.0
Davide Poggiali and Diego Cecchin and Stefano De Marchi(参考訳) 解剖学的に抽出されたセグメンテーションイメージをアンサンプし、共取得機能画像の平均活動を測定することは、マルチモーダル医療画像において一般的な方法である。 このプラクティスでは、機能イメージのオーバーサンプリング時に発生するサンプル関連gibbs効果を回避する。 サイドエフェクトとして、フル解像度の解剖学的セグメンテーションが多くの時間計算や手作業で実行されるため、時間と労力の無駄が生じる。 本稿では,一般的な再サンプリング手法を説明し,連続信号や不連続信号の場合の誤差を報告する。 次に,機能画像オーバーサンプリング時のgibbs効果を低減すべく,画像再サンプリングのための偽ノードスキームを提案する。 この新たなアプローチは、フェイクノードの再サンプリングがより小さなエラーをもたらすことを示す2つの重要な実験において、従来のアプローチと比較される。

It is a common practice in multimodal medical imaging to undersample the anatomically-derived segmentation images to measure the mean activity of a co-acquired functional image. This practice avoids the resampling-related Gibbs effect that would occur in oversampling the functional image. As sides effect, waste of time and efforts are produced since the anatomical segmentation at full resolution is performed in many hours of computations or manual work. In this work we explain the commonly-used resampling methods and give errors bound in the cases of continuous and discontinuous signals. Then we propose a Fake Nodes scheme for image resampling designed to reduce the Gibbs effect when oversampling the functional image. This new approach is compared to the traditional counterpart in two significant experiments, both showing that Fake Nodes resampling gives smaller errors.
翻訳日:2022-02-23 13:08:32 公開日:2022-02-21
# ジョイントIR-Pass変異を用いたカバーガイド型テンソルコンパイラファジリング

Coverage-Guided Tensor Compiler Fuzzing with Joint IR-Pass Mutation ( http://arxiv.org/abs/2202.09947v1 )

ライセンス: Link先を確認
Jiawei Liu, Yuxiang Wei, Sen Yang, Yinlin Deng, Lingming Zhang(参考訳) 過去10年間で、ディープラーニング(DL)システムは、日々の生活を促進するために様々な領域に広く展開されてきた。 一方、DLシステムの正しさ(例えば、本質的な非決定性のため)を保証することは極めて困難であり、DLシステムのバグは深刻な結果をもたらし、人間の生命を脅かす恐れがある。 文献では、その品質が対応するシステムの振る舞いに直接影響するため、dlモデルをテスト、分析、検証するための様々な技術が研究されている。 最近、研究者は、多くのプラットフォームでさまざまなDLモデルを実行するために、各高レベルのDL演算子に対して一般的なバイナリ実装を提供する、基礎となるオペレータレベルのDLライブラリ(TensorFlowやPyTorchなど)をテストする新しいテクニックも提案している。 しかし、高レベルのテンソル計算グラフを高性能バイナリに直接コンパイルし、効率、ポータビリティ、スケーラビリティを向上させることを目的とした、新興テンソルコンパイラの信頼性を目標とする作業はまだ限られている。 本稿では,テンソルコンパイラテストの重要な問題をターゲットにし,広く使用されているTVMテンソルコンパイラのファジリング技術であるTzerを提案する。 Tzerは、高レベルIRの限られた突然変異空間のため、TVMの低レベル中間表現(IR)の変異に焦点を当てている。 より具体的には、Tzerは進化的IR突然変異のカバレッジフィードバックによって誘導される汎用とテンソルコンパイラ特異的変異体の両方を活用する。 以上の結果から,Tzer はテンソルコンパイラテストにおいて既存のファジリング手法を著しく上回り,75% のカバレッジ,50% の有意なテストを行うことができた。 これまでTzerは、TVMの49の既知のバグを検出し、37のバグが確認され、25のバグが修正された(PRマージ)。

In the past decade, Deep Learning (DL) systems have been widely deployed in various domains to facilitate our daily life. Meanwhile, it is extremely challenging to ensure the correctness of DL systems (e.g., due to their intrinsic nondeterminism), and bugs in DL systems can cause serious consequences and may even threaten human lives. In the literature, researchers have explored various techniques to test, analyze, and verify DL models, since their quality directly affects the corresponding system behaviors. Recently, researchers have also proposed novel techniques for testing the underlying operator-level DL libraries (such as TensorFlow and PyTorch), which provide general binary implementations for each high-level DL operator for running various DL models on many platforms. However, there is still limited work targeting the reliability of the emerging tensor compilers, which aim to directly compile high-level tensor computation graphs into high-performance binaries for better efficiency, portability, and scalability. In this paper, we target the important problem of tensor compiler testing, and have proposed Tzer, a practical fuzzing technique for the widely used TVM tensor compiler. Tzer focuses on mutating the low-level Intermediate Representation (IR) for TVM due to the limited mutation space for the high-level IR. More specifically, Tzer leverages both general-purpose and tensor-compiler-spec ific mutators guided by coverage feedback for evolutionary IR mutation; furthermore, Tzer also performs pass mutation in tandem with IR mutation for more effective fuzzing. Our results show that Tzer substantially outperforms existing fuzzing techniques on tensor compiler testing, with 75% higher coverage and 50% more valuable tests than the 2nd-best technique. To date, Tzer has detected 49 previously unknown bugs for TVM, with 37 bugs confirmed and 25 bugs fixed (PR merged).
翻訳日:2022-02-23 12:49:48 公開日:2022-02-21
# 物理層通信におけるディープニューラルネットワークの理論解析

Theoretical Analysis of Deep Neural Networks in Physical Layer Communication ( http://arxiv.org/abs/2202.09954v1 )

ライセンス: Link先を確認
Jun Liu, Haitao Zhao, Dongtang Ma, Kai Mei and Jibo Wei(参考訳) 近年,ディープニューラルネットワーク(DNN)に基づく物理層通信技術が注目されている。 シミュレーション実験により通信システムの向上や高性能化の可能性は検証されているものの,理論解析にはほとんど注目されていない。 具体的には、物理層におけるほとんどの研究は、無線通信問題へのDNNモデルの適用に焦点を当てる傾向にあるが、DNNが通信システムでどのように機能するか理論的には理解しない傾向にある。 本稿では,DNNが従来の手法と比較して物理層で同等の性能を達成できる理由を定量的に分析し,計算複雑性の観点からコスト削減を図ることを目的とする。 この目的を達成するために、まずDNNベースの送信機の符号化性能を分析し、従来のものと比較する。 そして、理論的にDNNに基づく推定器の性能を分析し、従来の推定器と比較する。 第3に,情報理論の概念に基づくDNNベースの通信システムにおいて,情報がどのように流れるかを調査し,検証する。 本研究は,dnnを用いた知的通信技術の設計支援や,説明可能な性能評価を行う上で有効である,物理層通信におけるdnnの「ブラックボックス」を開くための簡潔な方法を開発した。

Recently, deep neural network (DNN)-based physical layer communication techniques have attracted considerable interest. Although their potential to enhance communication systems and superb performance have been validated by simulation experiments, little attention has been paid to the theoretical analysis. Specifically, most studies in the physical layer have tended to focus on the application of DNN models to wireless communication problems but not to theoretically understand how does a DNN work in a communication system. In this paper, we aim to quantitatively analyze why DNNs can achieve comparable performance in the physical layer comparing with traditional techniques, and also drive their cost in terms of computational complexity. To achieve this goal, we first analyze the encoding performance of a DNN-based transmitter and compare it to a traditional one. And then, we theoretically analyze the performance of DNN-based estimator and compare it with traditional estimators. Third, we investigate and validate how information is flown in a DNN-based communication system under the information theoretic concepts. Our analysis develops a concise way to open the "black box" of DNNs in physical layer communication, which can be applied to support the design of DNN-based intelligent communication techniques and help to provide explainable performance assessment.
翻訳日:2022-02-23 12:49:15 公開日:2022-02-21
# ICSML: IEC 61131-3言語でネイティブに実行される産業制御システム機械学習推論フレームワーク

ICSML: Industrial Control Systems Machine Learning inference framework natively executing on IEC 61131-3 languages ( http://arxiv.org/abs/2202.10075v1 )

ライセンス: Link先を確認
Constantine Doumanidis (1), Prashant Hari Narayan Rajput (2), Michail Maniatakos (1) ((1) New York University Abu Dhabi, (2) NYU Tandon School of Engineering)(参考訳) 産業制御システム(ICS)は、第4次産業革命の実現に触媒的役割を果たしてきた。 Programmable Logic Controllers (PLC)のようなICSデバイスは、産業、エネルギー、商業環境における重要なプロセスを自動化、監視、制御する。 従来型の運用技術(ot)と情報技術(it)の融合は、新たなユニークな脅威の展望を開いた。 これは、機械学習(ML)に基づく外部ITハードウェア上で動作する異常検出方法に重点を置く防衛研究に触発された。 この要求を解消するために,我々は,PLC上でMLモデルをネイティブに実行可能にするICSML(ICSML)を導入した。 icsmlはiec 61131-3のコードで実装されており、ドメイン固有言語によって課される制限を回避し、確立されたmlフレームワークに似た方法で完全なmlモデルを作成するための完全なコンポーネントセットを提供する。 次に、トレーニングのための外部フレームワークとPLC実装のためのICSMLを用いて、ICS MLモデルを作成するための完全なエンドツーエンド方法論を示す。 コントリビューションを評価するために、メモリとパフォーマンスを研究する一連のベンチマークを実行し、ソリューションをTFLite推論フレームワークと比較しました。 最後に,icsmlの能力を実証し,その非侵入性を検証するために,多段フラッシュ(msf)脱塩プラントに対するプロセス認識攻撃を実際に防御するケーススタディを開発し,評価する。

Industrial Control Systems (ICS) have played a catalytic role in enabling the 4th Industrial Revolution. ICS devices like Programmable Logic Controllers (PLCs), automate, monitor and control critical processes in industrial, energy and commercial environments. The convergence of traditional Operational Technology (OT) with Information Technology (IT) has opened a new and unique threat landscape. This has inspired defense research that focuses heavily on Machine Learning (ML) based anomaly detection methods that run on external IT hardware which means an increase in costs and the further expansion of the threat landscape. To remove this requirement, we introduce the ICS Machine Learning inference framework (ICSML) which enables the execution of ML models natively on the PLC. ICSML is implemented in IEC 61131-3 code and works around the limitations imposed by the domain-specific languages, providing a complete set of components for the creation of fully fledged ML models in a way similar to established ML frameworks. We then demonstrate a complete end-to-end methodology for creating ICS ML models using an external framework for training and ICSML for the PLC implementation. To evaluate our contributions we run a series of benchmarks studying memory and performance and compare our solution to the TFLite inference framework. Finally, to demonstrate the abilities of ICSML and to verify its non-intrusive nature, we develop and evaluate a case study of a real defense for process aware attacks against a Multi Stage Flash (MSF) desalination plant.
翻訳日:2022-02-23 12:48:53 公開日:2022-02-21
# L3DAS22チャレンジ:リアルオフィス環境で3Dオーディオソースを学習する

L3DAS22 Challenge: Learning 3D Audio Sources in a Real Office Environment ( http://arxiv.org/abs/2202.10372v1 )

ライセンス: Link先を確認
Eric Guizzo, Christian Marinoni, Marco Pennese, Xinlei Ren, Xiguang Zheng, Chen Zhang, Bruno Masiero, Aurelio Uncini, Danilo Comminiello(参考訳) L3DAS22 Challengeは、オフィスのような環境での3D音声強調と3D音像定位と検出のための機械学習戦略の開発を促進することを目的としている。 この課題はL3DAS21エディションのタスクを改善し拡張する。 我々は,L3DAS21データセットの一般的な特徴を維持する新しいデータセットを作成したが,データポイントが拡張され,ベースラインモデルの効率が向上し,以前の課題の参加者が直面する大きな困難を克服する制約が追加された。 タスク1のベースラインモデルを前回のチャレンジ版で最初にランク付けしたアーキテクチャを使って更新した。 新しいサポートAPIを開発し、その明確さと使いやすさを改善しました。 最後に、すべての参加者が提出した結果を提示し、議論する。 L3DAS22 Challenge website: www.l3das.com/icassp 2022

The L3DAS22 Challenge is aimed at encouraging the development of machine learning strategies for 3D speech enhancement and 3D sound localization and detection in office-like environments. This challenge improves and extends the tasks of the L3DAS21 edition. We generated a new dataset, which maintains the same general characteristics of L3DAS21 datasets, but with an extended number of data points and adding constrains that improve the baseline model's efficiency and overcome the major difficulties encountered by the participants of the previous challenge. We updated the baseline model of Task 1, using the architecture that ranked first in the previous challenge edition. We wrote a new supporting API, improving its clarity and ease-of-use. In the end, we present and discuss the results submitted by all participants. L3DAS22 Challenge website: www.l3das.com/icassp 2022.
翻訳日:2022-02-23 12:47:26 公開日:2022-02-21
# einns:疫学的に異常なニューラルネットワーク

EINNs: Epidemiologically-In formed Neural Networks ( http://arxiv.org/abs/2202.10446v1 )

ライセンス: Link先を確認
Alexander Rodr\'iguez, Jiaming Cui, Naren Ramakrishnan, Bijaya Adhikari, B. Aditya Prakash(参考訳) 疫病予測のための新しい物理情報ニューラルネットワークEINNを導入する。 機械モデルが提供する理論的柔軟性と、aiモデルが提供するデータ駆動表現可能性の両方を活用し、異種情報を取り込む方法について検討する。 ニューラル予測モデルは複数のタスクで成功したが、長期的な予測と予測傾向の変化は未解決のままである。 疫学的ODEモデルは、これらの2つのタスクを導くメカニズムを含んでいるが、これらはデータソースを取り込み合成信号をモデル化する能力に制限がある。 そこで本研究では,その隠れたダイナミクスを学習しながら,伝染性機械モデルを用いたニューラルネットワークを監督することを提案する。 本手法により,神経モデルでは疾患の拡散ダイナミクスを学習する柔軟性が得られ,汎用フレームワークで補助機能を利用することができる。 従来の研究とは対照的に、完全力学の可観測性を前提とせず、訓練中にODE方程式を数値的に解く必要はない。 我々の徹底的な実験は、他の非自明な代替手段によるアプローチの明確な利点を示します。

We introduce a new class of physics-informed neural networks-EINN-crafte d for epidemic forecasting. We investigate how to leverage both the theoretical flexibility provided by mechanistic models as well as the data-driven expressability afforded by AI models, to ingest heterogeneous information. Although neural forecasting models has been successful in multiple tasks, long-term predictions and anticipating trend changes remain open challenges. Epidemiological ODE models contain mechanisms that can guide us in these two tasks; however, they have limited capability of ingesting data sources and modeling composite signals. Thus we propose to supervise neural networks with epidemic mechanistic models while simultaneously learning their hidden dynamics. Our method EINN allows neural models have the flexibility to learn the disease spread dynamics and use auxiliary features in a general framework. In contrast with previous work, we not assume the observability of complete dynamics and do not need to numerically solve the ODE equations during training. Our thorough experiments showcase the clear benefits of our approach with other non-trivial alternatives.
翻訳日:2022-02-23 12:47:13 公開日:2022-02-21
# gnn-surrogate:非構造化海洋シミュレーションのパラメータ空間探索のための階層的かつ適応型グラフニューラルネットワーク

GNN-Surrogate: A Hierarchical and Adaptive Graph Neural Network for Parameter Space Exploration of Unstructured-Mesh Ocean Simulations ( http://arxiv.org/abs/2202.08956v2 )

ライセンス: Link先を確認
Neng Shi, Jiayi Xu, Skylar W. Wurster, Hanqi Guo, Jonathan Woodring, Luke P. Van Roekel, and Han-Wei Shen(参考訳) 海洋気候シミュレーションのパラメータ空間を探索するグラフニューラルネットワークに基づく代理モデルであるGNN-Surrogateを提案する。 領域科学者にとってパラメータ空間探索は、入力パラメータ(例えば風応力)がシミュレーション出力(例えば温度)に与える影響を理解することが重要である。 この探索では、計算に高価なシミュレーションを実行することで複雑なパラメータ空間を消耗させる必要がある。 提案手法は,シミュレーション出力を精度よく効率的に予測するサロゲートモデルを用いて,パラメータ空間探索の効率を向上する。 具体的には、GNN-Surrogateは与えられたシミュレーションパラメータで出力フィールドを予測し、シミュレーションパラメータ空間をユーザが指定したビジュアルマッピングから視覚化することで探索することができる。 さらに,グラフに基づく手法は非構造メッシュ用に設計されており,不規則グリッド上でのシミュレーション出力の探索が効率的である。 効率的なトレーニングのために,階層グラフを生成し,適応解法を用いる。 mpas-oceanシミュレーションの定量的・定性評価を行い,gnn-surrogateの有効性と有効性を示す。 ソースコードはhttps://github.com/t rainsn/GNN-Surrogate で公開されている。

We propose GNN-Surrogate, a graph neural network-based surrogate model to explore the parameter space of ocean climate simulations. Parameter space exploration is important for domain scientists to understand the influence of input parameters (e.g., wind stress) on the simulation output (e.g., temperature). The exploration requires scientists to exhaust the complicated parameter space by running a batch of computationally expensive simulations. Our approach improves the efficiency of parameter space exploration with a surrogate model that predicts the simulation outputs accurately and efficiently. Specifically, GNN-Surrogate predicts the output field with given simulation parameters so scientists can explore the simulation parameter space with visualizations from user-specified visual mappings. Moreover, our graph-based techniques are designed for unstructured meshes, making the exploration of simulation outputs on irregular grids efficient. For efficient training, we generate hierarchical graphs and use adaptive resolutions. We give quantitative and qualitative evaluations on the MPAS-Ocean simulation to demonstrate the effectiveness and efficiency of GNN-Surrogate. Source code is publicly available at https://github.com/t rainsn/GNN-Surrogate .
翻訳日:2022-02-23 12:45:21 公開日:2022-02-21
# (参考訳) 画像読解のためのZigzag Flatteningの再考 [全文訳有]

Rethinking the Zigzag Flattening for Image Reading ( http://arxiv.org/abs/2202.10240v1 )

ライセンス: CC BY 4.0
Qingsong Zhao, Zhipeng Zhou, Shuguang Dou, Yangguang Li, Rui Lu, Yin Wang, Cairong Zhao(参考訳) 単語ベクトルのシーケンス順序付けは、自然言語処理 (nlp) で証明されたテキスト読み取りに非常に重要である。 しかし、コンピュータビジョン(CV)における異なるシーケンス順序付けの規則は、例えば、なぜ"zigzag"フラット化(ZF)がビジョントランスフォーマー(ViT)で順序付けされるイメージパッチを得るデフォルトオプションとして一般的に使用されるのか、よく研究されなかった。 特に、マルチスケール画像の分解時に、ZFは特徴点位置の不変性を維持できなかった。 この目的のために,Hilbertフラクタル平坦化法(HF)をCVの配列順序付け法として検討し,ZFと対比する。 HFは次元空間のマルチスケール変換を行う際に、空間的局所性を維持する上で他の曲線よりも優れていることが証明されている。 また、ほとんどのディープニューラルネットワーク(DNN)に簡単に接続できる。 広範な実験によって、さまざまなアーキテクチャに一貫性があり、大幅なパフォーマンス向上をもたらすことが示されている。 最後に、画像読取のフラット化戦略に関するさらなる研究が期待されている。

Sequence ordering of word vector matters a lot to text reading, which has been proven in natural language processing (NLP). However, the rule of different sequence ordering in computer vision (CV) was not well explored, e.g., why the "zigzag" flattening (ZF) is commonly utilized as a default option to get the image patches ordering in vision transformers (ViTs). Notably, when decomposing multi-scale images, the ZF could not maintain the invariance of feature point positions. To this end, we investigate the Hilbert fractal flattening (HF) as another method for sequence ordering in CV and contrast it against ZF. The HF has proven to be superior to other curves in maintaining spatial locality, when performing multi-scale transformations of dimensional space. And it can be easily plugged into most deep neural networks (DNNs). Extensive experiments demonstrate that it can yield consistent and significant performance boosts for a variety of architectures. Finally, we hope that our studies spark further research about the flattening strategy of image reading.
翻訳日:2022-02-23 12:41:58 公開日:2022-02-21
# 月平均海面温度異常予測のための深層学習モデル

A Deep Learning Model for Forecasting Global Monthly Mean Sea Surface Temperature Anomalies ( http://arxiv.org/abs/2202.09967v1 )

ライセンス: Link先を確認
John Taylor and Ming Feng(参考訳) 海面温度(sst)の変動は、地球規模の気象・気候システムにおいて重要な役割を担っており、エルニアン・オ・サザン振動(el ni\~{n}o-southern oscillation)のような現象は、地球規模の気候変動の主要な年次発生源と見なされている。 海面温度異常の長期予測を可能にする能力、特に極端な海洋熱波現象に関連するものは、経済的、社会的利益をもたらす可能性がある。 我々は,ECMWF ERA5月平均海面温度と2m大気温度データに基づいて,70年以上(1950-2021年)の深層学習時系列予測モデル(Unet-LSTM)を開発した。 Unet-LSTMモデルは、2次元の世界海面温度の時間的進化を駆動する基礎物理学を学習することができる。 このモデルは、予測された月ごとに0.75$^\circ$C未満の根平均二乗誤差が残る24カ月間の海面温度を正確に予測する。 また,ni\~{n}o3.4領域の海面温度異常や,過去10年間の海洋熱波ホットスポットを予測できるモデルの可能性についても検討した。 Ni\~{n}o3.4 指数のモデル予測により、強い 2010-11 La Ni\~{n}a, 2009-10 El Nino と 2015-16 extreme El Ni\~{n}o を24ヶ月前に捉えることができる。 また、北東太平洋の海洋熱波であるブロブの長い鉛予測技術も示している。 しかし、インド洋南東部の海洋熱波(ningaloo ni\~{n}o)の予測は限られた技術しか示していない。 これらの結果は,海面温度異常を長距離予測するデータ駆動手法の有意な可能性を示唆している。

Sea surface temperature (SST) variability plays a key role in the global weather and climate system, with phenomena such as El Ni\~{n}o-Southern Oscillation regarded as a major source of interannual climate variability at the global scale. The ability to be able to make long-range forecasts of sea surface temperature anomalies, especially those associated with extreme marine heatwave events, has potentially significant economic and societal benefits. We have developed a deep learning time series prediction model (Unet-LSTM) based on more than 70 years (1950-2021) of ECMWF ERA5 monthly mean sea surface temperature and 2-metre air temperature data. The Unet-LSTM model is able to learn the underlying physics driving the temporal evolution of the 2-dimensional global sea surface temperatures. The model accurately predicts sea surface temperatures over a 24 month period with a root mean square error remaining below 0.75$^\circ$C for all predicted months. We have also investigated the ability of the model to predict sea surface temperature anomalies in the Ni\~{n}o3.4 region, as well as a number of marine heatwave hot spots over the past decade. Model predictions of the Ni\~{n}o3.4 index allow us to capture the strong 2010-11 La Ni\~{n}a, 2009-10 El Nino and the 2015-16 extreme El Ni\~{n}o up to 24 months in advance. It also shows long lead prediction skills for the northeast Pacific marine heatwave, the Blob. However, the prediction of the marine heatwaves in the southeast Indian Ocean, the Ningaloo Ni\~{n}o, shows limited skill. These results indicate the significant potential of data driven methods to yield long-range predictions of sea surface temperature anomalies.
翻訳日:2022-02-23 12:22:09 公開日:2022-02-21
# 低次ハイパーグラフの学習

Learning Low Degree Hypergraphs ( http://arxiv.org/abs/2202.09989v1 )

ライセンス: Link先を確認
Eric Balkanski, Oussama Hanguir, Shatian Wang(参考訳) エッジ検出クエリによるハイパーグラフ学習の問題について検討する。 この問題において、学習者は、隠れたハイパーグラフの頂点のサブセットをクエリし、これらのサブセットがエッジを含むか否かを観察する。 一般に、最大サイズ$d$のエッジを持つハイパーグラフを学ぶには、$\Omega((2m/d)^{d/2})$クエリが必要である。 本稿では,エッジサイズで指数関数的に増加するクエリ複雑性に苦しむことなく学習可能なハイパーグラフの族を特定することを目的とする。 n$頂点を持つ超マッチングと低次近一様ハイパーグラフはpoly$で学習可能であることを示す。 (n)$クエリ。 ハイパーマッチング(最大次数1$のハイパーグラフ)を学ぶには、$o(\log^3)を与える。 n)$o(n \log^5 によるラウンドアルゴリズム n)$クエリ。 この上限を補うために、poly$のアルゴリズムが存在しないことを示す。 (n)$o(\log \log)でハイパーマッチングを学ぶクエリ n) 適応ラウンド$アダプティブラウンド。 最大次数$\Delta$とエッジサイズ比$\rho$のハイパーグラフに対して、$O((2n)^{\rho \Delta+1}\log^2の非適応アルゴリズムを与える。 n)$クエリ。 我々の知る限りでは、これらはpoly$(n,)を用いた最初のアルゴリズムである。 m)超定数サイズのエッジ数を持つ非自明なハイパーグラフの族を学習するためのクエリ複雑性。

We study the problem of learning a hypergraph via edge detecting queries. In this problem, a learner queries subsets of vertices of a hidden hypergraph and observes whether these subsets contain an edge or not. In general, learning a hypergraph with $m$ edges of maximum size $d$ requires $\Omega((2m/d)^{d/2})$ queries. In this paper, we aim to identify families of hypergraphs that can be learned without suffering from a query complexity that grows exponentially in the size of the edges. We show that hypermatchings and low-degree near-uniform hypergraphs with $n$ vertices are learnable with poly$(n)$ queries. For learning hypermatchings (hypergraphs of maximum degree $ 1$), we give an $O(\log^3 n)$-round algorithm with $O(n \log^5 n)$ queries. We complement this upper bound by showing that there are no algorithms with poly$(n)$ queries that learn hypermatchings in $o(\log \log n)$ adaptive rounds. For hypergraphs with maximum degree $\Delta$ and edge size ratio $\rho$, we give a non-adaptive algorithm with $O((2n)^{\rho \Delta+1}\log^2 n)$ queries. To the best of our knowledge, these are the first algorithms with poly$(n, m)$ query complexity for learning non-trivial families of hypergraphs that have a super-constant number of edges of super-constant size.
翻訳日:2022-02-23 12:21:37 公開日:2022-02-21
# より一般化された悪意URL検出モデルを目指して

Toward more generalized Malicious URL Detection Models ( http://arxiv.org/abs/2202.10027v1 )

ライセンス: Link先を確認
YunDa Tsai, Cayon Liow, Yin Sheng Siang, Shou-De Lin(参考訳) 本稿では,悪意のあるurl検出のための機械学習モデルを実施しながら,その性能に重大な影響を及ぼすデータバイアス問題を明らかにする。 我々は,このようなバイアスを解釈可能な機械学習手法を用いて識別する方法を説明し,さらに,分類モデルのトレーニングのための実世界のセキュリティデータには,このようなバイアスが自然に存在すると主張する。 次に,多くのディープラーニングモデルに適用可能な偏りのない学習戦略を提案し,偏りのある特徴から悪影響を緩和する。 このソリューションは、偏りのあるデータから不変な埋め込みを学習するディープニューラルネットワークを訓練するための自己教師付き敵訓練の技術に基づいている。 我々は,提案手法がCNNベースおよびRNNベース両方の検出モデルに対して,より優れた一般化能力をもたらすことを示すため,幅広い実験を行った。

This paper reveals a data bias issue that can severely affect the performance while conducting a machine learning model for malicious URL detection. We describe how such bias can be identified using interpretable machine learning techniques, and further argue that such biases naturally exist in the real world security data for training a classification model. We then propose a debiased training strategy that can be applied to most deep-learning based models to alleviate the negative effects from the biased features. The solution is based on the technique of self-supervised adversarial training to train deep neural networks learning invariant embedding from biased data. We conduct a wide range of experiments to demonstrate that the proposed strategy can lead to significantly better generalization capability for both CNN-based and RNN-based detection models.
翻訳日:2022-02-23 12:21:16 公開日:2022-02-21
# 正確なグラフ分類のためのモデル非依存拡張

Model-Agnostic Augmentation for Accurate Graph Classification ( http://arxiv.org/abs/2202.10107v1 )

ライセンス: Link先を確認
Jaemin Yoo, Sooyeon Shim, and U Kang(参考訳) グラフデータセットが与えられた場合、正確なグラフ分類のためにどのように拡張すればよいのか? グラフ強化は、グラフベースのタスクのパフォーマンス向上に不可欠な戦略であり、Webやソーシャルグラフの分析に広く利用されている。 しかし、グラフ拡張のための以前の作業も a) 対象モデルを拡大の過程に含め、他のタスクへの一般化性を失う、又は b) 信頼できない結果につながる単純なヒューリスティックに依存する。 本研究では,有効拡張のための5つの望ましい特性を紹介する。 次に,グラフ拡張のためのモデル非依存アプローチであるnodesam(ノード分割とマージ)とsubmix(サブグラフ混合)を提案する。 nodesamは、グラフ構造をバランスよく変更して意味変化のリスクを最小限にし、submixは複数のグラフのランダムなサブグラフを混合し、異なるクラスの証拠を組み合わせたリッチなソフトラベルを作成する。 ソーシャルネットワークと分子グラフに関する実験により、NodeSamとSubMixはグラフ分類における既存のアプローチより優れていることが示された。

Given a graph dataset, how can we augment it for accurate graph classification? Graph augmentation is an essential strategy to improve the performance of graph-based tasks, and has been widely utilized for analyzing web and social graphs. However, previous works for graph augmentation either a) involve the target model in the process of augmentation, losing the generalizability to other tasks, or b) rely on simple heuristics that lead to unreliable results. In this work, we introduce five desired properties for effective augmentation. Then, we propose NodeSam (Node Split and Merge) and SubMix (Subgraph Mix), two model-agnostic approaches for graph augmentation that satisfy all desired properties with different motivations. NodeSam makes a balanced change of the graph structure to minimize the risk of semantic change, while SubMix mixes random subgraphs of multiple graphs to create rich soft labels combining the evidence for different classes. Our experiments on social networks and molecular graphs show that NodeSam and SubMix outperform existing approaches in graph classification.
翻訳日:2022-02-23 12:21:04 公開日:2022-02-21
# 局所微分プライバシー下におけるグラフニューラルネットワークの次数保存ランダム化応答

Degree-Preserving Randomized Response for Graph Neural Networks under Local Differential Privacy ( http://arxiv.org/abs/2202.10209v1 )

ライセンス: Link先を確認
Seira Hidano and Takao Murakami(参考訳) グラフニューラルネットワーク(Graph Neural Networks)は,ユーザプライバシを強く保護しつつ,グラフデータのさまざまなタスクにおいて高い精度を提供するために最近研究されている。 特に、最近の研究では、信頼できる第三者がいない強力なプライバシー概念であるLPP(Local Differential Privacy)を用いた属性グラフにおいて、各ユーザの特徴ベクトルを保護するアルゴリズムを提案する。 しかし、このアルゴリズムはソーシャルグラフのエッジ(フレンドシップ)を保護したり、未分散グラフのユーザのプライバシを保護したりしない。 GNNで高い精度を維持しながら、LDPでエッジを強く保護する方法は、依然としてオープンである。 本稿では,gnnにおけるエッジに対するldpを提供するために,dprr(degree-preserv ing randomized response)と呼ばれる新しいldpアルゴリズムを提案する。 我々のDPRRは各ユーザの次数を保存するので、エッジDPを提供しながらグラフ構造を提供する。 技術的には、warnerのrr(randomized response)とstrategic edge samplingを使用し、各ユーザーのサンプリング確率が自動的に調整され、次数情報を保存する。 DPRR はエッジ LDP の次数情報をほぼ保存していることを示す。 我々は、GNNのタスクとしてのグラフ分類に注目し、2つのソーシャルグラフデータセットを用いてDPRRを評価する。 実験の結果,DPRRはワーナーのRRを大きく上回り,適切なプライバシー予算を持つ非プライベートアルゴリズムに近い精度(例えばepsilon=1。

Differentially private GNNs (Graph Neural Networks) have been recently studied to provide high accuracy in various tasks on graph data while strongly protecting user privacy. In particular, a recent study proposes an algorithm to protect each user's feature vector in an attributed graph with LDP (Local Differential Privacy), a strong privacy notion without a trusted third party. However, this algorithm does not protect edges (friendships) in a social graph or protect user privacy in unattributed graphs. It remains open how to strongly protect edges with LDP while keeping high accuracy in GNNs. In this paper, we propose a novel LDP algorithm called the DPRR (Degree-Preserving Randomized Response) to provide LDP for edges in GNNs. Our DPRR preserves each user's degree hence a graph structure while providing edge LDP. Technically, we use Warner's RR (Randomized Response) and strategic edge sampling, where each user's sampling probability is automatically tuned to preserve the degree information. We prove that the DPRR approximately preserves the degree information under edge LDP. We focus on graph classification as a task of GNNs and evaluate the DPRR using two social graph datasets. Our experimental results show that the DPRR significantly outperforms Warner's RR and provides accuracy close to a non-private algorithm with a reasonable privacy budget, e.g., epsilon=1.
翻訳日:2022-02-23 12:20:46 公開日:2022-02-21
# サイバーセキュリティモデル最適化による放射性物質局在の改善

Improving Radioactive Material Localization by Leveraging Cyber-Security Model Optimizations ( http://arxiv.org/abs/2202.10387v1 )

ライセンス: Link先を確認
Ryan Sheatsley, Matthew Durbin, Azaree Lintereur, Patrick McDaniel(参考訳) 公共安全用途における物理空間センサーの主な用途の1つは、安全でない状態(例えば、有毒ガスの放出、空港での兵器、汚染食品)の検出である。 しかしながら、これらのアプリケーションにおける現在の検出方法はコストがかかり、使用が遅く、複雑、変化、あるいは新しい環境で不正確であることが多い。 本稿では,マルウェア検出などのサイバードメインで有効な機械学習手法を用いて,物理的空間検出を効果的に向上させる方法について検討する。 放射性物質の検出と局在化という,重要な応用事例の1つに注目する。 MLに基づくアプローチは、角方向の予測において従来のテーブルベースのアプローチを大きく上回ることを示す。 さらに、開発されたモデルは、放射性物質との距離(実際には参照テーブルが捉えない臨界次元)の近似を含むように拡張することができる。 4つの検出器アレイと8つの検出器アレイで、放射性物質をローカライズする一連の機械学習モデルの特徴としてガンマ線を収集する。 放射線検出に頻繁に使用されるシミュレーションフレームワークと,実験室環境における放射性物質を用いた物理実験を用いて,7つのシナリオを探索する。 提案手法は標準的なテーブルベースの手法よりも優れており,角誤差が37%減少し,2.4%以内の距離を確実に予測できる。 このようにして、サイバー検出の進歩は、公共安全アプリケーションなどにおける検出の強化にかなりの機会をもたらすことを示す。

One of the principal uses of physical-space sensors in public safety applications is the detection of unsafe conditions (e.g., release of poisonous gases, weapons in airports, tainted food). However, current detection methods in these applications are often costly, slow to use, and can be inaccurate in complex, changing, or new environments. In this paper, we explore how machine learning methods used successfully in cyber domains, such as malware detection, can be leveraged to substantially enhance physical space detection. We focus on one important exemplar application--the detection and localization of radioactive materials. We show that the ML-based approaches can significantly exceed traditional table-based approaches in predicting angular direction. Moreover, the developed models can be expanded to include approximations of the distance to radioactive material (a critical dimension that reference tables used in practice do not capture). With four and eight detector arrays, we collect counts of gamma-rays as features for a suite of machine learning models to localize radioactive material. We explore seven unique scenarios via simulation frameworks frequently used for radiation detection and with physical experiments using radioactive material in laboratory environments. We observe that our approach can outperform the standard table-based method, reducing the angular error by 37% and reliably predicting distance within 2.4%. In this way, we show that advances in cyber-detection provide substantial opportunities for enhancing detection in public safety applications and beyond.
翻訳日:2022-02-23 12:20:23 公開日:2022-02-21
# (参考訳) pointscnet:空間充填曲線誘導サンプリングに基づくポイントクラウド構造と相関学習 [全文訳有]

PointSCNet: Point Cloud Structure and Correlation Learning Based on Space Filling Curve-Guided Sampling ( http://arxiv.org/abs/2202.10251v1 )

ライセンス: CC BY 4.0
Xingye Chen, Yiqi Wu, Wenjie Xu, Jin Li, Huaiyi Dong and Yilin Chen(参考訳) 幾何学的構造と対称性、正則配列、ジャンクションなどの内部局所領域関係は、3次元形状を理解するために不可欠である。 本稿では,点雲の幾何構造情報と局所領域相関情報を取得するために,ポイントSCNetと呼ばれる点雲特徴抽出ネットワークを提案する。 PointSCNetは、空間充填曲線誘導サンプリングモジュール、情報融合モジュール、チャネル空間注意モジュールの3つの主要なモジュールで構成されている。 空間充填曲線誘導サンプリングモジュールは、幾何相関を含むサンプル点にZ次曲線符号化を用いる。 情報融合モジュールは、相関テンソルとスキップ接続の集合を用いて、構造と相関情報を融合する。 チャネル空間注意モジュールは、ネットワークを洗練するためにキーポイントと重要な特徴チャネルの表現を強化する。 提案するPointSCNetは形状分類と部分分割タスクに基づいて評価する。 実験の結果,PointSCNetは点雲の構造と相関を効果的に学習し,最先端の手法と同等あるいは同等であることがわかった。

Geometrical structures and the internal local region relationship, such as symmetry, regular array, junction, etc., are essential for understanding a 3D shape. This paper proposes a point cloud feature extraction network named PointSCNet, to capture the geometrical structure information and local region correlation information of a point cloud. The PointSCNet consists of three main modules: the space-filling curve-guided sampling module, the information fusion module, and the channel-spatial attention module. The space-filling curve-guided sampling module uses Z-order curve coding to sample points that contain geometrical correlation. The information fusion module uses a correlation tensor and a set of skip connections to fuse the structure and correlation information. The channel-spatial attention module enhances the representation of key points and crucial feature channels to refine the network. The proposed PointSCNet is evaluated on shape classification and part segmentation tasks. The experimental results demonstrate that the PointSCNet outperforms or is on par with state-of-the-art methods by learning the structure and correlation of point clouds effectively.
翻訳日:2022-02-23 12:17:58 公開日:2022-02-21
# (参考訳) 人工知能に対する毒殺と防御:調査 [全文訳有]

Poisoning Attacks and Defenses on Artificial Intelligence: A Survey ( http://arxiv.org/abs/2202.10276v1 )

ライセンス: CC BY 4.0
Miguel A. Ramirez, Song-Kyoo Kim, Hussam Al Hamadi, Ernesto Damiani, Young-Ji Byon, Tae-Yeon Kim, Chung-Suk Cho and Chan Yeob Yeun(参考訳) 機械学習モデルは、いくつかの分野で広く採用されている。 しかし、最近の研究では、モデルの完全性を損なう可能性のある攻撃によるいくつかの脆弱性が示されており、サイバーセキュリティの観点からの新しい研究機会が提示されている。 この調査は、機械学習(ML)分類器のコンテキストにおけるセキュリティ脆弱性に関する最も関連性の高い情報、具体的には、データ中毒攻撃に対するトレーニング手順に向け、トレーニングフェーズ中にモデルに供給されたデータサンプルを改ざんして、推論フェーズにおけるモデルの精度を低下させるような攻撃のタイプを表現することを目的として実施されている。 この研究は、この種の攻撃に対処する最新の既存の文献に見られる最も関連する洞察と知見をまとめたものだ。 さらに,攻撃者に対する目標モデルに一定のロバスト性を与えることが可能な,検出・緩和機構の実現を約束する防衛手法についても述べる。 実環境下でのMLモデルに対するデータ中毒の影響を比較検討し,定量的および定性的な分析を行った。 本稿では、性能評価基準、必要パラメータ、デプロイメントの複雑さなど、各アプローチの主な特徴について分析する。 さらに,攻撃者および守備者双方が考慮する前提と限界を,可用性,信頼性,プライバシ,説明責任,解釈可能性などの本質的な特性とともに強調する。 最後に,サイバーセキュリティの分野における今後の研究方向への道筋を示す,既存の研究動向を参考にして結論づける。

Machine learning models have been widely adopted in several fields. However, most recent studies have shown several vulnerabilities from attacks with a potential to jeopardize the integrity of the model, presenting a new window of research opportunity in terms of cyber-security. This survey is conducted with a main intention of highlighting the most relevant information related to security vulnerabilities in the context of machine learning (ML) classifiers; more specifically, directed towards training procedures against data poisoning attacks, representing a type of attack that consists of tampering the data samples fed to the model during the training phase, leading to a degradation in the models accuracy during the inference phase. This work compiles the most relevant insights and findings found in the latest existing literatures addressing this type of attacks. Moreover, this paper also covers several defense techniques that promise feasible detection and mitigation mechanisms, capable of conferring a certain level of robustness to a target model against an attacker. A thorough assessment is performed on the reviewed works, comparing the effects of data poisoning on a wide range of ML models in real-world conditions, performing quantitative and qualitative analyses. This paper analyzes the main characteristics for each approach including performance success metrics, required hyperparameters, and deployment complexity. Moreover, this paper emphasizes the underlying assumptions and limitations considered by both attackers and defenders along with their intrinsic properties such as: availability, reliability, privacy, accountability, interpretability, etc. Finally, this paper concludes by making references of some of main existing research trends that provide pathways towards future research directions in the field of cyber-security.
翻訳日:2022-02-23 12:01:56 公開日:2022-02-21
# (参考訳) 多チャンネルバイオメトリック顔提示攻撃検出に関する包括的評価 [全文訳有]

A Comprehensive Evaluation on Multi-channel Biometric Face Presentation Attack Detection ( http://arxiv.org/abs/2202.10286v1 )

ライセンス: CC BY 4.0
Anjith George and David Geissbuhler and Sebastien Marcel(参考訳) プレゼンテーション攻撃に対する脆弱性は、顔認識システムの広範な展開を妨げる重要な問題である。 プレゼンテーションアタック検出(PAD)システムはこの問題に対処しようとするが、一般化の欠如と堅牢性の欠如が大きな問題となっている。 いくつかの研究は、マルチチャネルPADシステムを使用することでこの脆弱性を軽減し、より堅牢なシステムが得られることを示した。 しかし、rgb、近赤外線、短波赤外線、奥行き、熱センサーなどのパッドシステムでは幅広いチャネルが選択できる。 センサの多さはシステムのコストを増加させるため、異なるセンサーの性能を様々な攻撃に対して理解するためには、モダリティを選択する必要がある。 本研究では,PADにおける様々な画像モダリティの有効性を理解するための総合的研究を行う。 2d,3d,部分攻撃の広い範囲を考慮し,14種類のセンシングモダリティで収集したマルチチャネルパッドデータセットを用いて研究を行った。 我々は,画素単位のバイナリ監視を用いたマルチチャネル畳み込みネットワークアーキテクチャを用いた。 このモデルは異なるチャネルの組み合わせ、様々な挑戦的な既知の攻撃プロトコルと未知の攻撃プロトコルで異なる画像品質で評価されている。 結果は興味深い傾向を示し,安全クリティカルなプレゼンテーションアタック検出システムのためのセンサ選択のためのポインタとして機能する。 結果を再現するソースコードとプロトコルは公開されており、この作業を他のアーキテクチャにも拡張することができる。

The vulnerability against presentation attacks is a crucial problem undermining the wide-deployment of face recognition systems. Though presentation attack detection (PAD) systems try to address this problem, the lack of generalization and robustness continues to be a major concern. Several works have shown that using multi-channel PAD systems could alleviate this vulnerability and result in more robust systems. However, there is a wide selection of channels available for a PAD system such as RGB, Near Infrared, Shortwave Infrared, Depth, and Thermal sensors. Having a lot of sensors increases the cost of the system, and therefore an understanding of the performance of different sensors against a wide variety of attacks is necessary while selecting the modalities. In this work, we perform a comprehensive study to understand the effectiveness of various imaging modalities for PAD. The studies are performed on a multi-channel PAD dataset, collected with 14 different sensing modalities considering a wide range of 2D, 3D, and partial attacks. We used the multi-channel convolutional network-based architecture, which uses pixel-wise binary supervision. The model has been evaluated with different combinations of channels, and different image qualities on a variety of challenging known and unknown attack protocols. The results reveal interesting trends and can act as pointers for sensor selection for safety-critical presentation attack detection systems. The source codes and protocols to reproduce the results are made available publicly making it possible to extend this work to other architectures.
翻訳日:2022-02-23 11:34:09 公開日:2022-02-21
# (参考訳) 機械学習における説明可能性--教育的視点

Explainability in Machine Learning: a Pedagogical Perspective ( http://arxiv.org/abs/2202.10335v1 )

ライセンス: CC BY 4.0
Andreas Bueff, Ioannis Papantonis, Auste Simkute, Vaishak Belle(参考訳) 機械学習に説明可能性を統合することの重要性を考えると、現在、これを探求する教育資源が不足している。 具体的には、機械学習で説明可能性の利点をいかに教えるかを説明するためのリソースの必要性を見出した。 機械学習の分野での教育的アプローチは、学生が現実世界で様々なモデルを適用する準備をするのに焦点をあてることが多いが、モデルの意思決定プロセスを説明するために使える様々なテクニックを学生に教えることには、はるかに注意が払われる。 さらに、説明可能性は、データに関する質問によってどの技術が支配されているかを理解するのに役立つ物語構造から恩恵を受けることができる。 我々は,機械学習の学生や研究者によりよい知識を与えるための学習プロセスの構築方法,様々な説明可能性技術の実装方法,結果の解釈方法に関する教育的視点を提供する。 本稿では、さまざまな不透明かつ透明な機械学習モデルの利点と欠点を探求し、特定の説明可能性技術と、説明可能性のためのツールを構築するために使用される様々なフレームワークをいつ利用すべきかを論じる。 具体的課題について論じる中で、学生が特定の機械学習アプリケーションと並行して説明可能性を使うことを学ぶのを助けるために、潜在的課題を構成する方法についても論じる。 コースを修了したデータサイエンスの専門家は、急速に発展している分野の鳥眼図を持ち、機械学習をもっと広く展開する自信を持つだろう。 ここでは, 教育的アプローチを裏付けるエビデンスとして, 最近実施した授業の有効性に関する予備的分析を行った。

Given the importance of integrating of explainability into machine learning, at present, there are a lack of pedagogical resources exploring this. Specifically, we have found a need for resources in explaining how one can teach the advantages of explainability in machine learning. Often pedagogical approaches in the field of machine learning focus on getting students prepared to apply various models in the real world setting, but much less attention is given to teaching students the various techniques one could employ to explain a model's decision-making process. Furthermore, explainability can benefit from a narrative structure that aids one in understanding which techniques are governed by which questions about the data. We provide a pedagogical perspective on how to structure the learning process to better impart knowledge to students and researchers in machine learning, when and how to implement various explainability techniques as well as how to interpret the results. We discuss a system of teaching explainability in machine learning, by exploring the advantages and disadvantages of various opaque and transparent machine learning models, as well as when to utilize specific explainability techniques and the various frameworks used to structure the tools for explainability. Among discussing concrete assignments, we will also discuss ways to structure potential assignments to best help students learn to use explainability as a tool alongside any given machine learning application. Data science professionals completing the course will have a birds-eye view of a rapidly developing area and will be confident to deploy machine learning more widely. A preliminary analysis on the effectiveness of a recently delivered course following the structure presented here is included as evidence supporting our pedagogical approach.
翻訳日:2022-02-23 11:08:27 公開日:2022-02-21
# (参考訳) 対人学習攻撃と対策に関するチュートリアル

A Tutorial on Adversarial Learning Attacks and Countermeasures ( http://arxiv.org/abs/2202.10377v1 )

ライセンス: CC BY 4.0
Cato Pauling, Michael Gimson, Muhammed Qaid, Ahmad Kida and Basel Halak(参考訳) 機械学習アルゴリズムは、トレーニングデータに基づくシステムの数学的モデルを構築するために使用される。 このようなモデルは、明示的にプログラムされることなく、高精度な予測を行うことができる。 これらの技術は、現代のデジタル経済と人工知能のあらゆる分野に多くの応用がある。 さらに重要なことに、これらの手法は、自動運転車やインテリジェント防衛システムなど、急速に多くの安全クリティカルな応用に不可欠である。 しかし、新たな敵対的学習攻撃は深刻なセキュリティ上の脅威となり、こうしたシステムがさらに悪化する。 後者は、回避(検出を避けるためにデータを操作)、中毒(再トレーニングを妨害する悪意のあるトレーニングサンプルの注入)、モデルの盗み(抽出)、推論(トレーニングデータのオーバージェネライゼーション)の4つのタイプに分類される。 この種の攻撃を理解することは、効果的な対策を開発するための重要な第一歩である。 この論文は、敵対的加工学習の原則に関する詳細なチュートリアルを提供し、さまざまな攻撃シナリオを説明し、この上昇する脅威に対する最先端の防御メカニズムに関する深い洞察を提供する。

Machine learning algorithms are used to construct a mathematical model for a system based on training data. Such a model is capable of making highly accurate predictions without being explicitly programmed to do so. These techniques have a great many applications in all areas of the modern digital economy and artificial intelligence. More importantly, these methods are essential for a rapidly increasing number of safety-critical applications such as autonomous vehicles and intelligent defense systems. However, emerging adversarial learning attacks pose a serious security threat that greatly undermines further such systems. The latter are classified into four types, evasion (manipulating data to avoid detection), poisoning (injection malicious training samples to disrupt retraining), model stealing (extraction), and inference (leveraging over-generalization on training data). Understanding this type of attacks is a crucial first step for the development of effective countermeasures. The paper provides a detailed tutorial on the principles of adversarial machining learning, explains the different attack scenarios, and gives an in-depth insight into the state-of-art defense mechanisms against this rising threat .
翻訳日:2022-02-23 11:07:26 公開日:2022-02-21
# (参考訳) MIST GAN:MRIにおけるスタイル転送を用いたモダリティ計算 [全文訳有]

MIST GAN: Modality Imputation Using Style Transfer for MRI ( http://arxiv.org/abs/2202.10396v1 )

ライセンス: CC BY 4.0
Jaya Chandra Raju, Kompella Subha Gayatri, Keerthi Ram, Rajeswaran Rangasami, Rajoo Ramachandran, Mohansankar Sivaprakasam(参考訳) MRIは、効率的な診断と治療計画のために推奨されるすべてのモダリティの生成に多大なコスト、時間、労力を必要とする。 近年のディープラーニング研究の進歩は、生成モデルがスタイル伝達と画像合成の面で大幅に改善したことを示している。 本研究では,既存のMRモードから欠落したMRモダリティを,スタイル転送を用いた計算問題として定式化する。 複数対1のマッピングにより、ターゲット画像を生成する際に、ドメイン固有のスタイルに対応するネットワークをモデル化する。 mrモダリティ内およびmrモダリティ間のスタイル多様性を分析した。 われわれのモデルはBraTS'18データセット上でテストされ、その結果はビジュアルメトリクス、SSIM、PSNRの点で最先端と同等であることがわかった。 2人の専門的放射線技師に評価された結果,本モデルの有効性,拡張性,臨床応用に適していることが示唆された。

MRI entails a great amount of cost, time and effort for the generation of all the modalities that are recommended for efficient diagnosis and treatment planning. Recent advancements in deep learning research show that generative models have achieved substantial improvement in the aspects of style transfer and image synthesis. In this work, we formulate generating the missing MR modality from existing MR modalities as an imputation problem using style transfer. With a multiple-to-one mapping, we model a network that accommodates domain specific styles in generating the target image. We analyse the style diversity both within and across MR modalities. Our model is tested on the BraTS'18 dataset and the results obtained are observed to be on par with the state-of-the-art in terms of visual metrics, SSIM and PSNR. After being evaluated by two expert radiologists, we show that our model is efficient, extendable, and suitable for clinical applications.
翻訳日:2022-02-23 11:06:26 公開日:2022-02-21
# (参考訳) 部分可観測性を考慮したロボット計画のためのシーングラフによる推論 [全文訳有]

Reasoning with Scene Graphs for Robot Planning under Partial Observability ( http://arxiv.org/abs/2202.10432v1 )

ライセンス: CC BY 4.0
Saeid Amiri, Kishan Chandan, Shiqi Zhang(参考訳) ロボットが現在の状態を推定し、同時にアクションを計画する必要があるため、部分的に観察可能な領域でのロボット計画が難しい。 ドメインが多くのオブジェクトを含む場合、オブジェクトとその関係を推論することで、ロボットの計画がさらに困難になる。 本稿では,ロボットが不確実性の下で長期的目標を達成するための視覚的コンテキスト情報で推論できる,SARP(Scene Analysis for Robot Planning)アルゴリズムを提案する。 SARPは、異なる位置から撮影した画像を用いて、シーングラフ、オブジェクトとその関係の因子的表現を構築し、部分的可観測性の下でコンテキスト対応ロボット計画を可能にする。 シミュレーションで複数の3D環境と実際のロボットが収集したデータセットを用いて実験を行った。 標準的なロボット計画法やシーン解析法と比較して、ターゲット探索領域では、SARPはタスク完了時の効率と精度の両方を改善している。 補足資料はhttps://tinyurl.com/ sarp22にある。

Robot planning in partially observable domains is difficult, because a robot needs to estimate the current state and plan actions at the same time. When the domain includes many objects, reasoning about the objects and their relationships makes robot planning even more difficult. In this paper, we develop an algorithm called scene analysis for robot planning (SARP) that enables robots to reason with visual contextual information toward achieving long-term goals under uncertainty. SARP constructs scene graphs, a factored representation of objects and their relations, using images captured from different positions, and reasons with them to enable context-aware robot planning under partial observability. Experiments have been conducted using multiple 3D environments in simulation, and a dataset collected by a real robot. In comparison to standard robot planning and scene analysis methods, in a target search domain, SARP improves both efficiency and accuracy in task completion. Supplementary material can be found at https://tinyurl.com/ sarp22
翻訳日:2022-02-23 10:58:11 公開日:2022-02-21
# HoneyModels: マシンラーニングのHoneypot

HoneyModels: Machine Learning Honeypots ( http://arxiv.org/abs/2202.10309v1 )

ライセンス: Link先を確認
Ahmed Abdou, Ryan Sheatsley, Yohan Beugin, Tyler Shipp, Patrick McDaniel(参考訳) 機械学習は、現在多くのシステムで重要な側面となり、分類と予測タスクで新たなパフォーマンスを提供しているが、この迅速な統合には、予期せぬ新たな脆弱性も伴っている。 これらのシステムを強化するため、敵機械学習の分野では新たな攻撃・防御機構が提案されている。 しかし、これらの防御方法は特定のモデルに対してのみセキュリティを提供し、過度に制限された制約によりスケーラビリティ、計算効率、実用性を欠くため、大きな非対称性が存在する。 さらに、新たに導入された攻撃は、微妙な変更を加えることで防御戦略をバイパスすることができる。 本稿では,ハニーポットにインスパイアされた代替アプローチを用いて,敵を検出する。 我々のアプローチは学習したモデルに埋め込みの透かしを与える。 敵が我々のモデルとのインタラクションを開始すると、攻撃は、この所定のウォーターマーク刺激による敵の例の検出を追加することを奨励されます。 HoneyModelsは、オリジナルの機能を保ちながらニューラルネットワークを攻撃しようとする敵の69.5%を明らかにすることができる。 HoneyModelsは、HoneyModelで検出できるが、相手と区別できない透かし付き対向サンプルの作成を奨励しながら、精度にわずかに影響を及ぼすマシンラーニングを確保するための代替の方向を提供する。

Machine Learning is becoming a pivotal aspect of many systems today, offering newfound performance on classification and prediction tasks, but this rapid integration also comes with new unforeseen vulnerabilities. To harden these systems the ever-growing field of Adversarial Machine Learning has proposed new attack and defense mechanisms. However, a great asymmetry exists as these defensive methods can only provide security to certain models and lack scalability, computational efficiency, and practicality due to overly restrictive constraints. Moreover, newly introduced attacks can easily bypass defensive strategies by making subtle alterations. In this paper, we study an alternate approach inspired by honeypots to detect adversaries. Our approach yields learned models with an embedded watermark. When an adversary initiates an interaction with our model, attacks are encouraged to add this predetermined watermark stimulating detection of adversarial examples. We show that HoneyModels can reveal 69.5% of adversaries attempting to attack a Neural Network while preserving the original functionality of the model. HoneyModels offer an alternate direction to secure Machine Learning that slightly affects the accuracy while encouraging the creation of watermarked adversarial samples detectable by the HoneyModel but indistinguishable from others for the adversary.
翻訳日:2022-02-23 10:34:11 公開日:2022-02-21
# ABO3 ペロブスカイトの成形性予測と機械学習による結晶構造分類

ABO3 Perovskites' Formability Prediction and Crystal Structure Classification using Machine Learning ( http://arxiv.org/abs/2202.10125v1 )

ライセンス: Link先を確認
Minhaj Uddin Ahmad, A.Abdur Rahman Akib, Md. Mohsin Sarker Raihan, Abdullah Bin Shams(参考訳) 再生可能エネルギー源は温暖化対策に非常に興味があるが、太陽光発電(PV)細胞のような有望なエネルギー源は、従来のエネルギー源の代替となるのに十分な効率と安価ではない。 ペロブスカイトはPV材料として高いポテンシャルを持つが、特定の用途に適した材料を設計することは、しばしば長いプロセスである。 本稿では,abo3型ペロブスカイトの形成性を予測し,高い精度で機械学習を用いて結晶構造を分類し,高速なスクリーニングプロセスを提供する。 この研究はソーラーセルの応用を念頭に置いて行われたが、予測フレームワークは他の目的に使えるほど汎用的である。 ペロブスカイトの成形性が予測され、その結晶構造は5倍クロスバリデーション後のランダムフォレストを用いてそれぞれ98.57%と90.53%の精度で分類される。 この機械学習モデルは,素材の特性を事前に把握するための迅速なメカニズムを提供することにより,所望のペロブスカイト構造の開発を加速させる。

Renewable energy sources are of great interest to combat global warming, yet promising sources like photovoltaic (PV) cells are not efficient and cheap enough to act as an alternative to traditional energy sources. Perovskite has high potential as a PV material but engineering the right material for a specific application is often a lengthy process. In this paper, ABO3 type perovskites' formability is predicted and its crystal structure is classified using machine learning with high accuracy, which provides a fast screening process. Although the study was done with solar-cell application in mind, the prediction framework is generic enough to be used for other purposes. Formability of perovskite is predicted and its crystal structure is classified with an accuracy of 98.57% and 90.53% respectively using Random Forest after 5-fold cross-validation. Our machine learning model may aid in the accelerated development of a desired perovskite structure by providing a quick mechanism to get insight into the material's properties in advance.
翻訳日:2022-02-23 10:33:51 公開日:2022-02-21
# CampNet: エンドツーエンド音声編集のためのコンテキスト対応マスク予測

CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech Editing ( http://arxiv.org/abs/2202.09950v1 )

ライセンス: Link先を確認
Tao Wang, Jiangyan Yi, Ruibo Fu, Jianhua Tao, Zhengqi Wen(参考訳) テキストベースの音声エディタは、直感的なカット、コピー、ペースト操作による音声の編集を可能にし、音声の編集プロセスを高速化する。 しかし、現在のシステムの主な欠点は、カットコピー・ペースト操作により、しばしば編集された音声が不自然に聞こえることである。 また、書き起こしに現れない新語に従ってレコードを合成する方法も明確ではない。 本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。 モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。 編集領域における不自然な韻律を解き、原稿中の見当たらない単語に対応する音声を合成することができる。 第2に,テキストベースの音声編集を実現するために,campnetに基づく3つのテキストベースの操作(削除,挿入,置換)を設計する。 これらの操作は、音声編集の様々な状況をカバーすることができる。 第3に,挿入・置換操作における長文に対応する音声を合成するために,単語レベルの自己回帰生成手法を提案する。 第4に,campnetに1文のみを用いた話者適応法を提案し,campnetに基づく少数発学習の能力について検討する。 VCTKとLibriTTSデータセットの主観的および客観的実験は、CampNetに基づく音声編集結果がTS技術、手動編集、VoCo法よりも優れていることを示している。 また、CampNet構造が性能に与える影響について詳細なアブレーション実験を行った。 最後に, 1文のみの話者適応により, 音声の自然性がさらに向上することを示す。 生成された音声の例は https://hairuo55.git hub.io/CampNet にある。

The text-based speech editor allows the editing of speech through intuitive cutting, copying, and pasting operations to speed up the process of editing speech. However, the major drawback of current systems is that edited speech often sounds unnatural due to cut-copy-paste operation. In addition, it is not obvious how to synthesize records according to a new word not appearing in the transcript. This paper proposes a novel end-to-end text-based speech editing method called context-aware mask prediction network (CampNet). The model can simulate the text-based speech editing process by randomly masking part of speech and then predicting the masked region by sensing the speech context. It can solve unnatural prosody in the edited region and synthesize the speech corresponding to the unseen words in the transcript. Secondly, for the possible operation of text-based speech editing, we design three text-based operations based on CampNet: deletion, insertion, and replacement. These operations can cover various situations of speech editing. Thirdly, to synthesize the speech corresponding to long text in insertion and replacement operations, a word-level autoregressive generation method is proposed. Fourthly, we propose a speaker adaptation method using only one sentence for CampNet and explore the ability of few-shot learning based on CampNet, which provides a new idea for speech forgery tasks. The subjective and objective experiments on VCTK and LibriTTS datasets show that the speech editing results based on CampNet are better than TTS technology, manual editing, and VoCo method. We also conduct detailed ablation experiments to explore the effect of the CampNet structure on its performance. Finally, the experiment shows that speaker adaptation with only one sentence can further improve the naturalness of speech. Examples of generated speech can be found at https://hairuo55.git hub.io/CampNet.
翻訳日:2022-02-23 10:33:30 公開日:2022-02-21
# 測地線量子ウォーク

Geodesic Quantum Walks ( http://arxiv.org/abs/2202.10235v1 )

ライセンス: Link先を確認
Giuseppe Di Molfetta and Victor Deng(参考訳) 任意の三角測量を伝播できる離散時空量子ウォークの新たなファミリーを提案する。 さらに、与えられた三角形の連続局所変形と量子ウォーカーを導く局所ユニタリの非均一性をリンクして、~\cite{arrighi2019curved} で導入された双対性原理を拡張し、一般化する。 形式的連続極限において、空間と時間の両方において、この新しい量子ウォークの族は曲線多様体上の (1+2) 次元マスレスディラック方程式に収束することを示した。 この結果は、フラーレン分子や動的因果三角測量のような離散曲面構造上での量子輸送のモデリング/シミュレーションと、曲面空間最適化法の文脈における高速かつ効率的な最適化問題の両方に関連があると信じている。

We propose a new family of discrete-spacetime quantum walks capable to propagate on any arbitrary triangulations. Moreover we also extend and generalise the duality principle introduced in~\cite{arrighi2019curved}, linking continuous local deformations of a given triangulation and the inhomogeneity of the local unitaries that guide the quantum walker. We proved that in the formal continuous limit, in both space and time, this new family of quantum walks converges to the (1+2)D massless Dirac equation on curved manifolds. We believe that this result has relevance in both modelling/simulating quantum transport on discrete curved structures, such as fullerene molecules or dynamical causal triangulation, and in addressing fast and efficient optimization problems in the context of the curved space optimization methods.
翻訳日:2022-02-23 10:33:02 公開日:2022-02-21
# 群集区間における自律ナビゲーションのためのマルチタスク条件模擬学習

Multi-Task Conditional Imitation Learning for Autonomous Navigation at Crowded Intersections ( http://arxiv.org/abs/2202.10124v1 )

ライセンス: Link先を確認
Zeyu Zhu, Huijing Zhao(参考訳) 近年, 自律走行制御のための深層模倣学習に多大な努力が注がれており, 生の感覚入力を直接制御行動にマッピングしている。 しかし、密集した交差点を航行することは、不確実な交通参加者による不確実性のため、依然として困難な課題である。 歩行者との対話を必要とする混雑した交差点での自律ナビゲーションに注力する。 横方向と縦方向の両方の制御タスクを安全かつ効率的なインタラクションに適応させるために,マルチタスク条件付き模倣学習フレームワークを提案する。 intersectnavと呼ばれる新しいベンチマークを開発し、人間のデモを提供する。 実験の結果,提案手法は最先端技術と比較して最大30%の成功率を得ることができた。

In recent years, great efforts have been devoted to deep imitation learning for autonomous driving control, where raw sensory inputs are directly mapped to control actions. However, navigating through densely populated intersections remains a challenging task due to uncertainty caused by uncertain traffic participants. We focus on autonomous navigation at crowded intersections that require interaction with pedestrians. A multi-task conditional imitation learning framework is proposed to adapt both lateral and longitudinal control tasks for safe and efficient interaction. A new benchmark called IntersectNav is developed and human demonstrations are provided. Empirical results show that the proposed method can achieve a success rate gain of up to 30% compared to the state-of-the-art.
翻訳日:2022-02-23 10:26:10 公開日:2022-02-21
# OG-SGG:オントロジーガイドによるシーングラフ生成 テレプレゼンスロボットにおけるトランスファー学習の事例研究

OG-SGG: Ontology-Guided Scene Graph Generation. A Case Study in Transfer Learning for Telepresence Robotics ( http://arxiv.org/abs/2202.10201v1 )

ライセンス: Link先を確認
Fernando Amodeo, Fernando Caballero, Natalia D\'iaz-Rodr\'iguez, Luis Merino(参考訳) 画像からのシーングラフ生成は、世界に関する知識を表現し、視覚質問応答(vqa)のようなタスクで人間とロボットのインタラクションを規制するための主要な方法であるため、ロボティクスのようなアプリケーションにとって非常に興味深いタスクである。 残念なことに、機械学習の対応する領域はまだ初期段階であり、現在提供されているソリューションは具体的な利用シナリオにはあまり特化していない。 具体的には、ドメインの世界に関する既存の"専門家"の知識を考慮に入れておらず、ユースケースのシナリオによって要求される信頼性のレベルを提供するためには、実際にそれが必要であるかもしれません。 本稿では,オントロジー型シーングラフ生成(og-sgg)と呼ばれるフレームワークの初期近似を提案し,既存の機械学習ベースのシーングラフ生成器の性能をオントロジーの形で提供した事前知識を用いて向上させる手法を提案する。

Scene graph generation from images is a task of great interest to applications such as robotics, because graphs are the main way to represent knowledge about the world and regulate human-robot interactions in tasks such as Visual Question Answering (VQA). Unfortunately, its corresponding area of machine learning is still relatively in its infancy, and the solutions currently offered do not specialize well in concrete usage scenarios. Specifically, they do not take existing "expert" knowledge about the domain world into account; and that might indeed be necessary in order to provide the level of reliability demanded by the use case scenarios. In this paper, we propose an initial approximation to a framework called Ontology-Guided Scene Graph Generation (OG-SGG), that can improve the performance of an existing machine learning based scene graph generator using prior knowledge supplied in the form of an ontology; and we present results evaluated on a specific scenario founded in telepresence robotics.
翻訳日:2022-02-23 10:26:00 公開日:2022-02-21
# RGB-Dに基づくカテゴリー図の評価と形状推定について

On the Evaluation of RGB-D-based Categorical Pose and Shape Estimation ( http://arxiv.org/abs/2202.10346v1 )

ライセンス: Link先を確認
Leonard Bruns, Patric Jensfelt(参考訳) 近年,6次元ポーズの方法や物体の形状推定手法が提案されている。 通常, これらの手法は, 平均精度, チャムファー距離による再現品質の観点から, ポーズ推定の評価を行う。 この作業では、メトリクスやデータセットを含むこの主要な評価プロトコルを批判的に見ます。 我々は、新しいメトリクスセットを提案し、redwoodデータセットに新しいアノテーションを提供し、公正な比較で最先端のメソッドを評価する。 既存の手法は制約のない向きにうまく一般化せず、実際には直立する対象に対して非常に偏りがある。 我々は、よく定義されたメトリクス、メソッド、データセットインターフェースを備えた使いやすさ評価ツールボックスをコントリビュートし、様々な最先端のアプローチ(https://github.com/ roym899/pose_and_sha pe_evaluation を参照)と簡単に比較できる。

Recently, various methods for 6D pose and shape estimation of objects have been proposed. Typically, these methods evaluate their pose estimation in terms of average precision, and reconstruction quality with chamfer distance. In this work we take a critical look at this predominant evaluation protocol including metrics and datasets. We propose a new set of metrics, contribute new annotations for the Redwood dataset and evaluate state-of-the-art methods in a fair comparison. We find that existing methods do not generalize well to unconstrained orientations, and are actually heavily biased towards objects being upright. We contribute an easy-to-use evaluation toolbox with well-defined metrics, method and dataset interfaces, which readily allows evaluation and comparison with various state-of-the-art approaches (see https://github.com/r oym899/pose_and_shap e_evaluation ).
翻訳日:2022-02-23 10:25:43 公開日:2022-02-21
# (参考訳) 相対周波数の統計関係型人工知能:ドメインサイズのモデリングと転送学習への貢献 [全文訳有]

Statistical Relational Artificial Intelligence with Relative Frequencies: A Contribution to Modelling and Transfer Learning across Domain Sizes ( http://arxiv.org/abs/2202.10367v1 )

ライセンス: CC BY 4.0
Felix Weitk\"amper(参考訳) 関係データに対する確率的依存関係をモデル化する場合、ドメイン内の状態の相対周波数に対する依存関係は一般的です。 例えば、流行中の学校閉鎖の可能性は、感染した生徒の閾値を超える割合に依存する可能性がある。 例えば、病気を媒介する蚊の1匹が噛まれる確率は、キャリア蚊の割合に依存する。 現在のアプローチは通常、ドメイン要素自身ではなく、可能な世界上の確率のみを考える。 統計的関係型人工知能に相対周波数を明示的に組み込む2つの形式を導入する。 最初のフォーマリズムであるLifted Bayesian Networks for Conditional Probability Logicは確率データへの独立した依存を表現する。 第2の形式論である関数リフトベイズネットワークは、連続的な依存関係を表現する。 相対周波数を組み込むことはモデリングに有用であるだけでなく、トレーニングやテスト、アプリケーションドメインのサイズが異なる場合の学習問題に対してより厳密なアプローチを提供する。 この目的のために, 2つの形式によって引き起こされる漸近確率分布を, 増大する大きさの領域に表現する。 この表現は、ドメインサイズ全体にわたるスケーリングの振る舞いをよく理解しているため、ランダムにサンプリングされたサブポピュレーションから、大きなドメインのパラメータを一貫した推定に使用できる。

Dependencies on the relative frequency of a state in the domain are common when modelling probabilistic dependencies on relational data. For instance, the likelihood of a school closure during an epidemic might depend on the proportion of infected pupils exceeding a threshold. Often, rather than depending on discrete thresholds, dependencies are continuous: for instance, the likelihood of any one mosquito bite transmitting an illness depends on the proportion of carrier mosquitoes. Current approaches usually only consider probabilities over possible worlds rather than over domain elements themselves. We introduce two formalisms that explicitly incorporate relative frequencies into statistical relational artificial intelligence. The first formalism, Lifted Bayesian Networks for Conditional Probability Logic, expresses discrete dependencies on probabilistic data. The second formalism, Functional Lifted Bayesian Networks, expresses continuous dependencies. Incorporating relative frequencies is not only beneficial to modelling; it also provides a more rigorous approach to learning problems where training and test or application domains have different sizes. To this end, we provide a representation of the asymptotic probability distributions induced by the two formalisms on domains of increasing sizes. Since that representation has well-understood scaling behaviour across domain sizes, it can be used to estimate parameters for a large domain consistently from randomly sampled subpopulations.
翻訳日:2022-02-23 10:22:25 公開日:2022-02-21
# DQMIX:マルチエージェント強化学習における分布的視点

DQMIX: A Distributional Perspective on Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2202.10134v1 )

ライセンス: Link先を確認
Jian Zhao, Mingyu Yang, Xunhan Hu, Wengang Zhou, Houqiang Li(参考訳) 協調的なマルチエージェントタスクでは、エージェントのチームがアクションを取り、チーム報酬を受け取り、次の状態を観察し、環境と共同で対話する。 相互作用の間、環境と報酬の不確実性は必然的に長期的なリターンの確率性を誘導し、エージェントの増加とともにランダム性は悪化する。 しかし、既存の値に基づくマルチエージェント強化学習(MARL)手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化し、そのようなランダム性を無視している。 長期リターンの期待に比べ、分布によるリターンを推定することで確率性を直接モデル化することが好ましい。 このモチベーションにより,分布的観点から新しい価値に基づくmarl法であるdqmixを提案する。 具体的には,各Q値のカテゴリ分布をモデル化する。 これら個別のQ値分布をグローバルなQ値分布に統合するために、分布に関する5つの基本演算に基づく分散混合ネットワークを設計する。 さらに、DQMIXは、グローバルQ値と個別Q値の結合と個別の欲求行動選択の整合性を保証する分布の期待に関して、 \emph{Distributional-Indiv idual-Global-Max} (DIGM) の原理を満たすことを証明している。 DQMIXを検証するために,確率的報酬で行列ゲームを分解する能力を示す。 さらに、StarCraft IIマイクロマネジメントタスクの挑戦的なセットの実験結果から、DQMIXは価値に基づくマルチエージェント強化学習ベースラインを一貫して上回っていることが示された。

In cooperative multi-agent tasks, a team of agents jointly interact with an environment by taking actions, receiving a team reward and observing the next state. During the interactions, the uncertainty of environment and reward will inevitably induce stochasticity in the long-term returns and the randomness can be exacerbated with the increasing number of agents. However, most of the existing value-based multi-agent reinforcement learning (MARL) methods only model the expectations of individual Q-values and global Q-value, ignoring such randomness. Compared to the expectations of the long-term returns, it is more preferable to directly model the stochasticity by estimating the returns through distributions. With this motivation, this work proposes DQMIX, a novel value-based MARL method, from a distributional perspective. Specifically, we model each individual Q-value with a categorical distribution. To integrate these individual Q-value distributions into the global Q-value distribution, we design a distribution mixing network, based on five basic operations on the distribution. We further prove that DQMIX satisfies the \emph{Distributional-Indiv idual-Global-Max} (DIGM) principle with respect to the expectation of distribution, which guarantees the consistency between joint and individual greedy action selections in the global Q-value and individual Q-values. To validate DQMIX, we demonstrate its ability to factorize a matrix game with stochastic rewards. Furthermore, the experimental results on a challenging set of StarCraft II micromanagement tasks show that DQMIX consistently outperforms the value-based multi-agent reinforcement learning baselines.
翻訳日:2022-02-23 09:54:49 公開日:2022-02-21
# 1-WL表現性は(ほとんど)必要なもの

1-WL Expressiveness Is (Almost) All You Need ( http://arxiv.org/abs/2202.10156v1 )

ライセンス: Link先を確認
Markus Zopf(参考訳) グラフ構造化データのための一般的なニューラルネットワークのファミリーであるメッセージパッシングニューラルネットワーク(mpnns)は、より表現力のあるアーキテクチャの開発を動機づけた1次ワイスフェイラー・リーマン(1-wl)グラフ同型テストと同じくらい表現力が高いことが示されている。 本研究では,MPNNや他の標準グラフデータセットのWLモデルにおいて,限定表現性が実際に制限要因であるかどうかを解析する。 興味深いことに、WLの表現性は、ほとんどのデータセットでほぼ全てのグラフを識別するのに十分である。 さらに,分類精度の上限値が100\%に近い場合も少なくないことがわかった。 さらに、単純なWLベースのニューラルネットワークといくつかのMPNNを複数のデータセットに適合させることができる。 要約すると、WL/MPNNの性能は、実際は表現力によって制限されない。

It has been shown that a message passing neural networks (MPNNs), a popular family of neural networks for graph-structured data, are at most as expressive as the first-order Weisfeiler-Leman (1-WL) graph isomorphism test, which has motivated the development of more expressive architectures. In this work, we analyze if the limited expressiveness is actually a limiting factor for MPNNs and other WL-based models in standard graph datasets. Interestingly, we find that the expressiveness of WL is sufficient to identify almost all graphs in most datasets. Moreover, we find that the classification accuracy upper bounds are often close to 100\%. Furthermore, we find that simple WL-based neural networks and several MPNNs can be fitted to several datasets. In sum, we conclude that the performance of WL/MPNNs is not limited by their expressiveness in practice.
翻訳日:2022-02-23 09:54:17 公開日:2022-02-21
# 機械学習を用いた組織全体の知識を活用した複雑なエンゲージメントにおけるリスク管理

Manage risks in complex engagements by leveraging organization-wide knowledge using Machine Learning ( http://arxiv.org/abs/2202.10332v1 )

ライセンス: Link先を確認
Hari Prasad, Akhil Goyal, Shivram Ramasubramanian(参考訳) 組織がプロジェクトの実行を継続的に改善する方法の1つは、過去の経験から学ぶことです。 大きな組織では、異なるアカウントやビジネスユニットがサイロで働き、組織全体の豊富な知識ベースをタップするのは、言うまでもなく簡単です。 組織全体に広がる集合的エクスペリエンスへの容易にアクセスによって、プロジェクトチームとビジネスリーダは、積極的に新たなエンゲージメントのリスクを予測し、管理することができます。 リスクの早期発見とタイムリーな管理が、今日の複雑なエンゲージメントの成功の鍵である。 本稿では,MLOpsの原則を取り入れた機械学習ベースのソリューションについて述べる。

One of the ways for organizations to continuously get better at executing projects is to learn from their past experience. In large organizations, the different accounts and business units often work in silos and tapping the rich knowledge base across the organization is easier said than done. With easy access to the collective experience spread across the organization, project teams and business leaders can proactively anticipate and manage risks in new engagements. Early discovery and timely management of risks is key to success in the complex engagements of today. In this paper, the authors describe a Machine Learning based solution deployed with MLOps principles to solve this problem in an efficient manner.
翻訳日:2022-02-23 09:54:01 公開日:2022-02-21
# CCDD: モデルカウントと一様サンプリングのためのトラクタブル表現

CCDD: A Tractable Representation for Model Counting and Uniform Sampling ( http://arxiv.org/abs/2202.10025v1 )

ライセンス: Link先を確認
Yong Lai, Kuldeep S. Meel, Roland H. C. Yap(参考訳) 知識コンパイルは、コンピュータ科学の様々な領域から生じる幅広いトラクタブルな操作をサポートする対象言語への表現言語のコンパイルに関する懸念である。 トラクタブルなターゲットコンパイル言語は通常、NNFの内部ノードの制限によって達成される。 本稿では,等価リテラルをキャプチャするために結合ノードに新たな制約を導入する新しい表現言語ccddを提案する。 CCDDはモデルカウントと一様サンプリングという2つのキークエリをポリ時間でサポートする。 CNFで表現された命題式をCCDDにコンパイルするアルゴリズムとコンパイラを提案する。 大規模なベンチマークに対する実験では、我々のコンパイル時間は最先端のDNNF、SDD、OBDD[AND]コンパイラよりも小さく表現されている。 本手法をモデルカウントと一様サンプリングに適用し,CNF上のモデルカウンタと一様サンプリング器を開発する。 我々のモデルカウンタは885のインスタンスを解けるのに対し、先行状態は43のインスタンスの改善を表す843のインスタンスのみを解き、統一標本作成者は780のインスタンスを解けるのに対し、先行状態は648のインスタンスのみを解き、132のインスタンスの改善を示す。

Knowledge compilation concerns with the compilation of representation languages to target languages supporting a wide range of tractable operations arising from diverse areas of computer science. Tractable target compilation languages are usually achieved by restrictions on the internal nodes of the NNF. In this paper, we propose a new representation language CCDD, which introduces new restrictions on conjunction nodes to capture equivalent literals. We show that CCDD supports two key queries, model counting and uniform samping, in polytime. We present algorithms and a compiler to compile propositional formulas expressed in CNF into CCDD. Experiments over a large set of benchmarks show that our compilation times are better with smaller representation than state-of-art Decision-DNNF, SDD and OBDD[AND] compilers. We apply our techniques to model counting and uniform sampling, and develop model counter and uniform sampler on CNF. Our empirical evaluation demonstrates the following significant improvements: our model counter can solve 885 instances while the prior state of the art solved only 843 instances, representing an improvement of 43 instances; and our uniform sampler can solve 780 instances while the prior state of the art solved only 648 instances, representing an improvement of 132 instances.
翻訳日:2022-02-23 09:50:38 公開日:2022-02-21
# (参考訳) 実証から行動のソフト制約を学習する [全文訳有]

Learning Behavioral Soft Constraints from Demonstrations ( http://arxiv.org/abs/2202.10407v1 )

ライセンス: CC BY 4.0
Arie Glazier, Andrea Loreggia, Nicholas Mattei, Taher Rahgooy, Francesca Rossi, Brent Venable(参考訳) 現実のシナリオの多くは、人間が難しいトレードオフをしなければならない。私たちは常にすべての交通規則に従うのか、緊急時の速度制限に違反しているのか? これらのシナリオは、集合的なルールと規範の間のトレードオフを、私たち自身の目的と欲求で評価させます。 効果的なAI-ヒューマンチームを作るには、暗黙的で明示的なルールや制約がある場合、複雑な環境でAIエージェントがこれらのトレードオフを行う方法のモデルを用意しなければなりません。 これらのモデルを備えたエージェントは、人間の行動を反映したり、意思決定を改善するような状況に人間の注意を引くことができる。 そこで本研究では,マルコフ決定過程(MDPs)をモデル化した決定論的および非決定論的環境における実演から,状態,行動,状態に関する暗黙的な厳密かつソフトな制約を学習するための,新しい逆強化学習法であるMax Entropy Inverse Soft Constraint IRL(MESC-IRL)を提案する。 本手法は,エージェント設計者による明示的なモデリングを必要とせず,人的制約や欲求を暗黙的に学習することを可能にする。 本手法は, 決定論的制約のみを考慮した先行作業の一般化と, 技術性能の向上を実現する。

Many real-life scenarios require humans to make difficult trade-offs: do we always follow all the traffic rules or do we violate the speed limit in an emergency? These scenarios force us to evaluate the trade-off between collective rules and norms with our own personal objectives and desires. To create effective AI-human teams, we must equip AI agents with a model of how humans make these trade-offs in complex environments when there are implicit and explicit rules and constraints. Agent equipped with these models will be able to mirror human behavior and/or to draw human attention to situations where decision making could be improved. To this end, we propose a novel inverse reinforcement learning (IRL) method: Max Entropy Inverse Soft Constraint IRL (MESC-IRL), for learning implicit hard and soft constraints over states, actions, and state features from demonstrations in deterministic and non-deterministic environments modeled as Markov Decision Processes (MDPs). Our method enables agents implicitly learn human constraints and desires without the need for explicit modeling by the agent designer and to transfer these constraints between environments. Our novel method generalizes prior work which only considered deterministic hard constraints and achieves state of the art performance.
翻訳日:2022-02-23 09:48:28 公開日:2022-02-21
# ViTAEv2:画像認識のための誘導バイアス探索による視覚変換器

ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond ( http://arxiv.org/abs/2202.10108v1 )

ライセンス: Link先を確認
Qiming Zhang, Yufei Xu, Jing Zhang, Dacheng Tao(参考訳) 視覚トランスフォーマーは、自己着脱機構を用いて長距離依存をモデル化する能力が強かったため、様々なコンピュータビジョンタスクにおいて大きな可能性を秘めている。 それでも彼らは、画像を視覚トークンの1次元シーケンスとして扱い、局所的な視覚構造をモデル化し、スケールの分散を扱うために固有の誘導バイアス(IB)を欠いている。 本稿では,内在性IBを畳み込みから探索する視覚変換器,すなわちViTAEを提案する。 技術的には、ViTAEは複数の空間ピラミッド還元モジュールを持ち、異なるダイレーションレートの複数の畳み込みを用いて入力画像をリッチなマルチスケールコンテキストのトークンに埋め込む。 このようにして、本質的なスケール不変IBを取得し、様々なスケールでオブジェクトのロバストな特徴表現を学習することができる。 さらに、各トランス層において、ViTAEはマルチヘッド自己保持モジュールに平行な畳み込みブロックを持ち、その特徴を融合してフィードフォワードネットワークに供給する。 そのため、固有の局所性ibを持ち、ローカル機能とグローバルな依存関係を協調的に学習することができる。 提案する2種類の細胞は等方性と多段階性の両方で積み重ねられ、ヴィタエモデルの2つのファミリー、すなわちバニラヴィタエとヴィタエフ2を定式化している。 ImageNetデータセットと、MS COCO、ADE20K、AP10Kデータセットの下流タスクの実験は、ベースライントランスフォーマーモデルとコンカレントワークよりもモデルの優位性を検証する。 さらに、VTAEモデルを644Mパラメータにスケールアップし、最先端の分類性能、すなわち、ImageNet検証セットで88.5%のTop-1分類精度、ImageNet実検証セットで91.2%のTop-1精度を得る。

Vision transformers have shown great potential in various computer vision tasks owing to their strong capability to model long-range dependency using the self-attention mechanism. Nevertheless, they treat an image as a 1D sequence of visual tokens, lacking an intrinsic inductive bias (IB) in modeling local visual structures and dealing with scale variance, which is instead learned implicitly from large-scale training data with longer training schedules. In this paper, we propose a Vision Transformer Advanced by Exploring intrinsic IB from convolutions, i.e., ViTAE. Technically, ViTAE has several spatial pyramid reduction modules to downsample and embed the input image into tokens with rich multi-scale context using multiple convolutions with different dilation rates. In this way, it acquires an intrinsic scale invariance IB and can learn robust feature representation for objects at various scales. Moreover, in each transformer layer, ViTAE has a convolution block parallel to the multi-head self-attention module, whose features are fused and fed into the feed-forward network. Consequently, it has the intrinsic locality IB and is able to learn local features and global dependencies collaboratively. The proposed two kinds of cells are stacked in both isotropic and multi-stage manners to formulate two families of ViTAE models, i.e., the vanilla ViTAE and ViTAEv2. Experiments on the ImageNet dataset as well as downstream tasks on the MS COCO, ADE20K, and AP10K datasets validate the superiority of our models over the baseline transformer models and concurrent works. Besides, we scale up our ViTAE model to 644M parameters and obtain the state-of-the-art classification performance, i.e., 88.5% Top-1 classification accuracy on ImageNet validation set and the best 91.2% Top-1 accuracy on ImageNet real validation set, without using extra private data.
翻訳日:2022-02-23 09:32:47 公開日:2022-02-21
# ハイブリッドolconvnetを用いた病理組織像の細胞核分類

Cell nuclei classification in histopathological images using hybrid OLConvNet ( http://arxiv.org/abs/2202.10177v1 )

ライセンス: Link先を確認
Suvidha Tripathi and Satish Kumar Singh(参考訳) がん検出のためのコンピュータ支援組織像解析は、医療領域における大きな研究課題である。 がん診断のための核の自動検出と分類は、細胞核の多様性とデータセットの変動のために、artアルゴリズムの開発に多くの課題を課している。 近年,多くの分類アルゴリズムが複雑なディープラーニングモデルをデータセットに用いている。 しかし、これらの手法のほとんどは厳格であり、そのアーキテクチャ配置は柔軟性と非解釈性に苦しむ。 本稿では,従来のオブジェクト指向機能の解釈性とディープラーニング機能の一般化を,$cnn_{3l}$と呼ばれる浅層畳み込みニューラルネットワーク(cnn)を用いて統合した,ハイブリッドでフレキシブルなディープラーニングアーキテクチャolconvnetを提案する。 cnn_{3l}$はより少ないパラメータのトレーニングでトレーニング時間を短縮し、より深いアルゴリズムによって課される空間制約を取り除く。 F1スコアとAUC(Area Under the Curve)のパフォーマンスパラメータを用いて結果を比較した。 アーキテクチャアプローチの実用性をさらに高めるため,AlexNet,VGG16,VGG19 ,ResNet50,InceptionV 3,DenseNet121といった最先端のディープラーニングアーキテクチャをバックボーンネットワークとしてテストした。 4つのアーキテクチャすべてから分類結果の包括的な分析を行った結果,提案手法が現代の複雑なアルゴリズムよりもうまく機能し,優れた性能を示すことがわかった。

Computer-aided histopathological image analysis for cancer detection is a major research challenge in the medical domain. Automatic detection and classification of nuclei for cancer diagnosis impose a lot of challenges in developing state of the art algorithms due to the heterogeneity of cell nuclei and data set variability. Recently, a multitude of classification algorithms has used complex deep learning models for their dataset. However, most of these methods are rigid and their architectural arrangement suffers from inflexibility and non-interpretability . In this research article, we have proposed a hybrid and flexible deep learning architecture OLConvNet that integrates the interpretability of traditional object-level features and generalization of deep learning features by using a shallower Convolutional Neural Network (CNN) named as $CNN_{3L}$. $CNN_{3L}$ reduces the training time by training fewer parameters and hence eliminating space constraints imposed by deeper algorithms. We used F1-score and multiclass Area Under the Curve (AUC) performance parameters to compare the results. To further strengthen the viability of our architectural approach, we tested our proposed methodology with state of the art deep learning architectures AlexNet, VGG16, VGG19, ResNet50, InceptionV3, and DenseNet121 as backbone networks. After a comprehensive analysis of classification results from all four architectures, we observed that our proposed model works well and perform better than contemporary complex algorithms.
翻訳日:2022-02-23 09:32:12 公開日:2022-02-21
# 顔のスプーフィングに対する複数の説明可能かつ一般化可能な手がかりの学習

Learning Multiple Explainable and Generalizable Cues for Face Anti-spoofing ( http://arxiv.org/abs/2202.10187v1 )

ライセンス: Link先を確認
Ying Bian, Peng Zhang, Jingjing Wang, Chunmao Wang, Shiliang Pu(参考訳) 従来のcnnベースのフェイスアンチスプーフィング手法は、データセット内テストで有望な性能を達成したが、データセット間テストでは一般化が不十分である。 主な理由は、バイナリ監視のみでネットワークを学習し、トレーニングデータセットに過度に適合する任意のキューを学ぶことができるためである。 学習された特徴を説明し、より一般化するために、一部の研究者は補助監督として顔の深さと反射マップを導入した。 しかし、他の多くの一般化可能な手掛かりは、クロスデータセットテストで性能が制限される、対スプーフィングのための未調査である。 そこで本研究では,複数の説明可能かつ一般化可能な手掛かり(megc)を学習する新しい枠組みを提案する。 具体的には、人間の決定の過程に触発されて、主にヒトが用いた4つのキューが補助監督として導入され、副監督に加えて、スプーフ媒体、モワールパターン、反射アーティファクト、顔深度などが含まれる。 余分なラベリングコストを避けるため、これらの補助監視マップを生成するための対応する合成法を提案する。 公開データセットに関する広範囲な実験により,これらの手がかりの有効性が検証され,提案手法により最新性能が得られた。

Although previous CNN based face anti-spoofing methods have achieved promising performance under intra-dataset testing, they suffer from poor generalization under cross-dataset testing. The main reason is that they learn the network with only binary supervision, which may learn arbitrary cues overfitting on the training dataset. To make the learned feature explainable and more generalizable, some researchers introduce facial depth and reflection map as the auxiliary supervision. However, many other generalizable cues are unexplored for face anti-spoofing, which limits their performance under cross-dataset testing. To this end, we propose a novel framework to learn multiple explainable and generalizable cues (MEGC) for face anti-spoofing. Specifically, inspired by the process of human decision, four mainly used cues by humans are introduced as auxiliary supervision including the boundary of spoof medium, moir\'e pattern, reflection artifacts and facial depth in addition to the binary supervision. To avoid extra labelling cost, corresponding synthetic methods are proposed to generate these auxiliary supervision maps. Extensive experiments on public datasets validate the effectiveness of these cues, and state-of-the-art performances are achieved by our proposed method.
翻訳日:2022-02-23 09:31:46 公開日:2022-02-21
# 可変二元化と適応スケール融合による実時間シーンテキスト検出

Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion ( http://arxiv.org/abs/2202.10304v1 )

ライセンス: Link先を確認
Minghui Liao, Zhisheng Zou, Zhaoyi Wan, Cong Yao, Xiang Bai(参考訳) 近年,画素レベルの記述から得られる任意の形状と極端なアスペクト比のテキストインスタンスの検出に優れており,シーンテキスト検出分野において,セグメント化に基づくシーンテキスト検出手法が注目されている。 しかし、既存のセグメンテーションベースのアプローチの大部分は、複雑な後処理アルゴリズムとセグメンテーションモデルのスケールロバスト性に限定されており、後処理アルゴリズムはモデル最適化に分離されるだけでなく、時間も消費し、スケールロバスト性は通常、マルチスケールのフィーチャマップを直接使用することで強化される。 本稿では,後処理における最も重要なステップである二項化処理をセグメンテーションネットワークに統合する,微分可能二項化(DB)モジュールを提案する。 提案したDBモジュールとともに最適化されたセグメンテーションネットワークにより、より正確な結果が得られ、単純なパイプラインによるテキスト検出の精度が向上する。 さらに、異なるスケールの特徴を適応的に融合させることにより、スケール堅牢性を向上させるために、効率的な適応スケール融合(ASF)モジュールを提案する。 提案するdbとasfをセグメンテーションネットワークに組み込むことにより,提案するシーンテキスト検出装置は,5つの標準ベンチマークにおいて,検出精度と速度の両面で,常に最先端の結果が得られる。

Recently, segmentation-based scene text detection methods have drawn extensive attention in the scene text detection field, because of their superiority in detecting the text instances of arbitrary shapes and extreme aspect ratios, profiting from the pixel-level descriptions. However, the vast majority of the existing segmentation-based approaches are limited to their complex post-processing algorithms and the scale robustness of their segmentation models, where the post-processing algorithms are not only isolated to the model optimization but also time-consuming and the scale robustness is usually strengthened by fusing multi-scale feature maps directly. In this paper, we propose a Differentiable Binarization (DB) module that integrates the binarization process, one of the most important steps in the post-processing procedure, into a segmentation network. Optimized along with the proposed DB module, the segmentation network can produce more accurate results, which enhances the accuracy of text detection with a simple pipeline. Furthermore, an efficient Adaptive Scale Fusion (ASF) module is proposed to improve the scale robustness by fusing features of different scales adaptively. By incorporating the proposed DB and ASF with the segmentation network, our proposed scene text detector consistently achieves state-of-the-art results, in terms of both detection accuracy and speed, on five standard benchmarks.
翻訳日:2022-02-23 09:31:22 公開日:2022-02-21
# 光コヒーレンス断層撮影における自己教師付きバルクモーションアーティファクト除去

Self-Supervised Bulk Motion Artifact Removal in Optical Coherence Tomography Angiography ( http://arxiv.org/abs/2202.10360v1 )

ライセンス: Link先を確認
Jiaxiang Ren, Kicheon Park, Yingtian Pan, Haibin Ling(参考訳) 光コヒーレンス断層撮影血管造影(OCTA)は多くのバイオエンジニアリングタスクにおいて重要な画像モダリティである。 しかし、オクタークの画質は、被写体の微小な動きによるバルクモーションアーティファクト(bma)によってしばしば傷つけられ、通常はぼやけた領域に囲まれた明るいストライプとして現れる。 最先端のbma処理ソリューションは、通常、この問題をディープニューラルネットワークアルゴリズムで絵を描くイメージとして扱う。 しかし、これらのソリューションは、非自明なアノテーションを持つ多数のトレーニングサンプルを必要とする。 それでも、このコンテキストベースの塗装モデルは、BMAストライプ領域で運ばれる豊富な構造や外観情報を破棄するため、補正能力に制限がある。 これらの問題に対処するため,本稿では,自己管理型コンテンツ認識型BMA復元モデルを提案する。 まず、勾配に基づく構造情報と外観特徴をbma領域から抽出し、モデルに注入してより多くの接続をキャプチャする。 第二に、容易に収集できる欠陥マスクにより、BMA領域が推論対象であるのに対して、明確な領域のみが訓練対象である自己教師型で訓練される。 構造情報とノイズ画像からの外観特徴を基準として,我々のモデルはより大きなBMAを補正し,より良い可視化結果が得られる。 マスクに欠陥のある2d画像のみが関与するので,より効率的である。 マウス大脳皮質のOCTA実験では,既存の手法が失敗しながら,非常に大きな大きさと不整合強度でほとんどのBMAを補正できることを示した。

Optical coherence tomography angiography (OCTA) is an important imaging modality in many bioengineering tasks. The image quality of OCTA, however, is often hurt by Bulk Motion Artifacts (BMA), which are due to micromotion of subjects and typically appear as bright stripes surrounded by blurred areas. State-of-the-art BMA handling solutions usually treat the problem as an image inpainting one with deep neural network algorithms. These solutions, however, require numerous training samples with nontrivial annotation. Nevertheless, this context-based inpainting model has limited correction capability because it discards the rich structural and appearance information carried in the BMA stripe region. To address these issues, in this paper we propose a self-supervised content-aware BMA recover model. First, the gradient-based structural information and appearance feature are extracted from the BMA area and injected into the model to capture more connectivity. Second, with easily collected defective masks, the model is trained in a self-supervised manner that only the clear areas are for training while the BMA areas for inference. With structural information and appearance feature from noisy image as references, our model could correct larger BMA and produce better visualizing result. Only 2D images with defective masks are involved so our method is more efficient. Experiments on OCTA of mouse cortex demonstrate that our model could correct most BMA with extremely large sizes and inconsistent intensities while existing methods fail.
翻訳日:2022-02-23 09:28:44 公開日:2022-02-21
# 3重コントラスト学習を用いた視覚言語事前学習

Vision-Language Pre-Training with Triple Contrastive Learning ( http://arxiv.org/abs/2202.10401v1 )

ライセンス: Link先を確認
Jinyu Yang, Jiali Duan, Son Tran, Yi Xu, Sampath Chanda, Liqun Chen, Belinda Zeng, Trishul Chilimbi, Junzhou Huang(参考訳) 視覚言語表現学習は、対照的な損失(例えばInfoNCE損失)を通じて画像テキストアライメントの恩恵を受ける。 このアライメント戦略の成功は、画像とその一致したテキスト間の相互情報(MI)を最大化する能力に起因している。 しかし、単にクロスモーダルアライメント(CMA)を実行するだけで、各モダリティ内のデータポテンシャルは無視される。 例えば、CMAベースのモデルは埋め込み空間で画像とテキストのペアを密にマッピングすることができるが、同じモダリティからの類似の入力が近くにあることを保証できない。 この問題は、事前トレーニングデータが騒がしいとさらに悪化する可能性がある。 本稿では,クロスモーダルとイントラモーダルの自己スーパービジョンを併用し,視覚言語事前学習のための3つのコントラスト学習(tcl)を提案する。 cmaの他に、tclは表現学習に補完的なメリットを提供するため、モーダル内コントラスト目標を導入している。 画像およびテキスト入力から局所化および構造情報を利用するため、tclはさらに画像/テキストの局所領域とグローバル要約との間の平均miを最大化する。 私たちの知識を最大限に活用するには、マルチモダリティ表現学習のための局所構造情報を考慮した最初の研究です。 実験により,本手法は,画像テキスト検索や視覚質問応答など,様々な下流視覚言語タスクにおいて,競争力のある手法であることを示す。

Vision-language representation learning largely benefits from image-text alignment through contrastive losses (e.g., InfoNCE loss). The success of this alignment strategy is attributed to its capability in maximizing the mutual information (MI) between an image and its matched text. However, simply performing cross-modal alignment (CMA) ignores data potential within each modality, which may result in degraded representations. For instance, although CMA-based models are able to map image-text pairs close together in the embedding space, they fail to ensure that similar inputs from the same modality stay close by. This problem can get even worse when the pre-training data is noisy. In this paper, we propose triple contrastive learning (TCL) for vision-language pre-training by leveraging both cross-modal and intra-modal self-supervision. Besides CMA, TCL introduces an intra-modal contrastive objective to provide complementary benefits in representation learning. To take advantage of localized and structural information from image and text input, TCL further maximizes the average MI between local regions of image/text and their global summary. To the best of our knowledge, ours is the first work that takes into account local structure information for multi-modality representation learning. Experimental evaluations show that our approach is competitive and achieve the new state of the art on various common down-stream vision-language tasks such as image-text retrieval and visual question answering.
翻訳日:2022-02-23 09:28:19 公開日:2022-02-21
# 意図分類強化のための新しいデータ拡張法とその音声会話データセットへの応用

A new data augmentation method for intent classification enhancement and its application on spoken conversation datasets ( http://arxiv.org/abs/2202.10137v1 )

ライセンス: Link先を確認
Zvi Kons, Aharon Satt, Hong-Kwang Kuo, Samuel Thomas, Boaz Carmeli, Ron Hoory, Brian Kingsbury(参考訳) インテント分類器は仮想エージェントシステムの成功に不可欠である。 これは、ユーザが意図する多くのあいまいな方向でデータがノイズになりうる音声アクティベートシステムにおいて特にそうである。 運用開始前は、これらの分類器は一般に実世界のトレーニングデータに欠けている。 アクティブラーニングは、大量のユーザ入力のラベル付けに使用される一般的なアプローチである。 しかし、このアプローチには多くの手動ラベリング作業が必要である。 本稿では,データの自動選択とラベル付けのためのnearnes score improvement (nnsi)アルゴリズムを提案する。 NNSIは、高度に曖昧なサンプルを自動的に選択し、それらを高精度にラベルすることで、手動ラベリングの必要性を減らす。 これは、意味的に類似したテキストサンプルのグループから分類器の出力を統合することで行われる。 ラベル付きサンプルをトレーニングセットに追加することで、分類器の精度を向上させることができる。 2つの大規模実生活音声対話システムにおけるNNSIの使用を実演した。 評価の結果,提案手法は有用サンプルを高い精度で選択・ラベル付けできることが判明した。 トレーニングデータにこれらの新しいサンプルを追加することで、分類器を大幅に改善し、エラー率を最大10%削減した。

Intent classifiers are vital to the successful operation of virtual agent systems. This is especially so in voice activated systems where the data can be noisy with many ambiguous directions for user intents. Before operation begins, these classifiers are generally lacking in real-world training data. Active learning is a common approach used to help label large amounts of collected user input. However, this approach requires many hours of manual labeling work. We present the Nearest Neighbors Scores Improvement (NNSI) algorithm for automatic data selection and labeling. The NNSI reduces the need for manual labeling by automatically selecting highly-ambiguous samples and labeling them with high accuracy. This is done by integrating the classifier's output from a semantically similar group of text samples. The labeled samples can then be added to the training set to improve the accuracy of the classifier. We demonstrated the use of NNSI on two large-scale, real-life voice conversation systems. Evaluation of our results showed that our method was able to select and label useful samples with high accuracy. Adding these new samples to the training data significantly improved the classifiers and reduced error rates by up to 10%.
翻訳日:2022-02-23 09:27:53 公開日:2022-02-21
# (参考訳) twitterユーザーのパーソナリティ・プロファイリングモデルのためのトレーニングデータとしての心理計測テスト項目 [全文訳有]

Items from Psychometric Tests as Training Data for Personality Profiling Models of Twitter Users ( http://arxiv.org/abs/2202.10415v1 )

ライセンス: CC BY 4.0
Anne Kreuter and Kai Sassenberg and Roman Klinger(参考訳) ソーシャルメディアにおける著者のプロファイリングのための機械学習モデルは、ソーシャルメディア利用者が記入した自己報告に基づく心理測定テスト(questionnaires)によって取得されたデータに依存することが多い。 これは高価なが正確なデータ収集戦略である。 もうひとつのコストの低い代替手段は、潜在的にノイズやバイアスのあるデータにつながるもので、例えば自己報告された診断やテスト結果など、ユーザのプロファイルで公開されている情報から推測されるラベルに依存することだ。 本稿では,検証された心理測定テストの項目をトレーニングデータとして直接利用する第3の戦略について検討する。 心理測定テストの項目は、しばしばi-perspective(i-pers pective)の文からなる(例えば、"i make friends easy")。 このようなテスト項目のコーパスは「小さなデータ」を構成するが、多くの概念で利用できるのは豊富なリソースである。 パーソナリティ・プロファイリングのためのこのアプローチを調査し,このような心理計測テスト項目を微調整したbert分類器(開放性,良心性,外向性,一致性,神経症)を評価し,これらの小さなコーパスで生じる課題に対処するための様々な強化戦略を分析した。 公開されているTwitterコーパスに対する評価では、T5ベースのデータ拡張による4/5人格特性のドメイン内トレーニングに匹敵するパフォーマンスを示した。

Machine-learned models for author profiling in social media often rely on data acquired via self-reporting-based psychometric tests (questionnaires) filled out by social media users. This is an expensive but accurate data collection strategy. Another, less costly alternative, which leads to potentially more noisy and biased data, is to rely on labels inferred from publicly available information in the profiles of the users, for instance self-reported diagnoses or test results. In this paper, we explore a third strategy, namely to directly use a corpus of items from validated psychometric tests as training data. Items from psychometric tests often consist of sentences from an I-perspective (e.g., "I make friends easily."). Such corpora of test items constitute 'small data', but their availability for many concepts is a rich resource. We investigate this approach for personality profiling, and evaluate BERT classifiers fine-tuned on such psychometric test items for the big five personality traits (openness, conscientiousness, extraversion, agreeableness, neuroticism) and analyze various augmentation strategies regarding their potential to address the challenges coming with such a small corpus. Our evaluation on a publicly available Twitter corpus shows a comparable performance to in-domain training for 4/5 personality traits with T5-based data augmentation.
翻訳日:2022-02-23 09:24:57 公開日:2022-02-21
# dgaff:脳波バイオシグナルチャネル選択のための深部遺伝的アルゴリズム適合性形成

DGAFF: Deep Genetic Algorithm Fitness Formation for EEG Bio-Signal Channel Selection ( http://arxiv.org/abs/2202.10034v1 )

ライセンス: Link先を確認
Ghazaleh Ghorbanzadeh, Zahra Nabizadeh, Nader Karimi, Pejman Khadivi, Ali Emami, Shadrokh Samavi(参考訳) 脳-コンピュータインタフェースシステムは、コンピュータの脳信号を直接翻訳することで、人間とコンピュータの相互作用を促進することを目的としている。 近年,多くの電極を用いたシステムの性能が向上している。 しかし、記録電極の数が増加すると、記録プロセスの不要な複雑化に加えて、時間、ハードウェア、計算コストが増大する。 チャネル選択は、ノイズ効果を低減しつつ、データ次元を減少させ、無関係なチャネルを除去するために利用されてきた。 さらに、この技術はリアルタイムアプリケーションにおける時間と計算コストを下げる。 本稿では,シーケンシャル探索法と,遺伝的アルゴリズムであるdeep ga fitness formation(dgaff)を組み合わせたチャネル選択法を提案する。 提案手法は遺伝的アルゴリズムの収束を加速し,システムの性能を向上させる。 システム評価は、モデルトレーニングプロセス全体を自動化した軽量なディープニューラルネットワークに基づいている。 提案手法は,利用したデータセット上でのモータ画像の分類において,他のチャネル選択手法よりも優れている。

Brain-computer interface systems aim to facilitate human-computer interactions in a great deal by direct translation of brain signals for computers. Recently, using many electrodes has caused better performance in these systems. However, increasing the number of recorded electrodes leads to additional time, hardware, and computational costs besides undesired complications of the recording process. Channel selection has been utilized to decrease data dimension and eliminate irrelevant channels while reducing the noise effects. Furthermore, the technique lowers the time and computational costs in real-time applications. We present a channel selection method, which combines a sequential search method with a genetic algorithm called Deep GA Fitness Formation (DGAFF). The proposed method accelerates the convergence of the genetic algorithm and increases the system's performance. The system evaluation is based on a lightweight deep neural network that automates the whole model training process. The proposed method outperforms other channel selection methods in classifying motor imagery on the utilized dataset.
翻訳日:2022-02-23 09:06:17 公開日:2022-02-21
# PCSCNet:ポイントコンボリューションとスパースコンボリューションネットワークを用いた自動車用LiDARポイントクラウドの高速3次元セマンティックセマンティックセグメンテーション

PCSCNet: Fast 3D Semantic Segmentation of LiDAR Point Cloud for Autonomous Car using Point Convolution and Sparse Convolution Network ( http://arxiv.org/abs/2202.10047v1 )

ライセンス: Link先を確認
Jaehyun Park, Chansoo Kim, Kichun Jo(参考訳) 自動運転車は安全運転のために素早く運転環境を認識する必要がある。 自動運転車では光検出範囲(lidar)センサが広く使用されているため、センサフレームレート内の点雲をポイント単位で分類するlidarポイントクラウドの高速セグメンテーションが、運転環境の認識において注目を集めている。 ボクセルと融合に基づくセマンティックセグメンテーションモデルは、最近のポイントクラウドセマンティックセグメンテーションにおける最先端モデルであるが、そのリアルタイム性能は、高ボクセル解像度による高い計算負荷に悩まされている。 本稿では,点畳み込みと3次元スパース畳み込み(pcscnet)を用いた,voxelに基づく高速意味セグメンテーションモデルを提案する。 提案モデルは,点畳み込みに基づく特徴抽出を用いて,高ボクセル分解能と低ボクセル分解能を両立させるように設計されている。 さらに,提案モデルでは,特徴抽出後の3次元スパース畳み込みを用いて特徴伝達を高速化する。 実験の結果,提案モデルはセマンティックkittiとnusceneのセマンティクスセグメンテーションにおいて最先端のリアルタイムモデルよりも優れており,lidar point cloud inferenceのリアルタイム性能を実現した。

The autonomous car must recognize the driving environment quickly for safe driving. As the Light Detection And Range (LiDAR) sensor is widely used in the autonomous car, fast semantic segmentation of LiDAR point cloud, which is the point-wise classification of the point cloud within the sensor framerate, has attracted attention in recognition of the driving environment. Although the voxel and fusion-based semantic segmentation models are the state-of-the-art model in point cloud semantic segmentation recently, their real-time performance suffer from high computational load due to high voxel resolution. In this paper, we propose the fast voxel-based semantic segmentation model using Point Convolution and 3D Sparse Convolution (PCSCNet). The proposed model is designed to outperform at both high and low voxel resolution using point convolution-based feature extraction. Moreover, the proposed model accelerates the feature propagation using 3D sparse convolution after the feature extraction. The experimental results demonstrate that the proposed model outperforms the state-of-the-art real-time models in semantic segmentation of SemanticKITTI and nuScenes, and achieves the real-time performance in LiDAR point cloud inference.
翻訳日:2022-02-23 09:06:03 公開日:2022-02-21
# (参考訳) 帰納的自然言語推論のための恥ずかしいほど単純な性能予測 [全文訳有]

Embarrassingly Simple Performance Prediction for Abductive Natural Language Inference ( http://arxiv.org/abs/2202.10408v1 )

ライセンス: CC BY 4.0
Em\=ils Kadi\c{k}is and Vaibhav Srivastav and Roman Klinger(参考訳) 帰納的自然言語推論(英語版) (\alpha{}nli) の課題は、どの仮説が観測セットのより可能性の高い説明であるかを決定することであり、特に難しいタイプのNLIである。 因果関係を決定するだけでなく、説明がどの程度合理的であるかを評価するのも常識である。 最近の競合システムは、コンテキスト化された表現の上に構築され、NLIモデルを学習するためにトランスフォーマーアーキテクチャを利用する。 特定のNLIタスクに直面している場合、利用可能な最高のモデルを選択する必要があります。 これは時間とリソースを消費する努力です。 そこで本研究では,実際にモデルを微調整することなく性能を予測できる簡易手法を提案する。 プリトレーニングされたモデルが \alpha{}nliタスクでどれだけうまく機能するかをテストすることによって、文埋め込みとコサインの類似性を比較するだけで、これらの埋め込み上で分類器をトレーニングする時のパフォーマンスが達成されるかをテストする。 その結果,コサイン類似度手法の精度はパーソン相関係数0.65の分類手法の精度と強く相関していることがわかった。 類似性計算は、与えられたデータセット上での計算よりも桁違いに速く(1分対時間以下)、我々の手法はモデル選択の過程でかなりの時間を節約できる。

The task of abductive natural language inference (\alpha{}nli), to decide which hypothesis is the more likely explanation for a set of observations, is a particularly difficult type of NLI. Instead of just determining a causal relationship, it requires common sense to also evaluate how reasonable an explanation is. All recent competitive systems build on top of contextualized representations and make use of transformer architectures for learning an NLI model. When somebody is faced with a particular NLI task, they need to select the best model that is available. This is a time-consuming and resource-intense endeavour. To solve this practical problem, we propose a simple method for predicting the performance without actually fine-tuning the model. We do this by testing how well the pre-trained models perform on the \alpha{}nli task when just comparing sentence embeddings with cosine similarity to what the performance that is achieved when training a classifier on top of these embeddings. We show that the accuracy of the cosine similarity approach correlates strongly with the accuracy of the classification approach with a Pearson correlation coefficient of 0.65. Since the similarity computation is orders of magnitude faster to compute on a given dataset (less than a minute vs. hours), our method can lead to significant time savings in the process of model selection.
翻訳日:2022-02-23 09:03:41 公開日:2022-02-21
# ロバスト性と正確性は(適切な)定義で再確認可能である

Robustness and Accuracy Could Be Reconcilable by (Proper) Definition ( http://arxiv.org/abs/2202.10103v1 )

ライセンス: Link先を確認
Tianyu Pang, Min Lin, Xiao Yang, Jun Zhu, Shuicheng Yan(参考訳) 強靭性と精度のトレードオフは、敵文学において広く研究されている。 いまだに議論の余地はあるものの、このトレードオフは経験的または理論的に固有のものであるという見解が有力である。 このように、敵の訓練におけるこのトレードオフの起源を掘り下げ、それが不適切に定義された堅牢なエラーに起因し、局所的不変性の帰納的バイアス、すなわち滑らかさに対する過度な補正を課すことを発見した。 これを踏まえ、ロバストモデルの理想的な振る舞いを記述するために局所同値を用いることを提唱し、SCORE という自己整合ロバスト誤差を生じる。 定義上、SCOREはロバスト性と精度の整合を促進しつつ、ロバスト最適化による最悪の不確実性を扱う。 KL分散を距離メトリクスの変種に置き換えることによって、SCOREは効率よく最小化できる。 経験的に、私たちのモデルはAutoAttackの下でRobostBench上でトップランクのパフォーマンスを実現しています。 さらにSCOREは、頑健なモデルで観測された過剰適合現象と意味的な入力勾配を説明するためのインストラクティブな洞察を提供する。

The trade-off between robustness and accuracy has been widely studied in the adversarial literature. Although still controversial, the prevailing view is that this trade-off is inherent, either empirically or theoretically. Thus, we dig for the origin of this trade-off in adversarial training and find that it may stem from the improperly defined robust error, which imposes an inductive bias of local invariance -- an overcorrection towards smoothness. Given this, we advocate employing local equivariance to describe the ideal behavior of a robust model, leading to a self-consistent robust error named SCORE. By definition, SCORE facilitates the reconciliation between robustness and accuracy, while still handling the worst-case uncertainty via robust optimization. By simply substituting KL divergence with variants of distance metrics, SCORE can be efficiently minimized. Empirically, our models achieve top-rank performance on RobustBench under AutoAttack. Besides, SCORE provides instructive insights for explaining the overfitting phenomenon and semantic input gradients observed on robust models.
翻訳日:2022-02-23 08:51:03 公開日:2022-02-21
# ベイズエンコーダデコーダサロゲートを用いた大動脈壁の不均一性の確率的モデリングと不確かさ定量化

Stochastic Modeling of Inhomogeneities in the Aortic Wall and Uncertainty Quantification using a Bayesian Encoder-Decoder Surrogate ( http://arxiv.org/abs/2202.10244v1 )

ライセンス: Link先を確認
Sascha Ranftl, Malte Rolf-Pissarczyk, Gloria Wolkerstorfer, Antonio Pepe, Jan Egger, Wolfgang von der Linden, Gerhard A. Holzapfel(参考訳) 大動脈壁の不均一性は局所的な応力蓄積を引き起こし、おそらく解離を開始する。 多くの場合、解離は、破片化や弾性繊維の喪失などの病理学的変化から生じる。 しかし、健康な大動脈壁でさえ本質的に異質な微細構造を持っていることが示されている。 大動脈のいくつかの部分は病理学的変化による不均一性の発生に特に影響を受けやすいが,大動脈壁の分布や大きさ,形状,タイプなどの空間的範囲は予測が困難である。 本研究の目的は, 確率構成モデルを用いて, 解離大動脈壁の弾性繊維劣化の均一分布について述べることである。 この目的のために、劣化した弾性繊維の確率分布をモデル化する確率場実現が非等価グリッド上で生成される。 ランダムフィールドは、有限要素法(FE)法で解決された病理大動脈壁の一軸拡張テストの入力として機能する。 解離した大動脈壁の微細構造を含めるために, 前報で開発した構成モデルを適用し, また, 層間弾性繊維の劣化をモデル化するアプローチも含む。 次に,この確率的構成モデルによる出力応力分布の不確実性を評価するために,fe解析から得られた出力応力分布にランダム入力場をマッピングするサロゲートモデルとして,畳み込みニューラルネットワーク,特にベイズエンコーダ・デコーダを用いた。 その結果, ニューラルネットワークはfe解析の応力分布を予測でき, 計算時間を大幅に削減できることがわかった。 さらに、大動脈壁内の臨界応力を超える確率を与え、剥離や致命的な破裂の予測を可能にする。

Inhomogeneities in the aortic wall can lead to localized stress accumulations, possibly initiating dissection. In many cases, a dissection results from pathological changes such as fragmentation or loss of elastic fibers. But it has been shown that even the healthy aortic wall has an inherent heterogeneous microstructure. Some parts of the aorta are particularly susceptible to the development of inhomogeneities due to pathological changes, however, the distribution in the aortic wall and the spatial extent, such as size, shape, and type, are difficult to predict. Motivated by this observation, we describe the heterogeneous distribution of elastic fiber degradation in the dissected aortic wall using a stochastic constitutive model. For this purpose, random field realizations, which model the stochastic distribution of degraded elastic fibers, are generated over a non-equidistant grid. The random field then serves as input for a uni-axial extension test of the pathological aortic wall, solved with the finite-element (FE) method. To include the microstructure of the dissected aortic wall, a constitutive model developed in a previous study is applied, which also includes an approach to model the degradation of inter-lamellar elastic fibers. Then to assess the uncertainty in the output stress distribution due to this stochastic constitutive model, a convolutional neural network, specifically a Bayesian encoder-decoder, was used as a surrogate model that maps the random input fields to the output stress distribution obtained from the FE analysis. The results show that the neural network is able to predict the stress distribution of the FE analysis while significantly reducing the computational time. In addition, it provides the probability for exceeding critical stresses within the aortic wall, which could allow for the prediction of delamination or fatal rupture.
翻訳日:2022-02-23 08:50:44 公開日:2022-02-21
# 縦構造MRIを用いたアウトリアベース自閉症検出

Outlier-based Autism Detection using Longitudinal Structural MRI ( http://arxiv.org/abs/2202.09988v1 )

ライセンス: Link先を確認
Devika K, Venkata Ramana Murthy Oruganti, Dwarikanath Mahapatra, Ramanathan Subramanian(参考訳) 臨床評価(認知検査)を用いた自閉症スペクトラム障害(ASD)の診断は,個人差が大きいため困難である。 効果的な治療法は存在しないため、迅速かつ信頼性の高いALD診断は治療レギュラーの効果的な準備を可能にする。 本稿では, 構造型磁気共鳴イメージング(sMRI)を用いた外乱検出手法によるASD診断を提案する。 構造脳接続における時空間パターンを学習するために、GAN(Generative Adversarial Network)は、健康な被験者のsMRIスキャンでのみ訓練される。 入力として3つの隣接スライスからなるスタックが与えられた後、GANジェネレータは次の3つの隣接スライスを再構成する。 このモデルは、単純なUNetと洗練されたSelf-Attention GANという、他の2つのベースラインと比較される。 マルチサイトABIDE IIデータセットのAxial,Coronal,Sagitt al sMRIスライスを用いて評価を行う。 大規模な実験により、我々のASD検出フレームワークは、最先端のトレーニングデータと同等に機能することがわかった。 さらに、縦断データ(時間とともに2回のスキャン)は、断面データ(1回のスキャン)よりも17~28%高い精度が得られる。 モデルトレーニングに使用されるメトリクスや再構成損失計算による影響検出性能は,ASD検出のための構造情報の符号化に最適である。

Diagnosis of Autism Spectrum Disorder (ASD) using clinical evaluation (cognitive tests) is challenging due to wide variations amongst individuals. Since no effective treatment exists, prompt and reliable ASD diagnosis can enable the effective preparation of treatment regimens. This paper proposes structural Magnetic Resonance Imaging (sMRI)-based ASD diagnosis via an outlier detection approach. To learn Spatio-temporal patterns in structural brain connectivity, a Generative Adversarial Network (GAN) is trained exclusively with sMRI scans of healthy subjects. Given a stack of three adjacent slices as input, the GAN generator reconstructs the next three adjacent slices; the GAN discriminator then identifies ASD sMRI scan reconstructions as outliers. This model is compared against two other baselines -- a simpler UNet and a sophisticated Self-Attention GAN. Axial, Coronal, and Sagittal sMRI slices from the multi-site ABIDE II dataset are used for evaluation. Extensive experiments reveal that our ASD detection framework performs comparably with the state-of-the-art with far fewer training data. Furthermore, longitudinal data (two scans per subject over time) achieve 17-28% higher accuracy than cross-sectional data (one scan per subject). Among other findings, metrics employed for model training as well as reconstruction loss computation impact detection performance, and the coronal modality is found to best encode structural information for ASD detection.
翻訳日:2022-02-23 08:50:04 公開日:2022-02-21
# ロバスト表現マッチングによる逆ロバスト性伝達

Transferring Adversarial Robustness Through Robust Representation Matching ( http://arxiv.org/abs/2202.09994v1 )

ライセンス: Link先を確認
Pratik Vaishnavi, Kevin Eykholt, Amir Rahmati(参考訳) 機械学習の普及に伴い、そのセキュリティと信頼性に関する懸念が広まっている。 そのため、多くの人は、ニューラルネットワークを敵の例に対して強固にするための防御を開発してきた。 敵の例が生成され、訓練中に使用される敵の訓練は、ニューラルネットワークに対する攻撃に確実に耐えられる数少ない防御の1つである。 しかし、敵対的なトレーニングは大きなトレーニングのオーバーヘッドを課し、モデルの複雑さと入力次元に乏しいスケールを課している。 本稿では,アーキテクチャ上の差異にかかわらず,同じタスクのために訓練される新しいモデルに対して,敵対的に訓練されたモデルのロバスト性を伝達する低コストな手法であるロバスト表現マッチング(rrm)を提案する。 学生教師の学習に着想を得た本手法では,教師の頑健な表現を学ぶことを促す新しい学習損失を導入する。 従来の研究と比較すると、RCMはモデル性能と対向訓練時間の両方において優れている。 cifar-10では、rrmは最先端より高速なロバストモデル$\sim 1.8\times$を訓練する。 さらに、RRMは高次元データセットに有効である。 Restricted-ImageNetでは、RRMはResNet50モデル$\sim 18\times$を標準の敵トレーニングよりも高速にトレーニングする。

With the widespread use of machine learning, concerns over its security and reliability have become prevalent. As such, many have developed defenses to harden neural networks against adversarial examples, imperceptibly perturbed inputs that are reliably misclassified. Adversarial training in which adversarial examples are generated and used during training is one of the few known defenses able to reliably withstand such attacks against neural networks. However, adversarial training imposes a significant training overhead and scales poorly with model complexity and input dimension. In this paper, we propose Robust Representation Matching (RRM), a low-cost method to transfer the robustness of an adversarially trained model to a new model being trained for the same task irrespective of architectural differences. Inspired by student-teacher learning, our method introduces a novel training loss that encourages the student to learn the teacher's robust representations. Compared to prior works, RRM is superior with respect to both model performance and adversarial training time. On CIFAR-10, RRM trains a robust model $\sim 1.8\times$ faster than the state-of-the-art. Furthermore, RRM remains effective on higher-dimensional datasets. On Restricted-ImageNet, RRM trains a ResNet50 model $\sim 18\times$ faster than standard adversarial training.
翻訳日:2022-02-23 08:49:44 公開日:2022-02-21
# Deep Residual Autoencoderを活用したCAD機能の簡易学習

Simplified Learning of CAD Features Leveraging a Deep Residual Autoencoder ( http://arxiv.org/abs/2202.10099v1 )

ライセンス: Link先を確認
Raoul Sch\"onhof and Jannes Elstner and Radu Manea and Steffen Tauber and Ramez Awad and Marco F. Huber(参考訳) コンピュータビジョンの分野では、EfficientNetのような深い残留ニューラルネットワークが、堅牢性と精度の点で新しい標準を設定している。 ディープニューラルネットワークのトレーニングの根底にある重要な問題は、十分な量のトレーニングデータがないことだ。 特にラベルは自動生成できないが、手動でアノテートしなければならない場合、問題は悪化する。 この課題は、3D部品に関する専門家の知識がサンプルモデルに基づいて外部化されるべきである場合などである。 ラベル付きデータの必要な量を減らす方法の1つは、ラベル付きデータなしで教師なしの方法で学習できるオートエンコーダを使用することである。 本研究では,3次元CADモデル評価に関連する学習タスクの伝達を目的としたEfficientNetアーキテクチャに基づく残差3次元オートエンコーダを提案する。 そこで我々は,STEPファイルから派生したボクセルモデルのような3次元問題にEfficientNetを適用した。 ラベル付き3Dデータの量を削減するため、ネットワークエンコーダを転送訓練に利用することができる。

In the domain of computer vision, deep residual neural networks like EfficientNet have set new standards in terms of robustness and accuracy. One key problem underlying the training of deep neural networks is the immanent lack of a sufficient amount of training data. The problem worsens especially if labels cannot be generated automatically, but have to be annotated manually. This challenge occurs for instance if expert knowledge related to 3D parts should be externalized based on example models. One way to reduce the necessary amount of labeled data may be the use of autoencoders, which can be learned in an unsupervised fashion without labeled data. In this work, we present a deep residual 3D autoencoder based on the EfficientNet architecture, intended for transfer learning tasks related to 3D CAD model assessment. For this purpose, we adopted EfficientNet to 3D problems like voxel models derived from a STEP file. Striving to reduce the amount of labeled 3D data required, the networks encoder can be utilized for transfer training.
翻訳日:2022-02-23 08:48:30 公開日:2022-02-21
# OSegNet:胸部X線画像を用いた新型コロナウイルス検出のためのオペレーショナルセグメンテーションネットワーク

OSegNet: Operational Segmentation Network for COVID-19 Detection using Chest X-ray Images ( http://arxiv.org/abs/2202.10185v1 )

ライセンス: Link先を確認
Aysen Degerli, Serkan Kiranyaz, Muhammad E. H. Chowdhury, and Moncef Gabbouj(参考訳) コロナウイルス病2019(COVID-19)は、胸部X線(CXR)画像上で機械学習アルゴリズムを使用して自動的に診断されている。 しかし、初期の研究のほとんどは、過適合のリスクを負う少ないデータセットよりもDeep Learningモデルを使用していた。 さらに、従来の研究では、深層ネットワークはCXRの無関係な領域に由来する可能性があるため、分類に信頼性がないことが示されている。 そこで本研究では,新型コロナウイルス肺炎の診断のためのセグメンテーションによって検出を行うオペナルセグメンテーションネットワーク(OSegNet)を提案する。 QaTa-COV19には、9258個のCOVID-19サンプルを含む121,378個のCXRが含まれている。 その結果、OSegNetは98.09%の精度で最先端のディープモデルの中で99.65%の精度で検出性能を達成した。

Coronavirus disease 2019 (COVID-19) has been diagnosed automatically using Machine Learning algorithms over chest X-ray (CXR) images. However, most of the earlier studies used Deep Learning models over scarce datasets bearing the risk of overfitting. Additionally, previous studies have revealed the fact that deep networks are not reliable for classification since their decisions may originate from irrelevant areas on the CXRs. Therefore, in this study, we propose Operational Segmentation Network (OSegNet) that performs detection by segmenting COVID-19 pneumonia for a reliable diagnosis. To address the data scarcity encountered in training and especially in evaluation, this study extends the largest COVID-19 CXR dataset: QaTa-COV19 with 121,378 CXRs including 9258 COVID-19 samples with their corresponding ground-truth segmentation masks that are publicly shared with the research community. Consequently, OSegNet has achieved a detection performance with the highest accuracy of 99.65% among the state-of-the-art deep models with 98.09% precision.
翻訳日:2022-02-23 08:48:15 公開日:2022-02-21
# 画像コピー検出のための自己監督型ディスクリプタ

A Self-Supervised Descriptor for Image Copy Detection ( http://arxiv.org/abs/2202.10261v1 )

ライセンス: Link先を確認
Ed Pizzi, Sreya Dutta Roy, Sugosh Nagavara Ravindra, Priya Goyal, Matthijs Douze(参考訳) 画像のコピー検出はコンテンツモデレーションの重要なタスクである。 SSCDは,近年の自己監督型コントラスト学習目標に基づくモデルである。 本手法は,インスタンスマッチング文献からプール演算子を含む,アーキテクチャとトレーニング目標を変更し,コントラスト学習を画像合成の強化に適応することにより,コピー検出タスクに適応する。 提案手法は,ディスクリプタベクトル間の一貫した分離を促進するエントロピー正規化項に依存し,コピー検出精度を大幅に向上させることを示す。 本手法は実世界のwebスケールアプリケーションに適したコンパクトディスクリプタベクトルを生成する。 背景画像分布からの統計的情報を記述子に組み込むことができる。 最近のdisC2021ベンチマークでは、SSCDはベースラインコピー検出モデルと画像分類のための自己教師型アーキテクチャの両方を全ての設定で上回っている。 例えば、sscdはsimclrディスクリプタを48%絶対的に上回っている。

Image copy detection is an important task for content moderation. We introduce SSCD, a model that builds on a recent self-supervised contrastive training objective. We adapt this method to the copy detection task by changing the architecture and training objective, including a pooling operator from the instance matching literature, and adapting contrastive learning to augmentations that combine images. Our approach relies on an entropy regularization term, promoting consistent separation between descriptor vectors, and we demonstrate that this significantly improves copy detection accuracy. Our method produces a compact descriptor vector, suitable for real-world web scale applications. Statistical information from a background image distribution can be incorporated into the descriptor. On the recent DISC2021 benchmark, SSCD is shown to outperform both baseline copy detection models and self-supervised architectures designed for image classification by huge margins, in all settings. For example, SSCD out-performs SimCLR descriptors by 48% absolute.
翻訳日:2022-02-23 08:47:57 公開日:2022-02-21
# 畳み込みニューラルネットワークとカニーエッジ検出を用いたセグメンテーション血液細胞のマラリア検出

Malaria detection in Segmented Blood Cell using Convolutional Neural Networks and Canny Edge Detection ( http://arxiv.org/abs/2202.10426v1 )

ライセンス: Link先を確認
Tahsinur Rahman Talukdar, Mohammad Jaber Hossain, Tahmid H. Talukdar(参考訳) 血液スミアスライド画像からマラリア感染細胞と非感染セグメント細胞を同定するために畳み込みニューラルネットワークを適用した。 マラリア細胞の検出精度は95%以上である。 また、同等の精度(約94%)を維持しながら、トレーニングファイルサイズを削減するためにcanny画像処理を適用する。

We apply convolutional neural networks to identify between malaria infected and non-infected segmented cells from the thin blood smear slide images. We optimize our model to find over 95% accuracy in malaria cell detection. We also apply Canny image processing to reduce training file size while maintaining comparable accuracy (~ 94%).
翻訳日:2022-02-23 08:47:42 公開日:2022-02-21
# スペクトル・時間的深部特徴を用いた話者適応による構音・高齢者音声認識

Speaker Adaptation Using Spectro-Temporal Deep Features for Dysarthric and Elderly Speech Recognition ( http://arxiv.org/abs/2202.10290v1 )

ライセンス: Link先を確認
Mengzhe Geng, Xurong Xie, Zi Ye, Tianzi Wang, Guinan Li, Shujie Hu, Xunying Liu, Helen Meng(参考訳) 近年, 正常な音声を対象とした音声認識(asr)技術が急速に進歩しているにもかかわらず, 義足と高齢者の正確な認識はいまだに難しい課題である。 アクセントやジェンダーを含む通常の音声で見られる異種性の源は、年齢による変化や言語病理の重症度が重なり、話者間で大きな多様性が生じる。 この目的のために、話者適応技術は、そのようなユーザのためのasrシステムのパーソナライズにおいて重要な役割を果たす。 Motivated by the spectro-temporal level differences between dysarthric, elderly and normal speech that systematically manifest in articulatory imprecision, decreased volume and clarity, slower speaking rates and increased dysfluencies, novel spectrotemporal subspace basis deep embedding features derived using SVD speech spectrum decomposition are proposed in this paper to facilitate auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN/TDNN and end-to-end Conformer speech recognition systems. 英語uaspeechとtorgo dysarthric speech corporaの4つのタスクについて実験を行った。 提案した分光時相深部特徴適応システムは,単語誤り率(WER)を最大2.63%(相対8.63%)まで低減し,ベースライン i-Vector および xVector 適応に優れていた。 learning hidden unit contributions (lhuc) を用いたモデルベースの話者適応がさらに適用され、一貫したパフォーマンス改善が維持された。 提案するスペクトル基底埋め込み特徴を用いた最善の話者適応システムでは、16個の不定形話者のuaspeechテストセットにおいて最低25.05%であった。

Despite the rapid progress of automatic speech recognition (ASR) technologies targeting normal speech in recent decades, accurate recognition of dysarthric and elderly speech remains highly challenging tasks to date. Sources of heterogeneity commonly found in normal speech including accent or gender, when further compounded with the variability over age and speech pathology severity level, create large diversity among speakers. To this end, speaker adaptation techniques play a key role in personalization of ASR systems for such users. Motivated by the spectro-temporal level differences between dysarthric, elderly and normal speech that systematically manifest in articulatory imprecision, decreased volume and clarity, slower speaking rates and increased dysfluencies, novel spectrotemporal subspace basis deep embedding features derived using SVD speech spectrum decomposition are proposed in this paper to facilitate auxiliary feature based speaker adaptation of state-of-the-art hybrid DNN/TDNN and end-to-end Conformer speech recognition systems. Experiments were conducted on four tasks: the English UASpeech and TORGO dysarthric speech corpora; the English DementiaBank Pitt and Cantonese JCCOCC MoCA elderly speech datasets. The proposed spectro-temporal deep feature adapted systems outperformed baseline i-Vector and xVector adaptation by up to 2.63% absolute (8.63% relative) reduction in word error rate (WER). Consistent performance improvements were retained after model based speaker adaptation using learning hidden unit contributions (LHUC) was further applied. The best speaker adapted system using the proposed spectral basis embedding features produced the lowest published WER of 25.05% on the UASpeech test set of 16 dysarthric speakers.
翻訳日:2022-02-23 08:47:35 公開日:2022-02-21
# 同じ原因; 脳における異なる影響

Same Cause; Different Effects in the Brain ( http://arxiv.org/abs/2202.10376v1 )

ライセンス: Link先を確認
Mariya Toneva, Jennifer Williams, Anand Bollu, Christoph Dann, Leila Wehbe(参考訳) 脳内の情報処理を研究するために、神経科学者は、参加者の脳活動を記録しながら実験的な刺激を操作する。 次に、エンコーディングモデルを使用して、刺激特性からどの脳の「ゾーン」(例えば、どの関心領域、体積ピクセル、電気生理学的センサー)を予測することができる。 この設定の前提として、刺激特性がゾーン内のアクティビティの予測である場合、これらの特性がそのゾーンのアクティビティを引き起こすと理解される。 近年、研究者はニューラルネットワークを用いて、自然言語や自然画像といった複雑な刺激の多様な特性を捉える表現を構築している。 これらの高次元表現を用いて構築されたエンコーディングモデルは、しばしば大脳皮質の大きな迷路の活性を著しく予測することができ、これらの脳領域の全ての活動は、その表現で捕獲された刺激特性によって引き起こされることを示唆している。 では、このような刺激特性によって引き起こされる、これらの異なる脳ゾーンの活性は、同じ方法で起こっているのか? 神経科学の用語では、これらの異なるゾーンが刺激特性を同じように処理するかどうかを問うものである。 本稿では,刺激の特性が2つの脳ゾーンに影響を及ぼすかどうかを研究者が問う新しい枠組みを提案する。 我々は、シミュレーションデータと、複雑な自然主義的な刺激を伴う2つの実fMRIデータセットを用いて、我々のフレームワークがそのような推論を可能にすることを示す。 提案されたフレームワークは、神経科学者が脳内でどのように情報が処理されるかを理解するための、有望な新しいツールであることを示している。

To study information processing in the brain, neuroscientists manipulate experimental stimuli while recording participant brain activity. They can then use encoding models to find out which brain "zone" (e.g. which region of interest, volume pixel or electrophysiology sensor) is predicted from the stimulus properties. Given the assumptions underlying this setup, when stimulus properties are predictive of the activity in a zone, these properties are understood to cause activity in that zone. In recent years, researchers have used neural networks to construct representations that capture the diverse properties of complex stimuli, such as natural language or natural images. Encoding models built using these high-dimensional representations are often able to significantly predict the activity in large swathes of cortex, suggesting that the activity in all these brain zones is caused by stimulus properties captured in the representation. It is then natural to ask: "Is the activity in these different brain zones caused by the stimulus properties in the same way?" In neuroscientific terms, this corresponds to asking if these different zones process the stimulus properties in the same way. Here, we propose a new framework that enables researchers to ask if the properties of a stimulus affect two brain zones in the same way. We use simulated data and two real fMRI datasets with complex naturalistic stimuli to show that our framework enables us to make such inferences. Our inferences are strikingly consistent between the two datasets, indicating that the proposed framework is a promising new tool for neuroscientists to understand how information is processed in the brain.
翻訳日:2022-02-23 08:47:09 公開日:2022-02-21
# 計算インテンシフィケーション法によるnox生成の低次元高忠実度運動モデル

Low-Dimensional High-Fidelity Kinetic Models for NOX Formation by a Compute Intensification Method ( http://arxiv.org/abs/2202.10194v1 )

ライセンス: Link先を確認
Mark Kelly, Harry Dunne, Gilles Bourque, Stephen Dooley(参考訳) NOX生成のための低次元高忠実な「コンパクト」運動モデルの構築のための新しい計算強調手法を設計、実証した。 この方法は、仮想反応ネットワーク生成にラテン方形法を用いて、コンパクトモデル生成のための化学動力学(mlock)アルゴリズムの最適化を学習したデータ集約機械に適用する。 3つの追加ノード(N, NO, NO2)からなる最小サイズの仮想反応ネットワークを構成する論理規則の集合を定義する。 このNOX仮想反応ネットワークは、15個のノードからなるメタン燃焼のための既設コンパクトモデルに付加される。 得られた18ノードの仮想反応ネットワークは、MLOCK符号化アルゴリズムによって処理され、メタン燃焼中のNOX生成のための多数のコンパクトモデル候補を生成する。 MLOCKは自動的に、仮想反応ネットワークの条件に候補入力を投入し、結果のコンパクトモデル候補の成功を計測し(ガスタービン産業が定義した幅広い性能目標を再現する)、最高の性能のモデルを示す入力パラメータ空間の領域を選択し、より良い性能を与えるために入力パラメータを洗練し、最高の性能モデルまたはモデルの究極の選択を行う。 この方法では, 再生産業で75%以上の性能目標を示すコンパクトモデル候補が多数存在し, 燃料/空気同値比0.5~1.0の1モデルが75%以上有効であった。 しかし,産業が定義する全燃料/空気等価比性能エンベロープを満たすために,この最小仮想反応ネットワークでは,さらに2つのコンパクトモデルが必要であることを示す。

A novel compute intensification methodology to the construction of low-dimensional, high-fidelity "compact" kinetic models for NOX formation is designed and demonstrated. The method adapts the data intensive Machine Learned Optimization of Chemical Kinetics (MLOCK) algorithm for compact model generation by the use of a Latin Square method for virtual reaction network generation. A set of logical rules are defined which construct a minimally sized virtual reaction network comprising three additional nodes (N, NO, NO2). This NOX virtual reaction network is appended to a pre-existing compact model for methane combustion comprising fifteen nodes. The resulting eighteen node virtual reaction network is processed by the MLOCK coded algorithm to produce a plethora of compact model candidates for NOX formation during methane combustion. MLOCK automatically; populates the terms of the virtual reaction network with candidate inputs; measures the success of the resulting compact model candidates (in reproducing a broad set of gas turbine industry-defined performance targets); selects regions of input parameters space showing models of best performance; refines the input parameters to give better performance; and makes an ultimate selection of the best performing model or models. By this method, it is shown that a number of compact model candidates exist that show fidelities in excess of 75% in reproducing industry defined performance targets, with one model valid to >75% across fuel/air equivalence ratios of 0.5-1.0. However, to meet the full fuel/air equivalence ratio performance envelope defined by industry, we show that with this minimal virtual reaction network, two further compact models are required.
翻訳日:2022-02-23 08:45:03 公開日:2022-02-21
# Qualia-Enriched FrameNetを用いたニューラルネットワーク翻訳におけるドメイン適応

Domain Adaptation in Neural Machine Translation using a Qualia-Enriched FrameNet ( http://arxiv.org/abs/2202.10287v1 )

ライセンス: Link先を確認
Alexandre Diniz Costa, Mateus Coutinho Marim, Ely Edison da Silva Matos and Tiago Timponi Torrent(参考訳) 本稿では,クエーカー関係に富んだ多言語フレームネットを外部知識ベースとして利用するニューラルマシン翻訳(nmt)システムのドメイン適応手法であるscyllaを提案する。 NMTで使用されるドメイン適応技術は、通常、微調整とドメイン内トレーニングデータを必要とする。 scyllaはnmtモデルの微調整を必要とせず、オーバーフィッティングのモデル化やドメイン外翻訳の性能低下のリスクを回避する。 Scyllaの2つのバージョンが提示される: 1つはソース文を入力として使用し、もう1つはターゲット文を使用する。 スポーツドメインの50文をブラジルポルトガル語から英語に翻訳する実験において,Scyllaを最先端の商用NMTシステムと比較した。 Scyllaの2つのバージョンはHTERのベースラインの商用システムを大幅に上回った。

In this paper we present Scylla, a methodology for domain adaptation of Neural Machine Translation (NMT) systems that make use of a multilingual FrameNet enriched with qualia relations as an external knowledge base. Domain adaptation techniques used in NMT usually require fine-tuning and in-domain training data, which may pose difficulties for those working with lesser-resourced languages and may also lead to performance decay of the NMT system for out-of-domain sentences. Scylla does not require fine-tuning of the NMT model, avoiding the risk of model over-fitting and consequent decrease in performance for out-of-domain translations. Two versions of Scylla are presented: one using the source sentence as input, and another one using the target sentence. We evaluate Scylla in comparison to a state-of-the-art commercial NMT system in an experiment in which 50 sentences from the Sports domain are translated from Brazilian Portuguese to English. The two versions of Scylla significantly outperform the baseline commercial system in HTER.
翻訳日:2022-02-23 08:44:24 公開日:2022-02-21
# 強化学習による知識グラフ上のルールマイニング

Rule Mining over Knowledge Graphs via Reinforcement Learning ( http://arxiv.org/abs/2202.10381v1 )

ライセンス: Link先を確認
Lihan Chen, Sihang Jiang, Jingping Liu, Chao Wang, Sheng Zhang, Chenhao Xie, Jiaqing Liang, Yanghua Xiao and Rui Song(参考訳) 知識グラフ(KGs)は、幅広い応用のための重要な資料リポジトリであり、KGsからのルールマイニングは、最近KG関連の研究コミュニティで広く研究されている。 大規模kgからのルールマイニングには多くの解決策が提案されているが、ルール生成の非効率性やルール評価の非効率性に制限がある。 本稿では,これらの問題を解決するために,強化学習による世代評価ルールマイニング手法を提案する。 具体的には、二相フレームワークを設計する。 第1フェーズは、kgsからルール生成のための強化学習エージェントを訓練することであり、第2フェーズは、エージェントの値関数を利用して、ステップバイステップのルール生成を導くことである。 我々は,いくつかのデータセットについて広範な実験を行い,その結果から,ルールマイニングソリューションが効率と有効性の観点から最先端の性能を達成できることを証明した。

Knowledge graphs (KGs) are an important source repository for a wide range of applications and rule mining from KGs recently attracts wide research interest in the KG-related research community. Many solutions have been proposed for the rule mining from large-scale KGs, which however are limited in the inefficiency of rule generation and ineffectiveness of rule evaluation. To solve these problems, in this paper we propose a generation-then-eval uation rule mining approach guided by reinforcement learning. Specifically, a two-phased framework is designed. The first phase aims to train a reinforcement learning agent for rule generation from KGs, and the second is to utilize the value function of the agent to guide the step-by-step rule generation. We conduct extensive experiments on several datasets and the results prove that our rule mining solution achieves state-of-the-art performance in terms of efficiency and effectiveness.
翻訳日:2022-02-23 08:40:47 公開日:2022-02-21
# (参考訳) 子どもの探索と計算モデルによる因果仮説の学習 [全文訳有]

Learning Causal Overhypotheses through Exploration in Children and Computational Models ( http://arxiv.org/abs/2202.10430v1 )

ライセンス: CC BY 4.0
Eliza Kosoy, Adrian Liu, Jasmine Collins, David M Chan, Jessica B Hamrick, Nan Rosemary Ke, Sandy H Huang, Bryanna Kaufmann, John Canny, Alison Gopnik(参考訳) 近年の強化学習(RL)の進歩にもかかわらず、探索のためのRLアルゴリズムは依然として研究の活発な領域である。 既存の手法は、環境の因果構造を考慮しない状態ベースのメトリクスに焦点をあてることが多く、最近の研究は因果学習のためのRL環境を探り始めたが、これらの環境は主に因果推論や帰納的誘導を通じて因果情報を活用する。 対照的に、最も有能な探検家の1人である人間の子供たちは、因果情報を使って大きな利益を上げている。 本研究では,制御可能な因果構造を持つ新しいRL環境を導入し,エージェントと子どもが統一された環境で使用する探索戦略を評価する。 また, 計算モデルと子どもの双方について実験を行い, 因果環境における情報収集最適rl探索と同一環境における子どもの探索との間に有意な差があることを実証した。 我々はこれらの発見がRLアルゴリズムの因果構造の効率的な探索と曖昧化の研究の新たな方向性にどのように影響するかを議論した。

Despite recent progress in reinforcement learning (RL), RL algorithms for exploration still remain an active area of research. Existing methods often focus on state-based metrics, which do not consider the underlying causal structures of the environment, and while recent research has begun to explore RL environments for causal learning, these environments primarily leverage causal information through causal inference or induction rather than exploration. In contrast, human children - some of the most proficient explorers - have been shown to use causal information to great benefit. In this work, we introduce a novel RL environment designed with a controllable causal structure, which allows us to evaluate exploration strategies used by both agents and children in a unified environment. In addition, through experimentation on both computation models and children, we demonstrate that there are significant differences between information-gain optimal RL exploration in causal environments and the exploration of children in the same environments. We conclude with a discussion of how these findings may inspire new directions of research into efficient exploration and disambiguation of causal structures for RL algorithms.
翻訳日:2022-02-23 08:38:57 公開日:2022-02-21
# 深層q学習を用いた自律倉庫ロボット

Autonomous Warehouse Robot using Deep Q-Learning ( http://arxiv.org/abs/2202.10019v1 )

ライセンス: Link先を確認
Ismot Sadik Peyas, Zahid Hasan, Md. Rafat Rahman Tushar, Al Musabbir, Raisa Mehjabin Azni, Shahnewaz Siddique(参考訳) 倉庫では、専門のエージェントが移動し、障害物を避け、倉庫環境における空間の使用を最大化する必要がある。 これらの環境が予測不可能であるため、これらのタスクを完了させるために強化学習アプローチが適用できる。 本稿では,ロボットのナビゲーションや障害物回避問題に対処するためにdrl(deep reinforcement learning)と,製品配置のための空間の利用を最大化するために,従来型q-learningを提案する。 まず,単一ロボットケースの問題点について検討する。 次に、単一ロボットモデルに基づいて、システムをマルチロボットケースに拡張する。 マルチエージェントQ-ラーニングの実行には,Q-tableの戦略的バリエーションを用いる。 単一ロボットと複数ロボットの両方を対象とした2次元シミュレーション環境でのモデル性能の検証に成功しました。

In warehouses, specialized agents need to navigate, avoid obstacles and maximize the use of space in the warehouse environment. Due to the unpredictability of these environments, reinforcement learning approaches can be applied to complete these tasks. In this paper, we propose using Deep Reinforcement Learning (DRL) to address the robot navigation and obstacle avoidance problem and traditional Q-learning with minor variations to maximize the use of space for product placement. We first investigate the problem for the single robot case. Next, based on the single robot model, we extend our system to the multi-robot case. We use a strategic variation of Q-tables to perform multi-agent Q-learning. We successfully test the performance of our model in a 2D simulation environment for both the single and multi-robot cases.
翻訳日:2022-02-23 08:15:55 公開日:2022-02-21
# ブロックチェーンと人工知能技術のスマートグリッドにおけるプロシューマーの実現への応用:レビュー

Applications of blockchain and artificial intelligence technologies for enabling prosumers in smart grids: A review ( http://arxiv.org/abs/2202.10098v1 )

ライセンス: Link先を確認
Weiqi Hua and Ying Chen and Meysam Qadrdan and Jing Jiang and Hongjian Sun and Jianzhong Wu(参考訳) 政府の純ゼロエミッション目標は、再生可能エネルギー源のシェアを増やし、消費者の行動に影響を与え、エネルギー供給と需要の費用対効果のバランスを支援することにある。 これらは、さまざまな利害関係者間の相互運用性を可能にするスマートグリッドの高度な情報と制御インフラストラクチャによって実現される。 この状況下では、エネルギーを生産、貯蔵、消費する消費者が増え、プロシューマーの新たな役割を担っている。 エネルギーと情報の流入した双方向の流れの供給と供給の統合は、エネルギー市場の柔軟な構造と電力システムのインテリジェントな操作という2つの重要な要素に依存している。 ブロックチェーンと人工知能(AI)は、これら2つの要因を満たす革新的な技術であり、ブロックチェーンはエネルギー市場のための分散トレーディングプラットフォームを提供し、AIは電力システムの最適な運用制御をサポートする。 本稿では,ブロックチェーンとaiをスマートグリッドに組み込むことによって,一般消費者のエネルギー市場への参入を促進する方法を提案する。 この目的を達成するため,本論文では,再生可能エネルギー源との融合を促進するため,化石燃料による二酸化炭素排出量の価格設定について検討する。 第2に,ブロックチェーン技術によるエネルギー市場の潜在構造について考察する。 最後に、電力システムの運用中の状態監視と意思決定の強化にAIを適用する方法について紹介する。

Governments' net zero emission target aims at increasing the share of renewable energy sources as well as influencing the behaviours of consumers to support the cost-effective balancing of energy supply and demand. These will be achieved by the advanced information and control infrastructures of smart grids which allow the interoperability among various stakeholders. Under this circumstance, increasing number of consumers produce, store, and consume energy, giving them a new role of prosumers. The integration of prosumers and accommodation of incurred bidirectional flows of energy and information rely on two key factors: flexible structures of energy markets and intelligent operations of power systems. The blockchain and artificial intelligence (AI) are innovative technologies to fulfil these two factors, by which the blockchain provides decentralised trading platforms for energy markets and the AI supports the optimal operational control of power systems. This paper attempts to address how to incorporate the blockchain and AI in the smart grids for facilitating prosumers to participate in energy markets. To achieve this objective, first, this paper reviews how policy designs price carbon emissions caused by the fossil-fuel based generation so as to facilitate the integration of prosumers with renewable energy sources. Second, the potential structures of energy markets with the support of the blockchain technologies are discussed. Last, how to apply the AI for enhancing the state monitoring and decision making during the operations of power systems is introduced.
翻訳日:2022-02-23 08:15:44 公開日:2022-02-21
# (参考訳) Depthwise Separable Convolution Networksに基づくエンドツーエンド高精度プレート認識 [全文訳有]

End-to-End High Accuracy License Plate Recognition Based on Depthwise Separable Convolution Networks ( http://arxiv.org/abs/2202.10277v1 )

ライセンス: CC BY 4.0
Song-Ren Wang, Hong-Yang Shih, Zheng-Yi Shen, and Wen-Kai Tai(参考訳) 自動ナンバープレート認識は交通監視や車両違反検出などの近代交通システムにおいて重要な役割を果たす。 現実のシナリオでは、ナンバープレート認識は依然として多くの課題に直面しており、天候や照明条件などの予測不能な干渉によって障害を負っている。 近年,多くの機械学習ベースのALPRソリューションが提案されている。 しかし、その結果は、様々な環境を欠いた小さなデータセットや単純なデータセットで評価されるか、現実世界のアプリケーションで合理的なフレーム/秒を達成するために強力なハードウェアを必要とするため、ほとんどは納得できない。 本稿では,ライセンスプレート認識のための新しいセグメンテーションフリーフレームワークを提案し,実世界のシナリオに類似した多様で挑戦的なデータセットであるNP-ALPRを紹介する。 提案するネットワークモデルは,最新のディープラーニング手法と最先端のアイデアと,新しいネットワークアーキテクチャのメリットで構成されている。 従来の作業よりも低い計算要求で高い精度を達成する。 提案手法の有効性を3つの異なるデータセットで評価し,99%以上の認識精度と70fps以上の認識精度を示す。

Automatic license plate recognition plays a crucial role in modern transportation systems such as for traffic monitoring and vehicle violation detection. In real-world scenarios, license plate recognition still faces many challenges and is impaired by unpredictable interference such as weather or lighting conditions. Many machine learning based ALPR solutions have been proposed to solve such challenges in recent years. However, most are not convincing, either because their results are evaluated on small or simple datasets that lack diverse surroundings, or because they require powerful hardware to achieve a reasonable frames-per-second in real-world applications. In this paper, we propose a novel segmentation-free framework for license plate recognition and introduce NP-ALPR, a diverse and challenging dataset which resembles real-world scenarios. The proposed network model consists of the latest deep learning methods and state-of-the-art ideas, and benefits from a novel network architecture. It achieves higher accuracy with lower computational requirements than previous works. We evaluate the effectiveness of the proposed method on three different datasets and show a recognition accuracy of over 99% and over 70 fps, demonstrating that our method is not only robust but also computationally efficient.
翻訳日:2022-02-23 08:11:51 公開日:2022-02-21
# ALGAN:潜在変数による擬似異常データ生成による異常検出

ALGAN: Anomaly Detection by Generating Pseudo Anomalous Data via Latent Variables ( http://arxiv.org/abs/2202.10281v1 )

ライセンス: Link先を確認
Hironori Murase, Kenji Fukumizu(参考訳) 異常データがほとんど現れず、収集が難しい多くの異常検出タスクでは、通常のデータのみによるトレーニングが重要である。 事前知識を使って手動で異常なデータを作成することは可能だが、ユーザのバイアスにさらされる可能性がある。 本稿では,GANジェネレータが擬似非正則データと擬似非正則データを生成するのに対して,判別器は正規データと擬似非正則データとを区別するように訓練されている異常潜在変数生成適応ネットワーク(ALGAN)を提案する。 これは、2つの類似クラスの分類を専門とする標準的なGAN識別器とは異なる。 トレーニングデータセットは、潜伏変数に異常状態を導入し、ジェネレータに入力し、多様な擬似非正則データを生成するため、通常のデータのみを含む。 ALGANとMVTec-AD, Magnetic Tile Defects, COIL-100データセットを用いた既存手法との比較を行った。 実験の結果,alganは最先端の手法に匹敵するオーロラを示したが,より高速に予測できた。

In many anomaly detection tasks, where anomalous data rarely appear and are difficult to collect, training with only normal data is important. Although it is possible to manually create anomalous data using prior knowledge, they may be subject to user bias. In this paper, we propose an Anomalous Latent variable Generative Adversarial Network (ALGAN) in which the GAN generator produces pseudo-anomalous data as well as fake-normal data, whereas the discriminator is trained to distinguish between normal and pseudo-anomalous data. This differs from the standard GAN discriminator, which specializes in classifying two similar classes. The training dataset contains only normal data as anomalous states are introduced in the latent variable and input them into the generator to produce diverse pseudo-anomalous data. We compared the performance of ALGAN with other existing methods using the MVTec-AD, Magnetic Tile Defects, and COIL-100 datasets. The experimental results showed that the proposed ALGAN exhibited an AUROC comparable to state-of-the-art methods while achieving a much faster prediction time.
翻訳日:2022-02-23 07:56:32 公開日:2022-02-21
# (参考訳) ファインチューニングは事前訓練された特徴を歪曲し、分布の過小評価する

Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution ( http://arxiv.org/abs/2202.10054v1 )

ライセンス: CC BY 4.0
Ananya Kumar, Aditi Raghunathan, Robbie Jones, Tengyu Ma, Percy Liang(参考訳) 事前訓練されたモデルを下流タスクに転送する場合、2つの一般的なメソッドは完全な微調整(モデルパラメータの更新)と線形探索(最後の線形層である"ヘッド"を更新)である。 微調整によって精度が向上すること(id)が知られている。 しかし,本論文では,事前学習した特徴が良好で分布シフトが大きい場合に,線形分布分布(OOD)よりも微調整の方が精度が良いことを示す。 10の分散シフトデータセット(Breeds-Living17, Breeds-Entity30, DomainNet, CIFAR $\to$ STL, CIFAR10.1, FMoW, ImageNetV2, ImageNet-R, ImageNet-A, ImageNet-Sketch)では、微調整は平均2%の精度IDで得られるが、線形プローブよりも7%低い精度のOODが得られる。 我々は、IDとOODの精度のこのトレードオフが単純な設定でも生じることを理論的に示す。 これは、微調整が頭部を学習する一方で、ニューラルネットワークの下位層が同時に変化し、事前訓練された特徴を歪ませるためである。 解析の結果,線形探究法と線形探究法の両方の利点を併せ持つ,線形探究法(LP-FT)の容易な2段階戦略が示唆された。 実証的には、LP-FTは上記のデータセット上で細調整と線形探索の両方に優れています(1%のID、10%のOODは完全な微調整よりも優れています)。

When transferring a pretrained model to a downstream task, two popular methods are full fine-tuning (updating all the model parameters) and linear probing (updating only the last linear layer -- the "head"). It is well known that fine-tuning leads to better accuracy in-distribution (ID). However, in this paper, we find that fine-tuning can achieve worse accuracy than linear probing out-of-distribution (OOD) when the pretrained features are good and the distribution shift is large. On 10 distribution shift datasets (Breeds-Living17, Breeds-Entity30, DomainNet, CIFAR $\to$ STL, CIFAR10.1, FMoW, ImageNetV2, ImageNet-R, ImageNet-A, ImageNet-Sketch), fine-tuning obtains on average 2% higher accuracy ID but 7% lower accuracy OOD than linear probing. We show theoretically that this tradeoff between ID and OOD accuracy arises even in a simple setting: fine-tuning overparameterized two-layer linear networks. We prove that the OOD error of fine-tuning is high when we initialize with a fixed or random head -- this is because while fine-tuning learns the head, the lower layers of the neural network change simultaneously and distort the pretrained features. Our analysis suggests that the easy two-step strategy of linear probing then full fine-tuning (LP-FT), sometimes used as a fine-tuning heuristic, combines the benefits of both fine-tuning and linear probing. Empirically, LP-FT outperforms both fine-tuning and linear probing on the above datasets (1% better ID, 10% better OOD than full fine-tuning).
翻訳日:2022-02-22 17:39:21 公開日:2022-02-21
# (参考訳) 確率線形帯域を用いたマルチタスク表現学習 [全文訳有]

Multi-task Representation Learning with Stochastic Linear Bandits ( http://arxiv.org/abs/2202.10066v1 )

ライセンス: CC BY 4.0
Leonardo Cella, Karim Lounici, Massimiliano Pontil(参考訳) 確率線形バンディット課題の設定における転校学習の問題について検討する。 我々は,タスク間で低次元線形表現が共有されていると考え,マルチタスク学習環境において,この表現を学習するメリットについて検討する。 確率的バンディットポリシーの設計に関する最近の結果に続いて,トレースノルム正規化に基づく効率的なグリーディポリシーを提案する。 タスク回帰ベクトルによって形成される行列を低ランクにすることで、暗黙的に低次元表現を学習する。 文献における以前の研究とは異なり、我々の方針は基盤となる行列のランクを知る必要はない。 ここで$t$はタスク数、$r$はランク数、$d$は変数数、$n$はタスクごとのラウンド数である。 各タスクを独立に解くことで得られるベースライン$Td\sqrt{N}$と比較して,我々の戦略の利点を示す。 また、マルチタスクの後悔に対する低い境界も提供します。 最後に, 合成データに関する予備実験を行い, 理論的知見を裏付ける。

We study the problem of transfer-learning in the setting of stochastic linear bandit tasks. We consider that a low dimensional linear representation is shared across the tasks, and study the benefit of learning this representation in the multi-task learning setting. Following recent results to design stochastic bandit policies, we propose an efficient greedy policy based on trace norm regularization. It implicitly learns a low dimensional representation by encouraging the matrix formed by the task regression vectors to be of low rank. Unlike previous work in the literature, our policy does not need to know the rank of the underlying matrix. We derive an upper bound on the multi-task regret of our policy, which is, up to logarithmic factors, of order $\sqrt{NdT(T+d)r}$, where $T$ is the number of tasks, $r$ the rank, $d$ the number of variables and $N$ the number of rounds per task. We show the benefit of our strategy compared to the baseline $Td\sqrt{N}$ obtained by solving each task independently. We also provide a lower bound to the multi-task regret. Finally, we corroborate our theoretical findings with preliminary experiments on synthetic data.
翻訳日:2022-02-22 17:37:56 公開日:2022-02-21
# (参考訳) 偽物推定のための拡散因果モデル [全文訳有]

Diffusion Causal Models for Counterfactual Estimation ( http://arxiv.org/abs/2202.10166v1 )

ライセンス: CC BY 4.0
Pedro Sanchez and Sotirios A. Tsaftaris(参考訳) 本稿では,観測画像データから因果構造を推定する作業について考察する。 特に、ニューラルネットワークによる高次元データに対する介入の因果効果の定量化は、未解決の課題である。 本稿では, 発電エネルギーモデルの最新技術に基づく深部構造因果モデルDiff-SCMを提案する。 この設定では,因果モデルによる境界分布と条件分布の勾配を反復的にサンプリングすることで推論を行う。 反事実推定は、まず決定論的前方拡散を伴う潜在変数を推論し、その後、入力を反コーサル予測器w.r.tの勾配を用いて逆拡散過程に干渉することで達成される。 さらに,生成した偽物を評価する指標を提案する。 Diff-SCMはMNISTデータに基づくベースラインよりも現実的で最小限のデファクトアルを生成しており、ImageNetデータにも適用可能である。 コードはhttps://github.com/v ios-s/Diff-SCMで入手できる。

We consider the task of counterfactual estimation from observational imaging data given a known causal structure. In particular, quantifying the causal effect of interventions for high-dimensional data with neural networks remains an open challenge. Herein we propose Diff-SCM, a deep structural causal model that builds on recent advances of generative energy-based models. In our setting, inference is performed by iteratively sampling gradients of the marginal and conditional distributions entailed by the causal model. Counterfactual estimation is achieved by firstly inferring latent variables with deterministic forward diffusion, then intervening on a reverse diffusion process using the gradients of an anti-causal predictor w.r.t the input. Furthermore, we propose a metric for evaluating the generated counterfactuals. We find that Diff-SCM produces more realistic and minimal counterfactuals than baselines on MNIST data and can also be applied to ImageNet data. Code is available https://github.com/v ios-s/Diff-SCM.
翻訳日:2022-02-22 17:04:37 公開日:2022-02-21
# (参考訳) 連続学習のための完全リプレイによるベイズスパースネットワークの学習 [全文訳有]

Learning Bayesian Sparse Networks with Full Experience Replay for Continual Learning ( http://arxiv.org/abs/2202.10203v1 )

ライセンス: CC BY 4.0
Dong Gong, Qingsen Yan, Yuhang Liu, Anton van den Hengel, Javen Qinfeng Shi(参考訳) 継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。 既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。 パフォーマンスにも拘わらず、タスク間の干渉に苦しめられ、破滅的な忘れに繋がる。 この問題を改善するために,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化・選択することを提案する。 これにより、将来のタスクにより多くのパラメータ空間とモデルキャパシティを確保できる。 これにより、異なるタスクのパラメータ間の干渉を最小限に抑えることができる。 そこで本研究では,すべての層におけるニューロンの活性化に先立って,ベイズ空間の変動を利用したSparse Neural Network for Continual Learning (SNCL)を提案する。 FER(Full Experience Replay)は、異なるレイヤのニューロンのスパースアクティベーションを学習するための効果的な監視を提供する。 メモリバッファを維持するために、ロスアウェアリザーバサンプリング戦略が開発されている。 提案手法は,ネットワーク構造とタスク境界に関して不可知である。 異なるデータセットに対する実験により,我々の手法は,忘れを緩和するために最先端のパフォーマンスを実現することが示された。

Continual Learning (CL) methods aim to enable machine learning models to learn new tasks without catastrophic forgetting of those that have been previously mastered. Existing CL approaches often keep a buffer of previously-seen samples, perform knowledge distillation, or use regularization techniques towards this goal. Despite their performance, they still suffer from interference across tasks which leads to catastrophic forgetting. To ameliorate this problem, we propose to only activate and select sparse neurons for learning current and past tasks at any stage. More parameters space and model capacity can thus be reserved for the future tasks. This minimizes the interference between parameters for different tasks. To do so, we propose a Sparse neural Network for Continual Learning (SNCL), which employs variational Bayesian sparsity priors on the activations of the neurons in all layers. Full Experience Replay (FER) provides effective supervision in learning the sparse activations of the neurons in different layers. A loss-aware reservoir-sampling strategy is developed to maintain the memory buffer. The proposed method is agnostic as to the network structures and the task boundaries. Experiments on different datasets show that our approach achieves state-of-the-art performance for mitigating forgetting.
翻訳日:2022-02-22 16:45:59 公開日:2022-02-21
# 問題に触るな:視覚強化学習のためのタスク対応リプシッツデータ強化

Don't Touch What Matters: Task-Aware Lipschitz Data Augmentationfor Visual Reinforcement Learning ( http://arxiv.org/abs/2202.09982v1 )

ライセンス: Link先を確認
Zhecheng Yuan, Guozheng Ma, Yao Mu, Bo Xia, Bo Yuan, Xueqian Wang, Ping Luo, Huazhe Xu(参考訳) 視覚強化学習(rl)における重要な課題の1つは、見えない環境に一般化できるポリシーを学ぶことである。 近年,データ多様性向上を目的としたデータ拡張技術は,学習方針の一般化能力の向上に有効であることが証明されている。 しかし、RLトレーニングの感度が高いため、各ピクセルをタスクに依存しない方法で変換するデータ拡張は、不安定性に悩まされサンプル効率が損なわれ、さらに一般化性能が向上する可能性がある。 この現象の核心は、強調画像の面における発散行動分布と高分散値推定である。 この問題を軽減するため,我々はタスク関連画素をリプシッツ定数で明示的に識別し,タスク関連画素のみを強調するvisual rl用タスク対応リプシッツデータ拡張 (tlda) を提案する。 TLDAの有効性を検証するため、我々はDeepMind Control Suite、CARLA、DeepMind Manipulationタスクにおいて広範囲な実験を行い、TLDAはトレーニング時間におけるサンプル効率とテスト時間における一般化の両方を改善することを示した。 3つの異なるビジュアルコントロールベンチマークで、以前の最先端のメソッドよりも優れています。

One of the key challenges in visual Reinforcement Learning (RL) is to learn policies that can generalize to unseen environments. Recently, data augmentation techniques aiming at enhancing data diversity have demonstrated proven performance in improving the generalization ability of learned policies. However, due to the sensitivity of RL training, naively applying data augmentation, which transforms each pixel in a task-agnostic manner, may suffer from instability and damage the sample efficiency, thus further exacerbating the generalization performance. At the heart of this phenomenon is the diverged action distribution and high-variance value estimation in the face of augmented images. To alleviate this issue, we propose Task-aware Lipschitz Data Augmentation (TLDA) for visual RL, which explicitly identifies the task-correlated pixels with large Lipschitz constants, and only augments the task-irrelevant pixels. To verify the effectiveness of TLDA, we conduct extensive experiments on DeepMind Control suite, CARLA and DeepMind Manipulation tasks, showing that TLDA improves both sample efficiency in training time and generalization in test time. It outperforms previous state-of-the-art methods across the 3 different visual control benchmarks.
翻訳日:2022-02-22 16:28:27 公開日:2022-02-21
# (参考訳) 破壊の道:小さなデータセットを用いた反復レベルジェネレータの学習 [全文訳有]

Path of Destruction: Learning an Iterative Level Generator Using a Small Dataset ( http://arxiv.org/abs/2202.10184v1 )

ライセンス: CC BY 4.0
Matthew Siper, Ahmed Khalifa, Julian Togelius(参考訳) 既存のレベルのデータセットから反復的なレベルの生成を学習する新しい手続き型コンテンツ生成手法を提案する。 破壊の経路(Path of Destruction)と呼ばれる手法は、ランダムな開始状態から繰り返し修復することで、レベル生成を修復と見なす。 最初のステップは、既存のレベルに多くの異なる突然変異列を導入することで、元のレベルから人工データセットを生成することである。 生成されたデータセットでは、特徴は破壊されたレベルの観測であり、ターゲットは観測の途中で変異したタイルを修復する特定のアクションである。 このデータセットを使用して、畳み込みネットワークは、観測から適切な修復行動にマップするように訓練される。 トレーニングされたネットワークは、ランダムな開始状態からレベルを反復的に生成するために使用される。 本手法は,いくつかの2Dゲーム(ゼルダ,ダンガー・デイブ,ソコバン)に対して一意かつプレイ可能なタイルベースレベルを生成し,キーハイパーパラメータを変化させることによって実証する。

We propose a new procedural content generation method which learns iterative level generators from a dataset of existing levels. The Path of Destruction method, as we call it, views level generation as repair; levels are created by iteratively repairing from a random starting state. The first step is to generate an artificial dataset from the original set of levels by introducing many different sequences of mutations to existing levels. In the generated dataset, features are observations of destroyed levels and targets are the specific actions that repair the mutated tile in the middle of the observations. Using this dataset, a convolutional network is trained to map from observations to their respective appropriate repair actions. The trained network is then used to iteratively produce levels from random starting states. We demonstrate this method by applying it to generate unique and playable tile-based levels for several 2D games (Zelda, Danger Dave, and Sokoban) and vary key hyperparameters.
翻訳日:2022-02-22 16:26:09 公開日:2022-02-21
# 大規模ニューラルネットワークトレーニングに関する調査

Survey on Large Scale Neural Network Training ( http://arxiv.org/abs/2202.10435v1 )

ライセンス: Link先を確認
Julia Gusak, Daria Cherniuk, Alena Shilova, Alexander Katrutsa, Daniel Bershatsky, Xunyi Zhao, Lionel Eyraud-Dubois, Oleg Shlyazhko, Denis Dimitrov, Ivan Oseledets and Olivier Beaumont(参考訳) 現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。 したがって、多くのモデルは1つのGPUデバイスに適合せず、GPU単位のバッチサイズでしかトレーニングできない。 この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。 我々は、メモリを節約し、単一のまたは複数のGPUでアーキテクチャ上で計算と通信資源をうまく活用する技術を分析する。 戦略の主なカテゴリをまとめ、戦略をカテゴリ内およびカテゴリ間で比較します。 論文で提案するアプローチとともに,実装について論じる。

Modern Deep Neural Networks (DNNs) require significant memory to store weight, activations, and other intermediate tensors during training. Hence, many models do not fit one GPU device or can be trained using only a small per-GPU batch size. This survey provides a systematic overview of the approaches that enable more efficient DNNs training. We analyze techniques that save memory and make good use of computation and communication resources on architectures with a single or several GPUs. We summarize the main categories of strategies and compare strategies within and across categories. Along with approaches proposed in the literature, we discuss available implementations.
翻訳日:2022-02-22 16:14:37 公開日:2022-02-21
# (参考訳) アスペクトベース感性分類のためのドメインレベルのペアワイズセマンティックインタラクション [全文訳有]

Domain-level Pairwise Semantic Interaction for Aspect-Based Sentiment Classification ( http://arxiv.org/abs/2202.10032v1 )

ライセンス: CC BY 4.0
Zhenxin Wu and Jiazheng Gong and Kecen Guo and Guanye Liang and Qingliang Che and Bo Liu(参考訳) アスペクトベース感情分類(ABSC)は、感情分析(SA)の非常に困難なサブタスクであり、階級不均衡に苦しむ。 既存の手法は文間のドメインレベルの関係を考慮せずに文を独立に処理し、クラス不均衡の問題に対する効果的な解決策を提供できない。 直感的な観点では、同じドメインの文は高レベルなセマンティックな接続を持つことが多い。 高レベルのセマンティックな特徴の相互作用により、モデルがより良いセマンティックな表現を作らざるを得なくなり、文間の類似性やニュアンスをよりよく見つけることができる。 そこで本研究では,ペアワイズ文を入力として,双方向文の意味ベクトルを学習して対話的情報を得る,ペアワイズ意味インタラクション(psi)モジュールを提案する。 その後、各文のキーセマンティックな特徴を効果的に強調するために異なるゲートが生成される。 最後に、ベクトル間の敵対的相互作用は、2つの文の意味表現をより区別しやすくするために用いられる。 abscデータセットの4つの実験結果は、ほとんどの場合、psiが多くの競争状態のベースラインよりも優れており、クラス不均衡の問題を著しく軽減できることを示している。

Aspect-based sentiment classification (ABSC) is a very challenging subtask of sentiment analysis (SA) and suffers badly from the class-imbalance. Existing methods only process sentences independently, without considering the domain-level relationship between sentences, and fail to provide effective solutions to the problem of class-imbalance. From an intuitive point of view, sentences in the same domain often have high-level semantic connections. The interaction of their high-level semantic features can force the model to produce better semantic representations, and find the similarities and nuances between sentences better. Driven by this idea, we propose a plug-and-play Pairwise Semantic Interaction (PSI) module, which takes pairwise sentences as input, and obtains interactive information by learning the semantic vectors of the two sentences. Subsequently, different gates are generated to effectively highlight the key semantic features of each sentence. Finally, the adversarial interaction between the vectors is used to make the semantic representation of two sentences more distinguishable. Experimental results on four ABSC datasets show that, in most cases, PSI is superior to many competitive state-of-the-art baselines and can significantly alleviate the problem of class-imbalance.
翻訳日:2022-02-22 16:11:12 公開日:2022-02-21
# 抽象的視覚推論における新たな研究方向のレビュー

A Review of Emerging Research Directions in Abstract Visual Reasoning ( http://arxiv.org/abs/2202.10284v1 )

ライセンス: Link先を確認
Miko{\l}aj Ma{\l}ki\'nski and Jacek Ma\'ndziuk(参考訳) 抽象視覚推論(AVR)問題は通常、人間の知性を近似するために用いられる。 事前に獲得した知識、経験、スキルをまったく新しい設定で適用する能力をテストすることで、このタスクに特に適しています。 近年、AVR問題はマシンインテリジェンス研究のプロキシとして人気を集めており、新たな異なるタイプの問題や複数のベンチマークセットが出現している。 本稿では,この新たなavr研究を概観し,入力形状,隠れルール,対象タスク,認知機能,主課題の5次元に沿ってavrタスクを分類する分類法を提案する。 本調査の視点は,avrの課題を,それらの共有的および個別的特性に関して特徴付けることを可能にし,既存のavrタスクの解決方法に関する統一的視点を提供し,avrの問題点が実用的アプリケーションとどのように関連しているかを示し,今後の作業への有望な方向性を概説する。 そのうちの1つは、機械学習の文献では異なるタスクが独立して考慮されているという観察であり、これはavrタスクが人間の知能を測定するために使われる方法とは全く対照的である。

Abstract Visual Reasoning (AVR) problems are commonly used to approximate human intelligence. They test the ability of applying previously gained knowledge, experience and skills in a completely new setting, which makes them particularly well-suited for this task. Recently, the AVR problems have become popular as a proxy to study machine intelligence, which has led to emergence of new distinct types of problems and multiple benchmark sets. In this work we review this emerging AVR research and propose a taxonomy to categorise the AVR tasks along 5 dimensions: input shapes, hidden rules, target task, cognitive function, and main challenge. The perspective taken in this survey allows to characterise AVR problems with respect to their shared and distinct properties, provides a unified view on the existing approaches for solving AVR tasks, shows how the AVR problems relate to practical applications, and outlines promising directions for future work. One of them refers to the observation that in the machine learning literature different tasks are considered in isolation, which is in the stark contrast with the way the AVR tasks are used to measure human intelligence, where multiple types of problems are combined within a single IQ test.
翻訳日:2022-02-22 15:57:17 公開日:2022-02-21
# ロボット・テレキネシス:youtubeで人間を観てロボットの手の模倣者を学ぶ

Robotic Telekinesis: Learning a Robotic Hand Imitator by Watching Humans on Youtube ( http://arxiv.org/abs/2202.10448v1 )

ライセンス: Link先を確認
Aravind Sivakumar, Kenneth Shaw, Deepak Pathak(参考訳) 我々は、人間なら誰でもロボットの手と腕を制御できるシステムを構築します。 ロボットは人間のオペレータを単一のrgbカメラで観察し、その動作をリアルタイムで模倣する。 人間の手とロボットの手は形状、大きさ、関節構造が異なり、単一の未調整カメラからのこの翻訳は、非常に制約の少ない問題である。 さらに、リターゲットされた軌道は、物理的ロボットのタスクを効果的に実行しなければなりません。 私たちの重要な洞察は、ペアの人間ロボット対応データを集めるのに費用がかかる一方で、インターネットにはリッチで多様な人手ビデオの膨大なコーパスが含まれているということです。 我々はこのデータを利用して、人間の手を理解するシステムを訓練し、人間のビデオストリームをスムーズで、素早く、安全に、意味論的に誘導デモに類似したロボットのハンドアーム軌道に再ターゲティングする。 我々は、訓練を受けていない人が様々な操作タスクでロボットを遠隔操作できることを実証する。 低コストで手袋なし、マーカーなしの遠隔遠隔操作システムにより、ロボットの教育がよりアクセスしやすくなり、現実世界で自律的に行動することを学ぶロボットを支援できることを願っている。 https://robotic-tele kinesis.github.io/

We build a system that enables any human to control a robot hand and arm, simply by demonstrating motions with their own hand. The robot observes the human operator via a single RGB camera and imitates their actions in real-time. Human hands and robot hands differ in shape, size, and joint structure, and performing this translation from a single uncalibrated camera is a highly underconstrained problem. Moreover, the retargeted trajectories must effectively execute tasks on a physical robot, which requires them to be temporally smooth and free of self-collisions. Our key insight is that while paired human-robot correspondence data is expensive to collect, the internet contains a massive corpus of rich and diverse human hand videos. We leverage this data to train a system that understands human hands and retargets a human video stream into a robot hand-arm trajectory that is smooth, swift, safe, and semantically similar to the guiding demonstration. We demonstrate that it enables previously untrained people to teleoperate a robot on various dexterous manipulation tasks. Our low-cost, glove-free, marker-free remote teleoperation system makes robot teaching more accessible and we hope that it can aid robots that learn to act autonomously in the real world. Videos at https://robotic-tele kinesis.github.io/
翻訳日:2022-02-22 15:56:38 公開日:2022-02-21
# トランスフォーマーによる映像表現による音声映像シーン認識対話生成

Audio Visual Scene-Aware Dialog Generation with Transformer-based Video Representations ( http://arxiv.org/abs/2202.09979v1 )

ライセンス: Link先を確認
Yoshihiro Yamazaki, Shota Orihashi, Ryo Masumura, Mihiro Uchida, Akihiko Takashima(参考訳) 音声・視覚情報に関する質問に応答できるマルチモーダルダイアログシステムの構築には多くの試みがあり、その代表的タスクはAudio Visual Scene-Aware Dialog (AVSD)である。 従来のavsdモデルは、畳み込みニューラルネットワーク(cnn)ベースの映像特徴抽出器を用いて視覚情報を理解する。 cnnは時間的および空間的に局所的な情報を取得する傾向があるが、avsdは長期の時間的視覚依存と全視覚情報を必要とするため、グローバル情報もビデオ理解を促進するために重要である。 本研究では,CNNよりも時間的,空間的両グローバルな表現を効率的にキャプチャできるTransformerベースの映像特徴を適用した。 トランスフォーマーを用いたavsdモデルは,回答生成のための客観的性能スコアが向上する。 さらに,本モデルでは,DSTC10における人間の回答に近い主観的スコアが得られた。 本モデルは時間的および空間的に幅広い視覚情報を必要とする質問に正しく答える傾向があるため,avsdタスクにはトランスフォーマーベースの視覚機能は有益であることがわかった。

There have been many attempts to build multimodal dialog systems that can respond to a question about given audio-visual information, and the representative task for such systems is the Audio Visual Scene-Aware Dialog (AVSD). Most conventional AVSD models adopt the Convolutional Neural Network (CNN)-based video feature extractor to understand visual information. While a CNN tends to obtain both temporally and spatially local information, global information is also crucial for boosting video understanding because AVSD requires long-term temporal visual dependency and whole visual information. In this study, we apply the Transformer-based video feature that can capture both temporally and spatially global representations more efficiently than the CNN-based feature. Our AVSD model with its Transformer-based feature attains higher objective performance scores for answer generation. In addition, our model achieves a subjective score close to that of human answers in DSTC10. We observed that the Transformer-based visual feature is beneficial for the AVSD task because our model tends to correctly answer the questions that need a temporally and spatially broad range of visual information.
翻訳日:2022-02-22 15:56:06 公開日:2022-02-21
# マルチタスク・ポイント・スーパービジョンによる大規模集団カウントと位置決め

Multiscale Crowd Counting and Localization By Multitask Point Supervision ( http://arxiv.org/abs/2202.09942v1 )

ライセンス: Link先を確認
Mohsen Zand, Haleh Damirchi, Andrew Farley, Mahdiyar Molahasani, Michael Greenspan, Ali Etemad(参考訳) 集団カウントと人物位置定位のためのマルチタスク手法を統一的なフレームワークで提案する。 検出とローカライゼーションのタスクはよく関連しており、共同で取り組めるので、当社のモデルは、符号化された群衆画像のマルチスケール表現を学習し、それらを融合することにより、マルチタスクソリューションの恩恵を受けることができる。 比較的一般的な密度に基づく手法とは対照的に、我々のモデルは点監視を用いて、群衆の位置を正確に識別する。 本手法は,上海技工aとbの2つの人気のある群集計数データセット上で実験を行い,各群集計数において110.7と15.0のmse法と0.71と0.75のap法をそれぞれ上海技工aとb法でそれぞれ有意な結果が得られることを示した。 詳細なアブレーション実験により,マルチスケールアプローチの効果とネットワークに組み込んだ核融合モジュールの有効性が示された。 私たちのコードは、https://github.com/r cvlab-aiimlab/crowd_ countingで利用可能です。

We propose a multitask approach for crowd counting and person localization in a unified framework. As the detection and localization tasks are well-correlated and can be jointly tackled, our model benefits from a multitask solution by learning multiscale representations of encoded crowd images, and subsequently fusing them. In contrast to the relatively more popular density-based methods, our model uses point supervision to allow for crowd locations to be accurately identified. We test our model on two popular crowd counting datasets, ShanghaiTech A and B, and demonstrate that our method achieves strong results on both counting and localization tasks, with MSE measures of 110.7 and 15.0 for crowd counting and AP measures of 0.71 and 0.75 for localization, on ShanghaiTech A and B respectively. Our detailed ablation experiments show the impact of our multiscale approach as well as the effectiveness of the fusion module embedded in our network. Our code is available at: https://github.com/R CVLab-AiimLab/crowd_ counting.
翻訳日:2022-02-22 15:53:55 公開日:2022-02-21
# ドメイン指定型ドメイン適応

Domain-Augmented Domain Adaptation ( http://arxiv.org/abs/2202.10000v1 )

ライセンス: Link先を確認
Qiuhao Zeng, Tianze Luo, Boyu Wang(参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインからラベルなしターゲットドメインへの知識伝達を可能にする。 しかし、ほとんどの研究はソースドメインからターゲットドメインへの直接適応に基づいており、大きなドメインの相違に苦しめられている。 この課題を克服するため,本論文では,対象ドメインとの相違が小さい擬似ドメインを生成するためのドメイン拡張ドメイン適応(DADA)を提案し,対象ドメインと擬似ドメインとの相違を最小化して知識伝達プロセスを強化する。 さらに、ターゲットドメインから複数の擬似ドメインへの表現を投影し、擬似ドメインからの分類に基づく平均予測を擬似ラベルとして、DADの擬似ラベル法を設計する。 我々は,office home,office-31,visda 2017,digital datasetsの4つのベンチマークデータセットにおいて,最先端のドメイン適応手法を用いた広範囲な実験を行う。 結果は我々のモデルが優れていることを示している。

Unsupervised domain adaptation (UDA) enables knowledge transfer from the labelled source domain to the unlabeled target domain by reducing the cross-domain discrepancy. However, most of the studies were based on direct adaptation from the source domain to the target domain and have suffered from large domain discrepancies. To overcome this challenge, in this paper, we propose the domain-augmented domain adaptation (DADA) to generate pseudo domains that have smaller discrepancies with the target domain, to enhance the knowledge transfer process by minimizing the discrepancy between the target domain and pseudo domains. Furthermore, we design a pseudo-labeling method for DADA by projecting representations from the target domain to multiple pseudo domains and taking the averaged predictions on the classification from the pseudo domains as the pseudo labels. We conduct extensive experiments with the state-of-the-art domain adaptation methods on four benchmark datasets: Office Home, Office-31, VisDA2017, and Digital datasets. The results demonstrate the superiority of our model.
翻訳日:2022-02-22 15:53:35 公開日:2022-02-21
# vlad-vsa:語彙分離と適応によるクロスドメイン顔提示攻撃検出

VLAD-VSA: Cross-Domain Face Presentation Attack Detection with Vocabulary Separation and Adaptation ( http://arxiv.org/abs/2202.10301v1 )

ライセンス: Link先を確認
Jiong Wang, Zhou Zhao, Weike Jin, Xinyu Duan, Zhen Lei, Baoxing Huai, Yiling Wu, Xiaofei He(参考訳) 顔提示攻撃検出(PAD)では、スプーフィングキューのほとんどは微妙で局所的な画像パターン(例えば、局所的な画像歪み、3Dマスクエッジ、カットフォトエッジ)である。 既存のPADの表現は、単純なグローバルプール法で機能するが、局所的な特徴識別性を失う。 本稿では,特徴空間を局所的に分割する視覚語彙を用いた局所特徴量の定量化にvlad法を適用し,局所識別性を維持した。 さらに,ドメイン間PADtaskに対してVLADを修飾する語彙分離適応法を提案する。 提案手法は,語彙をドメイン共有とドメイン固有の視覚語に分割し,ドメイン横断シナリオ下での生活・攻撃面の多様性に対処する。 提案した語彙適応法は,k-meansアルゴリズムの最大化ステップを模倣し,視覚的単語が割り当てられた局所特徴の中心に近づくことを保証し,ロバストな類似度測定を実現する。 本稿では,標準クロスドメインパッドベンチマークにおける語彙分離・適応手法を用いたvladの有効性を実証するために,イラストと広範囲な実験を行った。 コードはhttps://github.com/l iubinggunzu/vlad-vsa で入手できる。

For face presentation attack detection (PAD), most of the spoofing cues are subtle, local image patterns (e.g., local image distortion, 3D mask edge and cut photo edges). The representations of existing PAD works with simple global pooling method, however, lose the local feature discriminability. In this paper, the VLAD aggregation method is adopted to quantize local features with visual vocabulary locally partitioning the feature space, and hence preserve the local discriminability. We further propose the vocabulary separation and adaptation method to modify VLAD for cross-domain PADtask. The proposed vocabulary separation method divides vocabulary into domain-shared and domain-specific visual words to cope with the diversity of live and attack faces under the cross-domain scenario. The proposed vocabulary adaptation method imitates the maximization step of the k-means algorithm in the end-to-end training, which guarantees the visual words be close to the center of assigned local features and thus brings robust similarity measurement. We give illustrations and extensive experiments to demonstrate the effectiveness of VLAD with the proposed vocabulary separation and adaptation method on standard cross-domain PAD benchmarks. The codes are available at https://github.com/L iubinggunzu/VLAD-VSA .
翻訳日:2022-02-22 15:53:18 公開日:2022-02-21
# 多値時系列異常検出のためのマルチレゾリューションアンサンブルと予測符号化を用いたリカレントオートエンコーダ

Recurrent Auto-Encoder With Multi-Resolution Ensemble and Predictive Coding for Multivariate Time-Series Anomaly Detection ( http://arxiv.org/abs/2202.10001v1 )

ライセンス: Link先を確認
Heejeong Choi, Subin Kim, Pilsung Kang(参考訳) 大規模時系列データは実世界のアプリケーションで容易に発見できるため、多変量時系列異常検出は多様な産業において重要な役割を担ってきた。 時系列データに基づいて誤動作を防止し異常を検出することにより、生産性の向上とメンテナンスコストの削減を可能にする。 しかし,実世界の時系列データが複雑な時間依存性を示すため,多変量時系列異常検出は困難である。 このタスクでは、正規行動の非線形時間ダイナミクスを効果的に含む豊かな表現を学ぶことが重要である。 本研究では,マルチレゾリューションアンサンブルと予測符号化に基づいて情報正規表現を学習するRAE-MEPCという,教師なし多変量時系列異常検出モデルを提案する。 入力時系列からのマルチスケール依存関係をキャプチャするために,マルチレゾリューションアンサンブル符号化を導入する。 エンコーダは、異なるエンコーダの長さのサブエンコーダから抽出された時間的特徴を階層的に集約する。 これらの符号化された特徴から、再構成デコーダは、低分解能の情報が高分解能出力でサブデコーダをデコードするのに役立つマルチレゾリューションアンサンブルデコーダに基づいて、入力時系列を再構成する。 さらに予測符号化を導入し、時系列の時間的依存関係を学習するようモデルに促す。 実世界のベンチマークデータセットの実験により、提案モデルは多変量時系列異常検出のためのベンチマークモデルより優れていることが示された。

As large-scale time-series data can easily be found in real-world applications, multivariate time-series anomaly detection has played an essential role in diverse industries. It enables productivity improvement and maintenance cost reduction by preventing malfunctions and detecting anomalies based on time-series data. However, multivariate time-series anomaly detection is challenging because real-world time-series data exhibit complex temporal dependencies. For this task, it is crucial to learn a rich representation that effectively contains the nonlinear temporal dynamics of normal behavior. In this study, we propose an unsupervised multivariate time-series anomaly detection model named RAE-MEPC which learns informative normal representations based on multi-resolution ensemble and predictive coding. We introduce multi-resolution ensemble encoding to capture the multi-scale dependency from the input time series. The encoder hierarchically aggregates the temporal features extracted from the sub-encoders with different encoding lengths. From these encoded features, the reconstruction decoder reconstructs the input time series based on multi-resolution ensemble decoding where lower-resolution information helps to decode sub-decoders with higher-resolution outputs. Predictive coding is further introduced to encourage the model to learn the temporal dependencies of the time series. Experiments on real-world benchmark datasets show that the proposed model outperforms the benchmark models for multivariate time-series anomaly detection.
翻訳日:2022-02-22 15:49:14 公開日:2022-02-21
# ccpt:好奇心条件付き近位軌跡を用いた自動ゲームプレイテストと検証

CCPT: Automatic Gameplay Testing and Validation with Curiosity-Conditione d Proximal Trajectories ( http://arxiv.org/abs/2202.10057v1 )

ライセンス: Link先を確認
Alessandro Sestini, Linus Gissl\'en, Joakim Bergdahl, Konrad Tollmar and Andrew D. Bagdanov(参考訳) 本稿では,複雑な3次元ナビゲーション環境におけるゲームプレイ問題の自動解析と検出を行うための深層強化学習アルゴリズムを提案する。 Curiosity-Conditione d Proximal Trajectories (CCPT) 法は好奇心と模倣学習を組み合わせてエージェントを訓練し、専門家による実証から得られた既知の軌道の近接を科学的に探索する。 CCPTが複雑な環境を探索し、ゲームプレイの問題を発見し、その過程におけるデザインの監視を行い、それらをゲームデザイナーに直接認識し、強調する方法について説明する。 さらに,現代のaaaビデオゲームの複雑さを反映した新しい3次元ナビゲーション環境において,アルゴリズムの有効性を示す。 以上の結果から,ゲームデザイナーがゲーム設計における問題を自動的に識別する上で有用なツールとして,ベースライン手法よりも高いカバレッジとバグ発見が期待できる。

This paper proposes a novel deep reinforcement learning algorithm to perform automatic analysis and detection of gameplay issues in complex 3D navigation environments. The Curiosity-Conditione d Proximal Trajectories (CCPT) method combines curiosity and imitation learning to train agents to methodically explore in the proximity of known trajectories derived from expert demonstrations. We show how CCPT can explore complex environments, discover gameplay issues and design oversights in the process, and recognize and highlight them directly to game designers. We further demonstrate the effectiveness of the algorithm in a novel 3D navigation environment which reflects the complexity of modern AAA video games. Our results show a higher level of coverage and bug discovery than baselines methods, and it hence can provide a valuable tool for game designers to identify issues in game design automatically.
翻訳日:2022-02-22 15:48:48 公開日:2022-02-21
# (参考訳) 線形時間における変圧器の品質 [全文訳有]

Transformer Quality in Linear Time ( http://arxiv.org/abs/2202.10447v1 )

ライセンス: CC BY 4.0
Weizhe Hua, Zihang Dai, Hanxiao Liu, Quoc V. Le(参考訳) 我々はトランスフォーマーの設計選択を再考し、長いシーケンスを扱う際の弱点に対処する方法を提案する。 まず,単頭注意力の弱さと品質損失の最小化を可能にする,gated attention unitと呼ばれるシンプルな層を提案する。 そこで本研究では,この新層を補完する線形近似法を提案する。 結果として得られたモデルは、短い (512) と長い (8k) の両方のトランスフォーマーのパープレキシティと一致し、wiki-40bでは4.9$\times$、自動回帰言語モデリングでは12.1$\times$、マスク言語モデリングではc4では4.8$\times$である。

We revisit the design choices in Transformers, and propose methods to address their weaknesses in handling long sequences. First, we propose a simple layer named gated attention unit, which allows the use of a weaker single-head attention with minimal quality loss. We then propose a linear approximation method complementary to this new layer, which is accelerator-friendly and highly competitive in quality. The resulting model, named FLASH, matches the perplexity of improved Transformers over both short (512) and long (8K) context lengths, achieving training speedups of up to 4.9$\times$ on Wiki-40B and 12.1$\times$ on PG-19 for auto-regressive language modeling, and 4.8$\times$ on C4 for masked language modeling.
翻訳日:2022-02-22 15:47:21 公開日:2022-02-21
# 対照的な説明による言語モデル解釈

Interpreting Language Models with Contrastive Explanations ( http://arxiv.org/abs/2202.10419v1 )

ライセンス: Link先を確認
Kayo Yin and Graham Neubig(参考訳) モデル解釈可能性法はしばしば、出力空間が比較的小さいテキスト分類などのタスクでNLPモデル決定を説明するために用いられる。 しかし、出力空間が数万のトークンで構成される言語生成に適用すると、これらのメソッドは、有益な説明を提供することができない。 言語モデルはトークンを予測するために様々な特徴、例えば音声、数、時制、意味論などを考慮する必要がある。 既存の説明方法は、これらの特徴の証拠を一つの説明にまとめるが、人間の理解では解釈できない。 言語モデリングにおける異なる決定を混乱させるため、言語モデルを説明することに重点を置いている。 比較的説明は, 主要な文法現象の検証において, 非比較的説明よりも定量的に優れていることを示した。 また、モデルが類似した証拠を使用するコントラスト決定のグループを特定し、様々な言語生成決定においてモデルが使用する入力トークンを特徴付けることができる。

Model interpretability methods are often used to explain NLP model decisions on tasks such as text classification, where the output space is relatively small. However, when applied to language generation, where the output space often consists of tens of thousands of tokens, these methods are unable to provide informative explanations. Language models must consider various features to predict a token, such as its part of speech, number, tense, or semantics. Existing explanation methods conflate evidence for all these features into a single explanation, which is less interpretable for human understanding. To disentangle the different decisions in language modeling, we focus on explaining language models contrastively: we look for salient input tokens that explain why the model predicted one token instead of another. We demonstrate that contrastive explanations are quantifiably better than non-contrastive explanations in verifying major grammatical phenomena, and that they significantly improve contrastive model simulatability for human observers. We also identify groups of contrastive decisions where the model uses similar evidence, and we are able to characterize what input tokens models use during various language generation decisions.
翻訳日:2022-02-22 15:15:23 公開日:2022-02-21
# 人間の意味的知識をよりよく捉えるために、視覚的に単語埋め込みを接地する

Seeing the advantage: visually grounding word embeddings to better capture human semantic knowledge ( http://arxiv.org/abs/2202.10292v1 )

ライセンス: Link先を確認
Danny Merkx, Stefan L. Frank and Mirjam Ernestus(参考訳) 分布的意味モデルは、多くの自然言語処理タスクで有用な単語レベルの意味を捉え、単語の意味の認知的側面を捉えている。 これらのモデルのほとんどは、人間の感覚体験がずっと豊かであるにもかかわらず、純粋にテキストベースである。 本稿では、英語のテキストと画像を組み合わせて視覚的に接地した単語埋め込みを作成し、それらを一般的なテキストベースの手法と比較し、視覚情報によって単語の意味の認知的側面をよりよく把握できるかどうかを確かめる。 解析の結果,視覚的な接地埋め込みの類似性は,純粋にテキストベースの埋め込みよりも大きなプライミング実験において人間の反応時間を予測できることがわかった。 視覚的な接地埋め込みは、人間の単語の類似度評価とよく相関する。 重要なことは、両方の実験において、巨大なコーパスで訓練されたテキストベースの埋め込みを含む場合でも、接地埋め込みが説明された分散のユニークな部分を占めることを示している。 これは,視覚的な接地によって,テキストで抽出できない情報を唯一の情報源として捉えることが可能であることを示している。

Distributional semantic models capture word-level meaning that is useful in many natural language processing tasks and have even been shown to capture cognitive aspects of word meaning. The majority of these models are purely text based, even though the human sensory experience is much richer. In this paper we create visually grounded word embeddings by combining English text and images and compare them to popular text-based methods, to see if visual information allows our model to better capture cognitive aspects of word meaning. Our analysis shows that visually grounded embedding similarities are more predictive of the human reaction times in a large priming experiment than the purely text-based embeddings. The visually grounded embeddings also correlate well with human word similarity ratings. Importantly, in both experiments we show that the grounded embeddings account for a unique portion of explained variance, even when we include text-based embeddings trained on huge corpora. This shows that visual grounding allows our model to capture information that cannot be extracted using text as the only source of information.
翻訳日:2022-02-22 15:15:04 公開日:2022-02-21
# 選好からのレキシカルリワードの推測

Inferring Lexicographically-Or dered Rewards from Preferences ( http://arxiv.org/abs/2202.10153v1 )

ライセンス: Link先を確認
Alihan H\"uy\"uk, William R. Zame, Mihaela van der Schaar(参考訳) 代替案の集合よりもエージェントの選好をモデル化することは、多くの分野で主要な関心事である。 主なアプローチは、より高い報酬を得る代替品が低い報酬を得る代替品よりも好ましいという特性を持つ単一の報酬/効用関数を見つけることである。 しかし、多くの設定において、選好は複数の、しばしば競合する目的に基づいており、そのような選好を表現するには単一の報奨関数が不十分である。 本稿では,エージェントの観察した嗜好の多目的報酬に基づく表現を推定する手法を提案する。 我々は,より優先度の高い目的に対してエージェントが無関心である場合に限り,優先度の低い目標が重要となるように,異なる目的に対するエージェントの優先順位を語彙的にモデル化する。 我々は、がん治療にインスパイアされた医療と、臓器移植にインスパイアされた医療の2つの例を提供し、私たちが学んだ語彙順応報酬が、意思決定者の好みをよりよく理解し、強化学習に使用する際の政策改善に役立つかを説明する。

Modeling the preferences of agents over a set of alternatives is a principal concern in many areas. The dominant approach has been to find a single reward/utility function with the property that alternatives yielding higher rewards are preferred over alternatives yielding lower rewards. However, in many settings, preferences are based on multiple, often competing, objectives; a single reward function is not adequate to represent such preferences. This paper proposes a method for inferring multi-objective reward-based representations of an agent's observed preferences. We model the agent's priorities over different objectives as entering lexicographically, so that objectives with lower priorities matter only when the agent is indifferent with respect to objectives with higher priorities. We offer two example applications in healthcare, one inspired by cancer treatment, the other inspired by organ transplantation, to illustrate how the lexicographically-or dered rewards we learn can provide a better understanding of a decision-maker's preferences and help improve policies when used in reinforcement learning.
翻訳日:2022-02-22 15:14:37 公開日:2022-02-21
# (参考訳) 大量内視鏡画像を用いた大腸内視鏡ポリープ検出 [全文訳有]

Colonoscopy polyp detection with massive endoscopic images ( http://arxiv.org/abs/2202.08730v2 )

ライセンス: CC BY 4.0
Jialin Yu, Huogen Wang, Ming Chen(参考訳) 我々は,検出速度において自明なコストで異なるデータセットで検証された平均精度を向上し,既存の終端ポリプ検出モデルを改善した。 大腸内視鏡検査におけるポリープ検出に関するこれまでの研究は、医師の検査オーバーヘッドを軽減するための効率的なエンドツーエンドのソリューションを提供しました。 しかし、後の実験で、このフレームワークはポリプ捕獲の状態が変化する以前ほど堅牢ではないことが分かりました。 本研究では,ポリープ検出作業において,精度の低下の原因となる主な問題を特定するため,データセットに関するいくつかの研究を行った。 私たちは、アンカーボックス形状を改善するために最適化されたアンカー生成手法を使い、小さなオブジェクト検出に必要であると信じているため、より多くのボックスが検出に使われました。 代替のバックボーンは、密集したアンカーボックス回帰によって引き起こされる重い時間コストを補償するために使用される。 アテンションゲートモジュールを使用することで,リアルタイム検出速度を維持しつつ,最先端ポリープ検出性能を実現することができる。

We improved an existing end-to-end polyp detection model with better average precision validated by different data sets with trivial cost on detection speed. Our previous work on detecting polyps within colonoscopy provided an efficient end-to-end solution to alleviate doctor's examination overhead. However, our later experiments found this framework is not as robust as before as the condition of polyp capturing varies. In this work, we conducted several studies on data set, identifying main issues that causes low precision rate in the task of polyp detection. We used an optimized anchor generation methods to get better anchor box shape and more boxes are used for detection as we believe this is necessary for small object detection. A alternative backbone is used to compensate the heavy time cost introduced by dense anchor box regression. With use of the attention gate module, our model can achieve state-of-the-art polyp detection performance while still maintain real-time detection speed.
翻訳日:2022-02-22 13:11:52 公開日:2022-02-21
# (参考訳) 動的変分オートエンコーダを用いた教師なしマルチオブジェクトトラッキング [全文訳有]

Unsupervised Multiple-Object Tracking with a Dynamical Variational Autoencoder ( http://arxiv.org/abs/2202.09315v2 )

ライセンス: CC BY 4.0
Xiaoyu Lin, Laurent Girin, Xavier Alameda-Pineda(参考訳) 本稿では,DVAE-UMOTと呼ばれる動的変動オートエンコーダ(DVAE)に基づくマルチオブジェクト追跡(MOT)のための教師なし確率モデルと関連する推定アルゴリズムを提案する。 DVAEは潜伏変数の深い生成モデルであり、時間的シーケンスのモデリングのための変分オートエンコーダの拡張と見なすことができる。 dvae-umotには、シングルオブジェクトトラジェクタのラベルなし合成データセットで事前トレーニングされた後に、オブジェクトのダイナミクスをモデル化するために含まれている。 次に、dvae-umotの分布とパラメータを、変分推論の原理を用いて、各多目的列上で推定して追跡する:潜在変数の近似後続分布の定義と、データ類似関数の下界における対応する証拠の最大化。 DVAE-UMOTは2つの最先端確率MOTモデルの性能を上回り、競争力を発揮する。 コードとデータは公開されている。

In this paper, we present an unsupervised probabilistic model and associated estimation algorithm for multi-object tracking (MOT) based on a dynamical variational autoencoder (DVAE), called DVAE-UMOT. The DVAE is a latent-variable deep generative model that can be seen as an extension of the variational autoencoder for the modeling of temporal sequences. It is included in DVAE-UMOT to model the objects' dynamics, after being pre-trained on an unlabeled synthetic dataset of single-object trajectories. Then the distributions and parameters of DVAE-UMOT are estimated on each multi-object sequence to track using the principles of variational inference: Definition of an approximate posterior distribution of the latent variables and maximization of the corresponding evidence lower bound of the data likehood function. DVAE-UMOT is shown experimentally to compete well with and even surpass the performance of two state-of-the-art probabilistic MOT models. Code and data are publicly available.
翻訳日:2022-02-22 13:01:42 公開日:2022-02-21
# VLP:ビジョンランゲージ事前トレーニングに関する調査

VLP: A Survey on Vision-Language Pre-training ( http://arxiv.org/abs/2202.09061v2 )

ライセンス: Link先を確認
Feilong Chen, Duzhen Zhang, Minglun Han, Xiuyi Chen, Jing Shi, Shuang Xu, Bo Xu(参考訳) 過去数年間、事前学習モデルの出現により、コンピュータビジョン(cv)や自然言語処理(nlp)といったユニモーダルな分野が新しい時代を迎えた。 実質的な作業は、下流のユニモーダルなタスクに有用であることを示し、新しいモデルをゼロからトレーニングすることを避けている。 では、事前学習されたモデルはマルチモーダルタスクに適用できるのだろうか? 研究者はこの問題を調査し、大きな進歩を遂げた。 本稿では,視覚言語事前学習(VLP)の最近の進歩と新たなフロンティアについて調査する。 VLPの全体的な理解を深めるために、私たちは最初に、機能抽出、モデルアーキテクチャ、事前学習目標、事前学習データセット、下流タスクの5つの側面から最新の進歩をレビューする。 次に, 具体的なVLPモデルを詳述する。 最後に,VLPの新たなフロンティアについて論じる。 私たちの知る限りでは、VLPに関する最初の調査です。 この調査が今後のVLP分野の研究に光を当てることを願っている。

In the past few years, the emergence of pre-training models has brought uni-modal fields such as computer vision (CV) and natural language processing (NLP) to a new era. Substantial works have shown they are beneficial for downstream uni-modal tasks and avoid training a new model from scratch. So can such pre-trained models be applied to multi-modal tasks? Researchers have explored this problem and made significant progress. This paper surveys recent advances and new frontiers in vision-language pre-training (VLP), including image-text and video-text pre-training. To give readers a better overall grasp of VLP, we first review its recent advances from five aspects: feature extraction, model architecture, pre-training objectives, pre-training datasets, and downstream tasks. Then, we summarize the specific VLP models in detail. Finally, we discuss the new frontiers in VLP. To the best of our knowledge, this is the first survey on VLP. We hope that this survey can shed light on future research in the VLP field.
翻訳日:2022-02-22 12:04:38 公開日:2022-02-21
# SGPT:意味検索のためのGPT文埋め込み

SGPT: GPT Sentence Embeddings for Semantic Search ( http://arxiv.org/abs/2202.08904v2 )

ライセンス: Link先を確認
Niklas Muennighoff(参考訳) GPT変換器は利用可能な最大の言語モデルであるが、セマンティック検索はBERT変換器が支配している。 SGPT-BE と SGPT-CE を用いて,GPT モデルをバイエンコーダやクロスエンコーダとして対称探索や非対称探索に適用する。 SGPT-BEは、バイアステンソルのみを対照的に微調整し、意味的に意味のある文埋め込みを生成する。 580億のパラメータSGPT-BEは、BEIRに新しい最先端を設定すれば、最高の文埋め込みを6%上回る。 同時に提案された175B DavinciエンドポイントのOpenAI Embeddingよりも優れており、パラメータは25万倍も微調整されている。 SGPT-CEは微調整なしでGPTモデルのログ確率を使用する。 610億のパラメータSGPT-CEは、BEIR上で教師なしの最先端を設定する。 7つのデータセットの教師付き最先端を破るが、他のデータセットでは著しく失われる。 プロンプトに適応することで、どのように緩和できるかを示す。 SGPT-BEとSGPT-CEはモデルサイズでスケールする。 しかし、レイテンシ、ストレージ、計算コストの増加を考慮すべきである。 コード、モデル、結果ファイルはhttps://github.com/M uennighoff/sgpt.comから無料で入手できる。

GPT transformers are the largest language models available, yet semantic search is dominated by BERT transformers. We present SGPT-BE and SGPT-CE for applying GPT models as Bi-Encoders or Cross-Encoders to symmetric or asymmetric search. SGPT-BE produces semantically meaningful sentence embeddings by contrastive fine-tuning of only bias tensors and a novel pooling method. A 5.8 billion parameter SGPT-BE outperforms the best available sentence embeddings by 6% setting a new state-of-the-art on BEIR. It outperforms the concurrently proposed OpenAI Embeddings of the 175B Davinci endpoint, which fine-tunes 250,000 times more parameters. SGPT-CE uses log probabilities from GPT models without any fine-tuning. A 6.1 billion parameter SGPT-CE sets an unsupervised state-of-the-art on BEIR. It beats the supervised state-of-the-art on 7 datasets, but significantly loses on other datasets. We show how this can be alleviated by adapting the prompt. SGPT-BE and SGPT-CE performance scales with model size. Yet, increased latency, storage and compute costs should be considered. Code, models and result files are freely available at https://github.com/M uennighoff/sgpt.
翻訳日:2022-02-22 12:04:21 公開日:2022-02-21
# 常識知識の選択戦略

Selection Strategies for Commonsense Knowledge ( http://arxiv.org/abs/2202.09163v2 )

ライセンス: Link先を確認
Claudia Schon(参考訳) 選択戦略は一階述語論理定理において広く使われ、手前の定理を証明するのに必要な大きな知識基盤のこれらの部分を選択する。 通常、これらの選択戦略はシンボル名の意味を考慮に入れない。 常識知識を持つ知識ベースでは、記号名は通常意味を持つものとして選ばれ、選択戦略に貴重な情報を提供する。 単語埋め込みに基づくコモンセンス知識のための純粋に統計的選択手法であるベクトルベース選択戦略を導入する。 定理証明を目的として,異なるコモンセンス知識選択手法を比較し,ベクトルベース選択の有用性をケーススタディで示す。

Selection strategies are broadly used in first-order logic theorem proving to select those parts of a large knowledge base that are necessary to proof a theorem at hand. Usually, these selection strategies do not take the meaning of symbol names into account. In knowledge bases with commonsense knowledge, symbol names are usually chosen to have a meaning and this meaning provides valuable information for selection strategies. We introduce the vector-based selection strategy, a purely statistical selection technique for commonsense knowledge based on word embeddings. We compare different commonsense knowledge selection techniques for the purpose of theorem proving and demonstrate the usefulness of vector-based selection with a case study.
翻訳日:2022-02-22 12:04:05 公開日:2022-02-21