このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210616となっている論文です。

PDF登録状況(公開日: 20210616)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 動的スペックルのための視覚処理技術に関する研究:比較分析 [全文訳有]

Study of visual processing techniques for dynamic speckles: a comparative analysis ( http://arxiv.org/abs/2106.15507v1 )

ライセンス: CC BY 4.0
Amit Chatterjee, Jitendra Dhanotiya, Vimal Bhatia and Shashi Prakash(参考訳) スペックルパターンから情報を得るために用いられる主なビジュアル技術は、富士井法、一般化差分、重み付き一般化差分、平均窓付き差分、構造関数(sf)、修正sfなどである。 本研究では,天然ガム試料の視覚的主要技術の比較分析を行った。 その結果、動的スペックルデータの視覚的検査に最適なツールとしてsf法が確立された。

Main visual techniques used to obtain information from speckle patterns are Fujii method, generalized difference, weighted generalized difference, mean windowed difference, structural function (SF), modified SF, etc. In this work, a comparative analysis of major visual techniques for natural gum sample is carried out. Obtained results conclusively establish SF based method as an optimum tool for visual inspection of dynamic speckle data.
翻訳日:2021-07-05 00:14:13 公開日:2021-06-16
# (参考訳) 対角的に拘束されたSDPに対するモーメントインスパイアされた低ランク座標 [全文訳有]

Momentum-inspired Low-Rank Coordinate Descent for Diagonally Constrained SDPs ( http://arxiv.org/abs/2106.08775v1 )

ライセンス: CC BY 4.0
Junhyung Lyle Kim, Jose Antonio Lara Benitez, Mohammad Taha Toghani, Cameron Wolfe, Zhiwei Zhang, Anastasios Kyrillidis(参考訳) 本稿では,非凸プログラミングを高速化し,対角的に制約された半定値プログラミング(SDP)問題を大規模に解くための,新しい,実用的で証明可能なアプローチを提案する。 本アルゴリズムは,凸最適化からの加速度運動と座標パワー反復と行列因子化手法を非自明に結合する。 このアルゴリズムは実装が非常に簡単で、1つの余分なハイパーパラメータ -- 運動量だけを追加する。 我々は,最適近傍における局所線型収束を認め,常に一階臨界点に収束することを証明した。 実験では,maxcut,maxsat,mimo信号検出の3つの主要な応用領域において,本手法のメリットを示す。 いずれの場合も、当社の手法は、非凸および凸SDPソルバの大幅な高速化 – 最先端の非凸SDPソルバの5倍、凸SDPソルバの9~10^3倍 -- を提供する。

We present a novel, practical, and provable approach for solving diagonally constrained semi-definite programming (SDP) problems at scale using accelerated non-convex programming. Our algorithm non-trivially combines acceleration motions from convex optimization with coordinate power iteration and matrix factorization techniques. The algorithm is extremely simple to implement, and adds only a single extra hyperparameter -- momentum. We prove that our method admits local linear convergence in the neighborhood of the optimum and always converges to a first-order critical point. Experimentally, we showcase the merits of our method on three major application domains: MaxCut, MaxSAT, and MIMO signal detection. In all cases, our methodology provides significant speedups over non-convex and convex SDP solvers -- 5X faster than state-of-the-art non-convex solvers, and 9 to 10^3 X faster than convex SDP solvers -- with comparable or improved solution quality.
翻訳日:2021-07-05 00:10:40 公開日:2021-06-16
# (参考訳) 投票登録ファイル変更のための異常検出と自動ラベリング [全文訳有]

Anomaly Detection and Automated Labeling for Voter Registration File Changes ( http://arxiv.org/abs/2106.15285v1 )

ライセンス: CC BY 4.0
Sam Royston, Ben Greenberg, Omeed Tavasoli, Courtenay Cotton(参考訳) アメリカ合衆国大統領選挙における投票資格は、市民が投票する資格のある情報を含む州データベースのパッチワークによって決定される。 州や地方レベルの管理者は、それぞれの管轄区域が適切に管理されていることを保証するとともに、データベースの不正な変更の監視という極めて困難な課題に直面している。 投票登録ファイル(VRF)の変更の監視は、米国の民主的プロセスを妨害したい悪意のあるアクターが、これらのファイルの内容を操作して目標を達成するよう、十分に助言されることから、極めて重要である。 2020年には、米国史上最も論争の多い選挙の1つを統括するときに、選挙担当者が好意的に行動するのを見たが、アメリカ人が頼っている選挙システムの確保と監視には、まだまだ多くの作業が残っている。 時間とともにVRFのスナップショットを比較したデータを用いて、機械学習を利用して、投票者のロールを保護する際のアナリストや管理者の負担を軽減する一連の方法を提案する。 我々はまず, 異常な変化を希薄な付加雑音としてモデル化し, 多数の教師なし異常検出手法の有効性を評価した。 この設定では,短期間の行政区と非負の行列因子分解を比較した統計モデルが,異常事象のサーキングに最も有効であると結論づける。 これらの手法は、2019-2020年に当社の監視システムにデプロイされ、アイオワ州国務長官のオフィスと連携して使用されました。 さらに,データベース修正の根本原因をラベル付けするために,歴史メタデータと人口統計メタデータを用いた新展開モデルを提案する。 私たちはこのモデルを使って、どの修正が原因を知っているかを予測することを望んでいます。

Voter eligibility in United States elections is determined by a patchwork of state databases containing information about which citizens are eligible to vote. Administrators at the state and local level are faced with the exceedingly difficult task of ensuring that each of their jurisdictions is properly managed, while also monitoring for improper modifications to the database. Monitoring changes to Voter Registration Files (VRFs) is crucial, given that a malicious actor wishing to disrupt the democratic process in the US would be well-advised to manipulate the contents of these files in order to achieve their goals. In 2020, we saw election officials perform admirably when faced with administering one of the most contentious elections in US history, but much work remains to secure and monitor the election systems Americans rely on. Using data created by comparing snapshots taken of VRFs over time, we present a set of methods that make use of machine learning to ease the burden on analysts and administrators in protecting voter rolls. We first evaluate the effectiveness of multiple unsupervised anomaly detection methods in detecting VRF modifications by modeling anomalous changes as sparse additive noise. In this setting we determine that statistical models comparing administrative districts within a short time span and non-negative matrix factorization are most effective for surfacing anomalous events for review. These methods were deployed during 2019-2020 in our organization's monitoring system and were used in collaboration with the office of the Iowa Secretary of State. Additionally, we propose a newly deployed model which uses historical and demographic metadata to label the likely root cause of database modifications. We hope to use this model to predict which modifications have known causes and therefore better identify potentially anomalous modifications.
翻訳日:2021-07-04 23:37:47 公開日:2021-06-16
# ソフトアテンション:歩行者軌道予測における社会的相互作用の学習に役立つか?

Soft Attention: Does it Actually Help to Learn Social Interactions in Pedestrian Trajectory Prediction? ( http://arxiv.org/abs/2106.15321v1 )

ライセンス: Link先を確認
Laurent Boucaud, Daniel Aloise and Nicolas Saunier(参考訳) 本研究では, 歩行者の移動履歴と周辺歩行者の移動履歴をソーシャル情報と呼ぶことによって, 歩行者の進路を予測する問題を考える。 The seminal paper on Social-LSTM, deep-learning has to model the impact of social interaction on a pedestrian's motion。 これらのモデルが社会的相互作用を学習できるという実証は、これらのモデルのアブレーション研究に依存している。 2つの標準指標(平均変位誤差と最終変位誤差)でソーシャルインタラクションモジュールの有無を比較した。 しかし、これらの複雑なモデルは、単純な定数速度アプローチによって最近改善されている。 これは、証明の妥当性と同様に、実際に社会的相互作用をモデル化できるかどうかを問うものである。 本稿では,ソーシャルインタラクションモデリングのためのソフトアテンション機構を備えたディープラーニングモデルに注目し,予測時にソーシャル情報を使用するかどうかを検討する。 ETHデータセットとUCYデータセットの4つの最先端アプローチに関する2つの実験を行った。 まず、社会情報をランダムなノイズに置き換え、実際の社会情報で訓練されたモデルと比較することで、モデルを訓練する。 次に、gatingメカニズムと$l_0$ペナルティを使用し、モデルが内部コンポーネントをシャットダウンできるようにします。 モデルは一貫してソフトアテンション機構を磨くことを学んでいる。 どちらの実験でも、収束の過程も予測性能も変更されなかった。 これは,ソフトアテンション機構と社会的情報がモデルによって無視されることを示す。

We consider the problem of predicting the future path of a pedestrian using its motion history and the motion history of the surrounding pedestrians, called social information. Since the seminal paper on Social-LSTM, deep-learning has become the main tool used to model the impact of social interactions on a pedestrian's motion. The demonstration that these models can learn social interactions relies on an ablative study of these models. The models are compared with and without their social interactions module on two standard metrics, the Average Displacement Error and Final Displacement Error. Yet, these complex models were recently outperformed by a simple constant-velocity approach. This questions if they actually allow to model social interactions as well as the validity of the proof. In this paper, we focus on the deep-learning models with a soft-attention mechanism for social interaction modeling and study whether they use social information at prediction time. We conduct two experiments across four state-of-the-art approaches on the ETH and UCY datasets, which were also used in previous work. First, the models are trained by replacing the social information with random noise and compared to model trained with actual social information. Second, we use a gating mechanism along with a $L_0$ penalty, allowing models to shut down their inner components. The models consistently learn to prune their soft-attention mechanism. For both experiments, neither the course of the convergence nor the prediction performance were altered. This demonstrates that the soft-attention mechanism and therefore the social information are ignored by the models.
翻訳日:2021-07-04 19:43:15 公開日:2021-06-16
# 文芸品の検索と索引付けに基づく感情の進行

Sentiment Progression based Searching and Indexing of Literary Textual Artefacts ( http://arxiv.org/abs/2106.13767v1 )

ライセンス: Link先を確認
Hrishikesh Kulkarni and Bradly Alicea(参考訳) 文学的アーティファクトは一般にインデクシングされ、タイトル、メタデータ、キーワードに基づいて検索される。 この検索と索引付けは、ユーザー/読者が、そのクリエイティブなテキストアーティファクトやドキュメントをすでに知っている場合、うまく機能する。 この索引付けと検索は、読者の興味や感情的なメイク、書籍へのマッピングをほとんど考慮していない。 人が文芸品を探しているとき、情報だけでなく読書の喜びも求めるかもしれない。 文学的アーティファクトの場合、重要な出来事にまたがる感情の進行がインデクシングと検索の鍵となる可能性がある。 本稿では,知的テキスト分析を用いた感情進行の計算的関係に基づく文芸品のクラスタを構築する。 1076の英語タイトル+20のマラティー語タイトルのデータベースを作成し、データベース http://www.cs.cmu.ed u/~dbamman/booksumma ries.html の16559のタイトルとその要約も使用しました。 本書の検索と推薦のために,感情進行に基づく索引付けを提案する。 これは読者向けの書籍タイトルのパーソナライズされたクラスタを作成するために使用できる。 この分析は、特定の種類の本やクリエイティブアーティファクトを探している本愛好家をターゲットにした検索と索引付けの改善を明らかに示唆している。 この索引付けと検索は、書籍を推薦する多くの実生活アプリケーションを見つけることができる。

Literary artefacts are generally indexed and searched based on titles, meta data and keywords over the years. This searching and indexing works well when user/reader already knows about that particular creative textual artefact or document. This indexing and search hardly takes into account interest and emotional makeup of readers and its mapping to books. When a person is looking for a literary textual artefact, he/she might be looking for not only information but also to seek the joy of reading. In case of literary artefacts, progression of emotions across the key events could prove to be the key for indexing and searching. In this paper, we establish clusters among literary artefacts based on computational relationships among sentiment progressions using intelligent text analysis. We have created a database of 1076 English titles + 20 Marathi titles and also used database http://www.cs.cmu.ed u/~dbamman/booksumma ries.html with 16559 titles and their summaries. We have proposed Sentiment Progression based Indexing for searching and recommending books. This can be used to create personalized clusters of book titles of interest to readers. The analysis clearly suggests better searching and indexing when we are targeting book lovers looking for a particular type of book or creative artefact. This indexing and searching can find many real-life applications for recommending books.
翻訳日:2021-07-04 19:41:25 公開日:2021-06-16
# (参考訳) img2mxmlで好きなメロディーを聴き、測定値に基づくマルチモーダルディープラーニング駆動アセンブリによる楽譜画像からmusicxmlを生成する [全文訳有]

Listen to Your Favorite Melodies with img2Mxml, Producing MusicXML from Sheet Music Image by Measure-based Multimodal Deep Learning-driven Assembly ( http://arxiv.org/abs/2106.12037v1 )

ライセンス: CC BY 4.0
Tomoyuki Shishido, Fehmiju Fati, Daisuke Tokushige, and Yasuhiro Ono(参考訳) 近年,光学音楽認識(OMR)に深層学習が応用されている。 しかし、現在様々な楽譜画像からのomr処理は、広く適用できる精度に欠けている。 本稿では,MMdA(Measure-based Multimodal Deep Learning (DL)-driven Assembly)法を提案する。 この方法を用いて、複数の深層学習モデルを用いて、深層学習モデルにより測定を抽出し、アライメントし、複数の深層学習モデルを用いて、与えられた音楽記号成分の推測に使用されるように再サイズする。 各標準尺度の使用により、モデルの効率的なトレーニングと、各尺度における5つのスタッフラインの正確な調整が可能になる。 少数の特徴型を持つ複数の記号成分カテゴリーモデルは、コードを含む様々な音符やその他の記号の集合を表現することができる。 このMMdA法は、エンドツーエンドのOMR処理を精度良く解決する。

Deep learning has recently been applied to optical music recognition (OMR). However, currently OMR processing from various sheet music images still lacks precision to be widely applicable. Here, we present an MMdA (Measure-based Multimodal deep learning (DL)-driven Assembly) method allowing for end-to-end OMR processing from various images including inclined photo images. Using this method, measures are extracted by a deep learning model, aligned, and resized to be used for inference of given musical symbol components by using multiple deep learning models in sequence or in parallel. Use of each standardized measure enables efficient training of the models and accurate adjustment of five staff lines in each measure. Multiple musical symbol component category models with a small number of feature types can represent a diverse set of notes and other musical symbols including chords. This MMdA method provides a solution to end-to-end OMR processing with precision.
翻訳日:2021-06-27 10:04:39 公開日:2021-06-16
# (参考訳) SATNetによるシンボル接地技術 [全文訳有]

Techniques for Symbol Grounding with SATNet ( http://arxiv.org/abs/2106.11072v1 )

ライセンス: CC BY 4.0
Sever Topan, David Rolnick, Xujie Si(参考訳) 多くの専門家は、人工知能の未来は、シンボリック論理推論をディープラーニングアーキテクチャに統合する能力によって制限されていると主張している。 最近提案された差別化可能なMAXSATソルバSATNetは、従来のニューラルネットワークと統合し、視覚的推論問題を解決する能力のブレークスルーだった。 例えば、画像の例からスドクのルールを純粋に学習することができる。 その成功にもかかわらず、サットネットはシンボル接地問題として知られる神経シンボリックシステムにおいて、視覚的な入力を明示的な監督なしにシンボル変数にマッピングできないこと("label leak")という重要な課題に終止符を打った。 本研究では、SATNetがこの制限を克服できる自己教師付き事前学習パイプラインを提案し、SATNetアーキテクチャが解決できる問題のクラスを拡張して、中間ラベルが全く利用できないデータセットを含むようにする。 本手法は,ラベルリークを防止できる難解なセットアップでも,satnetが完全な精度を実現することを実証する。 また、SATNetアーキテクチャの性能をさらに向上させ、Visual Sudokuの最先端技術に勝る証明読解手法を提案する。

Many experts argue that the future of artificial intelligence is limited by the field's ability to integrate symbolic logical reasoning into deep learning architectures. The recently proposed differentiable MAXSAT solver, SATNet, was a breakthrough in its capacity to integrate with a traditional neural network and solve visual reasoning problems. For instance, it can learn the rules of Sudoku purely from image examples. Despite its success, SATNet was shown to succumb to a key challenge in neurosymbolic systems known as the Symbol Grounding Problem: the inability to map visual inputs to symbolic variables without explicit supervision ("label leakage"). In this work, we present a self-supervised pre-training pipeline that enables SATNet to overcome this limitation, thus broadening the class of problems that SATNet architectures can solve to include datasets where no intermediary labels are available at all. We demonstrate that our method allows SATNet to attain full accuracy even with a harder problem setup that prevents any label leakage. We additionally introduce a proofreading method that further improves the performance of SATNet architectures, beating the state-of-the-art on Visual Sudoku.
翻訳日:2021-06-27 09:51:57 公開日:2021-06-16
# 低レイノルズ数におけるマイクロスイマーの追跡と回避のための強化学習

Reinforcement learning for pursuit and evasion of microswimmers at low Reynolds number ( http://arxiv.org/abs/2106.08609v1 )

ライセンス: Link先を確認
Francesco Borra and Luca Biferale and Massimo Cencini and Antonio Celani(参考訳) 水生生物は水力学的な手がかりを使って遊泳し、獲物を見つけ、捕食者から逃げ出すことができる。 我々は,低レイノルズ数環境において,追従回避作業に従事した2人のマイクロスウィマーのモデルを考える。 プレイヤーは限られた能力を持ち、流体力学の障害を感知するだけで相手の位置に関する手がかりを与え、単純な操作を行うことができる。 追跡者の目標は、最も短い時間で脱出者を捕まえることである。 逆に、回避者はできるだけ捕獲を遅らせることを目指している。 強化学習によってプレイヤーは非自明に水力学環境を利用する効率的かつ物理的に説明可能な戦略を見つける。 この書簡は、強化学習を使って水中環境における捕食者戦略を発見し、水中ロボティクスに応用する可能性を示す概念実証を提供する。

Aquatic organisms can use hydrodynamic cues to navigate, find their preys and escape from predators. We consider a model of two competing microswimmers engaged in a pursue-evasion task while immersed in a low-Reynolds-number environment. The players have limited abilities: they can only sense hydrodynamic disturbances, which provide some cue about the opponent's position, and perform simple manoeuvres. The goal of the pursuer is to capturethe evader in the shortest possible time. Conversely the evader aims at deferring capture as much as possible. We show that by means of Reinforcement Learning the players find efficient and physically explainable strategies which non-trivially exploit the hydrodynamic environment. This Letter offers a proof-of-concept for the use of Reinforcement Learning to discover prey-predator strategies in aquatic environments, with potential applications to underwater robotics.
翻訳日:2021-06-27 09:06:19 公開日:2021-06-16
# 混合マルコフ連鎖法によるチェックイン配列のクラスタリング

Clustering of check-in sequences using the mixture Markov chain process ( http://arxiv.org/abs/2106.12039v1 )

ライセンス: Link先を確認
Elena Shmileva, Viktor Sarzhan(参考訳) 本研究は,ジオソーシャルネットワークからのチェックインシーケンスのクラスタリングに重点を置いている。 我々はマルコフ連鎖過程を時間依存型データの数学的モデルとして用いた。 クラスタリングでは、期待最大化(EM)アルゴリズムを調整した。 その結果,現在廃絶している位置情報ネットワークweeplacesの利用者の詳細なコミュニティ(クラスタ)が得られた。

This work is devoted to the clustering of check-in sequences from a geosocial network. We used the mixture Markov chain process as a mathematical model for time-dependent types of data. For clustering, we adjusted the Expectation-Maximiza tion (EM) algorithm. As a result, we obtained highly detailed communities (clusters) of users of the now defunct geosocial network, Weeplaces.
翻訳日:2021-06-27 09:05:47 公開日:2021-06-16
# (参考訳) VaRとCVaR推定のための効率的なブラックボックス重要度サンプリング [全文訳有]

Efficient Black-Box Importance Sampling for VaR and CVaR Estimation ( http://arxiv.org/abs/2106.10236v1 )

ライセンス: CC BY 4.0
Anand Deo, Karthyek Murthy(参考訳) 本稿では,機械学習特徴マップや混合整数線形最適化定式化といった高度なオブジェクトを用いて,損失のテールリスクを推定するための重要サンプリング(is)について検討する。 損失に対するブラックボックスアクセスと、基礎となるランダムベクトルの分布のみを仮定し、リスクのリスク値とリスクの条件値を推定する効率的なisアルゴリズムを提案する。 適切な測定方法の変更を特定することにおける重要な課題は、希少な試料から条件過剰の濃度特性を学習し、複製する自己構造化IS変換によって自動化される。 得られた推定者は対数スケールで見たとき漸近的に最適な分散還元を享受する。 提案手法の有効性と実用性に着目したシミュレーション実験

This paper considers Importance Sampling (IS) for the estimation of tail risks of a loss defined in terms of a sophisticated object such as a machine learning feature map or a mixed integer linear optimisation formulation. Assuming only black-box access to the loss and the distribution of the underlying random vector, the paper presents an efficient IS algorithm for estimating the Value at Risk and Conditional Value at Risk. The key challenge in any IS procedure, namely, identifying an appropriate change-of-measure, is automated with a self-structuring IS transformation that learns and replicates the concentration properties of the conditional excess from less rare samples. The resulting estimators enjoy asymptotically optimal variance reduction when viewed in the logarithmic scale. Simulation experiments highlight the efficacy and practicality of the proposed scheme
翻訳日:2021-06-22 04:37:00 公開日:2021-06-16
# (参考訳) 侵入検知システムのためのフェデレーション学習:概念,課題,今後の方向性 [全文訳有]

Federated Learning for Intrusion Detection System: Concepts, Challenges and Future Directions ( http://arxiv.org/abs/2106.09527v1 )

ライセンス: CC BY 4.0
Shaashwat Agrawal, Sagnik Sarkar, Ons Aouedi, Gokul Yenduri, Kandaraj Piamrat, Sweta Bhattacharya, Praveen Kumar Reddy Maddikunta, Thippa Reddy Gadekallu(参考訳) インターネットとスマートデバイスが急速に開発され、ネットワークトラフィックが急増し、インフラストラクチャが複雑で不均一になった。 携帯電話、ウェアラブルデバイス、自動運転車の優勢な利用は、毎日、そして毎日大量のデータを生成する分散ネットワークの例である。 これらのデバイスの計算能力も着実に進歩しており、情報を送信したり、データをローカルに保存したり、エッジデバイスに向けてネットワーク計算を駆動する必要が生じた。 侵入検知システムは、そのようなデバイスのセキュリティとプライバシーを確保する上で重要な役割を果たす。 侵入検出システムを用いた機械学習とディープラーニングは、高い分類精度の達成によって大きな勢いを増している。 しかし、プライバシーとセキュリティの側面は、データを集中型サーバに保存し、通信する必要があるため、潜在的に危険にさらされる可能性がある。 それとは対照的に、フェデレーション学習(FL)は、データを転送するのではなく、モデルをローカルに訓練し、パラメータを集中サーバに転送するプライバシー保護分散型学習技術として適切に適合する。 本稿では, 侵入検知システムにおけるflの利用について, 広範囲かつ徹底的に検討することを目的とする。 FLの必要性を確立するために,様々なタイプのIDS,関連するMLアプローチ,関連する課題について論じる。 本稿では,異常検出の様々な側面におけるFLの実装の概要について述べる。 FL実装の関連する課題も特定され、今後の研究の方向性に関するアイデアが提供される。 本稿は,flベースの侵入検知システムの実装における課題が,将来研究のベースラインとして機能する可能性の高い解決法を提案する。

The rapid development of the Internet and smart devices trigger surge in network traffic making its infrastructure more complex and heterogeneous. The predominated usage of mobile phones, wearable devices and autonomous vehicles are examples of distributed networks which generate huge amount of data each and every day. The computational power of these devices have also seen steady progression which has created the need to transmit information, store data locally and drive network computations towards edge devices. Intrusion detection systems play a significant role in ensuring security and privacy of such devices. Machine Learning and Deep Learning with Intrusion Detection Systems have gained great momentum due to their achievement of high classification accuracy. However the privacy and security aspects potentially gets jeopardised due to the need of storing and communicating data to centralized server. On the contrary, federated learning (FL) fits in appropriately as a privacy-preserving decentralized learning technique that does not transfer data but trains models locally and transfers the parameters to the centralized server. The present paper aims to present an extensive and exhaustive review on the use of FL in intrusion detection system. In order to establish the need for FL, various types of IDS, relevant ML approaches and its associated issues are discussed. The paper presents detailed overview of the implementation of FL in various aspects of anomaly detection. The allied challenges of FL implementations are also identified which provides idea on the scope of future direction of research. The paper finally presents the plausible solutions associated with the identified challenges in FL based intrusion detection system implementation acting as a baseline for prospective research.
翻訳日:2021-06-19 13:24:07 公開日:2021-06-16
# (参考訳) Transductive Few-Shot Learning: クラスタ化は必要なすべてか? [全文訳有]

Transductive Few-Shot Learning: Clustering is All You Need? ( http://arxiv.org/abs/2106.09516v1 )

ライセンス: CC BY 4.0
Imtiaz Masud Ziko, Malik Boudiaf, Jose Dolz, Eric Granger and Ismail Ben Ayed(参考訳) 本稿では,数個のラベル付きデータポイントからのプロトタイプベース目標,ラプラシア正規化,および監督制約を統合したクラスタリングとトランスダクティブな数ショット学習の一般的な定式化について検討する。 本稿では,この問題の凹凸緩和法を提案し,収束保証を伴う計算効率の良いブロック座標境界最適化器を導出する。 各イテレーションで、オプティマイザは各ポイント・ツー・クラスタ割り当ての独立(並列)更新を計算する。 そのため、大規模なクラスタリングや数発のタスクに簡単に分散できる。 さらに,ポイント・ツー・セット・マップに基づく完全収束解析を行う。 我々は,様々なデータセットに包括的クラスタリングと数発の学習実験を移植し,精度と最適化品質の観点から競合性能を示し,大きな問題にスケールアップした。 複雑なメタ学習やエピソード学習の戦略を使わずに,ベースクラス上での標準的なトレーニングを用いることで,さまざまなモデルや設定,データセットに対して,最先端のいくつかのショットメソッドよりも優れたパフォーマンスを実現している。 驚くべきことに、我々の一般モデルの特定の非正規化ケースに対応する標準的なクラスタリング手順(例えばK-means)でさえ、数ショット学習における最先端技術と比較して既に競合性能が達成されている。 これらの驚くべき結果は、現在の数発のベンチマークの限界を示唆し、最近の文献における多数の複雑な数発の学習技術の存在を疑問視している。

We investigate a general formulation for clustering and transductive few-shot learning, which integrates prototype-based objectives, Laplacian regularization and supervision constraints from a few labeled data points. We propose a concave-convex relaxation of the problem, and derive a computationally efficient block-coordinate bound optimizer, with convergence guarantee. At each iteration,our optimizer computes independent (parallel) updates for each point-to-cluster assignment. Therefore, it could be trivially distributed for large-scale clustering and few-shot tasks. Furthermore, we provides a thorough convergence analysis based on point-to-set maps. Were port comprehensive clustering and few-shot learning experiments over various data sets, showing that our method yields competitive performances, in term of accuracy and optimization quality, while scaling up to large problems. Using standard training on the base classes, without resorting to complex meta-learning and episodic-training strategies, our approach outperforms state-of-the-art few-shot methods by significant margins, across various models, settings and data sets. Surprisingly, we found that even standard clustering procedures (e.g., K-means), which correspond to particular, non-regularized cases of our general model, already achieve competitive performances in comparison to the state-of-the-art in few-shot learning. These surprising results point to the limitations of the current few-shot benchmarks, and question the viability of a large body of convoluted few-shot learning techniques in the recent literature.
翻訳日:2021-06-19 12:46:52 公開日:2021-06-16
# (参考訳) DAG構造化LSTMを用いたオンラインチャットの遠隔操作 [全文訳有]

Disentangling Online Chats with DAG-Structured LSTMs ( http://arxiv.org/abs/2106.09024v1 )

ライセンス: CC BY 4.0
Duccio Pappadopulo, Lisa Bauer, Marco Farina, Ozan \.Irsoy, and Mohit Bansal(参考訳) 多くの現代メッセージングシステムは、多くのユーザー間で高速で同期的なテキスト通信を可能にする。 その結果、メッセージのシーケンスは、独立したサブ会話が相互に織り合わされる、より複雑な構造を隠す。 これは、チャットログの内容を理解したり、それらから情報を集めることを目的としたタスクに対して、課題となる。 これらの会話を解き放つ能力は、要約や質問応答といった多くの下流タスクの成功に重きを置いている。 会話に従わなければならない参加者自身の手掛かりとして、ユーザ・ターン、ユーザへの言及、タイムスタンプなどのテキストに付随する構造化情報を使用し、絡み合いに重要であることが示されている。 DAG-LSTMは、直交非巡回依存を扱える木-LSTMの一般化であり、そのような情報とその非順序の性質を組み込む自然な方法である。 本稿では,DAG-LSTMを会話障害タスクに適用する。 我々はubuntu ircデータセットで実験を行う。 提案する新たなモデルでは,リプライ・トゥ・リレーション(Repend-to-Relation) のタスクにおけるアートステータスの状態が得られ,他のアンタングルメント指標と競合することを示す。

Many modern messaging systems allow fast and synchronous textual communication among many users. The resulting sequence of messages hides a more complicated structure in which independent sub-conversations are interwoven with one another. This poses a challenge for any task aiming to understand the content of the chat logs or gather information from them. The ability to disentangle these conversations is then tantamount to the success of many downstream tasks such as summarization and question answering. Structured information accompanying the text such as user turn, user mentions, timestamps, is used as a cue by the participants themselves who need to follow the conversation and has been shown to be important for disentanglement. DAG-LSTMs, a generalization of Tree-LSTMs that can handle directed acyclic dependencies, are a natural way to incorporate such information and its non-sequential nature. In this paper, we apply DAG-LSTMs to the conversation disentanglement task. We perform our experiments on the Ubuntu IRC dataset. We show that the novel model we propose achieves state of the art status on the task of recovering reply-to relations and it is competitive on other disentanglement metrics.
翻訳日:2021-06-19 12:17:54 公開日:2021-06-16
# (参考訳) 継続学習のための自己教師付き事前学習 [全文訳有]

SPeCiaL: Self-Supervised Pretraining for Continual Learning ( http://arxiv.org/abs/2106.09065v1 )

ライセンス: CC BY 4.0
Lucas Caccia, Joelle Pineau(参考訳) 本稿では,連続学習に適した表現の教師なし事前学習法を提案する。 このアプローチは、逐次学習プロセスを通じて異なるメタ学習目標を考案する。 具体的には、同じ画像の異なる拡張ビューを連続的に表示するために、表現の上に線形モデルを訓練する。 線形モデルは、見たばかりの画像を分類する機能と、以前のイテレーションの画像の両方で評価される。 このことは、最小限の忘れをしながら、迅速な知識の保持を好む表現を生み出します。 本研究では,SPeCiaLを連続的なFew-Shot学習環境において評価し,他の教師付き事前学習手法に適合または優れることを示す。

This paper presents SPeCiaL: a method for unsupervised pretraining of representations tailored for continual learning. Our approach devises a meta-learning objective that differentiates through a sequential learning process. Specifically, we train a linear model over the representations to match different augmented views of the same image together, each view presented sequentially. The linear model is then evaluated on both its ability to classify images it just saw, and also on images from previous iterations. This gives rise to representations that favor quick knowledge retention with minimal forgetting. We evaluate SPeCiaL in the Continual Few-Shot Learning setting, and show that it can match or outperform other supervised pretraining approaches.
翻訳日:2021-06-19 12:06:34 公開日:2021-06-16
# (参考訳) 自己エンコーダを用いたidentifiability-guar anteed simplex-structured post-nonlinear mixture learning

Identifiability-Guar anteed Simplex-Structured Post-Nonlinear Mixture Learning via Autoencoder ( http://arxiv.org/abs/2106.09070v1 )

ライセンス: CC BY 4.0
Qi Lyu and Xiao Fu(参考訳) 本研究は, 非線形混合潜在成分を教師なしに解き放つ問題に焦点をあてる。 潜在成分は確率シンプレックスに存在すると仮定され、未知の非線形混合系によって変換される。 この問題は、非線形ハイパースペクトルアンミックス、画像埋め込み、非線形クラスタリングなど、信号およびデータ分析における様々な応用を見出す。 対象の潜伏成分の識別性は一般には確立し難いため,線形混合学習問題はすでに不十分である。 未知の非線形性によって問題はさらに難しい。 以前の研究は、証明可能な潜在成分識別のための関数式に基づく定式化を提供した。 しかし、識別可能条件は幾分厳密で非現実的なものである。 加えて、識別可能性解析は無限サンプル(すなわち人口)の場合に基づいているが、実際的な有限サンプルの場合の理解は不可解である。 さらに、先行作業におけるアルゴリズムは、計算の利便性と表現性を交換し、しばしば学習性能を阻害する。 私たちの貢献は3倍です。 まず、新しい識別可能性条件は、主に緩和された仮定の下で導かれる。 次に、包括的なサンプルの複雑さの結果が提示されます。 第3に,既存のアルゴリズムの課題を効果的に回避する,制約付きオートエンコーダベースのアルゴリズムフレームワークを提案する。 合成および実実験は、我々の理論解析を裏付ける。

This work focuses on the problem of unraveling nonlinearly mixed latent components in an unsupervised manner. The latent components are assumed to reside in the probability simplex, and are transformed by an unknown post-nonlinear mixing system. This problem finds various applications in signal and data analytics, e.g., nonlinear hyperspectral unmixing, image embedding, and nonlinear clustering. Linear mixture learning problems are already ill-posed, as identifiability of the target latent components is hard to establish in general. With unknown nonlinearity involved, the problem is even more challenging. Prior work offered a function equation-based formulation for provable latent component identification. However, the identifiability conditions are somewhat stringent and unrealistic. In addition, the identifiability analysis is based on the infinite sample (i.e., population) case, while the understanding for practical finite sample cases has been elusive. Moreover, the algorithm in the prior work trades model expressiveness with computational convenience, which often hinders the learning performance. Our contribution is threefold. First, new identifiability conditions are derived under largely relaxed assumptions. Second, comprehensive sample complexity results are presented -- which are the first of the kind. Third, a constrained autoencoder-based algorithmic framework is proposed for implementation, which effectively circumvents the challenges in the existing algorithm. Synthetic and real experiments corroborate our theoretical analyses.
翻訳日:2021-06-19 11:54:21 公開日:2021-06-16
# (参考訳) gnn説明の厳密な理論解析と評価に向けて [全文訳有]

Towards a Rigorous Theoretical Analysis and Evaluation of GNN Explanations ( http://arxiv.org/abs/2106.09078v1 )

ライセンス: CC BY 4.0
Chirag Agarwal, Marinka Zitnik, Himabindu Lakkaraju(参考訳) グラフニューラルネットワーク(GNN)が現実世界のアプリケーションにますます採用されているため、ステークホルダが予測の背後にある理論的根拠を確実に理解することが重要である。 近年、いくつかのGNN説明法が提案されているが、これらの手法の振る舞いを理論的に分析したり、その効果を体系的に評価する研究はほとんど行われていない。 本稿では,最新のGNN説明法を理論的に解析し,評価し,比較するための最初の公理的枠組みを紹介する。 我々は,すべてのGNN説明手法が満たすべき重要な特性,すなわち忠実さ,安定性,公正さの信頼性のある説明を生成するために概要と形式化を行う。 我々はこれらの特性を利用して、最先端のGNN説明法の有効性を初めて理論的に解析した。 本分析は, 一般的なGNN説明法において, 上述のすべての特性の上限を定めている。 また、我々のフレームワークを利用して、様々なドメインから複数の実世界のデータセット上でこれらの手法を実証的に評価する。 実験の結果,いくつかのGNN説明法(例えば勾配に基づく手法)は,ランダムなベースラインに劣らず,グラフ構造を利用する手法はノード機能のみに依存する手法よりも有効であることが示された。

As Graph Neural Networks (GNNs) are increasingly employed in real-world applications, it becomes critical to ensure that the stakeholders understand the rationale behind their predictions. While several GNN explanation methods have been proposed recently, there has been little to no work on theoretically analyzing the behavior of these methods or systematically evaluating their effectiveness. Here, we introduce the first axiomatic framework for theoretically analyzing, evaluating, and comparing state-of-the-art GNN explanation methods. We outline and formalize the key desirable properties that all GNN explanation methods should satisfy in order to generate reliable explanations, namely, faithfulness, stability, and fairness. We leverage these properties to present the first ever theoretical analysis of the effectiveness of state-of-the-art GNN explanation methods. Our analysis establishes upper bounds on all the aforementioned properties for popular GNN explanation methods. We also leverage our framework to empirically evaluate these methods on multiple real-world datasets from diverse domains. Our empirical results demonstrate that some popular GNN explanation methods (e.g., gradient-based methods) perform no better than a random baseline and that methods which leverage the graph structure are more effective than those that solely rely on the node features.
翻訳日:2021-06-19 11:52:47 公開日:2021-06-16
# (参考訳) 学習された信念探索: 部分的に観察可能な設定でポリシーを効率的に改善する [全文訳有]

Learned Belief Search: Efficiently Improving Policies in Partially Observable Settings ( http://arxiv.org/abs/2106.09086v1 )

ライセンス: CC BY 4.0
Hengyuan Hu, Adam Lerer, Noam Brown, Jakob Foerster(参考訳) 検索はシングルエージェントとマルチエージェント環境において効果的なポリシーを計算するための重要なツールであり、いくつかのベンチマークで超人的なパフォーマンスを達成するのに不可欠である。 しかしながら、部分的に観測可能な環境に対する事前探索アプローチの大きな制限の1つは、計算コストが隠れた情報量に乏しいことである。 本稿では,部分的に観測可能な環境に対する計算効率の良い探索手法である \emph{Learned Belief Search} (LBS) を提案する。 正確な信念分布を維持するのではなく、LBSは教師付きタスクとして学習されるほぼ自己回帰的反事実的信念を使用する。 マルチエージェント設定では、LBSはロールアウト時にこれらのポリシーを効率的に評価するために、基礎となるポリシーに対して新しいパブリックプライベートモデルアーキテクチャを使用する。 ハナビのベンチマークドメインでは、LBSは正確な検索の利点の55%~91%を得ることができ、計算要求を35.8 \times$~4.6 \times$に減らし、以前の検索方法ではアクセスできないより大きな設定にスケールすることができる。

Search is an important tool for computing effective policies in single- and multi-agent environments, and has been crucial for achieving superhuman performance in several benchmark fully and partially observable games. However, one major limitation of prior search approaches for partially observable environments is that the computational cost scales poorly with the amount of hidden information. In this paper we present \emph{Learned Belief Search} (LBS), a computationally efficient search procedure for partially observable environments. Rather than maintaining an exact belief distribution, LBS uses an approximate auto-regressive counterfactual belief that is learned as a supervised task. In multi-agent settings, LBS uses a novel public-private model architecture for underlying policies in order to efficiently evaluate these policies during rollouts. In the benchmark domain of Hanabi, LBS can obtain 55% ~ 91% of the benefit of exact search while reducing compute requirements by $35.8 \times$ ~ $4.6 \times$, allowing it to scale to larger settings that were inaccessible to previous search methods.
翻訳日:2021-06-19 11:07:45 公開日:2021-06-16
# (参考訳) 自然逆画像のための説明可能なAI [全文訳有]

Explainable AI for Natural Adversarial Images ( http://arxiv.org/abs/2106.09106v1 )

ライセンス: CC BY 4.0
Tomas Folke, ZhaoBin Li, Ravi B. Sojitra, Scott Cheng-Hsin Yang, and Patrick Shafto(参考訳) 逆画像は、現代の画像分類器がトレーニングセット外の摂動に対して脆弱であることを示す。 人間による監視は、この弱点を軽減するかもしれないが、人間がAIを理解することで、それがいつ間違いを犯すかを予測する。 以前の研究で、AIの決定プロセスが自分自身を反映していると仮定する傾向があることがわかりました。 ここでは、説明可能なAIの手法がこの仮定を破り、参加者が敵画像と標準画像のAI分類を予測するのに役立つかどうかを評価する。 サリエンシーマップとサンプルの両方がaiエラーのキャッチを容易にするが、その効果は付加的ではなく、サリエンシーマップは例よりも効果的である。

Adversarial images highlight how vulnerable modern image classifiers are to perturbations outside of their training set. Human oversight might mitigate this weakness, but depends on humans understanding the AI well enough to predict when it is likely to make a mistake. In previous work we have found that humans tend to assume that the AI's decision process mirrors their own. Here we evaluate if methods from explainable AI can disrupt this assumption to help participants predict AI classifications for adversarial and standard images. We find that both saliency maps and examples facilitate catching AI errors, but their effects are not additive, and saliency maps are more effective than examples.
翻訳日:2021-06-19 10:52:17 公開日:2021-06-16
# (参考訳) アドバンテージに基づく介入による安全強化学習 [全文訳有]

Safe Reinforcement Learning Using Advantage-Based Intervention ( http://arxiv.org/abs/2106.09110v1 )

ライセンス: CC BY 4.0
Nolan Wagener, Byron Boots, Ching-An Cheng(参考訳) 多くのシーケンシャルな決定問題は、安全性の制約に従って全報酬を最大化するポリシーを見つけることである。 近年の研究では、トレーニング後に安全なポリシーを生成する安全強化学習(rl)アルゴリズムの開発に焦点が当てられているが、トレーニング中の安全性の確保は依然として未解決の問題である。 基本的な課題は、未知のマルコフ決定プロセス(MDP)における制約を満たしながら探索を行うことである。 本稿では,この課題を確率制約条件で解決する。 本稿では, エージェントの安全性を確保するために, アドバンスト関数に基づく介入機構を用いた新たなアルゴリズムSAILRを提案し, 制約のないMDP用に設計された既製のRLアルゴリズムを用いてエージェントのポリシーを最適化する。 本手法は, 訓練と展開の双方(訓練後, 介入機構なし)における安全性と, 最適安全制約ポリシーと比較して, 政策性能の保証が強いものである。 実験の結果,SAILRは標準安全RLや制約付きMDPアプローチよりも訓練中よりはるかに少ない制約に違反し,介入なしに安全に展開できる優れた政策に収束することがわかった。 私たちのコードはhttps://github.com/n olanwagener/safe_rlで利用可能です。

Many sequential decision problems involve finding a policy that maximizes total reward while obeying safety constraints. Although much recent research has focused on the development of safe reinforcement learning (RL) algorithms that produce a safe policy after training, ensuring safety during training as well remains an open problem. A fundamental challenge is performing exploration while still satisfying constraints in an unknown Markov decision process (MDP). In this work, we address this problem for the chance-constrained setting. We propose a new algorithm, SAILR, that uses an intervention mechanism based on advantage functions to keep the agent safe throughout training and optimizes the agent's policy using off-the-shelf RL algorithms designed for unconstrained MDPs. Our method comes with strong guarantees on safety during both training and deployment (i.e., after training and without the intervention mechanism) and policy performance compared to the optimal safety-constrained policy. In our experiments, we show that SAILR violates constraints far less during training than standard safe RL and constrained MDP approaches and converges to a well-performing policy that can be deployed safely without intervention. Our code is available at https://github.com/n olanwagener/safe_rl.
翻訳日:2021-06-19 10:38:51 公開日:2021-06-16
# (参考訳) 自己報告型メンタルヘルスのための半パラメトリックカウントデータレグレッション

Semiparametric count data regression for self-reported mental health ( http://arxiv.org/abs/2106.09114v1 )

ライセンス: CC BY 4.0
Daniel R. Kowal and Bohan Wu(参考訳) 「過去30日間何日の間、あなたの精神状態は良くなかったのですか?」 この質問に対する回答は、自己申告されたメンタルヘルスを計測し、National Health and Nutrition Examination Survey (NHANES)における重要な共変量と関連付けることができる。 しかし、これらのカウント変数は大きな分散課題を示しており、データはオーバー分散され、ゼロ膨らませられ、30で束縛され、5日と7日のインクリメントでヒープされる。 これらの課題に対処するため、データ回帰をカウントするための半パラメトリック推定および推測フレームワークを設計する。 データ生成プロセスは、潜在ガウス回帰モデルであるSTARを同時に変換して定義される。 変換は非パラメトリックに推定され、ラウンド演算子は離散および有界データの正しいサポートを保証する。 最大確率推定子は、最小二乗推定可能な任意の連続データモデルと互換性のあるEMアルゴリズムを用いて計算される。 スターレグレッションには漸近仮説テストと信頼区間、情報基準による変数選択、診断のカスタマイズが含まれる。 シミュレーション研究はこの枠組みの有用性を検証する。 STARは、自己報告されたメンタルヘルスに関連する要因を研究するためにデプロイされ、既存のカウントデータ回帰モデルと比較して、適合性を大幅に向上させる。

"For how many days during the past 30 days was your mental health not good?" The responses to this question measure self-reported mental health and can be linked to important covariates in the National Health and Nutrition Examination Survey (NHANES). However, these count variables present major distributional challenges: the data are overdispersed, zero-inflated, bounded by 30, and heaped in five- and seven-day increments. To meet these challenges, we design a semiparametric estimation and inference framework for count data regression. The data-generating process is defined by simultaneously transforming and rounding (STAR) a latent Gaussian regression model. The transformation is estimated nonparametrically and the rounding operator ensures the correct support for the discrete and bounded data. Maximum likelihood estimators are computed using an EM algorithm that is compatible with any continuous data model estimable by least squares. STAR regression includes asymptotic hypothesis testing and confidence intervals, variable selection via information criteria, and customized diagnostics. Simulation studies validate the utility of this framework. STAR is deployed to study the factors associated with self-reported mental health and demonstrates substantial improvements in goodness-of-fit compared to existing count data regression models.
翻訳日:2021-06-19 09:53:21 公開日:2021-06-16
# (参考訳) 動作優先とダイナミクスモデル:オフラインrlにおける性能向上とドメイン転送 [全文訳有]

Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL ( http://arxiv.org/abs/2106.09119v1 )

ライセンス: CC BY 4.0
Catherine Cang, Aravind Rajeswaran, Pieter Abbeel, Michael Laskin(参考訳) オフライン強化学習(英語版) (RL) は、追加の環境相互作用なしに不完全なオフラインデータから準最適ポリシーを抽出することを目的としている。 多様なオフラインデータセットからポリシーを抽出することで、トレーニングプロセスをより安全で速く、より合理化することにより、RLの適用範囲を広げる可能性がある。 本研究では,オフラインrlアルゴリズムの性能向上,オフラインデータの品質に対する堅牢性,一般化機能について検討する。 そこで我々は,オフラインモデルに基づく適応行動優先型rl(mabe)を導入する。 本アルゴリズムは、ドメイン内一般化をサポートする動的モデルと、ドメイン間一般化をサポートする振る舞い先行が相補的であることに基づく。 組み合わせると、オフラインのRLポリシーの性能と一般化が大幅に向上する。 広く研究されている D4RL オフライン RL ベンチマークでは,MABE が従来のモデルフリーおよびモデルベースアルゴリズムと比較して高い平均性能を達成することがわかった。 クロスドメインの一般化を必要とする実験では、MABEは従来の手法よりも優れていた。 私たちのウェブサイトはhttps://sites.google .com/berkeley.edu/ma beで閲覧できます。

Offline Reinforcement Learning (RL) aims to extract near-optimal policies from imperfect offline data without additional environment interactions. Extracting policies from diverse offline datasets has the potential to expand the range of applicability of RL by making the training process safer, faster, and more streamlined. We investigate how to improve the performance of offline RL algorithms, its robustness to the quality of offline data, as well as its generalization capabilities. To this end, we introduce Offline Model-based RL with Adaptive Behavioral Priors (MABE). Our algorithm is based on the finding that dynamics models, which support within-domain generalization, and behavioral priors, which support cross-domain generalization, are complementary. When combined together, they substantially improve the performance and generalization of offline RL policies. In the widely studied D4RL offline RL benchmark, we find that MABE achieves higher average performance compared to prior model-free and model-based algorithms. In experiments that require cross-domain generalization, we find that MABE outperforms prior methods. Our website is available at https://sites.google .com/berkeley.edu/ma be .
翻訳日:2021-06-19 09:51:55 公開日:2021-06-16
# (参考訳) 勝ち手:ディープネットワークを圧縮することで、分散のロバスト性が向上する

A Winning Hand: Compressing Deep Networks Can Improve Out-Of-Distribution Robustness ( http://arxiv.org/abs/2106.09129v1 )

ライセンス: CC BY 4.0
James Diffenderfer, Brian R. Bartoldson, Shreya Chaganti, Jize Zhang, Bhavya Kailkhura(参考訳) 自然界でディープラーニング(dl)を成功させるための2つの重要な要件は、(1)分布シフトに対する堅牢性、(2)効率性を達成するためのモデルコンパクト性である。 残念ながら、精度を犠牲にすることなくOOD(Out-of-Distribut ion)の堅牢性と極端なモデルコンパクト性を同時に達成しようとする試みはほとんど失敗に終わった。 これは、“コンパクトで正確で堅牢なディープニューラルネットワーク(cards)の基本を作ることができないか? この疑問に答えるために、我々はいくつかの興味深いパターンを解明する一般的なモデル圧縮手法の大規模解析を行う。 特に、従来のプルーニングアプローチ(例えば、微調整や段階的な等級のプルーニング)とは対照的に、「ロタリーチケットスタイル」プルーニングアプローチは驚くほど高性能なCARDを作成するために使用できる。 具体的には、単にプルーニングや定量化によって、テスト精度をマッチング(または打ち負かす)しながら、大幅に大きくて完全なCARDよりも劇的に堅牢な、非常にコンパクトなCARDを作成することができます。 これらの違いをよりよく理解するために、異なるデータ拡張法を用いて訓練されたCARDに対するフーリエ領域の感度解析を行う。 そこで本研究では,Gatingモジュールを用いてCARD-Deckから適切なCARDを動的に選択する簡易なドメイン適応型テスト時アンサンブル手法(CARD-Deck)を開発した。 異なる圧縮モデルの相補的な周波数バイアスを利用して、提案手法はCARDの「勝利の手」を構築し、CIFAR-10-Cアキュラシー(96.8%クリーン、92.75%ロバスト)に新たな最先端技術を確立する。 実験結果を支持する理論的証拠も提示した。

Two crucial requirements for a successful adoption of deep learning (DL) in the wild are: (1) robustness to distributional shifts, and (2) model compactness for achieving efficiency. Unfortunately, efforts towards simultaneously achieving Out-of-Distribution (OOD) robustness and extreme model compactness without sacrificing accuracy have mostly been unsuccessful. This raises an important question: "Is the inability to create compact, accurate, and robust deep neural networks (CARDs) fundamental?" To answer this question, we perform a large-scale analysis for a range of popular model compression techniques which uncovers several intriguing patterns. Notably, in contrast to traditional pruning approaches (e.g., fine tuning and gradual magnitude pruning), we find that "lottery ticket-style" pruning approaches can surprisingly be used to create high performing CARDs. Specifically, we are able to create extremely compact CARDs that are dramatically more robust than their significantly larger and full-precision counterparts while matching (or beating) their test accuracy, simply by pruning and/or quantizing. To better understand these differences, we perform sensitivity analysis in the Fourier domain for CARDs trained using different data augmentation methods. Motivated by our analysis, we develop a simple domain-adaptive test-time ensembling approach (CARD-Deck) that uses a gating module to dynamically select an appropriate CARD from the CARD-Deck based on their spectral-similarity with test samples. By leveraging complementary frequency biases of different compressed models, the proposed approach builds a "winning hand" of CARDs that establishes a new state-of-the-art on CIFAR-10-C accuracies (i.e., 96.8% clean and 92.75% robust) with dramatically better memory usage than their non-compressed counterparts. We also present some theoretical evidences supporting our empirical findings.
翻訳日:2021-06-19 09:31:36 公開日:2021-06-16
# (参考訳) FORMS: 混合信号DNN加速器の微細偏極ReRAMを用いたその場計算 [全文訳有]

FORMS: Fine-grained Polarized ReRAM-based In-situ Computation for Mixed-signal DNN Accelerator ( http://arxiv.org/abs/2106.09144v1 )

ライセンス: CC BY 4.0
Geng Yuan, Payman Behnam, Zhengang Li, Ali Shafiee, Sheng Lin, Xiaolong Ma, Hang Liu, Xuehai Qian, Mahdi Nazm Bojnordi, Yanzhi Wang, Caiwen Ding(参考訳) 最近の研究は、抵抗ランダムアクセスメモリ(ReRAM)を新しい技術として使用し、DNNの集中的および鍵計算である行列内ベクトル乗算を本質的に並列に行うことを実証している。 リラムクロスバーセルに重みをコンダクタンスとして記憶し、入力ベクトルをワードラインに適用すると、行列ベクトル乗算結果をビットライン内の電流として生成することができる。 鍵となる問題は、重みは正か負かのいずれかであるが、その場での計算は、同じ符号を持つ各クロスバー列上の全てのセルを仮定する。 現在のアーキテクチャでは、正と負の重み付けに2つのReRAMクロスバーを使用するか、あるいは全ての値が正になるようにオフセットを重み付けする。 どちらも理想的ではなく、クロスバーのコストを2倍にするか、余分なオフセット回路を発生させる。 本稿では, 偏光重み付き細粒度ReRAMベースのDNN加速器FOMSを提案する。 正負の重みを表現しようとするのではなく、我々のキーとなる設計原則は、その場での計算で想定されるものを正確に強制することであり、クロスバーの同じ列の重みが同じ符号を持つようにすることである。 これは当然、追加のクロスバーのコストを回避する。 このような重みは、DNN重みの特定のパターンを正確に強制できる乗算器(ADMM)正規化最適化の交互方向法を用いて、良好に生成することができる。 高精度化のために,入力ゼロスキッピングのユニークな機会を提供する細粒なサブアレイ列を用い,不要な計算を著しく回避することを提案する。 また、ハードウェアの実装もずっと簡単になる。 全てを同じ最適化モデルで組み合わせることで、FORMSはISAACよりも1秒あたりのスループットの向上とスピードアップを実現している。

Recent works demonstrated the promise of using resistive random access memory (ReRAM) as an emerging technology to perform inherently parallel analog domain in-situ matrix-vector multiplication -- the intensive and key computation in DNNs. With weights stored in the ReRAM crossbar cells as conductance, when the input vector is applied to word lines, the matrix-vector multiplication results can be generated as the current in bit lines. A key problem is that the weight can be either positive or negative, but the in-situ computation assumes all cells on each crossbar column with the same sign. The current architectures either use two ReRAM crossbars for positive and negative weights, or add an offset to weights so that all values become positive. Neither solution is ideal: they either double the cost of crossbars, or incur extra offset circuity. To better solve this problem, this paper proposes FORMS, a fine-grained ReRAM-based DNN accelerator with polarized weights. Instead of trying to represent the positive/negative weights, our key design principle is to enforce exactly what is assumed in the in-situ computation -- ensuring that all weights in the same column of a crossbar have the same sign. It naturally avoids the cost of an additional crossbar. Such weights can be nicely generated using alternating direction method of multipliers (ADMM) regularized optimization, which can exactly enforce certain patterns in DNN weights. To achieve high accuracy, we propose to use fine-grained sub-array columns, which provide a unique opportunity for input zero-skipping, significantly avoiding unnecessary computations. It also makes the hardware much easier to implement. Putting all together, with the same optimized models, FORMS achieves significant throughput improvement and speed up in frame per second over ISAAC with similar area cost.
翻訳日:2021-06-19 08:34:18 公開日:2021-06-16
# (参考訳) シンボリック推論領域の対比強化学習 [全文訳有]

Contrastive Reinforcement Learning of Symbolic Reasoning Domains ( http://arxiv.org/abs/2106.09146v1 )

ライセンス: CC BY 4.0
Gabriel Poesia, WenXin Dong, Noah Goodman(参考訳) 抽象記号推論は、数学や論理学のような領域で必要とされるように、人間の知性の重要な構成要素である。 これらの領域の解決者は特にコンピュータ支援教育に重要な応用がある。 しかし、シンボリックな問題を解決するための学習は、機械学習アルゴリズムにとって難しい。 既存のモデルは、人間のソリューションから学ぶか、手作りの機能を使うかのいずれかで、新しいドメインに適用するのに費用がかかる。 本稿では,シンボルドメインを,状態や動作が構造化されていないテキストとして与えられる単純な環境とみなし,二項報酬は問題が解決されるかどうかを示す。 この柔軟な設定により、新しいドメインを簡単に指定できるが、検索と計画が困難になる。 我々は,算数共通コアカリキュラムに触発された4つの環境を紹介し,既存の強化学習ベースラインの動作不良を観察する。 次に,新しい学習アルゴリズムであるContrastive Policy Learning (ConpoLe)を提案する。このアルゴリズムはInfoNCEの損失を明示的に最適化する。 ConPoLeは4つのドメインすべてを解決する。 さらに、ConPoLeによって学習された問題表現は、実数学のカリキュラムにおける問題のカテゴリの正確な予測を可能にする。 本研究は,記号領域における強化学習の新たな方向性と数学教育への応用を示唆する。

Abstract symbolic reasoning, as required in domains such as mathematics and logic, is a key component of human intelligence. Solvers for these domains have important applications, especially to computer-assisted education. But learning to solve symbolic problems is challenging for machine learning algorithms. Existing models either learn from human solutions or use hand-engineered features, making them expensive to apply in new domains. In this paper, we instead consider symbolic domains as simple environments where states and actions are given as unstructured text, and binary rewards indicate whether a problem is solved. This flexible setup makes it easy to specify new domains, but search and planning become challenging. We introduce four environments inspired by the Mathematics Common Core Curriculum, and observe that existing Reinforcement Learning baselines perform poorly. We then present a novel learning algorithm, Contrastive Policy Learning (ConPoLe) that explicitly optimizes the InfoNCE loss, which lower bounds the mutual information between the current state and next states that continue on a path to the solution. ConPoLe successfully solves all four domains. Moreover, problem representations learned by ConPoLe enable accurate prediction of the categories of problems in a real mathematics curriculum. Our results suggest new directions for reinforcement learning in symbolic domains, as well as applications to mathematics education.
翻訳日:2021-06-19 07:59:33 公開日:2021-06-16
# (参考訳) 進行中の作業:モバイルかFPGAか? エネルギー効率の包括的評価と統一最適化枠組み [全文訳有]

Work in Progress: Mobile or FPGA? A Comprehensive Evaluation on Energy Efficiency and a Unified Optimization Framework ( http://arxiv.org/abs/2106.09166v1 )

ライセンス: CC BY 4.0
Geng Yuan, Peiyan Dong, Mengshu Sun, Wei Niu, Zhengang Li, Yuxuan Cai, Jun Liu, Weiwen Jiang, Xue Lin, Bin Ren, Xulong Tang, Yanzhi Wang(参考訳) エッジデバイス(fpgaやモバイルプラットフォーム)へのディープニューラルネットワーク(dnn)の効率的なデプロイは、特に最近のdnnモデルのサイズと複雑さの増加の目撃の下で、非常に難しい。 エッジデバイス上の多くのdnnにおいて、様々な最適化アプローチが有効であることが証明されているが、最先端のほとんどの作業はアドホック最適化に焦点を当てており、異なる最適化を検討する際に異なるエッジデバイスの可能性と制約を包括的に明らかにするための徹底的な研究が欠けている。 本稿ではFPGAとモバイルDNNのエネルギー効率を質的に定量的に比較し,詳細な分析を行う。

Efficient deployment of Deep Neural Networks (DNNs) on edge devices (i.e., FPGAs and mobile platforms) is very challenging, especially under a recent witness of the increasing DNN model size and complexity. Although various optimization approaches have been proven to be effective in many DNNs on edge devices, most state-of-the-art work focuses on ad-hoc optimizations, and there lacks a thorough study to comprehensively reveal the potentials and constraints of different edge devices when considering different optimizations. In this paper, we qualitatively and quantitatively compare the energy-efficiency of FPGA-based and mobile-based DNN executions, and provide detailed analysis.
翻訳日:2021-06-19 07:23:14 公開日:2021-06-16
# これ以上の援助はできますか。 非構造化知識アクセスによるタスク指向会話モデリングの改善

Can I Be of Further Assistance? Using Unstructured Knowledge Access to Improve Task-oriented Conversational Modeling ( http://arxiv.org/abs/2106.09174v1 )

ライセンス: Link先を確認
Di Jin, Seokhwan Kim, Dilek Hakkani-Tur(参考訳) タスク指向の対話システムに関するほとんどの以前の作業は、ドメインapiのカバー範囲が限られている。 しかしながら、ユーザは多くの場合、これらのAPIの範囲外にあるリクエストを持つ。 この研究は、外部の非構造化の知識ソースを組み込むことによって、APIをカバーしていないユーザターンに応答することに焦点を当てている。 本手法は, 知識探索ターン検出, 知識選択, 応答生成を連続的にパイプライン的に行う。 最初の2つのステップで新たなデータ拡張手法を導入し、対話コンテキストから抽出した情報を使用することで、知識選択とエンドツーエンドのパフォーマンスが向上することを示す。 実験により,dstc9トラック1ベンチマークデータセット上で,自動評価指標とヒューマン評価指標の両方に対して最先端のパフォーマンスを達成し,貢献の有効性を検証する。

Most prior work on task-oriented dialogue systems are restricted to limited coverage of domain APIs. However, users oftentimes have requests that are out of the scope of these APIs. This work focuses on responding to these beyond-API-coverage user turns by incorporating external, unstructured knowledge sources. Our approach works in a pipelined manner with knowledge-seeking turn detection, knowledge selection, and response generation in sequence. We introduce novel data augmentation methods for the first two steps and demonstrate that the use of information extracted from dialogue context improves the knowledge selection and end-to-end performances. Through experiments, we achieve state-of-the-art performance for both automatic and human evaluation metrics on the DSTC9 Track 1 benchmark dataset, validating the effectiveness of our contributions.
翻訳日:2021-06-18 16:17:09 公開日:2021-06-16
# 3次元動的シーン構造推定による単一フレームからの教師なし映像予測

Unsupervised Video Prediction from a Single Frame by Estimating 3D Dynamic Scene Structure ( http://arxiv.org/abs/2106.09051v1 )

ライセンス: Link先を確認
Paul Henderson, Christoph H. Lampert, Bernd Bickel(参考訳) この研究の目標は、最初の1フレームだけを入力として、現実的なビデオを生成することです。 既存の教師なしのアプローチでは、ビデオが通常3d環境を示しており、カメラとオブジェクトが移動してもフレーム間でコヒーレントのままであるという事実は考慮されていない。 まず,移動物体のセグメンテーションを含む,シーンの潜伏3次元構造を推定するモデルを開発することで,この問題に対処する。 そして、オブジェクトとカメラのダイナミクスをシミュレートし、結果のビューをレンダリングすることで、将来のフレームを予測する。 重要なのは、3d情報やセグメンテーションアノテーションなしで、将来のフレームを予測するという教師なしの目的のみを使用してエンドツーエンドでトレーニングされることだ。 自然映像の2つの難解なデータセットを実験した結果,1つのフレームから3次元構造と動きのセグメンテーションを推定できることがわかった。

Our goal in this work is to generate realistic videos given just one initial frame as input. Existing unsupervised approaches to this task do not consider the fact that a video typically shows a 3D environment, and that this should remain coherent from frame to frame even as the camera and objects move. We address this by developing a model that first estimates the latent 3D structure of the scene, including the segmentation of any moving objects. It then predicts future frames by simulating the object and camera dynamics, and rendering the resulting views. Importantly, it is trained end-to-end using only the unsupervised objective of predicting future frames, without any 3D information nor segmentation annotations. Experiments on two challenging datasets of natural videos show that our model can estimate 3D structure and motion segmentation from a single frame, and hence generate plausible and varied predictions.
翻訳日:2021-06-18 16:15:21 公開日:2021-06-16
# 動詞理解のための画像言語トランスフォーマーの探索

Probing Image-Language Transformers for Verb Understanding ( http://arxiv.org/abs/2106.09141v1 )

ライセンス: Link先を確認
Lisa Anne Hendricks and Aida Nematzadeh(参考訳) マルチモーダル画像言語トランスフォーマーは、微調整(視覚質問応答や画像検索など)に依存する様々なタスクで印象的な結果を得ている。 私たちは、事前訓練された表現の質に光を当てることに興味があります -- 特に、これらのモデルが異なる種類の動詞を区別できる場合や、与えられた文の中で名詞のみに依存している場合です。 そのために,前訓練データ(概念的キャプションデータセット)に視覚的あるいは一般的に見出される421動詞からなる画像・文対(英語)のデータセットを収集する。 このデータセットを用いて、事前訓練された画像言語変換器の評価を行い、他の部分に比べて動詞理解を必要とする状況で失敗する。 また、動詞のカテゴリーが特に難しいものについても検討する。

Multimodal image-language transformers have achieved impressive results on a variety of tasks that rely on fine-tuning (e.g., visual question answering and image retrieval). We are interested in shedding light on the quality of their pretrained representations -- in particular, if these models can distinguish different types of verbs or if they rely solely on nouns in a given sentence. To do so, we collect a dataset of image-sentence pairs (in English) consisting of 421 verbs that are either visual or commonly found in the pretraining data (i.e., the Conceptual Captions dataset). We use this dataset to evaluate pretrained image-language transformers and find that they fail more in situations that require verb understanding compared to other parts of speech. We also investigate what category of verbs are particularly challenging.
翻訳日:2021-06-18 16:12:54 公開日:2021-06-16
# 自然言語生成データセットのための評価スイートの自動構築

Automatic Construction of Evaluation Suites for Natural Language Generation Datasets ( http://arxiv.org/abs/2106.09069v1 )

ライセンス: Link先を確認
Simon Mille, Kaustubh D. Dhole, Saad Mahamood, Laura Perez-Beltrachini, Varun Gangal, Mihir Kale, Emiel van Miltenburg, Sebastian Gehrmann(参考訳) NLPに適用された機械学習アプローチは、例えば精度などの1つの数値でパフォーマンスを要約することで評価されることが多い。 ほとんどのテストセットは i.i.d として構成されている。 データ全体のサンプルから、このアプローチは言語の複雑さを過度に単純化し、データ分散の先頭に過度に適合することを奨励します。 そのため、その評価には少数言語現象や過小表現群に関するテキストは等しく含まれない。 より詳細なモデル分析を促進するために、研究者はモデルの特定の機能を評価する複数のテストセット(チャレンジセットとも呼ばれる)を提案した。 本稿では,テキストからスカラー,テキストからテキスト,あるいはデータからテキストへの設定において,制御された摂動を生成し,サブセットを識別できるフレームワークを開発する。 このフレームワークをGEM生成ベンチマークに適用することにより,80個のチャレンジセットからなる評価スイートを提案し,現在の生成モデルの限界に光を当てることを可能にした分析の種類を実証する。

Machine learning approaches applied to NLP are often evaluated by summarizing their performance in a single number, for example accuracy. Since most test sets are constructed as an i.i.d. sample from the overall data, this approach overly simplifies the complexity of language and encourages overfitting to the head of the data distribution. As such, rare language phenomena or text about underrepresented groups are not equally included in the evaluation. To encourage more in-depth model analyses, researchers have proposed the use of multiple test sets, also called challenge sets, that assess specific capabilities of a model. In this paper, we develop a framework based on this idea which is able to generate controlled perturbations and identify subsets in text-to-scalar, text-to-text, or data-to-text settings. By applying this framework to the GEM generation benchmark, we propose an evaluation suite made of 80 challenge sets, demonstrate the kinds of analyses that it enables and shed light onto the limits of current generation models.
翻訳日:2021-06-18 16:11:33 公開日:2021-06-16
# 限定学習データに基づく授業確率分布記述ツールとしての不正確SHAP

An Imprecise SHAP as a Tool for Explaining the Class Probability Distributions under Limited Training Data ( http://arxiv.org/abs/2106.09111v1 )

ライセンス: Link先を確認
Lev V. Utkin and Andrei V. Konstantinov and Kirill A. Vishniakov(参考訳) 機械学習予測の最も一般的な方法の1つは、SHAP (SHapley Additive exPlanations Method) である。 クラス確率分布が不正確で分布の集合で表される場合に、元のSHAPの修正としての不正確なSHAPを提案する。 不正確なSHAPの背後にある最初のアイデアは、シャプリー値の重要な効率性を満たす特徴の限界寄与を計算するための新しいアプローチである。 第二のアイデアは、不正確な確率論における到達可能な確率間隔の概念と類似した、区間値のシャプリー値の計算と減少に関する一般的なアプローチを考えることである。 コルモゴロフ-スミルノフ距離と不正確な汚染モデルを用いた線形最適化問題の形での一般手法の簡単な特殊実装を提案する。 合成および実データによる数値例は不正確なSHAPを示している。

One of the most popular methods of the machine learning prediction explanation is the SHapley Additive exPlanations method (SHAP). An imprecise SHAP as a modification of the original SHAP is proposed for cases when the class probability distributions are imprecise and represented by sets of distributions. The first idea behind the imprecise SHAP is a new approach for computing the marginal contribution of a feature, which fulfils the important efficiency property of Shapley values. The second idea is an attempt to consider a general approach to calculating and reducing interval-valued Shapley values, which is similar to the idea of reachable probability intervals in the imprecise probability theory. A simple special implementation of the general approach in the form of linear optimization problems is proposed, which is based on using the Kolmogorov-Smirnov distance and imprecise contamination models. Numerical examples with synthetic and real data illustrate the imprecise SHAP.
翻訳日:2021-06-18 16:08:23 公開日:2021-06-16
# 写真研究のための主文字自動認識

Automatic Main Character Recognition for Photographic Studies ( http://arxiv.org/abs/2106.09064v1 )

ライセンス: Link先を確認
Mert Seker, Anssi M\"annist\"o, Alexandros Iosifidis and Jenni Raitoharju(参考訳) 画像中の主な文字は、最初に見る人の注意を引く最も重要な人間であり、大きさ、位置、彩度、焦点の鋭さなどによって強調される。 画像中の主文字の同定は,従来の写真研究やメディア分析において重要な役割を担っているが,作業は手作業で行われ,動作が遅く,手間がかかる。 また、主文字の選択を主観的に行う場合もある。 本稿では,写真研究に必要な主文字認識を自動で解くことの実現可能性を分析し,主文字を識別する方法を提案する。 提案手法は,機械学習に基づく人間のポーズ推定と従来のコンピュータビジョンのアプローチを用いた。 本研究では,検出された人それぞれを主文字として分類する二項分類問題としてタスクにアプローチする。 課題の主観性と手法の性能の両方を評価するため,複数のソースから300種類の画像のデータセットを収集し,写真研究者と他の4人の人物に対して,主文字に注釈を付けるように依頼した。 分析の結果,アノテータ間では比較的高い一致を示した。 提案手法は, フルイメージセットで0.83点, 写真研究者でもっとも明確かつ重要な症例として評価されたサブセットで0.96点を得た。

Main characters in images are the most important humans that catch the viewer's attention upon first look, and they are emphasized by properties such as size, position, color saturation, and sharpness of focus. Identifying the main character in images plays an important role in traditional photographic studies and media analysis, but the task is performed manually and can be slow and laborious. Furthermore, selection of main characters can be sometimes subjective. In this paper, we analyze the feasibility of solving the main character recognition needed for photographic studies automatically and propose a method for identifying the main characters. The proposed method uses machine learning based human pose estimation along with traditional computer vision approaches for this task. We approach the task as a binary classification problem where each detected human is classified either as a main character or not. To evaluate both the subjectivity of the task and the performance of our method, we collected a dataset of 300 varying images from multiple sources and asked five people, a photographic researcher and four other persons, to annotate the main characters. Our analysis showed a relatively high agreement between different annotators. The proposed method achieved a promising F1 score of 0.83 on the full image set and 0.96 on a subset evaluated as most clear and important cases by the photographic researcher.
翻訳日:2021-06-18 16:06:02 公開日:2021-06-16
# モデル行動を通じたデータに関する洞察:責任あるコンピュータビジョンアプリケーションのためのデータ監査のための説明可能性駆動戦略

Insights into Data through Model Behaviour: An Explainability-drive n Strategy for Data Auditing for Responsible Computer Vision Applications ( http://arxiv.org/abs/2106.09177v1 )

ライセンス: Link先を確認
Alexander Wong, Adam Dorfman, Paul McInnis, and Hayden Gunraj(参考訳) そこで本研究では,データに露出したダミーモデルプロトタイプの動作に関する定量的説明可能性の観点から,手前のデータに対する行動可能な洞察が発見されるデータ監査への説明可能性に基づく戦略を考察する。 2つの一般的な医療ベンチマークデータセットを監査することで、この戦略を実証し、誤った理由で予測を行うディープラーニングモデルにつながる隠れたデータ品質の問題を発見する。 この説明可能性駆動データ監査戦略から得られた行動可能な洞察は、検出された問題に対処するために活用され、適切な予測行動を伴うハイパフォーマンスなディープラーニングモデルの作成を可能にする。 このような説明可能性に基づく戦略がデータ駆動戦略に補完され、コンピュータビジョンアプリケーションのための機械学習アルゴリズムのより責任ある開発を促進することが期待されている。

In this study, we take a departure and explore an explainability-drive n strategy to data auditing, where actionable insights into the data at hand are discovered through the eyes of quantitative explainability on the behaviour of a dummy model prototype when exposed to data. We demonstrate this strategy by auditing two popular medical benchmark datasets, and discover hidden data quality issues that lead deep learning models to make predictions for the wrong reasons. The actionable insights gained from this explainability driven data auditing strategy is then leveraged to address the discovered issues to enable the creation of high-performing deep learning models with appropriate prediction behaviour. The hope is that such an explainability-drive n strategy can be complimentary to data-driven strategies to facilitate for more responsible development of machine learning algorithms for computer vision applications.
翻訳日:2021-06-18 16:05:43 公開日:2021-06-16
# Fishnet Open Images Database:漁業における魚検出と細粒度分類のためのデータセット

The Fishnet Open Images Database: A Dataset for Fish Detection and Fine-Grained Categorization in Fisheries ( http://arxiv.org/abs/2106.09178v1 )

ライセンス: Link先を確認
Justin Kay and Matt Merrifield(参考訳) カメラベースの電子監視(EM)システムは、漁業管理と規制のための重要なデータを集めるために、商業漁船にますます配備されている。 これらのシステムは大量のビデオデータを生成し、人間の専門家が土地でレビューする必要がある。 コンピュータビジョンは魚の種を自動的に検出し分類することでこのプロセスを支援することができるが、この領域に既存の公共データがないことが進歩を妨げている。 そこで本研究では,商業漁船における魚検出と細粒度分類のためのEM画像の大規模なデータセットである魚網オープン画像データベースを提案する。 データセットは、34のオブジェクトクラスを含む86,029の画像で構成されており、これまでで最大かつ最も多様な水産EM画像の公開データセットとなっている。 EMデータの特徴として、種間の視覚的類似性、スクイードクラスの分布、厳しい気象条件、カオスな乗組員の活動などが含まれる。 既存の検出・分類アルゴリズムの性能を評価し,漁業におけるコンピュータビジョンアルゴリズムの開発において,データセットが挑戦的なベンチマークとなることを示す。 データセットはhttps://www.fishnet. ai/で入手できる。

Camera-based electronic monitoring (EM) systems are increasingly being deployed onboard commercial fishing vessels to collect essential data for fisheries management and regulation. These systems generate large quantities of video data which must be reviewed on land by human experts. Computer vision can assist this process by automatically detecting and classifying fish species, however the lack of existing public data in this domain has hindered progress. To address this, we present the Fishnet Open Images Database, a large dataset of EM imagery for fish detection and fine-grained categorization onboard commercial fishing vessels. The dataset consists of 86,029 images containing 34 object classes, making it the largest and most diverse public dataset of fisheries EM imagery to-date. It includes many of the characteristic challenges of EM data: visual similarity between species, skewed class distributions, harsh weather conditions, and chaotic crew activity. We evaluate the performance of existing detection and classification algorithms and demonstrate that the dataset can serve as a challenging benchmark for development of computer vision algorithms in fisheries. The dataset is available at https://www.fishnet. ai/.
翻訳日:2021-06-18 16:05:28 公開日:2021-06-16
# mPyPl: 複雑な関数データ処理のためのPythonモナディックパイプラインライブラリ

mPyPl: Python Monadic Pipeline Library for Complex Functional Data Processing ( http://arxiv.org/abs/2106.09164v1 )

ライセンス: Link先を確認
Dmitry Soshnikov and Yana Valieva(参考訳) 本稿では,機能的アプローチを用いた複雑なデータ処理タスクの簡略化を目的とした,mPyPlという新しいPythonライブラリを提案する。 このライブラリは、ジェネレータ(いわゆるマルチフィールドデータストリーム)として表現される名前付き辞書の遅延データストリームの操作を定義し、データ準備と特徴抽出のプロセスにおいて、これらのデータストリームをより多くの'フィールド'で拡張する。 したがって、ほとんどのデータ準備タスクは、UNIXパイプやF#の |> 関数型コンポジション演算子と同様に、きちんとした線形な 'パイプ' 形式で表現することができる。 古典的モナド演算に類似したマルチフィールドデータストリームの基本演算を定義し,関数型プログラミングにおけるモナドに対する提案手法の類似性を示す。 また,このライブラリがビデオ中のイベント検出の複雑なディープラーニングタスクにどのように使われたかを示し,メモリとパフォーマンスの面で異なる妥協を可能にするさまざまな評価戦略について議論した。

In this paper, we present a new Python library called mPyPl, which is intended to simplify complex data processing tasks using functional approach. This library defines operations on lazy data streams of named dictionaries represented as generators (so-called multi-field datastreams), and allows enriching those data streams with more 'fields' in the process of data preparation and feature extraction. Thus, most data preparation tasks can be expressed in the form of neat linear 'pipeline', similar in syntax to UNIX pipes, or |> functional composition operator in F#. We define basic operations on multi-field data streams, which resemble classical monadic operations, and show similarity of the proposed approach to monads in functional programming. We also show how the library was used in complex deep learning tasks of event detection in video, and discuss different evaluation strategies that allow for different compromises in terms of memory and performance.
翻訳日:2021-06-18 16:03:32 公開日:2021-06-16
# ランダム特徴を最適化したデータ分類における指数誤差収束:量子機械学習による高速化

Exponential Error Convergence in Data Classification with Optimized Random Features: Acceleration by Quantum Machine Learning ( http://arxiv.org/abs/2106.09028v1 )

ライセンス: Link先を確認
Hayata Yamasaki, Sho Sonoda(参考訳) ランダム機能は、カーネルメソッドに基づいたスケーラブルな学習アルゴリズムの中枢技術である。 近年の研究では、量子コンピュータによる機械学習のためのアルゴリズムである量子機械学習(QML)が、従来のQMLアルゴリズムの適用性に制限のある行列の空間性と低ランク性に関する制約的な仮定を課すことなく、最適化されたランダムな特徴のサンプリングを指数関数的に高速化できることが示されている。 しかし、QMLの分野における大きな関心は、回帰タスクだけでなく、量子計算の利点がいかに広く活用できるかである。 ここでは、最適化されたランダムな特徴によって加速される分類タスクのためのQMLアルゴリズムを構築する。 We prove that the QML algorithm for sampling optimized random features, combined with stochastic gradient descent (SGD), can achieve state-of-the-art exponential convergence speed of reducing classification error in a classification task under a low-noise condition; at the same time, our algorithm with optimized random features can take advantage of the significant reduction of the required number of features so as to accelerate each iteration in the SGD and evaluation of the classifier obtained from our algorithm. これらの結果は,実効的なデータセットと指数的誤り収束速度に適用性を損なうことなく,カーネル法に基づく主要な分類アルゴリズムの大幅な高速化にQMLの有望な応用を見出した。

Random features are a central technique for scalable learning algorithms based on kernel methods. A recent work has shown that an algorithm for machine learning by quantum computer, quantum machine learning (QML), can exponentially speed up sampling of optimized random features, even without imposing restrictive assumptions on sparsity and low-rankness of matrices that had limited applicability of conventional QML algorithms; this QML algorithm makes it possible to significantly reduce and provably minimize the required number of features for regression tasks. However, a major interest in the field of QML is how widely the advantages of quantum computation can be exploited, not only in the regression tasks. We here construct a QML algorithm for a classification task accelerated by the optimized random features. We prove that the QML algorithm for sampling optimized random features, combined with stochastic gradient descent (SGD), can achieve state-of-the-art exponential convergence speed of reducing classification error in a classification task under a low-noise condition; at the same time, our algorithm with optimized random features can take advantage of the significant reduction of the required number of features so as to accelerate each iteration in the SGD and evaluation of the classifier obtained from our algorithm. These results discover a promising application of QML to significant acceleration of the leading classification algorithm based on kernel methods, without ruining its applicability to a practical class of data sets and the exponential error-convergence speed.
翻訳日:2021-06-18 16:02:39 公開日:2021-06-16
# 頑健な主グラフ学習のための混合モデルの規則化

Regularization of Mixture Models for Robust Principal Graph Learning ( http://arxiv.org/abs/2106.09035v1 )

ライセンス: Link先を確認
Tony Bonnaire, Aur\'elien Decelle, Nabila Aghanim(参考訳) 混合モデルの正規化バージョンは、D$次元のデータ点の分布から主グラフを学習するために提案される。 リッジ検出のための多様体学習の特別な場合、基礎となる多様体はガウス群に先立って位相的に作用するグラフ構造としてモデル化でき、問題を最大後方推定にすることができると仮定する。 モデルのパラメータは期待最大化手順によって反復的に推定され、多項式時間に先立つ任意のグラフの収束を保証して計算効率のよい構造を学習する。 また,形式化を自然な方法で組み込むことで,グラフ構造に連動してサンプリングする多様体のパターンの外れ値とヘテロシドスティック性にアルゴリズムを頑健にする。 この手法では,空間分布で観測可能な周期を考慮したデータセットのランダムなサブサンプリングを用いて拡張する最小スパンニングツリーによって与えられるグラフを事前に用いた。

A regularized version of Mixture Models is proposed to learn a principal graph from a distribution of $D$-dimensional data points. In the particular case of manifold learning for ridge detection, we assume that the underlying manifold can be modeled as a graph structure acting like a topological prior for the Gaussian clusters turning the problem into a maximum a posteriori estimation. Parameters of the model are iteratively estimated through an Expectation-Maximiza tion procedure making the learning of the structure computationally efficient with guaranteed convergence for any graph prior in a polynomial time. We also embed in the formalism a natural way to make the algorithm robust to outliers of the pattern and heteroscedasticity of the manifold sampling coherently with the graph structure. The method uses a graph prior given by the minimum spanning tree that we extend using random sub-samplings of the dataset to take into account cycles that can be observed in the spatial distribution.
翻訳日:2021-06-18 16:00:45 公開日:2021-06-16
# パラユニタリフレームワークを用いた多様な直交畳み込みネットワークのスケールアップ

Scaling-up Diverse Orthogonal Convolutional Networks with a Paraunitary Framework ( http://arxiv.org/abs/2106.09121v1 )

ライセンス: Link先を確認
Jiahao Su, Wonmin Byeon, Furong Huang(参考訳) ニューラルネットワークにおける直交性の強制は、勾配の消失/露出問題、対向摂動による感度、および有界一般化誤差に対する解法である。 しかし、以前の多くのアプローチはヒューリスティックであり、畳み込み層の直交性は体系的に研究されていない。 この問題に対処するために、空間領域における様々な直交畳み込み層とスペクトル領域における準単位系との同値性を確立する直交畳み込み層の理論的枠組みを提案する。 パラユニタリ系の完全なスペクトル分解が存在するため、任意の直交畳み込み層は空間フィルタの畳み込みとしてパラメータ化することができる。 我々の枠組みは、それらの正統性を維持しつつ、様々な畳み込み層に高い表現力を与える。 さらに、我々の層は、従来の設計に比べてディープ・ネットワークのメモリと計算効率が良い。 我々の汎用フレームワークは、初めて、スキップ接続、初期化、ストライド、拡張の選択など、深い直交ネットワークのためのアーキテクチャ設計の研究を可能にします。 その結果、直交ネットワークをResNet、WideResNet、ShuffleNetなどの深層アーキテクチャにスケールアップし、従来の浅層直交ネットワークよりも性能を大幅に向上させた。

Enforcing orthogonality in neural networks is an antidote for gradient vanishing/exploding problems, sensitivity by adversarial perturbation, and bounding generalization errors. However, many previous approaches are heuristic, and the orthogonality of convolutional layers is not systematically studied: some of these designs are not exactly orthogonal, while others only consider standard convolutional layers and propose specific classes of their realizations. To address this problem, we propose a theoretical framework for orthogonal convolutional layers, which establishes the equivalence between various orthogonal convolutional layers in the spatial domain and the paraunitary systems in the spectral domain. Since there exists a complete spectral factorization of paraunitary systems, any orthogonal convolution layer can be parameterized as convolutions of spatial filters. Our framework endows high expressive power to various convolutional layers while maintaining their exact orthogonality. Furthermore, our layers are memory and computationally efficient for deep networks compared to previous designs. Our versatile framework, for the first time, enables the study of architecture designs for deep orthogonal networks, such as choices of skip connection, initialization, stride, and dilation. Consequently, we scale up orthogonal networks to deep architectures, including ResNet, WideResNet, and ShuffleNet, substantially increasing the performance over the traditional shallow orthogonal networks.
翻訳日:2021-06-18 16:00:28 公開日:2021-06-16
# LiRA:自己監督による音声による視覚表現の学習

LiRA: Learning Visual Speech Representations from Audio through Self-supervision ( http://arxiv.org/abs/2106.09171v1 )

ライセンス: Link先を確認
Pingchuan Ma, Rodrigo Mira, Stavros Petridis, Bj\"orn W. Schuller and Maja Pantic(参考訳) 今日、オンラインで共有されているオーディオ視覚コンテンツは、オーディオ視覚による自己教師型学習の可能性に大きな注目を集めている。 近年の作品はこれらのモダリティをそれぞれ別々に扱っているが、他の作品も同時にクロスモーダルな手法でモデル化しようと試みている。 しかし、一方のモダリティを他方から学ぶためのトレーニング目標として活用することには比較的注意が払われていない。 本研究では,Learning visual speech Representations from Audio via self-supervision (LiRA)を提案する。 具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。 この事前学習モデルは,特徴抽出および微調整実験を通じて,単語レベルおよび文レベルの唇読取に活用できることがわかった。 提案手法は,Lip Reading in the Wild (LRW)データセットにおける他の自己教師手法よりも優れており,Lip Reading Sentences 2 (LRS2) 上ではラベル付きデータのごく一部のみを用いて最先端のパフォーマンスを実現する。

The large amount of audiovisual content being shared online today has drawn substantial attention to the prospect of audiovisual self-supervised learning. Recent works have focused on each of these modalities separately, while others have attempted to model both simultaneously in a cross-modal fashion. However, comparatively little attention has been given to leveraging one modality as a training objective to learn from the other. In this work, we propose Learning visual speech Representations from Audio via self-supervision (LiRA). Specifically, we train a ResNet+Conformer model to predict acoustic features from unlabelled visual speech. We find that this pre-trained model can be leveraged towards word-level and sentence-level lip-reading through feature extraction and fine-tuning experiments. We show that our approach significantly outperforms other self-supervised methods on the Lip Reading in the Wild (LRW) dataset and achieves state-of-the-art performance on Lip Reading Sentences 2 (LRS2) using only a fraction of the total labelled data.
翻訳日:2021-06-18 16:00:05 公開日:2021-06-16
# 多言語言語モデルの特化:実証的研究

Specializing Multilingual Language Models: An Empirical Study ( http://arxiv.org/abs/2106.09063v1 )

ライセンス: Link先を確認
Ethan C. Chau, Noah A. Smith(参考訳) 事前訓練された多言語言語モデルからの文脈化語表現は、多くの異なる言語における自然言語処理のデファクトスタンダードとなっているが、このアプローチの成功は普遍的ではない。 これらのモデルで見ることのできない言語の場合、そのようなモデルを直接使用すると、しばしばデータの準最適表現や使用が行われ、合理的に強力なパフォーマンスを達成するために追加のモデル適応が動機となる。 本研究では,この低リソース環境において,語彙拡張と文字翻訳という2つの適応の性能,拡張性,相互作用について検討する。 9つの異なる低リソース言語における3つのタスクのセットに対する評価は、これらのアプローチの有効性を維持しながら、低リソース設定に多言語モデルを最適に適応する方法に関する新しい疑問を提起する。

Contextualized word representations from pretrained multilingual language models have become the de facto standard for addressing natural language tasks in many different languages, but the success of this approach is far from universal. For languages rarely or never seen by these models, directly using such models often results in suboptimal representation or use of data, motivating additional model adaptations to achieve reasonably strong performance. In this work, we study the performance, extensibility, and interaction of two such adaptations for this low-resource setting: vocabulary augmentation and script transliteration. Our evaluations on a set of three tasks in nine diverse low-resource languages yield a mixed result, upholding the viability of these approaches while raising new questions around how to optimally adapt multilingual models to low-resource settings.
翻訳日:2021-06-18 15:56:36 公開日:2021-06-16
# 変形駆動性seq2seq縦型腫瘍と放射線治療のための臓器リスク予測

Deformation Driven Seq2Seq Longitudinal Tumor and Organs-at-Risk Prediction for Radiotherapy ( http://arxiv.org/abs/2106.09076v1 )

ライセンス: Link先を確認
Donghoon Lee, Sadegh R Alam, Jue Jiang, Pengpeng Zhang, Saad Nadeem and Yu-Chi Hu(参考訳) 目的: 放射線療法は, 治療中の縦隔腫瘍およびOAR予測に固有の課題と臨床要件を提示する。 これらの課題は腫瘍炎症・浮腫・放射線による臓器形状の変化である一方、臨床要件は、治療前画像情報と適応放射線治療における毒性評価との関連において、ロールベースで予測を更新するための入出力シーケンスタイムポイントの柔軟性と全ての予測の接地を要求する。 方法: 上記の課題に対処し, 臨床要件を満たすために, 個別の時間点と参照前処理/計画CT間の一連の変形ベクトル場(DVF)を用いて, 将来的な解剖学的変形と腫瘍量の変化, および重要なOARを用いた, 畳み込み長短期記憶(ConvLSTM)に基づく新しい3Dシークエンス・ツー・シーケンスモデルを提案する。 DICE係数と相互情報量を用いたトレーニングデータのサブセットにハイパーパラメータ最適化を適用することにより、高品質なDVFトレーニングデータを生成する。 2つの放射線治療データセット(手作業による前・中・後治療ct28例)と内部非小細胞肺癌データセット(手作業による計画ctと週6回のcbct)について検証した。 結果: dvf表現とスキップ接続の使用は,従来の画像表現を用いたconvlstm予測のぼやけた問題を克服する。 4週目,5週目,6週目における肺GTV予測におけるDICEの平均偏差は0.83$\pm$0.09,0.82$\ pm$0.08,0.81$\pm$0.1 0であり,治療後副耳下腺腫および対側耳下腺腫では0.81$\pm$0.06,0.85$\ pm$0.02であった。

Purpose: Radiotherapy presents unique challenges and clinical requirements for longitudinal tumor and organ-at-risk (OAR) prediction during treatment. The challenges include tumor inflammation/edema and radiation-induced changes in organ geometry, whereas the clinical requirements demand flexibility in input/output sequence timepoints to update the predictions on rolling basis and the grounding of all predictions in relationship to the pre-treatment imaging information for response and toxicity assessment in adaptive radiotherapy. Methods: To deal with the aforementioned challenges and to comply with the clinical requirements, we present a novel 3D sequence-to-sequence model based on Convolution Long Short Term Memory (ConvLSTM) that makes use of series of deformation vector fields (DVF) between individual timepoints and reference pre-treatment/planni ng CTs to predict future anatomical deformations and changes in gross tumor volume as well as critical OARs. High-quality DVF training data is created by employing hyper-parameter optimization on the subset of the training data with DICE coefficient and mutual information metric. We validated our model on two radiotherapy datasets: a publicly available head-and-neck dataset (28 patients with manually contoured pre-, mid-, and post-treatment CTs), and an internal non-small cell lung cancer dataset (63 patients with manually contoured planning CT and 6 weekly CBCTs). Results: The use of DVF representation and skip connections overcomes the blurring issue of ConvLSTM prediction with the traditional image representation. The mean and standard deviation of DICE for predictions of lung GTV at week 4, 5, and 6 were 0.83$\pm$0.09, 0.82$\pm$0.08, and 0.81$\pm$0.10, respectively, and for post-treatment ipsilateral and contralateral parotids, were 0.81$\pm$0.06 and 0.85$\pm$0.02.
翻訳日:2021-06-18 15:54:30 公開日:2021-06-16
# 体積医学的画像分割のための位置コントラスト学習

Positional Contrastive Learning for VolumetricMedical Image Segmentation ( http://arxiv.org/abs/2106.09157v1 )

ライセンス: Link先を確認
Dewen Zeng, Yawen Wu, Xinrong Hu, Xiaowei Xu, Haiyun Yuan, Meiping Huang, Jian Zhuang, Jingtong Hu and Yiyu Shi(参考訳) ディープラーニングの成功は、大きなラベル付きトレーニングセットの可用性に大きく依存する。 しかし、厳格なプライバシー上の懸念と高価なラベル付け作業のため、医療画像領域で大きなラベル付きデータセットを得るのは難しい。 教師なし学習技術であるコントラスト学習は、ラベルのないデータから画像レベルの表現を学習する際に強力であることが証明されている。 学習したエンコーダを転送したり微調整したりすることで、限られたラベルで下流タスクのパフォーマンスを向上させることができる。 コントラスト学習における重要なステップは、コントラストデータペアの生成である。これは自然画像の分類には比較的簡単であるが、データセット全体にわたって同じ組織や臓器が存在するため、医療画像のセグメンテーションには極めて困難である。 その結果、医用画像セグメンテーションに適用すると、ほとんどの最先端のコントラスト学習フレームワークは必然的に多くの偽陰性ペアを導入し、結果として劣化したセグメンテーション品質をもたらす。 この問題に対処するために,ボリューム医療画像の位置情報を活用することで,コントラストデータペアを生成する新しい位置コントラスト学習(PCL)フレームワークを提案する。 CTとMRIのデータセットを用いた実験結果から,提案手法は半教師付き設定と移動学習の両方において既存の手法と比較して,セグメンテーション性能を大幅に向上できることが示された。

The success of deep learning heavily depends on the availability of large labeled training sets. However, it is hard to get large labeled datasets in medical image domain because of the strict privacy concern and costly labeling efforts. Contrastive learning, an unsupervised learning technique, has been proved powerful in learning image-level representations from unlabeled data. The learned encoder can then be transferred or fine-tuned to improve the performance of downstream tasks with limited labels. A critical step in contrastive learning is the generation of contrastive data pairs, which is relatively simple for natural image classification but quite challenging for medical image segmentation due to the existence of the same tissue or organ across the dataset. As a result, when applied to medical image segmentation, most state-of-the-art contrastive learning frameworks inevitably introduce a lot of false-negative pairs and result in degraded segmentation quality. To address this issue, we propose a novel positional contrastive learning (PCL) framework to generate contrastive data pairs by leveraging the position information in volumetric medical images. Experimental results on CT and MRI datasets demonstrate that the proposed PCL method can substantially improve the segmentation performance compared to existing methods in both semi-supervised setting and transfer learning setting.
翻訳日:2021-06-18 15:53:46 公開日:2021-06-16
# マハラノビス距離の簡易補正による近日光検出精度の向上

A Simple Fix to Mahalanobis Distance for Improving Near-OOD Detection ( http://arxiv.org/abs/2106.09022v1 )

ライセンス: Link先を確認
Jie Ren, Stanislav Fort, Jeremiah Liu, Abhijit Guha Roy, Shreyas Padhy, Balaji Lakshminarayanan(参考訳) マハラノビス距離(英: Mahalanobis distance、MD)は、ニューラルネットワークにおける分布外入力(OOD)を検出するための単純で一般的な後処理法である。 本研究では,その故障モードを分析し,相対的マハラノビス距離 (rmd) と呼ばれる,ハイパーパラメータ選択にロバストな簡単な修正を提案する。 視覚・言語・生物学OODベンチマーク(CIFAR-100 vs CIFAR-10, CLINC OOD intent Detection, Genomics OOD)の幅広い選択において, RMDはMD性能において有意な改善(ゲノムOODでは最大15%AUROC)を示す。

Mahalanobis distance (MD) is a simple and popular post-processing method for detecting out-of-distribution (OOD) inputs in neural networks. We analyze its failure modes for near-OOD detection and propose a simple fix called relative Mahalanobis distance (RMD) which improves performance and is more robust to hyperparameter choice. On a wide selection of challenging vision, language, and biology OOD benchmarks (CIFAR-100 vs CIFAR-10, CLINC OOD intent detection, Genomics OOD), we show that RMD meaningfully improves upon MD performance (by up to 15% AUROC on genomics OOD).
翻訳日:2021-06-18 15:46:52 公開日:2021-06-16
# DeepSplit: オペレータ分割によるディープニューラルネットワークのスケーラブルな検証

DeepSplit: Scalable Verification of Deep Neural Networks via Operator Splitting ( http://arxiv.org/abs/2106.09117v1 )

ライセンス: Link先を確認
Shaoru Chen, Eric Wong, J. Zico Kolter, Mahyar Fazlyab(参考訳) ディープニューラルネットワークの入力摂動に対する最悪の場合のパフォーマンス分析は、過去にいくつかの研究が有望な代替として凸緩和を提案した大規模な非凸最適化問題を解くのにかかっている。 しかし、合理的な大きさのニューラルネットワークであっても、これらの緩和は引きずられず、実際にはより弱い緩和に置き換えなければならない。 本研究では,解析解をしばしば有するより小さな部分問題に分割することにより,問題の凸緩和を直接高精度に解く新しい作用素分割法を提案する。 このメソッドはモジュラーであり、以前はそのサイズのために正確に解決できなかった問題インスタンスにスケールする。 さらに、ソルバ演算はGPUアクセラレーションによる高速並列化に対応可能である。 我々は,画像分類と強化学習設定において,大規模な畳み込みネットワークの最悪の性能について,より厳密な境界を求める方法を示す。

Analyzing the worst-case performance of deep neural networks against input perturbations amounts to solving a large-scale non-convex optimization problem, for which several past works have proposed convex relaxations as a promising alternative. However, even for reasonably-sized neural networks, these relaxations are not tractable, and so must be replaced by even weaker relaxations in practice. In this work, we propose a novel operator splitting method that can directly solve a convex relaxation of the problem to high accuracy, by splitting it into smaller sub-problems that often have analytical solutions. The method is modular and scales to problem instances that were previously impossible to solve exactly due to their size. Furthermore, the solver operations are amenable to fast parallelization with GPU acceleration. We demonstrate our method in obtaining tighter bounds on the worst-case performance of large convolutional networks in image classification and reinforcement learning settings.
翻訳日:2021-06-18 15:46:39 公開日:2021-06-16
# 遅延部分ラベル付きデータストリームの半教師付き学習に関する調査

A Survey on Semi-Supervised Learning for Delayed Partially Labelled Data Streams ( http://arxiv.org/abs/2106.09170v1 )

ライセンス: Link先を確認
Heitor Murilo Gomes, Maciej Grzenda, Rodrigo Mello, Jesse Read, Minh Huong Le Nguyen, Albert Bifet(参考訳) 不正なデータは、多くのドメインに現れ、特にストリーミングアプリケーションに関係しており、データが豊富であるにもかかわらずラベル付きデータはまれである。 このようなデータに関連する学習問題に対処するために、ラベル付きデータのみにフォーカスする(教師付き学習)、ラベル付きデータを使用し、ラベル付きデータを活用する(半教師付き学習)、あるいはいくつかのラベルが要求に応じて利用可能になると仮定する(アクティブ学習)。 最初のアプローチは最も単純なものですが、ラベル付きデータの量は予測性能を制限します。 第2の方法は、データ分散の基盤となる特性の発見と活用に依存している。 3つ目は、必要なラベルをタイムリーに提供するための外部エージェントに依存します。 本調査は, 半教師付き環境で, 不正なデータを利用する手法に特に注意を払っている。 また,完全な教師付き手法と半教師付き手法の両方に影響を与える遅延ラベル問題についても論じる。 本稿では,統一的な問題設定を提案し,学習保証と既存の方法について議論し,関連する問題設定の違いを説明する。 最後に,現在のベンチマーク手法を見直し,それらを強化するための適応法を提案する。

Unlabelled data appear in many domains and are particularly relevant to streaming applications, where even though data is abundant, labelled data is rare. To address the learning problems associated with such data, one can ignore the unlabelled data and focus only on the labelled data (supervised learning); use the labelled data and attempt to leverage the unlabelled data (semi-supervised learning); or assume some labels will be available on request (active learning). The first approach is the simplest, yet the amount of labelled data available will limit the predictive performance. The second relies on finding and exploiting the underlying characteristics of the data distribution. The third depends on an external agent to provide the required labels in a timely fashion. This survey pays special attention to methods that leverage unlabelled data in a semi-supervised setting. We also discuss the delayed labelling issue, which impacts both fully supervised and semi-supervised methods. We propose a unified problem setting, discuss the learning guarantees and existing methods, explain the differences between related problem settings. Finally, we review the current benchmarking practices and propose adaptations to enhance them.
翻訳日:2021-06-18 15:46:26 公開日:2021-06-16
# センサ回避時の目標経路計画のための離散最適化手法

A discrete optimisation approach for target path planning whilst evading sensors ( http://arxiv.org/abs/2106.08826v1 )

ライセンス: Link先を確認
J.E. Beasley(参考訳) 本稿では,軍事的状況において発生する実用的問題を扱う。 問題は、1人(またはそれ以上)のエージェントが敵のセンサーに検知されずに目標に到達する経路を計画することだ。 エージェントは受動的ではなく、回避を助けるアクション、すなわちノックアウト(完全に無効なセンサー)と混乱(センサー検出確率の低下)を開始することができる。 エージェントアクションはパスに依存し、時間制限がある。 ここでのパス依存は、エージェントがそれをノックアウトするためにセンサーに十分近い必要があることを意味する。 時間制限により、センサーが元の動作状態に戻す前に、どれだけの時間をノックアウトするか、あるいは混乱するかに制限が課されることを意味する。 このアプローチは、エージェントが離散空間に移動する連続空間を壊す。 これにより、問題は線形制約を持つゼロワン整数プログラムとして数学的に表現(形式化)できる。 この方法でこの問題を表現する利点は、この問題を解決するために強力な商用ソフトウェア最適化パッケージが存在することである。 ランダムに生成された多数のテスト問題に対して計算結果が提示される。

In this paper we deal with a practical problem that arises in military situations. The problem is to plan a path for one (or more) agents to reach a target without being detected by enemy sensors. Agents are not passive, rather they can (within limits) initiate actions which aid evasion, namely knockout (completely disable sensors) and confusion (reduce sensor detection probabilities). Agent actions are path dependent and time limited. Here by path dependent we mean that an agent needs to be sufficiently close to a sensor to knock it out. By time limited we mean that a limit is imposed on how long a sensor is knocked out or confused before it reverts back to its original operating state. The approach adopted breaks the continuous space in which agents move into a discrete space. This enables the problem to be represented (formulated) mathematically as a zero-one integer program with linear constraints. The advantage of representing the problem in this manner is that powerful commercial software optimisation packages exist to solve the problem to proven global optimality. Computational results are presented for a number of randomly generated test problems.
翻訳日:2021-06-18 15:44:07 公開日:2021-06-16
# 高次元説明変数に対する直交分解による前処理

Pre-processing with Orthogonal Decompositions for High-dimensional Explanatory Variables ( http://arxiv.org/abs/2106.09071v1 )

ライセンス: Link先を確認
Xu Han, Ethan X Fang, Cheng Yong Tang(参考訳) 説明変数間の強い相関は高次元正規化回帰法では問題となる。 不表示条件に違反しているため、一般的なLASSO法は不活性変数の偽包摂に悩まされる可能性がある。 本稿では,高次元回帰における説明変数に対する直交分解(PROD)を用いた前処理を提案する。 PRODプロシージャは設計行列の直交分解に基づいて構成される。 本研究では,高次元ペナライズドレグレッションの性能向上のために,prodアプローチを効果的に構築できることを示す。 我々の理論解析は、LASSOを用いた高次元のペナル化線形回帰に対するそれらの性質と利点を明らかにする。 シミュレーションとデータ解析による広範囲な数値研究は、prodの有望な性能を示している。

Strong correlations between explanatory variables are problematic for high-dimensional regularized regression methods. Due to the violation of the Irrepresentable Condition, the popular LASSO method may suffer from false inclusions of inactive variables. In this paper, we propose pre-processing with orthogonal decompositions (PROD) for the explanatory variables in high-dimensional regressions. The PROD procedure is constructed based upon a generic orthogonal decomposition of the design matrix. We demonstrate by two concrete cases that the PROD approach can be effectively constructed for improving the performance of high-dimensional penalized regression. Our theoretical analysis reveals their properties and benefits for high-dimensional penalized linear regression with LASSO. Extensive numerical studies with simulations and data analysis show the promising performance of the PROD.
翻訳日:2021-06-18 15:41:43 公開日:2021-06-16
# 劣化ラベルを用いたバイナリ分類

Binary classification with corrupted labels ( http://arxiv.org/abs/2106.09136v1 )

ライセンス: Link先を確認
Yonghoon Lee and Rina Foygel Barber(参考訳) 精度の高い予測器に適合することが目的のバイナリ分類問題では、トレーニングデータセットに破損したラベルが存在することがさらなる課題となる。 しかし、もし正と負のラベルが完全に分離可能であれば、破損したラベルのごく一部は堅牢性を確保して性能を向上させることができる。 本研究では,このような状況下では,汚職は正規化の一形態として作用し,汚職の存在下で推定誤差の正確な上限を計算する。 以上の結果から, 崩壊したデータポイントの存在は, サンプルサイズの平方根でスケーリングすることで, サンプル全体のごく一部にのみ有効であることが示唆された。

In a binary classification problem where the goal is to fit an accurate predictor, the presence of corrupted labels in the training data set may create an additional challenge. However, in settings where likelihood maximization is poorly behaved-for example, if positive and negative labels are perfectly separable-then a small fraction of corrupted labels can improve performance by ensuring robustness. In this work, we establish that in such settings, corruption acts as a form of regularization, and we compute precise upper bounds on estimation error in the presence of corruptions. Our results suggest that the presence of corrupted data points is beneficial only up to a small fraction of the total sample, scaling with the square root of the sample size.
翻訳日:2021-06-18 15:41:34 公開日:2021-06-16
# 凸凹minmax問題に対するゼロ次法:決定依存リスク最小化への応用

Zeroth-Order Methods for Convex-Concave Minmax Problems: Applications to Decision-Dependent Risk Minimization ( http://arxiv.org/abs/2106.09082v1 )

ライセンス: Link先を確認
Chinmay Maheshwari and Chih-Yuan Chiu and Eric Mazumdar and S. Shankar Sastry and Lillian J. Ratliff(参考訳) 戦略的かつ逆向きに生成されたデータに対するロバスト性の問題を解析するための重要なフレームワークとして,Min-max最適化が登場している。 有限和構造を持つ凸凹最小値問題の解法として,無作為なリシャッフィングを基本とした最適勾配Descent-Ascentアルゴリズムを提案する。 このアルゴリズムは凸最小化問題に対するゼロ階アルゴリズムと同じ収束率を持つことを示す。 さらに,勾配情報が得られない分布的ロバストな意思決定依存学習問題を解くアルゴリズムを特化している。 提案手法は,データソースから,逆分布シフトと戦略決定に対して同時に頑健なモデルを学習し,既存の手法を戦略的分類文献より優れることを示す。

Min-max optimization is emerging as a key framework for analyzing problems of robustness to strategically and adversarially generated data. We propose a random reshuffling-based gradient free Optimistic Gradient Descent-Ascent algorithm for solving convex-concave min-max problems with finite sum structure. We prove that the algorithm enjoys the same convergence rate as that of zeroth-order algorithms for convex minimization problems. We further specialize the algorithm to solve distributionally robust, decision-dependent learning problems, where gradient information is not readily available. Through illustrative simulations, we observe that our proposed approach learns models that are simultaneously robust against adversarial distribution shifts and strategic decisions from the data sources, and outperforms existing methods from the strategic classification literature.
翻訳日:2021-06-18 15:40:56 公開日:2021-06-16
# quantumfed:協調的な量子トレーニングのための連合学習フレームワーク

QuantumFed: A Federated Learning Framework for Collaborative Quantum Training ( http://arxiv.org/abs/2106.09109v1 )

ライセンス: Link先を確認
Qun Xia, Qun Li(参考訳) 量子コンピューティングとディープラーニングの急速な発展により、量子ニューラルネットワークは最近大きな注目を集めている。 量子コンピューティングのパワーを活用することで、ディープニューラルネットワークは古典的な機械学習における計算能力の限界を克服することができる。 しかしながら、複数の量子マシンが各マシンのローカルデータを使用してグローバルモデルをトレーニングしたい場合、データを1台のマシンにコピーしてモデルをトレーニングするのは非常に困難である。 したがって、協調的な量子ニューラルネットワークフレームワークが必要である。 本稿では,複数の量子ノードを持つ量子連合学習フレームワークであるQuantumFedを提案するために,フェデレート学習のコアアイデアを借用する。 実験では,フレームワークの実現可能性と堅牢性を示す。

With the fast development of quantum computing and deep learning, quantum neural networks have attracted great attention recently. By leveraging the power of quantum computing, deep neural networks can potentially overcome computational power limitations in classic machine learning. However, when multiple quantum machines wish to train a global model using the local data on each machine, it may be very difficult to copy the data into one machine and train the model. Therefore, a collaborative quantum neural network framework is necessary. In this article, we borrow the core idea of federated learning to propose QuantumFed, a quantum federated learning framework to have multiple quantum nodes with local quantum data train a mode together. Our experiments show the feasibility and robustness of our framework.
翻訳日:2021-06-18 15:40:44 公開日:2021-06-16
# EEG-GNN:脳波信号の分類のためのグラフニューラルネットワーク

EEG-GNN: Graph Neural Networks for Classification of Electroencephalogram (EEG) Signals ( http://arxiv.org/abs/2106.09135v1 )

ライセンス: Link先を確認
Andac Demir, Toshiaki Koike-Akino, Ye Wang, Masaki Haruna, Deniz Erdogmus(参考訳) 畳み込みニューラルネットワーク(CNN)は脳波(EEG)から主観的不変の特徴を抽出するために頻繁に用いられている。 このアプローチは、電極が画像の画素と等距離に類似しているという前提を保ち、異なる電極部位間の複雑な機能的神経接続を探索・探索することができない。 電極部位の機能的ネットワークに対する2次元グリッド型入力に適用される畳み込みとプーリングの概念を調整することにより、この制限を克服する。 さらに,グラフのノードに電極を投影するグラフニューラルネットワーク(GNN)モデルを開発し,ノードの特徴を試行錯誤で収集したEEGチャネルのサンプルとして表現し,神経科学者が定式化したフレキシブルポリシーに従って,ノードを重み付きエッジで接続する。 実験結果から,本フレームワークはerrp,rsvpのデータセットにまたがる標準cnn分類器よりも優れており,脳波関連分類問題に適応した深層学習法に対して,神経科学的解釈可能性と説明可能性も有意であった。 GNNベースのフレームワークのもう1つの実用上の利点は、計算コストの削減とポータブルなEEGヘッドセットの設計において重要なEEGチャネル選択に使用できることである。

Convolutional neural networks (CNN) have been frequently used to extract subject-invariant features from electroencephalogram (EEG) for classification tasks. This approach holds the underlying assumption that electrodes are equidistant analogous to pixels of an image and hence fails to explore/exploit the complex functional neural connectivity between different electrode sites. We overcome this limitation by tailoring the concepts of convolution and pooling applied to 2D grid-like inputs for the functional network of electrode sites. Furthermore, we develop various graph neural network (GNN) models that project electrodes onto the nodes of a graph, where the node features are represented as EEG channel samples collected over a trial, and nodes can be connected by weighted/unweighted edges according to a flexible policy formulated by a neuroscientist. The empirical evaluations show that our proposed GNN-based framework outperforms standard CNN classifiers across ErrP, and RSVP datasets, as well as allowing neuroscientific interpretability and explainability to deep learning methods tailored to EEG related classification problems. Another practical advantage of our GNN-based framework is that it can be used in EEG channel selection, which is critical for reducing computational cost, and designing portable EEG headsets.
翻訳日:2021-06-18 15:40:33 公開日:2021-06-16
# エキスパートデモによる自動カリキュラム

Automatic Curricula via Expert Demonstrations ( http://arxiv.org/abs/2106.09159v1 )

ライセンス: Link先を確認
Siyu Dai, Andreas Hofmann, Brian Williams(参考訳) 本稿では,ロボット操作タスクの難易度と報酬関数の相違を解消するために,模倣学習とカリキュラム学習のアイデアを組み合わせた強化学習(RL)アプローチであるACED(Automatic Curricula via Expert Demonstrations)を提案する。 カリキュラム学習は難易度を高めて補助的なタスク列を導入することで複雑なRLタスクを解決するが、効果的で一般化可能なカリキュラムを自動的に設計する方法は依然として難しい研究課題である。 acedは、デモをセクションに分割し、デモの異なるセクションからサンプリングされた状態にトレーニングエピソードを初期化することで、少数の専門家によるデモンストレーションの軌跡からカリキュラムを抽出する。 学習エージェントがパフォーマンスを向上させるため、リセット状態の終了から開始までの移動を通じて、ACEDは目に見えない初期化と目標を持つ困難な操作タスクを学ぶだけでなく、デモとは異なる新しいソリューションを発見する。 さらに,他の模倣学習手法と自然に組み合わせることで,専門家による実演をより効率的に活用できることを示すとともに,acedと振舞いクローンの組み合わせにより,最大1つの実演とブロック積み重ねタスクを20の実演で学習できることを示す。

We propose Automatic Curricula via Expert Demonstrations (ACED), a reinforcement learning (RL) approach that combines the ideas of imitation learning and curriculum learning in order to solve challenging robotic manipulation tasks with sparse reward functions. Curriculum learning solves complicated RL tasks by introducing a sequence of auxiliary tasks with increasing difficulty, yet how to automatically design effective and generalizable curricula remains a challenging research problem. ACED extracts curricula from a small amount of expert demonstration trajectories by dividing demonstrations into sections and initializing training episodes to states sampled from different sections of demonstrations. Through moving the reset states from the end to the beginning of demonstrations as the learning agent improves its performance, ACED not only learns challenging manipulation tasks with unseen initializations and goals, but also discovers novel solutions that are distinct from the demonstrations. In addition, ACED can be naturally combined with other imitation learning methods to utilize expert demonstrations in a more efficient manner, and we show that a combination of ACED with behavior cloning allows pick-and-place tasks to be learned with as few as 1 demonstration and block stacking tasks to be learned with 20 demonstrations.
翻訳日:2021-06-18 15:40:11 公開日:2021-06-16
# Mungojerrie: 線形時間目的の強化学習

Mungojerrie: Reinforcement Learning of Linear-Time Objectives ( http://arxiv.org/abs/2106.09161v1 )

ライセンス: Link先を確認
Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh Trivedi, and Dominik Wojtczak(参考訳) 強化学習は、システムの事前知識なしでコントローラを合成する。 各タイムステップに報酬が与えられる。 コントローラは、これらの報酬の割引金額を最適化します。 この種のアルゴリズムを適用するには、通常手動で行う報酬体系を設計する必要がある。 設計者は意図を正確に捉えなければならない。 これは自明ではないかもしれないし、エラーを起こしやすい。 この手動プログラミングの代替として、アセンブリで直接プログラミングするのと同様に、形式言語で目的を指定し、報酬スキームに"コンパイル"することが挙げられる。 Mungojerrie ($\href{https://plv.colorado .edu/mungojerrie/}{plv.colorado.edu/mun gojerrie}$)は、有限モデルに対する$\omega$-regularの目的に対する報酬スキームをテストするツールである。 このツールは強化学習アルゴリズムと確率論的モデルチェッカーを含む。 MungojerrieはPRISMで指定されたモデルとHOAで指定された$\omega$-automataをサポートする。

Reinforcement learning synthesizes controllers without prior knowledge of the system. At each timestep, a reward is given. The controllers optimize the discounted sum of these rewards. Applying this class of algorithms requires designing a reward scheme, which is typically done manually. The designer must ensure that their intent is accurately captured. This may not be trivial, and is prone to error. An alternative to this manual programming, akin to programming directly in assembly, is to specify the objective in a formal language and have it "compiled" to a reward scheme. Mungojerrie ($\href{https://plv.colorado .edu/mungojerrie/}{plv.colorado.edu/mun gojerrie}$) is a tool for testing reward schemes for $\omega$-regular objectives on finite models. The tool contains reinforcement learning algorithms and a probabilistic model checker. Mungojerrie supports models specified in PRISM and $\omega$-automata specified in HOA.
翻訳日:2021-06-18 15:37:14 公開日:2021-06-16
# (参考訳) 計算病理学における敵意の脆弱性は [全文訳有]

Now You See It, Now You Dont: Adversarial Vulnerabilities in Computational Pathology ( http://arxiv.org/abs/2106.08153v2 )

ライセンス: CC BY 4.0
Alex Foote, Amina Asif, Ayesha Azam, Tim Marshall-Cox, Nasir Rajpoot and Fayyaz Minhas(参考訳) 深層学習モデルは、診断と予後の問題を解くために、計算病理学(CPath)に常用される。 通常、CPathモデルの一般化性能は、多中心コホート上でのクロスバリデーションやテストのような評価プロトコルを用いて分析される。 しかし,このようなCPathソリューションが臨床現場での使用に対して堅牢かつ安全であることを保証するためには,その予測性能と敵攻撃に対する脆弱性を批判的に分析する必要がある。 具体的には, 病理画像中の腫瘍パッチを高精度に分類するモデル(auc > 0.95)が, 人間や訓練された病理学者には受け入れられない最小限の摂動で容易に攻撃できることを示す。 分析の結果,高い成功率と低摂動エネルギーで特定の入力画像に対して単一インスタンスのホワイトボックス攻撃を発生できることが示唆された。 さらに、トレーニングデータセットのみを使用した単一の普遍摂動行列も生成し、未認識のテスト画像に付加すると、トレーニングされたニューラルネットワークが84%以上の成功率で高い信頼度で予測ラベルを反転させる結果となる。 本研究は, 対向攻撃の摂動エネルギーと臨床的意義の形態的構成との関係, 訓練された病理学者による受容性, 深層学習モデルを用いて得られた塩分マップとの関係を体系的に解析する。 本分析に基づいて,臨床導入前に提案した逆検証戦略を用いて,計算病理モデルに批判的分析を行うことを強く推奨する。

Deep learning models are routinely employed in computational pathology (CPath) for solving problems of diagnostic and prognostic significance. Typically, the generalization performance of CPath models is analyzed using evaluation protocols such as cross-validation and testing on multi-centric cohorts. However, to ensure that such CPath solutions are robust and safe for use in a clinical setting, a critical analysis of their predictive performance and vulnerability to adversarial attacks is required, which is the focus of this paper. Specifically, we show that a highly accurate model for classification of tumour patches in pathology images (AUC > 0.95) can easily be attacked with minimal perturbations which are imperceptible to lay humans and trained pathologists alike. Our analytical results show that it is possible to generate single-instance white-box attacks on specific input images with high success rate and low perturbation energy. Furthermore, we have also generated a single universal perturbation matrix using the training dataset only which, when added to unseen test images, results in forcing the trained neural network to flip its prediction labels with high confidence at a success rate of > 84%. We systematically analyze the relationship between perturbation energy of an adversarial attack, its impact on morphological constructs of clinical significance, their perceptibility by a trained pathologist and saliency maps obtained using deep learning models. Based on our analysis, we strongly recommend that computational pathology models be critically analyzed using the proposed adversarial validation strategy prior to clinical adoption.
翻訳日:2021-06-18 12:38:30 公開日:2021-06-16
# オンライン実験における分散化のための機械学習

Machine Learning for Variance Reduction in Online Experiments ( http://arxiv.org/abs/2106.07263v2 )

ライセンス: Link先を確認
Yongyi Guo, Dominic Coey, Mikael Konutgan, Wenting Li, Chris Schoener, Matt Goldman(参考訳) 本研究では,無作為化実験における分散低減の問題点を,結果と相関するが治療とは無関係な共変量を用いて検討する。 そこで,我々はmlrateと呼ぶ機械学習回帰調整治療効果推定器を提案する。 MLRATEは、結果の機械学習予測器を使用して推定値の分散を低減する。 バイアスの過度な適合を避けるためにクロスフィッティングを採用し、一般的な条件下での一貫性と漸近正規性を証明する。 mlrateは、機械学習のステップから低い予測に堅牢である:もし予測が結果と無関係なら、推定者は標準の差分推定器よりも漸近的に実行され、予測が結果と高い相関関係にある場合、効率向上は大きい。 A/Aテストでは、Facebook実験で一般的に監視される48の結果指標のセットに対して、推定器は単純な差分推定器よりも70%以上、結果の事前実験値にのみ適応する一般的な単変量法よりも約19%低い分散を有する。

We consider the problem of variance reduction in randomized controlled trials, through the use of covariates correlated with the outcome but independent of the treatment. We propose a machine learning regression-adjusted treatment effect estimator, which we call MLRATE. MLRATE uses machine learning predictors of the outcome to reduce estimator variance. It employs cross-fitting to avoid overfitting biases, and we prove consistency and asymptotic normality under general conditions. MLRATE is robust to poor predictions from the machine learning step: if the predictions are uncorrelated with the outcomes, the estimator performs asymptotically no worse than the standard difference-in-means estimator, while if predictions are highly correlated with outcomes, the efficiency gains are large. In A/A tests, for a set of 48 outcome metrics commonly monitored in Facebook experiments the estimator has over 70% lower variance than the simple difference-in-means estimator, and about 19% lower variance than the common univariate procedure which adjusts only for pre-experiment values of the outcome.
翻訳日:2021-06-18 11:26:17 公開日:2021-06-16
# (参考訳) ニューラルネットワークを用いたlorenzシステム状態の安定性同定 [全文訳有]

Lorenz System State Stability Identification using Neural Networks ( http://arxiv.org/abs/2106.08489v1 )

ライセンス: CC BY 4.0
Megha Subramanian, Ramakrishna Tipireddy and Samrat Chatterjee(参考訳) ロレンツ63方程式のような非線形力学系は本質的にカオスであり、初期条件に敏感であることが知られている。 その結果、初期状態における小さな摂動は、数回のステップの後に状態軌道の偏差をもたらす。 システム状態の正確な識別に必要なアルゴリズムと計算資源は、その解が遷移領域にあるか否かによって異なる。 我々は遷移領域と非遷移領域をそれぞれ不安定領域と安定領域と呼ぶ。 システム状態が直近で将来の状態が同じ体制にある場合、安定であるとラベル付けします。 しかし、ある時点のステップでは、システムが安定しているか不安定であるかについて事前の知識を持っていません。 本稿では,ロレンツシステムのシステム状態を安定かつ不安定に分類するために,フィードフォワード(多層パーセプトロン)ニューラルネットワークを開発し,訓練する。 このタスクは、安定あるいは不安定とラベル付けされた状態を持つLorenzシステム上でニューラルネットワークをトレーニングする教師あり学習問題として機能する。 次に、異なる初期条件で生成される異なるロレンツ系の安定状態と不安定状態を特定するために、ニューラルネットワークモデルの能力をテストする。 また,トレーニングデータと検証データの初期条件を異なる間隔でサンプリングした場合の分類性能について検討した。 特定の正規化スキームはニューラルネットワークの性能を大幅に向上させることができることを示す。 論文で開発された分類フレームワークは、観察された安定状態または不安定状態に基づいて意思決定を行うシーケンシャル意思決定フレームワークのより大きなコンテキストのプリプロセッサとなる。

Nonlinear dynamical systems such as Lorenz63 equations are known to be chaotic in nature and sensitive to initial conditions. As a result, a small perturbation in the initial conditions results in deviation in state trajectory after a few time steps. The algorithms and computational resources needed to accurately identify the system states vary depending on whether the solution is in transition region or not. We refer to the transition and non-transition regions as unstable and stable regions respectively. We label a system state to be stable if it's immediate past and future states reside in the same regime. However, at a given time step we don't have the prior knowledge about whether system is in stable or unstable region. In this paper, we develop and train a feed forward (multi-layer perceptron) Neural Network to classify the system states of a Lorenz system as stable and unstable. We pose this task as a supervised learning problem where we train the neural network on Lorenz system which have states labeled as stable or unstable. We then test the ability of the neural network models to identify the stable and unstable states on a different Lorenz system that is generated using different initial conditions. We also evaluate the classification performance in the mismatched case i.e., when the initial conditions for training and validation data are sampled from different intervals. We show that certain normalization schemes can greatly improve the performance of neural networks in especially these mismatched scenarios. The classification framework developed in the paper can be a preprocessor for a larger context of sequential decision making framework where the decision making is performed based on observed stable or unstable states.
翻訳日:2021-06-18 08:23:53 公開日:2021-06-16
# (参考訳) Semantic Reinforced Entity Embeddingsによるエンティティリンクの改善 [全文訳有]

Improving Entity Linking through Semantic Reinforced Entity Embeddings ( http://arxiv.org/abs/2106.08495v1 )

ライセンス: CC0 1.0
Feng Hou, Ruili Wang, Jun He, Yi Zhou(参考訳) 単語埋め込みのような単一のベクトルを持つ各エンティティの異なる側面を表すエンティティ埋め込みは、ニューラルネットワークリンクモデルの重要なコンポーネントである。 既存のエンティティ埋め込みは、標準wikipediaの記事やターゲットエンティティを取り巻くローカルコンテキストから学べる。 このようなエンティティ埋め込みは効果的だが、モデルのリンクがコンテキストの共通性を学ぶには特筆すべきすぎる。 エンティティ埋め込みにきめ細かな意味情報を注入して識別性を低減し,文脈共通性の学習を容易にする,単純かつ効果的な手法であるfgs2eeを提案する。 FGS2EEはまず意味型単語の埋め込みを使用してセマンティック埋め込みを生成し、それから線形集約を通じて既存のエンティティ埋め込みと組み合わせる。 大規模な実験は、そのような埋め込みの有効性を示している。 エンティティの埋め込みに基づいて、エンティティリンクで新たな最先端のパフォーマンスを達成しました。

Entity embeddings, which represent different aspects of each entity with a single vector like word embeddings, are a key component of neural entity linking models. Existing entity embeddings are learned from canonical Wikipedia articles and local contexts surrounding target entities. Such entity embeddings are effective, but too distinctive for linking models to learn contextual commonality. We propose a simple yet effective method, FGS2EE, to inject fine-grained semantic information into entity embeddings to reduce the distinctiveness and facilitate the learning of contextual commonality. FGS2EE first uses the embeddings of semantic type words to generate semantic embeddings, and then combines them with existing entity embeddings through linear aggregation. Extensive experiments show the effectiveness of such embeddings. Based on our entity embeddings, we achieved new sate-of-the-art performance on entity linking.
翻訳日:2021-06-18 08:09:52 公開日:2021-06-16
# (参考訳) 画像キャプションにおけるRacial Biaseの理解と評価 [全文訳有]

Understanding and Evaluating Racial Biases in Image Captioning ( http://arxiv.org/abs/2106.08503v1 )

ライセンス: CC BY 4.0
Dora Zhao and Angelina Wang and Olga Russakovsky(参考訳) 画像キャプションは視覚的推論のベンチマークや視覚障害者のアクセシビリティ向上のための重要なタスクである。 しかし、多くの機械学習の設定と同様に、社会的バイアスは望ましくない方法で画像キャプションに影響を与える可能性がある。 本研究では,COCOデータセットに着目し,画像キャプション内のバイアス伝搬経路について検討する。 先行研究は、自動的な性別ラベルを用いた字幕の性別バイアスを分析し、ここでは、手作業による人種バイアスと交叉バイアスについて検討する。 最初の貢献は、IRB承認後、28,315人の性別と肌の色をアノテートすることである。 これらのアノテーションを用いて、手動と自動生成された画像キャプションの両方に存在する人種バイアスを比較する。 より軽い人と暗い肌の人の画像のキャプション性能,感情,言葉選択の差異を示す。 さらに, 現代のキャプションシステムでは, 従来のキャプションシステムに比べて差の大きさが大きいことが分かり, 適切な考慮と緩和がなければ, これらの差はますます広まっていくと懸念される。 コードとデータはhttps://princetonvis ualai.github.io/imag ecaptioning-biasで入手できる。

Image captioning is an important task for benchmarking visual reasoning and for enabling accessibility for people with vision impairments. However, as in many machine learning settings, social biases can influence image captioning in undesirable ways. In this work, we study bias propagation pathways within image captioning, focusing specifically on the COCO dataset. Prior work has analyzed gender bias in captions using automatically-derive d gender labels; here we examine racial and intersectional biases using manual annotations. Our first contribution is in annotating the perceived gender and skin color of 28,315 of the depicted people after obtaining IRB approval. Using these annotations, we compare racial biases present in both manual and automatically-genera ted image captions. We demonstrate differences in caption performance, sentiment, and word choice between images of lighter versus darker-skinned people. Further, we find the magnitude of these differences to be greater in modern captioning systems compared to older ones, thus leading to concerns that without proper consideration and mitigation these differences will only become increasingly prevalent. Code and data is available at https://princetonvis ualai.github.io/imag ecaptioning-bias .
翻訳日:2021-06-18 08:01:40 公開日:2021-06-16
# (参考訳) 動的に成長する生成的対向ネットワーク [全文訳有]

Dynamically Grown Generative Adversarial Networks ( http://arxiv.org/abs/2106.08505v1 )

ライセンス: CC BY 4.0
Lanlan Liu, Yuting Zhang, Jia Deng, Stefano Soatto(参考訳) 最近の研究は、大規模なGANのトレーニングを容易にするための有望な方法としてプログレッシブネットワーク成長を導入したが、モデル設計とアーキテクチャの成長戦略はまだ未熟であり、異なる画像データのための手動設計が必要である。 本稿では,学習中にGANを動的に成長させる手法を提案し,ネットワークアーキテクチャとそのパラメータを自動化とともに最適化する。 本手法はアーキテクチャ探索手法を勾配に基づく訓練とインターリーブステップとして組み込んで,ジェネレータと識別器の最適アーキテクチャ成長戦略を定期的に探究する。 幅広いアーキテクチャ設計スペースのために、進歩的な成長とパフォーマンス向上によって、トレーニングが容易になるというメリットを享受しています。 実験結果から画像生成の新たな技術が示された。 探索手順における観測は、ジェネレータ・ディスクリミネータのバランスや畳み込み層の選択など、GANモデルの設計に関する構成的な洞察を提供する。

Recent work introduced progressive network growing as a promising way to ease the training for large GANs, but the model design and architecture-growing strategy still remain under-explored and needs manual design for different image data. In this paper, we propose a method to dynamically grow a GAN during training, optimizing the network architecture and its parameters together with automation. The method embeds architecture search techniques as an interleaving step with gradient-based training to periodically seek the optimal architecture-growing strategy for the generator and discriminator. It enjoys the benefits of both eased training because of progressive growing and improved performance because of broader architecture design space. Experimental results demonstrate new state-of-the-art of image generation. Observations in the search procedure also provide constructive insights into the GAN model design such as generator-discrimina tor balance and convolutional layer choices.
翻訳日:2021-06-18 07:40:00 公開日:2021-06-16
# (参考訳) リストデコダブル平均推定による概日時混合モデルのクラスタリング

Clustering Mixture Models in Almost-Linear Time via List-Decodable Mean Estimation ( http://arxiv.org/abs/2106.08537v1 )

ライセンス: CC BY 4.0
Ilias Diakonikolas, Daniel M. Kane, Daniel Kongsgaard, Jerry Li, Kevin Tian(参考訳) 本稿では,データセットの大部分を敵が破壊できるリストデコタブル平均推定の問題について検討する。 具体的には、$T$ of $n$ points in $\mathbb{R}^d$ とパラメータ $0< \alpha <\frac 1 2$ が与えられ、$T$ の点の $\alpha$-fraction が i.d となる。 よく知られた分布 $\mathcal{D}$ のサンプルと残りの点の $(1-\alpha)$-fractio n は任意である。 目標は、少なくとも1つが$\mathcal{d}$の平均に近いベクトルの小さなリストを出力することである。 本研究の主な貢献として,n^{1 + o(1)} d$ のランニング時間を用いて,ほぼ最適統計保証を達成し,リストデコタブル平均推定のための新しいアルゴリズムを開発した。 この問題の全ての前のアルゴリズムは、$\frac 1 \alpha$ の多項式因子を付加していた。 結論として,スペクトル手法の統計的保証にほぼ適合する,$k$の分離された分布をクラスタリングするための,最初のほぼ線形時間アルゴリズムを得る。 以前のクラスタリングアルゴリズムは本質的に$k$-PCAのアプリケーションに依存しており、それによって$\Omega(n d k)$のランタイムが生成される。 これは、この基本的な統計問題にとって、ほぼ20年ぶりのランタイム改善となる。 提案手法の出発点は, 1ショットの行列乗算重みに着想を得たポテンシャル減少に基づく, $\alpha \to 1$ regime における新しい,より単純なニア線形時間ロバスト平均推定アルゴリズムである。 ダイアコニコラス等の反復的マルチフィルタ手法の文脈において,この新たなアルゴリズムフレームワークを重要活用する。 アル つまり、以前のアルゴリズムが必要とする$k$-PCAサブルーチンをバイパスする。

We study the problem of list-decodable mean estimation, where an adversary can corrupt a majority of the dataset. Specifically, we are given a set $T$ of $n$ points in $\mathbb{R}^d$ and a parameter $0< \alpha <\frac 1 2$ such that an $\alpha$-fraction of the points in $T$ are i.i.d. samples from a well-behaved distribution $\mathcal{D}$ and the remaining $(1-\alpha)$-fractio n of the points are arbitrary. The goal is to output a small list of vectors at least one of which is close to the mean of $\mathcal{D}$. As our main contribution, we develop new algorithms for list-decodable mean estimation, achieving nearly-optimal statistical guarantees, with running time $n^{1 + o(1)} d$. All prior algorithms for this problem had additional polynomial factors in $\frac 1 \alpha$. As a corollary, we obtain the first almost-linear time algorithms for clustering mixtures of $k$ separated well-behaved distributions, nearly-matching the statistical guarantees of spectral methods. Prior clustering algorithms inherently relied on an application of $k$-PCA, thereby incurring runtimes of $\Omega(n d k)$. This marks the first runtime improvement for this basic statistical problem in nearly two decades. The starting point of our approach is a novel and simpler near-linear time robust mean estimation algorithm in the $\alpha \to 1$ regime, based on a one-shot matrix multiplicative weights-inspired potential decrease. We crucially leverage this new algorithmic framework in the context of the iterative multi-filtering technique of Diakonikolas et. al. '18, '20, providing a method to simultaneously cluster and downsample points using one-dimensional projections --- thus, bypassing the $k$-PCA subroutines required by prior algorithms.
翻訳日:2021-06-18 07:27:43 公開日:2021-06-16
# (参考訳) 局所-グローバル相互作用によるシーングラフ生成の課題 [全文訳有]

Tackling the Challenges in Scene Graph Generation with Local-to-Global Interactions ( http://arxiv.org/abs/2106.08543v1 )

ライセンス: CC BY 4.0
Sangmin Woo, Junhyug Noh, Kangil Kim(参考訳) 本研究では,SGG(Scene Graph Generation)タスクの根底にある課題について,新たな知見を求める。 1) 両義性: 対象間の関係が同一のオブジェクト(または述語)を含むとしても、視的または意味的に類似しない、2) 非対称性: 方向を具現化した関係の性質にもかかわらず、以前の研究ではうまく対処されていなかった、3) 上位のコンテキスト: あるグラフ要素のアイデンティティを活用することは、正確なシーングラフを生成するのに役立つ。 分析に動機づけられ,新しいsggフレームワークであるlocal-to-global interaction network (login) を設計した。 ローカルでは、インタラクションは主題、オブジェクト、背景の3つのインスタンス間の本質を抽出し、入力順序を制約することで方向認識をネットワークに焼き付ける。 グローバルに、相互作用はすべてのグラフコンポーネント – ノードとエッジ – の間のコンテキストをエンコードする。 また、述語埋め込みを微調整するAttract & Repel lossを導入する。 このフレームワークにより,局所的からグローバル的手法によるシーングラフの予測が可能となり,相補性が期待できる。 本研究では,双方向関係分類 (bidirectional relationship classification, brc) と呼ばれる新しい診断タスクを提案する。 LOGINは、Visual Genomeベンチマーク(SGGタスク)上で、既存の方法(BRCタスク)と、最先端の結果を示しながら、リレーショナルな方向を識別することに成功した。

In this work, we seek new insights into the underlying challenges of the Scene Graph Generation (SGG) task. Quantitative and qualitative analysis of the Visual Genome dataset implies -- 1) Ambiguity: even if inter-object relationship contains the same object (or predicate), they may not be visually or semantically similar, 2) Asymmetry: despite the nature of the relationship that embodied the direction, it was not well addressed in previous studies, and 3) Higher-order contexts: leveraging the identities of certain graph elements can help to generate accurate scene graphs. Motivated by the analysis, we design a novel SGG framework, Local-to-Global Interaction Networks (LOGIN). Locally, interactions extract the essence between three instances - subject, object, and background - while baking direction awareness into the network by constraining the input order. Globally, interactions encode the contexts between every graph components -- nodes and edges. Also we introduce Attract & Repel loss which finely adjusts predicate embeddings. Our framework enables predicting the scene graph in a local-to-global manner by design, leveraging the possible complementariness. To quantify how much LOGIN is aware of relational direction, we propose a new diagnostic task called Bidirectional Relationship Classification (BRC). We see that LOGIN can successfully distinguish relational direction than existing methods (in BRC task) while showing state-of-the-art results on the Visual Genome benchmark (in SGG task).
翻訳日:2021-06-18 07:26:18 公開日:2021-06-16
# (参考訳) 空間分布系のマイニング解釈可能な時空間論理特性 [全文訳有]

Mining Interpretable Spatio-temporal Logic Properties for Spatially Distributed Systems ( http://arxiv.org/abs/2106.08548v1 )

ライセンス: CC BY 4.0
Sara Mohammadinejad, Jyotirmy V. Deshmukh, Laura Nenzi(参考訳) Internet-of-Things、複雑なセンサーネットワーク、マルチエージェントのサイバー物理システムなどは、時間とともに進化する空間分散システムの例である。 このようなシステムは大量の時空間データを生成し、システム設計者はデータの構造を分析し発見することに関心がある。 STL (Signal Temporal Logic) などの論理学を用いて時間データの因果的・論理的特性を学習することに大きな関心が寄せられているが、時空間データにそのような関係を見出すための研究は限られている。 時空間データに対する教師なし学習のための最初のアルゴリズムを提案する。 パラメトリック時空間リーチ・エスケープ論理(PSTREL)のパラメータ空間に投影することで,時空間データから自動特徴抽出を行う。 本稿では,各クラスタが異なるSTREL式を満たすことを保証した集合的階層クラスタリング手法を提案する。 本稿では,信号時間論理の教師なし学習手法を一般化した新しい決定木手法を用いて,境界記述複雑性のSTREL式を生成する。 本研究では, 都市交通, 疫学, グリーンインフラストラクチャ, 大気質モニタリングなど多様な分野の事例研究におけるアプローチの有効性を示す。

The Internet-of-Things, complex sensor networks, multi-agent cyber-physical systems are all examples of spatially distributed systems that continuously evolve in time. Such systems generate huge amounts of spatio-temporal data, and system designers are often interested in analyzing and discovering structure within the data. There has been considerable interest in learning causal and logical properties of temporal data using logics such as Signal Temporal Logic (STL); however, there is limited work on discovering such relations on spatio-temporal data. We propose the first set of algorithms for unsupervised learning for spatio-temporal data. Our method does automatic feature extraction from the spatio-temporal data by projecting it onto the parameter space of a parametric spatio-temporal reach and escape logic (PSTREL). We propose an agglomerative hierarchical clustering technique that guarantees that each cluster satisfies a distinct STREL formula. We show that our method generates STREL formulas of bounded description complexity using a novel decision-tree approach which generalizes previous unsupervised learning techniques for Signal Temporal Logic. We demonstrate the effectiveness of our approach on case studies from diverse domains such as urban transportation, epidemiology, green infrastructure, and air quality monitoring.
翻訳日:2021-06-18 06:45:57 公開日:2021-06-16
# (参考訳) 識別ウェーブレットサブバンドを用いた形態素顔画像の検出 [全文訳有]

Detection of Morphed Face Images Using Discriminative Wavelet Sub-bands ( http://arxiv.org/abs/2106.08565v1 )

ライセンス: CC BY 4.0
Poorya Aghdaie, Baaria Chaudhary, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) 本研究は, バイオメトリックスコミュニティで注目されている, モーフィング攻撃のよく知られた問題について考察する。 モーフィックな画像は、顔認識システムの誤認に対する感受性を露呈し、特に国家安全保障上のアプリケーションにおいて、ひどい結果をもたらす。 モーフィング攻撃を検出するために,2次元離散ウェーブレット変換(2d-dwt)に基づく手法を提案する。 識別ウェーブレットサブバンドは、実画像と形態画像との矛盾を強調することができる。 ボナファイド画像における所定のサブバンドのエントロピーと、モルフィックサンプルにおける同じサブバンドのエントロピーとの間には、有意な差があることを観察する。 この2つのエントロピー値の相違を考えると、2つの分布、すなわち、ボナフィドのエントロピーと対応するモルフィド画像の間にクルバック・リーブラーのばらつきが生じる。 最も識別可能なウェーブレットサブバンドは、対応するklダイバージェンス値が最も高いバンドである。 したがって、モルフィック検出の観点から22個のサブバンドを最も識別可能なバンドとして選択する。 22個の識別サブバンドで訓練されたディープニューラルネットワーク(dnn)が、モーフィックサンプルを正確に検出できることを示す。 最も重要な点として、我々のアルゴリズムの有効性は、VISAPP17、LMA、MorGANという3つのデータセットの実験を通して検証される。 また,サブバンド選択に関するアブレーション調査を行った。

This work investigates the well-known problem of morphing attacks, which has drawn considerable attention in the biometrics community. Morphed images have exposed face recognition systems' susceptibility to false acceptance, resulting in dire consequences, especially for national security applications. To detect morphing attacks, we propose a method which is based on a discriminative 2D Discrete Wavelet Transform (2D-DWT). A discriminative wavelet sub-band can highlight inconsistencies between a real and a morphed image. We observe that there is a salient discrepancy between the entropy of a given sub-band in a bona fide image, and the same sub-band's entropy in a morphed sample. Considering this dissimilarity between these two entropy values, we find the Kullback-Leibler divergence between the two distributions, namely the entropy of the bona fide and the corresponding morphed images. The most discriminative wavelet sub-bands are those with the highest corresponding KL-divergence values. Accordingly, 22 sub-bands are selected as the most discriminative ones in terms of morph detection. We show that a Deep Neural Network (DNN) trained on the 22 discriminative sub-bands can detect morphed samples precisely. Most importantly, the effectiveness of our algorithm is validated through experiments on three datasets: VISAPP17, LMA, and MorGAN. We also performed an ablation study on the sub-band selection.
翻訳日:2021-06-18 05:57:39 公開日:2021-06-16
# (参考訳) 特性関数による微分プライバシーの最適会計

Optimal Accounting of Differential Privacy via Characteristic Function ( http://arxiv.org/abs/2106.08567v1 )

ライセンス: CC BY 4.0
Yuqing Zhu, Jinshuo Dong and Yu-Xiang Wang(参考訳) コンポジション上のプライバシーの劣化、すなわちプライバシ会計を特徴付けることは、微分プライバシー(DP)における基本的なトピックであり、多くのアプリケーションが微分プライベート機械学習やフェデレーション学習に応用されている。 そこで我々は,ある<worst-case'のプライバシ損失のランダム変数の特徴関数(\phi$-function)を介して,最近の進歩(Renyi DP,プライバシープロファイル,$f$-DP,PLDフォーマリズム)の統合を提案する。 我々のアプローチは、Renyi DPのような自然な適応的な構成を可能にし、PDDのような厳密なプライバシー会計を提供し、プライバシープロファイルや$f$-DPに変換することができ、$(\epsilon,\delta)$- DP保証と解釈可能なトレードオフ関数を提供する。 アルゴリズム上,$\phi$-関数の複素対数を表す解析的フーリエ会計法を提案し,数値計算にガウス二次法を用いる。 いくつかのDPメカニズムとそのサブサンプルについて,理論と実験におけるアプローチの柔軟性と厳密さを実証する。

Characterizing the privacy degradation over compositions, i.e., privacy accounting, is a fundamental topic in differential privacy (DP) with many applications to differentially private machine learning and federated learning. We propose a unification of recent advances (Renyi DP, privacy profiles, $f$-DP and the PLD formalism) via the characteristic function ($\phi$-function) of a certain ``worst-case'' privacy loss random variable. We show that our approach allows natural adaptive composition like Renyi DP, provides exactly tight privacy accounting like PLD, and can be (often losslessly) converted to privacy profile and $f$-DP, thus providing $(\epsilon,\delta)$- DP guarantees and interpretable tradeoff functions. Algorithmically, we propose an analytical Fourier accountant that represents the complex logarithm of $\phi$-functions symbolically and uses Gaussian quadrature for numerical computation. On several popular DP mechanisms and their subsampled counterparts, we demonstrate the flexibility and tightness of our approach in theory and experiments.
翻訳日:2021-06-18 05:46:48 公開日:2021-06-16
# (参考訳) ビデオシーケンス中の異常検出:ベンチマークと計算モデル [全文訳有]

Anomaly Detection in Video Sequences: A Benchmark and Computational Model ( http://arxiv.org/abs/2106.08570v1 )

ライセンス: CC BY 4.0
Boyang Wan and Wenhui Jiang and Yuming Fang and Zhiyuan Luo and Guanqun Ding(参考訳) 異常検出は検索の注意を惹きつけている。 しかし、既存の異常検出データベースには2つの大きな問題がある。 第一に、規模は限られている。 第2に,トレーニングセットには,映像中の異常事象の存在を示すビデオレベルラベルのみが含まれているが,正確な時間長のアノテーションが欠落している。 これらの問題に対処するため,ビデオシーケンスにおける異常検出のためのベンチマークとして,大規模異常検出(LAD)データベースを新たに提案する。 1) 事故, 火災, 暴力などの異常なカテゴリーが14ある, 正常および異常なビデオクリップを含む2000の動画シーケンスを含む。 大規模なシーンのバリエーションがあるため、これまでで最大の異常解析データベースとなっている。 2)ビデオレベルラベル(異常/正常/異常型)及びフレームレベルラベル(異常/正常/正常ビデオフレーム)を含むアノテーションデータを提供し、異常検出を容易にする。 上記のladデータベースの利点を生かして,完全な教師付き学習問題として異常検出をさらに定式化し,それを解決するマルチタスク深層ニューラルネットワークを提案する。 まず,Inflated 3D convolutional (I3D) ネットワークを用いて局所時空間特性を求める。 次に,局所時空間特徴を付加した反復畳み込みニューラルネットワークを構築し,時空間特徴を抽出した。 グローバルな時空間的特徴により、異常型とスコアはマルチタスクニューラルネットワークによって同時に計算できる。 実験の結果,提案手法は,我々のデータベースや一般の異常検出データベースにおける最先端異常検出手法よりも優れていることがわかった。 コードはhttps://github.com/w anboyang/anomaly_det ection_lad2000で入手できる。

Anomaly detection has attracted considerable search attention. However, existing anomaly detection databases encounter two major problems. Firstly, they are limited in scale. Secondly, training sets contain only video-level labels indicating the existence of an abnormal event during the full video while lacking annotations of precise time durations. To tackle these problems, we contribute a new Large-scale Anomaly Detection (LAD) database as the benchmark for anomaly detection in video sequences, which is featured in two aspects. 1) It contains 2000 video sequences including normal and abnormal video clips with 14 anomaly categories including crash, fire, violence, etc. with large scene varieties, making it the largest anomaly analysis database to date. 2) It provides the annotation data, including video-level labels (abnormal/normal video, anomaly type) and frame-level labels (abnormal/normal video frame) to facilitate anomaly detection. Leveraging the above benefits from the LAD database, we further formulate anomaly detection as a fully-supervised learning problem and propose a multi-task deep neural network to solve it. We first obtain the local spatiotemporal contextual feature by using an Inflated 3D convolutional (I3D) network. Then we construct a recurrent convolutional neural network fed the local spatiotemporal contextual feature to extract the spatiotemporal contextual feature. With the global spatiotemporal contextual feature, the anomaly type and score can be computed simultaneously by a multi-task neural network. Experimental results show that the proposed method outperforms the state-of-the-art anomaly detection methods on our database and other public databases of anomaly detection. Codes are available at https://github.com/w anboyang/anomaly_det ection_LAD2000.
翻訳日:2021-06-18 05:45:41 公開日:2021-06-16
# (参考訳) 難解なグリフ形状表現の学習 [全文訳有]

Learning Implicit Glyph Shape Representation ( http://arxiv.org/abs/2106.08573v1 )

ライセンス: CC BY 4.0
Ying-Tian Liu, Yuan-Chen Guo, Yi-Xiao Li, Chen Wang, Song-Hai Zhang(参考訳) 本稿では,二次曲線で囲まれた形状プリミティブとしてグリフをモデル化し,任意の高分解能でグリフ画像を生成する新しい暗黙のグリフ形状表現を提案する。 フォント再構成と補間作業の実験により、この構造的暗示表現がグリフの構造的特徴とスタイル的特徴の両方を記述するのに適していることが確認された。 さらに,提案する表現に基づいて,難解なワンショットフォントスタイル転送問題に対して,単純かつ効果的に絡み合ったネットワークをデザインし,定量的・質的比較において最先端の代替案と比較し,最良の結果を得る。 この表現から、生成したグリフは後処理によりベクトルフォントに変換される可能性があり、ラスタ化画像とベクトルグラフィックスのギャップを小さくする。 2次元形状解析と合成のための強力なツールを提供し、2次元形状モデリングのための暗黙表現のさらなる活用を促すことを願っている。

In this paper, we present a novel implicit glyph shape representation, which models glyphs as shape primitives enclosed by quadratic curves, and naturally enables generating glyph images at arbitrary high resolutions. Experiments on font reconstruction and interpolation tasks verified that this structured implicit representation is suitable for describing both structure and style features of glyphs. Furthermore, based on the proposed representation, we design a simple yet effective disentangled network for the challenging one-shot font style transfer problem, and achieve the best results comparing to state-of-the-art alternatives in both quantitative and qualitative comparisons. Benefit from this representation, our generated glyphs have the potential to be converted to vector fonts through post-processing, reducing the gap between rasterized images and vector graphics. We hope this work can provide a powerful tool for 2D shape analysis and synthesis, and inspire further exploitation in implicit representations for 2D shape modeling.
翻訳日:2021-06-18 05:24:34 公開日:2021-06-16
# (参考訳) 音声ユーザ発話を用いた相対空間概念の教師なし語彙獲得 [全文訳有]

Unsupervised Lexical Acquisition of Relative Spatial Concepts Using Spoken User Utterances ( http://arxiv.org/abs/2106.08574v1 )

ライセンス: CC BY 4.0
Rikunari Sagara (1), Ryo Taguchi (1), Akira Taniguchi (2), Tadahiro Taniguchi (2), Koosuke Hattori (3), Masahiro Hoguro (3), Taizo Umezaki (3) ((1) Nagoya Institute of Technology, (2) Ritsumeikan University, (3) Chubu University)(参考訳) 本稿では,音声ユーザ発話を用いた相対空間概念の教師なし語彙獲得手法を提案する。 柔軟な対話システムを持つロボットは、子供のように人間との対話を通じて、環境に固有の言語表現とその意味を取得できなければならない。 特に、私たちの日常生活では、相対的な空間的概念(例えば、前面と右側)が広く使われているが、ロボットが相対的な空間的概念を学ぶとき、どの物体が参照対象であるかは明らかではない。 そこで本稿では,単語の事前知識のないロボットが相対空間概念を学習できる手法を提案する。 これらの手法は確率モデルを用いて定式化され、適切な参照オブジェクトと概念を表す分布を同時に推定する。 実験結果から,ロボットがどの位置の物体が参照対象であるかを知らない条件下で,相対空間概念と各概念を表す音素列を学習できることが示唆された。 さらに,提案手法では,n-gramクラスによる候補単語列の生成と,位置情報を用いた単語列の選択という,概念の精度向上を図る。 さらに,参照対象の候補数が増加しても,参照対象への手がかりが精度を向上させることを示す。

This paper proposes methods for unsupervised lexical acquisition for relative spatial concepts using spoken user utterances. A robot with a flexible spoken dialog system must be able to acquire linguistic representation and its meaning specific to an environment through interactions with humans as children do. Specifically, relative spatial concepts (e.g., front and right) are widely used in our daily lives, however, it is not obvious which object is a reference object when a robot learns relative spatial concepts. Therefore, we propose methods by which a robot without prior knowledge of words can learn relative spatial concepts. The methods are formulated using a probabilistic model to estimate the proper reference objects and distributions representing concepts simultaneously. The experimental results show that relative spatial concepts and a phoneme sequence representing each concept can be learned under the condition that the robot does not know which located object is the reference object. Additionally, we show that two processes in the proposed method improve the estimation accuracy of the concepts: generating candidate word sequences by class n-gram and selecting word sequences using location information. Furthermore, we show that clues to reference objects improve accuracy even though the number of candidate reference objects increases.
翻訳日:2021-06-18 05:10:59 公開日:2021-06-16
# (参考訳) 位置符号化を用いた時間畳み込みネットワークによる表情推定 [全文訳有]

Temporal Convolution Networks with Positional Encoding for Evoked Expression Estimation ( http://arxiv.org/abs/2106.08596v1 )

ライセンス: CC BY 4.0
VanThong Huynh, Guee-Sang Lee, Hyung-Jeong Yang, Soo-Huyng Kim(参考訳) 本稿では、ビデオから誘発された表情を予測することを目的とした、EEV(Evoked Expressions from Videos)チャレンジに対するアプローチを提案する。 我々は,映像中のタイムスタンプの深部表現を抽出するために,コンピュータビジョンと音声信号における大規模データセットの事前学習モデルを利用する。 RNNのようなアーキテクチャではなく、時間的畳み込みネットワークは、メモリ消費と並列性に利点があるため、時間的関係を探索するために使用される。 さらに、一部のタイムスタンプのアノテーションの欠如に対処するために、トレーニング中にこれらのタイムスタンプを破棄する際の入力データの連続性を保証するために位置符号化を用いる。 我々はPearson相関係数 0.05477 でEEV 2021 チャレンジの最先端結果を得た。

This paper presents an approach for Evoked Expressions from Videos (EEV) challenge, which aims to predict evoked facial expressions from video. We take advantage of pre-trained models on large-scale datasets in computer vision and audio signals to extract the deep representation of timestamps in the video. A temporal convolution network, rather than an RNN like architecture, is used to explore temporal relationships due to its advantage in memory consumption and parallelism. Furthermore, to address the missing annotations of some timestamps, positional encoding is employed to ensure continuity of input data when discarding these timestamps during training. We achieved state-of-the-art results on the EEV challenge with a Pearson correlation coefficient of 0.05477, the first ranked performance in the EEV 2021 challenge.
翻訳日:2021-06-18 04:58:14 公開日:2021-06-16
# (参考訳) コミュニケーション制約下におけるスパース分布推定における次元依存性の破れ

Breaking The Dimension Dependence in Sparse Distribution Estimation under Communication Constraints ( http://arxiv.org/abs/2106.08597v1 )

ライセンス: CC BY 4.0
Wei-Ning Chen, Peter Kairouz, Ayfer \"Ozg\"ur(参考訳) 我々は,$d$-dimensional $s$-sparse離散分布を,$b$-bit通信制約の下で観測した標本から推定する問題を考察する。 この問題の$\ell_2$推定誤差の最もよく知られた結果は$o\left( \frac{s\log\left( {d}/{s}\right)}{n2^b}\right)$である。 驚いたことに、サンプルサイズ$n$が最低しきい値$n^*(s, d, b)$を超えると、$O\left( \frac{s}{n2^b}\right)$の$\ell_2$推定誤差が得られる。 これは、$n>n^*(s, d, b)$ の場合、収束率は環境次元 $d$ に依存しず、前もって分布の支持を知るのと同じであることを意味する。 次に質問する: ` `` は次元自由収束を可能にする最小の $n^*(s, d, b)$ とは何か? 上界の$n^*(s, d, b)$ に対して、未知のサポートを正確にかつ効率的にローカライズする新しいローカライズスキームを開発する。 非対話的な設定では、$n^*(s, d, b) = o\left( \min \left( {d^2\log^2 d}/{2^b}, {s^4\log^2 d}/{2^b}\right) \right) である。 さらに,n = \tilde{\omega}\left({s^4\log^4 d}/{2^b}\right)$の場合,非適応群テストと問題を結びつけ,多項式時間推定スキームを得る。 このグループテストベースのスキームはスパーシティパラメータ$s$に適応するので、それを知らずに適用することができる。 インタラクティブな設定のために,新しい木ベース推定スキームを提案し,次元自由収束を達成するのに必要な最小サンプルサイズをさらに$n^*(s, d, b) = \tilde{o}\left( {s^2\log^2 d}/{2^b} \right)$に削減できることを示した。

We consider the problem of estimating a $d$-dimensional $s$-sparse discrete distribution from its samples observed under a $b$-bit communication constraint. The best-known previous result on $\ell_2$ estimation error for this problem is $O\left( \frac{s\log\left( {d}/{s}\right)}{n2^b}\right)$. Surprisingly, we show that when sample size $n$ exceeds a minimum threshold $n^*(s, d, b)$, we can achieve an $\ell_2$ estimation error of $O\left( \frac{s}{n2^b}\right)$. This implies that when $n>n^*(s, d, b)$ the convergence rate does not depend on the ambient dimension $d$ and is the same as knowing the support of the distribution beforehand. We next ask the question: ``what is the minimum $n^*(s, d, b)$ that allows dimension-free convergence?''. To upper bound $n^*(s, d, b)$, we develop novel localization schemes to accurately and efficiently localize the unknown support. For the non-interactive setting, we show that $n^*(s, d, b) = O\left( \min \left( {d^2\log^2 d}/{2^b}, {s^4\log^2 d}/{2^b}\right) \right)$. Moreover, we connect the problem with non-adaptive group testing and obtain a polynomial-time estimation scheme when $n = \tilde{\Omega}\left({s^4\log^4 d}/{2^b}\right)$. This group testing based scheme is adaptive to the sparsity parameter $s$, and hence can be applied without knowing it. For the interactive setting, we propose a novel tree-based estimation scheme and show that the minimum sample-size needed to achieve dimension-free convergence can be further reduced to $n^*(s, d, b) = \tilde{O}\left( {s^2\log^2 d}/{2^b} \right)$.
翻訳日:2021-06-18 04:53:22 公開日:2021-06-16
# (参考訳) 自己スーパービジョンと判別訓練によるスコープ外インテント検出 [全文訳有]

Out-of-Scope Intent Detection with Self-Supervision and Discriminative Training ( http://arxiv.org/abs/2106.08616v1 )

ライセンス: CC BY 4.0
Li-Ming Zhan, Haowen Liang, Bo Liu, Lu Fan, Xiao-Ming Wu, Albert Y.S. Lam(参考訳) タスク指向対話システムでは、スコープ外意図検出が実用上重要である。 外乱発話の分布は訓練段階では任意で未知であるため、既存の手法はガウスの混合のようなデータ分布に対する強い仮定に依存しており、複雑な多段階の訓練手順や、外乱検出のための信頼しきい値選択のような手作りの規則がある。 本稿では,データ分散を前提とせず,余分な後処理やしきい値設定を必要とせず,テストシナリオをシミュレートすることで,スコープ外インテント分類器を完全にエンドツーエンドに訓練する簡単な方法を提案する。 具体的には、インライナー特徴を用いたインライナー特徴を用いた合成アウトレーラを生成し、容易に利用可能なオープンドメインデータセットからスコープ外文をサンプリングすることにより、トレーニング段階で擬似アウトレーラのセットを構築する。 擬似外乱器は、テストタスクに直接適用および一般化可能な識別分類器を訓練するために使用される。 提案手法を4つのベンチマーク・ダイアログ・データセット上で広範囲に評価し,最先端のアプローチに対する大幅な改善を観察する。 私たちのコードはhttps://github.com/l iam0949/DCLOOSでリリースされています。

Out-of-scope intent detection is of practical importance in task-oriented dialogue systems. Since the distribution of outlier utterances is arbitrary and unknown in the training stage, existing methods commonly rely on strong assumptions on data distribution such as mixture of Gaussians to make inference, resulting in either complex multi-step training procedures or hand-crafted rules such as confidence threshold selection for outlier detection. In this paper, we propose a simple yet effective method to train an out-of-scope intent classifier in a fully end-to-end manner by simulating the test scenario in training, which requires no assumption on data distribution and no additional post-processing or threshold setting. Specifically, we construct a set of pseudo outliers in the training stage, by generating synthetic outliers using inliner features via self-supervision and sampling out-of-scope sentences from easily available open-domain datasets. The pseudo outliers are used to train a discriminative classifier that can be directly applied to and generalize well on the test task. We evaluate our method extensively on four benchmark dialogue datasets and observe significant improvements over state-of-the-art approaches. Our code has been released at https://github.com/l iam0949/DCLOOS.
翻訳日:2021-06-18 04:51:49 公開日:2021-06-16
# (参考訳) CMF:画像分割参照のための多モデル融合 [全文訳有]

CMF: Cascaded Multi-model Fusion for Referring Image Segmentation ( http://arxiv.org/abs/2106.08617v1 )

ライセンス: CC BY 4.0
Jianhua Yang, Yan Huang, Zhanyu Ma, Liang Wang(参考訳) 本研究では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。 既存の手法の多くは、視覚的特徴と言語的特徴の間の一方向的・指向的な関係を確立することに集中し、2つのモダリティを関連付ける。 マルチスケールコンテキストは、マルチモーダル融合プロセス中に大規模に変化するオブジェクトをローカライズし、セグメンテーションするために不可欠である。 そこで本研究では,複数の重畳層を並列に積み重ね,さらに視覚的・言語的特徴を融合するカスケードブランチを導入する,単純かつ効果的な多モード融合(cmf)モジュールを提案する。 カスケードブランチは、マルチスケールなコンテキスト情報を段階的に統合し、マルチモーダル融合プロセス中に2つのモダリティのアライメントを容易にする。 4つのベンチマークデータセットの実験結果から,本手法は最先端の手法よりも優れていることが示された。 コードはhttps://github.com/j ianhua2022/CMF-Refse gで入手できる。

In this work, we address the task of referring image segmentation (RIS), which aims at predicting a segmentation mask for the object described by a natural language expression. Most existing methods focus on establishing unidirectional or directional relationships between visual and linguistic features to associate two modalities together, while the multi-scale context is ignored or insufficiently modeled. Multi-scale context is crucial to localize and segment those objects that have large scale variations during the multi-modal fusion process. To solve this problem, we propose a simple yet effective Cascaded Multi-modal Fusion (CMF) module, which stacks multiple atrous convolutional layers in parallel and further introduces a cascaded branch to fuse visual and linguistic features. The cascaded branch can progressively integrate multi-scale contextual information and facilitate the alignment of two modalities during the multi-modal fusion process. Experimental results on four benchmark datasets demonstrate that our method outperforms most state-of-the-art methods. Code is available at https://github.com/j ianhua2022/CMF-Refse g.
翻訳日:2021-06-18 04:36:24 公開日:2021-06-16
# (参考訳) 談話からナラティブへ:イベント関係抽出のための知識投影 [全文訳有]

From Discourse to Narrative: Knowledge Projection for Event Relation Extraction ( http://arxiv.org/abs/2106.08629v1 )

ライセンス: CC0 1.0
Jialong Tang, Hongyu Lin, Meng Liao, Yaojie Lu, Xianpei Han, Le Sun, Weijian Xie, Jin Xu(参考訳) 現在のイベント中心の知識グラフは、イベント間の関係をマイニングするために明示的な接続性に強く依存している。 残念ながら、コネクティビティの広がりのため、これらのメソッドはEventKGのカバレッジを著しく損なう。 高品質なラベル付きコーパスの欠如により、その問題がさらに悪化する。 本稿では,イベント関係抽出のための知識投射パラダイムを提案する。その共通性を利用して,談話知識を物語に投影する。 具体的には,マルチ層知識投影ネットワーク(mkpnet,multi-tier knowledge projection network)を提案する。 このようにラベル付きデータ要求を著しく低減し、暗黙のイベント関係を効果的に抽出することができる。 内在的な実験結果から,MKPNetは新たな最先端性能を実現し,外在的な実験結果により抽出した事象関係の値が検証された。

Current event-centric knowledge graphs highly rely on explicit connectives to mine relations between events. Unfortunately, due to the sparsity of connectives, these methods severely undermine the coverage of EventKGs. The lack of high-quality labelled corpora further exacerbates that problem. In this paper, we propose a knowledge projection paradigm for event relation extraction: projecting discourse knowledge to narratives by exploiting the commonalities between them. Specifically, we propose Multi-tier Knowledge Projection Network (MKPNet), which can leverage multi-tier discourse knowledge effectively for event relation extraction. In this way, the labelled data requirement is significantly reduced, and implicit event relations can be effectively extracted. Intrinsic experimental results show that MKPNet achieves the new state-of-the-art performance, and extrinsic experimental results verify the value of the extracted event relations.
翻訳日:2021-06-18 04:25:01 公開日:2021-06-16
# (参考訳) 両世界のベスト:人間理解可能な概念による地域的・グローバル的説明 [全文訳有]

Best of both worlds: local and global explanations with human-understandable concepts ( http://arxiv.org/abs/2106.08641v1 )

ライセンス: CC BY 4.0
Jessica Schrouff, Sebastien Baur, Shaobo Hou, Diana Mincu, Eric Loreaux, Ralph Blanes, James Wexler, Alan Karthikesalingam, Been Kim(参考訳) 解釈可能性のテクニックは、モデルの決定の背後にある理論的根拠を提供することを目的としている。 「なぜこの患者がこの病気と診断されるのか」)または予測の類(言語説明など)。 「なぜ一般の患者はこの状態と診断されるのか。」 どちらの方法にも注目する方法はたくさんあるが、ローカルとグローバル両方の説明を一貫した方法で提供できるフレームワークは少ない。 本研究では,局所的およびグローバルな概念に基づく説明を提供するために,ローカル(Integrated Gradients, IG)とグローバル(Testing with Concept Activation Vectors)の2つの強力な既存技術を組み合わせる。 まず、2つの合成データセットを既知の真実で検証し、さらにベンチマーク自然画像データセットで実証する。 対象クラス,モデルアーキテクチャ,IGベースラインなど,さまざまな概念でメソッドをテストする。 提案手法は,地上の真実と比較してTCAVのグローバルな説明を改善し,有用な洞察を提供する。 私たちの仕事は、既存の多くのローカルメソッドとグローバルメソッドの間のブリッジを構築するためのステップを提供して、両方の世界を最大限に活用できることを願っています。

Interpretability techniques aim to provide the rationale behind a model's decision, typically by explaining either an individual prediction (local explanation, e.g. `why is this patient diagnosed with this condition') or a class of predictions (global explanation, e.g. `why are patients diagnosed with this condition in general'). While there are many methods focused on either one, few frameworks can provide both local and global explanations in a consistent manner. In this work, we combine two powerful existing techniques, one local (Integrated Gradients, IG) and one global (Testing with Concept Activation Vectors), to provide local, and global concept-based explanations. We first validate our idea using two synthetic datasets with a known ground truth, and further demonstrate with a benchmark natural image dataset. We test our method with various concepts, target classes, model architectures and IG baselines. We show that our method improves global explanations over TCAV when compared to ground truth, and provides useful insights. We hope our work provides a step towards building bridges between many existing local and global methods to get the best of both worlds.
翻訳日:2021-06-18 04:07:29 公開日:2021-06-16
# (参考訳) 集合分類器のためのデータセットレベル幾何フレームワーク

A Dataset-Level Geometric Framework for Ensemble Classifiers ( http://arxiv.org/abs/2106.08658v1 )

ライセンス: CC BY 4.0
Shengli Wu, Weimin Ding(参考訳) アンサンブル分類器は、人工知能と機械学習コミュニティの多くの人々によって研究されてきた。 多数決と重み付き多数決は、アンサンブル学習においてよく使われる2つの組み合わせスキームである。 しかし、それらの理解は不完全であり、いくつかの性質は誤解されている。 本稿では,これら2つのスキームの特性群を,データセットレベルの幾何学的枠組みの下で正式に提示する。 2つの重要な要因として、各コンポーネントベース分類器の性能と各コンポーネント分類器間の相似性を同じメトリック(ユークリッド距離)で評価する。 これにより、アンサンブルは決定論的問題となり、アンサンブルの性能を式で直接計算することができる。 いくつかの興味の定理を証明し、それらの意味をアンサンブルに説明する。 特に、これらの2種類のアンサンブルスキームに対する成分分類器の数の影響を比較して比較する。 精度などの他の指標を用いた場合の理論的結果を検証するための実証的研究も行われている。 本論文の結果は,これら2つの組み合わせスキームの基本特性と一般のアンサンブル分類器の原理を理解する上で非常に有用であると考えられる。 また、アンサンブル性能予測や少数のベース分類器の選択など、アンサンブル分類器の諸問題についても検討し、効率よく効果的なアンサンブルを求める上で有用である。

Ensemble classifiers have been investigated by many in the artificial intelligence and machine learning community. Majority voting and weighted majority voting are two commonly used combination schemes in ensemble learning. However, understanding of them is incomplete at best, with some properties even misunderstood. In this paper, we present a group of properties of these two schemes formally under a dataset-level geometric framework. Two key factors, every component base classifier's performance and dissimilarity between each pair of component classifiers are evaluated by the same metric - the Euclidean distance. Consequently, ensembling becomes a deterministic problem and the performance of an ensemble can be calculated directly by a formula. We prove several theorems of interest and explain their implications for ensembles. In particular, we compare and contrast the effect of the number of component classifiers on these two types of ensemble schemes. Empirical investigation is also conducted to verify the theoretical results when other metrics such as accuracy are used. We believe that the results from this paper are very useful for us to understand the fundamental properties of these two combination schemes and the principles of ensemble classifiers in general. The results are also helpful for us to investigate some issues in ensemble classifiers, such as ensemble performance prediction, selecting a small number of base classifiers to obtain efficient and effective ensembles.
翻訳日:2021-06-18 03:42:08 公開日:2021-06-16
# (参考訳) smsスパムメッセージフィルタリングのための自動機械学習ツールの比較 [全文訳有]

Comparison of Automated Machine Learning Tools for SMS Spam Message Filtering ( http://arxiv.org/abs/2106.08671v1 )

ライセンス: CC BY 4.0
Waddah Saeed(参考訳) short message service (sms) はモバイルユーザーのコミュニケーションに非常に人気のあるサービスである。 しかし、この人気のあるサービスは違法な活動を実行し、セキュリティリスクに影響を与えることで悪用される可能性がある。 現在、多くの自動機械学習(AutoML)ツールが存在しており、ドメインの専門家やユーザーが機械学習の知識をほとんどあるいは全く持たずに高品質なMLモデルを構築するのに役立つ。 本研究では,smsスパムメッセージフィルタリングのための3つの自動mlツール間の分類性能比較を行った。 これらのツールはmljarが管理するAutoML、H2O AutoML、Tree-based Pipeline Optimization Tool(TPOT) AutoMLである。 実験の結果,アンサンブルモデルが最も優れた分類性能を示した。 H2O AutoMLを使用して構築されたStacked Ensembleモデルは、ログ損失(0.8370)、真正(1088/1116)、真負(281/287)メトリクスで最高のパフォーマンスを達成した。 TPOT AutoMLに対するログ損失の19.05\%、mljarが管理するAutoMLに対する10.53\%の改善がある。 AutoMLツールで達成された満足のいくフィルタリングパフォーマンスは、AutoMLツールの潜在的なアプリケーションを提供し、SMSスパムメッセージフィルタリングに最適な最高のMLモデルを自動的に決定する。

Short Message Service (SMS) is a very popular service used for communication by mobile users. However, this popular service can be abused by executing illegal activities and influencing security risks. Nowadays, many automatic machine learning (AutoML) tools exist which can help domain experts and lay users to build high-quality ML models with little or no machine learning knowledge. In this work, a classification performance comparison was conducted between three automatic ML tools for SMS spam message filtering. These tools are mljar-supervised AutoML, H2O AutoML, and Tree-based Pipeline Optimization Tool (TPOT) AutoML. Experimental results showed that ensemble models achieved the best classification performance. The Stacked Ensemble model, which was built using H2O AutoML, achieved the best performance in terms of Log Loss (0.8370), true positive (1088/1116), and true negative (281/287) metrics. There is a 19.05\% improvement in Log Loss with respect to TPOT AutoML and 10.53\% improvement with respect to mljar-supervised AutoML. The satisfactory filtering performance achieved with AutoML tools provides a potential application for AutoML tools to automatically determine the best ML model that can perform best for SMS spam message filtering.
翻訳日:2021-06-18 03:41:08 公開日:2021-06-16
# (参考訳) Pseudo-Riemann多様体におけるグラフ埋め込み [全文訳有]

Directed Graph Embeddings in Pseudo-Riemannian Manifolds ( http://arxiv.org/abs/2106.08678v1 )

ライセンス: CC BY 4.0
Aaron Sim, Maciej Wiatrak, Angus Brayne, P\'aid\'i Creed, Saee Paliwal(参考訳) グラフ表現学習アルゴリズムの帰納的バイアスは、しばしばそれらの埋め込み空間の背景幾何に符号化される。 本稿では、一般有向グラフを、擬リーマン計量構造、非自明な大域トポロジー、埋め込み空間に優先方向を明示的に組み込む一意な確率関数という3つの成分を組み合わせた埋め込みモデルによって効果的に表現できることを示す。 本手法は,自然言語応用と生物学の一連の合成および実有向グラフをリンク予測するタスクに適用することにより,表現能力を示す。 特に、低次元のミンコフスキーおよび反ド・ジッター時空は、高次元の曲線リーマン多様体よりも等しく良いグラフ表現を生成できることを示す。

The inductive biases of graph representation learning algorithms are often encoded in the background geometry of their embedding space. In this paper, we show that general directed graphs can be effectively represented by an embedding model that combines three components: a pseudo-Riemannian metric structure, a non-trivial global topology, and a unique likelihood function that explicitly incorporates a preferred direction in embedding space. We demonstrate the representational capabilities of this method by applying it to the task of link prediction on a series of synthetic and real directed graphs from natural language applications and biology. In particular, we show that low-dimensional cylindrical Minkowski and anti-de Sitter spacetimes can produce equal or better graph representations than curved Riemannian manifolds of higher dimensions.
翻訳日:2021-06-18 03:33:33 公開日:2021-06-16
# (参考訳) ヒンディー語機械翻訳におけるジェンダーバイアスの評価 [全文訳有]

Evaluating Gender Bias in Hindi-English Machine Translation ( http://arxiv.org/abs/2106.08680v1 )

ライセンス: CC BY 4.0
Gauri Gupta, Krithika Ramesh and Sanjay Singh(参考訳) 言語モデルが現実世界にますます展開されているため、アウトプットの公平性の問題に対処することが不可欠である。 これらの言語モデルの埋め込み表現は、しばしばモデル内の社会的バイアスを形成する望ましくない関係を暗黙的に描き出す。 ヒンディー語のようなジェンダー言語の性質は、対象者の性別に基づく文中の単語の形の変化によって、バイアスの定量化と緩和に新たな問題を引き起こす。 さらに、Indic言語の測定とデバイアスシステムという領域では、まばらな作業が行われている。 本研究では,ヒンディー語機械翻訳システムにおける性別バイアスの評価と定量化を試みた。 Hindi の文法的考察に基づいて,既存の TGBI 計量の修正版を実装した。 また,事前学習した組込みと機械翻訳モデルで学習したバイアス測定値を比較して比較した。

With language models being deployed increasingly in the real world, it is essential to address the issue of the fairness of their outputs. The word embedding representations of these language models often implicitly draw unwanted associations that form a social bias within the model. The nature of gendered languages like Hindi, poses an additional problem to the quantification and mitigation of bias, owing to the change in the form of the words in the sentence, based on the gender of the subject. Additionally, there is sparse work done in the realm of measuring and debiasing systems for Indic languages. In our work, we attempt to evaluate and quantify the gender bias within a Hindi-English machine translation system. We implement a modified version of the existing TGBI metric based on the grammatical considerations for Hindi. We also compare and contrast the resulting bias measurements across multiple metrics for pre-trained embeddings and the ones learned by our machine translation model.
翻訳日:2021-06-18 03:11:12 公開日:2021-06-16
# (参考訳) 音響単語は音韻的類似性を取り込むか? 実証的研究 [全文訳有]

Do Acoustic Word Embeddings Capture Phonological Similarity? An Empirical Study ( http://arxiv.org/abs/2106.08686v1 )

ライセンス: CC BY 4.0
Badr M. Abdullah, Marius Mosbach, Iuliia Zaitova, Bernd M\"obius, Dietrich Klakow(参考訳) 深層ニューラルネットワークのいくつかの変種は、可変述語セグメントを固定サイズのベクトル表現や音響単語埋め込み(AWE)に投影するパラメトリックモデルの構築に成功している。 しかし、単語形式の類似性の推定として、出現するAWE空間における距離にどの程度依存できるかは定かではない。 本稿では,音響埋め込み空間内の距離が音韻的相違と相関しているかを問う。 そこで我々は,ニューラルネットワークと学習目的の異なるAWEに対する教師付きアプローチの性能を実証的に検討した。 我々は、AWEモデルを2つの言語(ドイツ語とチェコ語)の制御設定で訓練し、単語識別と音韻的類似性という2つのタスクへの埋め込みを評価する。 実験の結果,(1)最善の場合の埋め込み空間における距離は音韻距離と適度にしか相関せず,(2)単語識別タスクの性能向上は必ずしも単語音韻類似性を反映したモデルとなるとは限らない。 以上の結果から,AWEに対する本質的評価の再考の必要性が示唆された。

Several variants of deep neural networks have been successfully employed for building parametric models that project variable-duration spoken word segments onto fixed-size vector representations, or acoustic word embeddings (AWEs). However, it remains unclear to what degree we can rely on the distance in the emerging AWE space as an estimate of word-form similarity. In this paper, we ask: does the distance in the acoustic embedding space correlate with phonological dissimilarity? To answer this question, we empirically investigate the performance of supervised approaches for AWEs with different neural architectures and learning objectives. We train AWE models in controlled settings for two languages (German and Czech) and evaluate the embeddings on two tasks: word discrimination and phonological similarity. Our experiments show that (1) the distance in the embedding space in the best cases only moderately correlates with phonological distance, and (2) improving the performance on the word discrimination task does not necessarily yield models that better reflect word phonological similarity. Our findings highlight the necessity to rethink the current intrinsic evaluations for AWEs.
翻訳日:2021-06-18 03:00:04 公開日:2021-06-16
# (参考訳) リアルタイムMRIにおける声道形状ダイナミクスからの無声音声と感情認識 [全文訳有]

Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in Real-Time MRI ( http://arxiv.org/abs/2106.08706v1 )

ライセンス: CC BY 4.0
Laxmi Pandey, Ahmed Sabbir Arif(参考訳) 音声言語の音声は、声道を取り囲む調音器の様々な構成により得られる。 それらは、人間の音声生成の基盤となるメカニズムをよりよく理解するために利用できる豊富な情報を含んでいる。 本稿では,音声生成中の声道形状の可変長列の音響情報を理解し,リアルタイム磁気共鳴画像(rtmri)で取得し,テキストに変換する,深層ニューラルネットワークに基づく学習フレームワークを提案する。 提案手法は,時空間的畳み込み,再帰的ネットワーク,接続主義的時間的分類損失からなる。 USC-TIMITコーパスでは、既存のモデルに比べて40.6%のPERを達成した。 我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の調音運動に基づいて、音声文全体の認識を示す最初の研究である。 また, 声道下部領域(咽頭, 歯槽, 背側, 硬口蓋, 硬口蓋, 口唇結節領域)において, 感情や性別の相違について, 調音の幾何学的変化の分析を行った。 その結果、各サブリージョンの歪みは感情と性別の両方に影響されていることが示唆された。

Speech sounds of spoken language are obtained by varying configuration of the articulators surrounding the vocal tract. They contain abundant information that can be utilized to better understand the underlying mechanism of human speech production. We propose a novel deep neural network-based learning framework that understands acoustic information in the variable-length sequence of vocal tract shaping during speech production, captured by real-time magnetic resonance imaging (rtMRI), and translate it into text. The proposed framework comprises of spatiotemporal convolutions, a recurrent network, and the connectionist temporal classification loss, trained entirely end-to-end. On the USC-TIMIT corpus, the model achieved a 40.6% PER at sentence-level, much better compared to the existing models. To the best of our knowledge, this is the first study that demonstrates the recognition of entire spoken sentence based on an individual's articulatory motions captured by rtMRI video. We also performed an analysis of variations in the geometry of articulation in each sub-regions of the vocal tract (i.e., pharyngeal, velar and dorsal, hard palate, labial constriction region) with respect to different emotions and genders. Results suggest that each sub-regions distortion is affected by both emotion and gender.
翻訳日:2021-06-18 02:47:44 公開日:2021-06-16
# (参考訳) 確率的DAG探索 [全文訳有]

Probabilistic DAG Search ( http://arxiv.org/abs/2106.08717v1 )

ライセンス: CC BY 4.0
Julia Grosse, Cheng Zhang, Philipp Hennig(参考訳) 現代の機械学習のエキサイティングな問題は、最近は木探索の古典的な形式化で表現されている。 興味深いことに、これらのシーケンシャルな意思決定問題の根底にある状態空間は、しばしば木によって捉えられるよりも一般的な潜在構造を持つ。 本研究では,探索空間の潜在構造を利用して探索木間で情報を共有するための確率的フレームワークを開発する。 本手法は,問題の探索的部分に対するgaussianモデルによる近似推論と,複雑性の軽減を強制する未探索部分の抽象化を組み合わせたものである。 我々は、Tic-Tac-Toeの既存の非確率的代替品と特徴選択アプリケーションとを比較検討するアルゴリズムを実証的に見出した。

Exciting contemporary machine learning problems have recently been phrased in the classic formalism of tree search -- most famously, the game of Go. Interestingly, the state-space underlying these sequential decision-making problems often posses a more general latent structure than can be captured by a tree. In this work, we develop a probabilistic framework to exploit a search space's latent structure and thereby share information across the search tree. The method is based on a combination of approximate inference in jointly Gaussian models for the explored part of the problem, and an abstraction for the unexplored part that imposes a reduction of complexity ad hoc. We empirically find our algorithm to compare favorably to existing non-probabilistic alternatives in Tic-Tac-Toe and a feature selection application.
翻訳日:2021-06-18 02:37:00 公開日:2021-06-16
# (参考訳) atrial general: domain generalization for left atrial segmentation of multi-center lge mri [全文訳有]

AtrialGeneral: Domain Generalization for Left Atrial Segmentation of Multi-Center LGE MRIs ( http://arxiv.org/abs/2106.08727v1 )

ライセンス: CC BY 4.0
Lei Li and Veronika A. Zimmer and Julia A. Schnabel and Xiahai Zhuang(参考訳) 後期gadolinium enhanced magnetic resonance imaging(lge mri)からの左心房分画は、心房細動の治療計画に必要な重要なステップである。 しかし, 画像品質の低さ, LA形状のばらつき, LA境界の不明瞭さにより, LGE MRIからの自動LA分割は依然として困難である。 ディープラーニングベースの手法は、有望なLAセグメンテーション結果を提供することができるが、しばしば、異なるスキャナやサイトからのデータなど、目に見えない領域に一般化する。 本研究では,画像品質の異なる複数の中心から210個のLGEMRIを収集する。 LAセグメンテーションタスクにおけるモデルのドメイン一般化能力を評価するために,マルチセンターLGE MRIからLAセグメンテーションによく使われる4つのセグメンテーションネットワークを用いた。 さらに, ヒストグラムマッチング, 相互情報に基づく不整合表現, ランダムなスタイル転送の3つの領域一般化戦略について検討し, 単純なヒストグラムマッチングが最も効果的であることを示した。

Left atrial (LA) segmentation from late gadolinium enhanced magnetic resonance imaging (LGE MRI) is a crucial step needed for planning the treatment of atrial fibrillation. However, automatic LA segmentation from LGE MRI is still challenging, due to the poor image quality, high variability in LA shapes, and unclear LA boundary. Though deep learning-based methods can provide promising LA segmentation results, they often generalize poorly to unseen domains, such as data from different scanners and/or sites. In this work, we collect 210 LGE MRIs from different centers with different levels of image quality. To evaluate the domain generalization ability of models on the LA segmentation task, we employ four commonly used semantic segmentation networks for the LA segmentation from multi-center LGE MRIs. Besides, we investigate three domain generalization strategies, i.e., histogram matching, mutual information based disentangled representation, and random style transfer, where a simple histogram matching is proved to be most effective.
翻訳日:2021-06-18 02:24:44 公開日:2021-06-16
# (参考訳) AMA-GCN:病気予測のための適応型多層アグリゲーショングラフ畳み込みネットワーク [全文訳有]

AMA-GCN: Adaptive Multi-layer Aggregation Graph Convolutional Network for Disease Prediction ( http://arxiv.org/abs/2106.08732v1 )

ライセンス: CC BY-SA 4.0
Hao Chen, Fuzhen Zhuang, Li Xiao, Ling Ma, Haiyan Liu, Ruifang Zhang, Huiqin Jiang, Qing He(参考訳) 近年、GCN(Graph Convolutional Networks)がコンピュータ支援診断(CADx)の強力な手段であることが証明されている。 このアプローチでは、グラフ隣接行列がノード間の関係を表す構造情報を集約する集団グラフを構築する必要がある。 これまで、この隣接行列は通常、表現型情報に基づいて手動で定義される。 本稿では,空間分布に応じて適切な表現型尺度を自動的に選択するエンコーダを提案し,テキスト類似度認識機構を用いてノード間のエッジ重みを算出する。 エンコーダは、最終結果にプラスの影響を与える表現型測度を用いて自動的に人口グラフを構築し、さらに多様情報の融合を実現することができる。 さらに,多層アグリゲーション機構を用いた新しいグラフ畳み込みネットワークアーキテクチャを提案する。 この構造は過スムーズを抑えながら深い構造情報を得ることができ、同じタイプのノード間の類似性を高めることができる。 2つのデータベースを用いた実験結果から, 自閉症スペクトラムと乳癌の診断精度は有意に向上し, マルチモーダルデータによる疾患予測の普遍性が示唆された。

Recently, Graph Convolutional Networks (GCNs) have proven to be a powerful mean for Computer Aided Diagnosis (CADx). This approach requires building a population graph to aggregate structural information, where the graph adjacency matrix represents the relationship between nodes. Until now, this adjacency matrix is usually defined manually based on phenotypic information. In this paper, we propose an encoder that automatically selects the appropriate phenotypic measures according to their spatial distribution, and uses the text similarity awareness mechanism to calculate the edge weights between nodes. The encoder can automatically construct the population graph using phenotypic measures which have a positive impact on the final results, and further realizes the fusion of multimodal information. In addition, a novel graph convolution network architecture using multi-layer aggregation mechanism is proposed. The structure can obtain deep structure information while suppressing over-smooth, and increase the similarity between the same type of nodes. Experimental results on two databases show that our method can significantly improve the diagnostic accuracy for Autism spectrum disorder and breast cancer, indicating its universality in leveraging multimodal data for disease prediction.
翻訳日:2021-06-18 02:16:36 公開日:2021-06-16
# (参考訳) 深層強化学習政策に対するリアルタイム攻撃 [全文訳有]

Real-time Attacks Against Deep Reinforcement Learning Policies ( http://arxiv.org/abs/2106.08746v1 )

ライセンス: CC BY 4.0
Buse G.A. Tekgul, Shelly Wang, Samuel Marchal, N. Asokan(参考訳) 近年の研究では、深い強化学習(DRL)政策が敵の例に弱いことが判明している。 これらの攻撃は、エージェントが観察する環境状態を混乱させることで、drlエージェントのポリシーを誤解させる。 原則的には実現可能だが、DRLポリシーをリアルタイムで騙すには遅すぎる。 本稿では,DRL ポリシーを騙す新たな攻撃法を提案する。 我々は,UAP法を用いて,適用対象の個々の入力に依存しない効果的な摂動を計算する。 atari 2600ゲームを用いた広範な評価により,本手法は決定論的および確率的ポリシ(摂動に対する$l_\infty$バウンドが0.005である場合でも100%まで)の性能を完全に低下させるため,有効であることを示した。 また、我々の攻撃は効率的であり、オンラインの計算コストは平均0.027msであることを示す。 DRLポリシーが異なるエージェントの応答時間 (平均0.6ms) よりも高速で、以前の攻撃 (平均2.7ms) よりもかなり高速である。 さらに、既知の防御は普遍的な摂動に対して効果がないことを示す。 本稿では,普遍的な摂動に基づく攻撃に対する強固な防御の基礎となる効果的な検出手法を提案する。

Recent work has discovered that deep reinforcement learning (DRL) policies are vulnerable to adversarial examples. These attacks mislead the policy of DRL agents by perturbing the state of the environment observed by agents. They are feasible in principle but too slow to fool DRL policies in real time. We propose a new attack to fool DRL policies that is both effective and efficient enough to be mounted in real time. We utilize the Universal Adversarial Perturbation (UAP) method to compute effective perturbations independent of the individual inputs to which they are applied. Via an extensive evaluation using Atari 2600 games, we show that our technique is effective, as it fully degrades the performance of both deterministic and stochastic policies (up to 100%, even when the $l_\infty$ bound on the perturbation is as small as 0.005). We also show that our attack is efficient, incurring an online computational cost of 0.027ms on average. It is faster compared to the response time (0.6ms on average) of agents with different DRL policies, and considerably faster than prior attacks (2.7ms on average). Furthermore, we demonstrate that known defenses are ineffective against universal perturbations. We propose an effective detection technique which can form the basis for robust defenses against attacks based on universal perturbations.
翻訳日:2021-06-18 02:05:45 公開日:2021-06-16
# (参考訳) インストゥルメンタル変数回帰のためのスケーラブルな準ベイズ推論

Scalable Quasi-Bayesian Inference for Instrumental Variable Regression ( http://arxiv.org/abs/2106.08750v1 )

ライセンス: CC BY 4.0
Ziyu Wang, Yuhao Zhou, Tongzheng Ren, Jun Zhu(参考訳) 近年、インストゥルメンタル変数(iv)回帰にフレキシブルな機械学習モデルを採用することへの関心が高まっているが、不確実性定量化手法の開発はまだ不十分である。 本稿では,最近開発されたカーネル化ivモデルに基づいて,iv回帰のためのスケーラブルな準ベイズ手順を提案する。 IV のベイズ的モデリングとは対照的に,本手法ではデータ生成プロセスに関する追加の仮定を必要とせず,対応する点推定法に匹敵する時間コストで,スケーラブルな近似推論アルゴリズムを導出する。 我々のアルゴリズムはニューラルネットワークモデルにさらに拡張することができる。 提案手法の理論的特性を解析し,提案手法の競合性能を実証的に評価した。

Recent years have witnessed an upsurge of interest in employing flexible machine learning models for instrumental variable (IV) regression, but the development of uncertainty quantification methodology is still lacking. In this work we present a scalable quasi-Bayesian procedure for IV regression, building upon the recently developed kernelized IV models. Contrary to Bayesian modeling for IV, our approach does not require additional assumptions on the data generating process, and leads to a scalable approximate inference algorithm with time cost comparable to the corresponding point estimation methods. Our algorithm can be further extended to work with neural network models. We analyze the theoretical properties of the proposed quasi-posterior, and demonstrate through empirical evaluation the competitive performance of our method.
翻訳日:2021-06-18 01:49:09 公開日:2021-06-16
# (参考訳) 変分近似を用いた心筋分画の教師なし領域適応 [全文訳有]

Unsupervised Domain Adaptation with Variational Approximation for Cardiac Segmentation ( http://arxiv.org/abs/2106.08752v1 )

ライセンス: CC BY 4.0
Fuping Wu and Xiahai Zhuang(参考訳) 教師なし領域適応は医用画像分割に有用である。 特に、対象画像の基礎的真実が得られない場合、ドメイン適応は他のモダリティから既存のラベル付き画像を利用することで、ターゲット固有のモデルを訓練することができる。 報告されたほとんどの研究は、ソースドメインとターゲットドメインの両方のイメージを共通の潜在的特徴空間にマッピングし、敵のトレーニングで暗黙的に、あるいは直接的に、一致度を最小化することで、それらの相違を減らした。 本研究では,画像に与えられた条件分布がガウス型である2つの領域の潜在的特徴を共通かつパラメータ化された変分形式へと駆動する新しい枠組みを提案する。 これは、変分オートエンコーダ(VAE)とこの変分近似の正規化に基づく2つのネットワークによって実現される。 それぞれのVAEは、それぞれ1つのドメインに対してセグメンテーションモジュールを含み、ソースセグメンテーションは教師なしの方法でトレーニングされ、ターゲットのセグメンテーションは教師なしでトレーニングされる。 提案する領域適応法を, クロスモダリティ(ct, mr)全心セグメンテーションとクロスシークエンス心筋mrセグメンテーションという2つの心臓セグメンテーションタスクを用いて検証した。 その結果, 提案手法は2つの最先端アプローチと比較して精度が良く, 心臓分節の可能性が示唆された。 さらに,提案した明示的正規化は,教師なし領域適応に有用な領域間の分布ギャップを狭めるのに有効かつ効果的であることを示した。 私たちのコードとデータはhttps://zmiclab.gith ub.io/projects.htmlでリリースされています。

Unsupervised domain adaptation is useful in medical image segmentation. Particularly, when ground truths of the target images are not available, domain adaptation can train a target-specific model by utilizing the existing labeled images from other modalities. Most of the reported works mapped images of both the source and target domains into a common latent feature space, and then reduced their discrepancy either implicitly with adversarial training or explicitly by directly minimizing a discrepancy metric. In this work, we propose a new framework, where the latent features of both domains are driven towards a common and parameterized variational form, whose conditional distribution given the image is Gaussian. This is achieved by two networks based on variational auto-encoders (VAEs) and a regularization for this variational approximation. Both of the VAEs, each for one domain, contain a segmentation module, where the source segmentation is trained in a supervised manner, while the target one is trained unsupervisedly. We validated the proposed domain adaptation method using two cardiac segmentation tasks, i.e., the cross-modality (CT and MR) whole heart segmentation and the cross-sequence cardiac MR segmentation. Results show that the proposed method achieved better accuracies compared to two state-of-the-art approaches and demonstrated good potential for cardiac segmentation. Furthermore, the proposed explicit regularization was shown to be effective and efficient in narrowing down the distribution gap between domains, which is useful for unsupervised domain adaptation. Our code and data has been released via https://zmiclab.gith ub.io/projects.html.
翻訳日:2021-06-18 01:47:48 公開日:2021-06-16
# (参考訳) ランダム一次元探索による拡張の自動化 [全文訳有]

Automating Augmentation Through Random Unidimensional Search ( http://arxiv.org/abs/2106.08756v1 )

ライセンス: CC BY 4.0
Xiaomeng Dong, Michael Potter, Gaurav Kumar, Yun-Chan Tsai, V. Ratna Saripalli(参考訳) ディープラーニングの研究者たちは、トレーニング中に正しいデータ拡張戦略を見つけることは、最先端の結果とミレニアムランキングの違いを意味する、と秘密にしている。 そのために、コミュニティは、手元にあるタスクに対して完璧な拡張手順を見つけるプロセスを自動化する多くの努力を目の当たりにしてきた。 残念なことに、最新の最先端の手法でさえ計算オーバーヘッドが大きくなり、理想的な設定をするためには100のフルモデルトレーニングが必要になる。 ランダムな一次元加法で 7: でさらに優れた性能を達成する方法を示す。 ソースコードはhttps://github.com/f astestimator/RUAで入手できる。

It is no secret amongst deep learning researchers that finding the right data augmentation strategy during training can mean the difference between a state-of-the-art result and a run-of-the-mill ranking. To that end, the community has seen many efforts to automate the process of finding the perfect augmentation procedure for any task at hand. Unfortunately, even recent cutting-edge methods bring massive computational overhead, requiring as many as 100 full model trainings to settle on an ideal configuration. We show how to achieve even better performance in just 7: with Random Unidimensional Augmentation. Source code is available at https://github.com/f astestimator/RUA
翻訳日:2021-06-18 01:18:34 公開日:2021-06-16
# (参考訳) 情緒的XAI: 説明可能な人間とAIの相互作用を理解するための顔の感情分析 [全文訳有]

Toward Affective XAI: Facial Affect Analysis for Understanding Explainable Human-AI Interactions ( http://arxiv.org/abs/2106.08761v1 )

ライセンス: CC BY 4.0
Luke Guerdan, Alex Raymond, and Hatice Gunes(参考訳) eXplainable Artificial Intelligence(XAI)の研究は、人間の意思決定を強化するために機械学習のアプローチがますます使われるようになってきている。 しかし、これらのアプローチは、しばしば説明と相互作用する人間の感情的な反応を説明できない。 感情の表情を調べる顔認識は、ユーザーが説明にどう関与するかを理解するための有望なレンズである。 そこで本研究では,(1)人がXAIインタフェースと対話する際,どのような顔に影響を及ぼすのかを識別し,(2)参加者の説明を用いて顔に影響を及ぼす信号をリンクするためのマルチタスク特徴埋め込みを開発することを目的とする。 分析の結果,AU1,AU4,Arousalの出現と評価は,参加者が効果的に説明を使わなかった場合に高くなることが明らかとなった。 このことは、人物のインタラクションスタイルの説明をパーソナライズし、タスクの難易度に基づいて説明を適応するために、顔の感情分析をXAIに組み込むことを示唆している。

As machine learning approaches are increasingly used to augment human decision-making, eXplainable Artificial Intelligence (XAI) research has explored methods for communicating system behavior to humans. However, these approaches often fail to account for the emotional responses of humans as they interact with explanations. Facial affect analysis, which examines human facial expressions of emotions, is one promising lens for understanding how users engage with explanations. Therefore, in this work, we aim to (1) identify which facial affect features are pronounced when people interact with XAI interfaces, and (2) develop a multitask feature embedding for linking facial affect signals with participants' use of explanations. Our analyses and results show that the occurrence and values of facial AU1 and AU4, and Arousal are heightened when participants fail to use explanations effectively. This suggests that facial affect analysis should be incorporated into XAI to personalize explanations to individuals' interaction styles and to adapt explanations based on the difficulty of the task performed.
翻訳日:2021-06-18 01:08:24 公開日:2021-06-16
# (参考訳) 昇給するか否か: 自律的な学習率の問題 [全文訳有]

To Raise or Not To Raise: The Autonomous Learning Rate Question ( http://arxiv.org/abs/2106.08767v1 )

ライセンス: CC BY 4.0
Xiaomeng Dong, Tao Tan, Michael Potter, Yun-Chan Tsai, Gaurav Kumar, V. Ratna Saripalli(参考訳) ディープラーニングの世界に共通するパラメータは、学習率である。 同様に、ユビキタスな疑問があります。その学習率は何なのか? この質問に対する真の答えは、しばしば退屈で時間を要するものであり、最適なトレーニング性能を達成するために学習率を選び、修正する方法に関して、近年、多くの難解な知識が蓄積されている。 さらに、完璧な学習率を慎重に作り出すのに費やす時間は、ネットワークアーキテクチャ、オプティマイザ、データセット、初期条件がこれほど微妙に変わる瞬間に何ら変わりません。 しかし、そうする必要はない。 本稿では,自律学習率コントローラという,学習率に関する質問に対する新しい回答を提案する。 https://github.com/f astestimator/ARC

There is a parameter ubiquitous throughout the deep learning world: learning rate. There is likewise a ubiquitous question: what should that learning rate be? The true answer to this question is often tedious and time consuming to obtain, and a great deal of arcane knowledge has accumulated in recent years over how to pick and modify learning rates to achieve optimal training performance. Moreover, the long hours spent carefully crafting the perfect learning rate can come to nothing the moment your network architecture, optimizer, dataset, or initial conditions change ever so slightly. But it need not be this way. We propose a new answer to the great learning rate question: the Autonomous Learning Rate Controller. Find it at https://github.com/f astestimator/ARC
翻訳日:2021-06-18 00:54:35 公開日:2021-06-16
# (参考訳) 知識適応優先 [全文訳有]

Knowledge-Adaptation Priors ( http://arxiv.org/abs/2106.08769v1 )

ライセンス: CC BY 4.0
Mohammad Emtiyaz Khan, Siddharth Swaroop(参考訳) 人間や動物は自然に環境に適応する能力を持っているが、機械学習モデルは変化を受けると、スクラッチから完全に再訓練する必要があることが多い。 本稿では,様々なタスクやモデルに対して迅速かつ正確な適応を行うことにより,リトレーニングのコストを削減するkプライオリエント(k-prior)を提案する。 これは、過去の勾配を再構築するための重みと関数空間の組み合わせによって実現され、既存の、しかし、一見無関係な適応戦略を復元し一般化する。 単純な一階勾配法によるトレーニングは、過去のデータの十分な大きなメモリを選択することで、正確な再訓練されたモデルを任意の精度で復元することができる。 実験の結果、適応は安価で正確であり、再訓練に代わる有望な選択肢であることが確認された。

Humans and animals have a natural ability to quickly adapt to their surroundings, but machine-learning models, when subjected to changes, often require a complete retraining from scratch. We present Knowledge-adaptation priors (K-priors) to reduce the cost of retraining by enabling quick and accurate adaptation for a wide-variety of tasks and models. This is made possible by a combination of weight and function-space priors to reconstruct the gradients of the past, which recovers and generalizes many existing, but seemingly-unrelated, adaptation strategies. Training with simple first-order gradient methods can often recover the exact retrained model to an arbitrary accuracy by choosing a sufficiently large memory of the past data. Empirical results confirm that the adaptation can be cheap and accurate, and a promising alternative to retraining.
翻訳日:2021-06-18 00:37:50 公開日:2021-06-16
# (参考訳) 劣化する気象条件における物体検出器のロバスト性 [全文訳有]

Robustness of Object Detectors in Degrading Weather Conditions ( http://arxiv.org/abs/2106.08795v1 )

ライセンス: CC BY 4.0
Muhammad Jehanzeb Mirza, Cornelius Buerkle, Julio Jarquin, Michael Opitz, Fabian Oboril, Kay-Ulrich Scholl, Horst Bischof(参考訳) 自律走行のための最先端物体検出システムは、晴天条件下で有望な結果を達成する。 しかし、このような自律的な安全クリティカルシステムは、雨や霧、雪といった天候の悪化にも役立てる必要がある。 残念ながら、ほとんどのアプローチは、晴天のシーンのみからなるKITTIデータセットでのみ評価される。 本稿では,この問題に対処し,実際の気象条件下で取得したデータに対する単一・二重モードアーキテクチャに関する最も詳細な評価を行う。 気象条件の劣化にともなうこれらのアーキテクチャの性能劣化を分析した。 晴れた天候で良好な性能を発揮するオブジェクト検出アーキテクチャは、気象条件の劣化を処理できない可能性があることを実証した。 また,双対モダリティアーキテクチャに関するアブレーション研究を行い,その限界を示す。

State-of-the-art object detection systems for autonomous driving achieve promising results in clear weather conditions. However, such autonomous safety critical systems also need to work in degrading weather conditions, such as rain, fog and snow. Unfortunately, most approaches evaluate only on the KITTI dataset, which consists only of clear weather scenes. In this paper we address this issue and perform one of the most detailed evaluation on single and dual modality architectures on data captured in real weather conditions. We analyse the performance degradation of these architectures in degrading weather conditions. We demonstrate that an object detection architecture performing good in clear weather might not be able to handle degrading weather conditions. We also perform ablation studies on the dual modality architectures and show their limitations.
翻訳日:2021-06-18 00:08:45 公開日:2021-06-16
# (参考訳) PRASEMap:確率的推論と意味的埋め込みに基づく知識グラフアライメントシステム [全文訳有]

PRASEMap: A Probabilistic Reasoning and Semantic Embedding based Knowledge Graph Alignment System ( http://arxiv.org/abs/2106.08801v1 )

ライセンス: CC BY 4.0
Zhiyuan Qi, Ziheng Zhang, Jiaoyan Chen, Xi Chen, Yefeng Zheng(参考訳) 知識グラフ(KG)アライメントは、2つのKG間の等価な実体と関係(すなわちマッピング)を見つけることを目的としている。 既存のアプローチでは推論ベースあるいは意味埋め込みベースのテクニックを使用しているが、それらの組み合わせを探求する研究はほとんどない。 本稿では,確率的推論 (PR) と意味的埋め込み (SE) の両手法を反復的に計算する,教師なしKGアライメントシステムであるPRASEMapを提案する。 PRASEMapは、SEモジュールとして様々な埋め込みベースのKGアライメントアプローチをサポートし、簡単なヒューマンコンピュータインタラクションを可能にし、ユーザがより良い結果を得るためにマッピングアノテーションをシステムに返送するオプションを提供する。 このデモでは、ユーザフレンドリーなインターフェースを備えたスタンドアロンのWebアプリケーションを通じて、これらの機能を紹介している。

Knowledge Graph (KG) alignment aims at finding equivalent entities and relations (i.e., mappings) between two KGs. The existing approaches utilize either reasoning-based or semantic embedding-based techniques, but few studies explore their combination. In this demonstration, we present PRASEMap, an unsupervised KG alignment system that iteratively computes the Mappings with both Probabilistic Reasoning (PR) And Semantic Embedding (SE) techniques. PRASEMap can support various embedding-based KG alignment approaches as the SE module, and enables easy human computer interaction that additionally provides an option for users to feed the mapping annotations back to the system for better results. The demonstration showcases these features via a stand-alone Web application with user friendly interfaces.
翻訳日:2021-06-18 00:00:30 公開日:2021-06-16
# (参考訳) SiamAPN++: リアルタイムUAV追跡のためのシームズ注意集約ネットワーク [全文訳有]

SiamAPN++: Siamese Attentional Aggregation Network for Real-Time UAV Tracking ( http://arxiv.org/abs/2106.08816v1 )

ライセンス: CC BY 4.0
Ziang Cao, Changhong Fu, Junjie Ye, Bowen Li, and Yiming Li(参考訳) 近年、シームズ法は、その最先端(SOTA)性能のため、多段階追跡法から際立っている。 にもかかわらず、UAV追跡における様々な特別な問題により、 \textit{e.g. が与えられた。 従来のシャム語ベースのトラッカーは、優れた性能と高い効率をあまり組み合わせてはいません。 そこで,本稿では,リアルタイムUAVトラッキングのための新しい注意型シームズトラッカー(SiamAPN++)を提案する。 注意機構により、アテンショナルアグリゲーションネットワーク(AAN)は、セルフAANとクロスAANで実行され、最終的には特徴の表現能力を向上する。 以前のAANは、空間次元とチャネル次元を通した単一特徴写像の自己意味的相互依存性を集約し、モデル化する。 後者は、アンカーの位置情報を含む異なるセマンティック機能の相互依存性を集約することを目的としている。 さらに、アンカー提案ネットワークのデュアル機能バージョンは、アンカーの提案の堅牢性を高め、様々なスケールのオブジェクトに対する知覚能力を高めるために提案されている。 SiamAPN++は、そのベースラインであるSiamAPNや他のSOTAトラッカーよりも優れている。 さらに、一般的な組み込みプラットフォーム上の実世界のテストでは、SiamAPN++がリアルタイムの速度で有望なトラッキング結果を達成することを示した。

Recently, the Siamese-based method has stood out from multitudinous tracking methods owing to its state-of-the-art (SOTA) performance. Nevertheless, due to various special challenges in UAV tracking, \textit{e.g.}, severe occlusion, and fast motion, most existing Siamese-based trackers hardly combine superior performance with high efficiency. To this concern, in this paper, a novel attentional Siamese tracker (SiamAPN++) is proposed for real-time UAV tracking. By virtue of the attention mechanism, the attentional aggregation network (AAN) is conducted with self-AAN and cross-AAN, raising the expression ability of features eventually. The former AAN aggregates and models the self-semantic interdependencies of the single feature map via spatial and channel dimensions. The latter aims to aggregate the cross-interdependenc ies of different semantic features including the location information of anchors. In addition, the dual features version of the anchor proposal network is proposed to raise the robustness of proposing anchors, increasing the perception ability to objects with various scales. Experiments on two well-known authoritative benchmarks are conducted, where SiamAPN++ outperforms its baseline SiamAPN and other SOTA trackers. Besides, real-world tests onboard a typical embedded platform demonstrate that SiamAPN++ achieves promising tracking results with real-time speed.
翻訳日:2021-06-17 23:53:55 公開日:2021-06-16
# (参考訳) マルチモーダルツイート感情分析法の公平かつ包括的比較 [全文訳有]

A Fair and Comprehensive Comparison of Multimodal Tweet Sentiment Analysis Methods ( http://arxiv.org/abs/2106.08829v1 )

ライセンス: CC BY 4.0
Gullal S. Cheema and Sherzod Hakimov and Eric M\"uller-Budack and Ralph Ewerth(参考訳) 意見分析と感情分析は、ソーシャルメディア投稿における主観的情報を特徴づける重要なタスクである。 本稿では,6つの最先端手法に対する総合的な実験評価と比較を行い,その1つを再実装した。 さらに、コンテンツの異なる側面をカバーする異なるテキストおよび視覚的特徴埋め込みと、最近導入されたマルチモーダルCLIP埋め込みについても検討する。 実験結果は、ツイートと対応する画像の2つの異なるベンチマークデータセットに対して提示される。 従来の作業の評価手法とは対照的に,再現可能かつ公正な評価手法を導入し,結果を同等にする。 最後に,今後の作業におけるメソッドや可能性の限界を概説するために,エラー解析を行う。

Opinion and sentiment analysis is a vital task to characterize subjective information in social media posts. In this paper, we present a comprehensive experimental evaluation and comparison with six state-of-the-art methods, from which we have re-implemented one of them. In addition, we investigate different textual and visual feature embeddings that cover different aspects of the content, as well as the recently introduced multimodal CLIP embeddings. Experimental results are presented for two different publicly available benchmark datasets of tweets and corresponding images. In contrast to the evaluation methodology of previous work, we introduce a reproducible and fair evaluation scheme to make results comparable. Finally, we conduct an error analysis to outline the limitations of the methods and possibilities for the future work.
翻訳日:2021-06-17 23:39:01 公開日:2021-06-16
# (参考訳) エピソディックメモリによる連続制御の解法 [全文訳有]

Solving Continuous Control with Episodic Memory ( http://arxiv.org/abs/2106.08832v1 )

ライセンス: CC BY 4.0
Igor Kuznetsov, Andrey Filchenkov(参考訳) エピソード記憶により、強化学習アルゴリズムは過去の有望な体験を記憶し、活用してエージェントのパフォーマンスを向上させることができる。 メモリ機構に関するこれまでの研究は、サンプル効率の観点から離散的な動作問題にエピソードに基づくデータ構造を用いる利点を示している。 大規模なアクション空間を持つ連続制御に対するエピソードメモリの応用は自明ではない。 本研究は, 連続制御におけるエージェントの性能向上に, エピソード記憶は有効か? 提案アルゴリズムは, エピソードメモリとアクター・クライブ・アーキテクチャを組み合わせることで, 批評家の目的を変更する。 我々は,エピソディックベースリプレイバッファの優先順位付けを導入することにより,さらに性能を向上させる。 筆者らは,OpenAI体育館でのアルゴリズムの評価を行い,最先端の非政治型アルゴリズムと比較した。

Episodic memory lets reinforcement learning algorithms remember and exploit promising experience from the past to improve agent performance. Previous works on memory mechanisms show benefits of using episodic-based data structures for discrete action problems in terms of sample-efficiency. The application of episodic memory for continuous control with a large action space is not trivial. Our study aims to answer the question: can episodic memory be used to improve agent's performance in continuous control? Our proposed algorithm combines episodic memory with Actor-Critic architecture by modifying critic's objective. We further improve performance by introducing episodic-based replay buffer prioritization. We evaluate our algorithm on OpenAI gym domains and show greater sample-efficiency compared with the state-of-the art model-free off-policy algorithms.
翻訳日:2021-06-17 23:20:00 公開日:2021-06-16
# (参考訳) 単純なPOMDPにおけるメモリアーキテクチャが性能と学習に与える影響 [全文訳有]

How memory architecture affects performance and learning in simple POMDPs ( http://arxiv.org/abs/2106.08849v1 )

ライセンス: CC BY-SA 4.0
Mario Geiger, Christophe Eloy and Matthieu Wyart(参考訳) 強化学習は、エージェントの観察が部分的あるいは騒がしい場合、はるかに複雑になる。 このケースは部分的に観測可能なマルコフ決定過程(POMDP)に対応する。 POMDPの優れたパフォーマンスを求める戦略の1つは、エージェントに有限メモリを付与することであり、その更新はポリシーによって管理される。 しかし、ポリシー最適化は非凸であり、ランダム初期化のトレーニング性能が低下する可能性がある。 メモリアーキテクチャを制約し、トレーニングを容易にするために最適性を犠牲にすることで、パフォーマンスを実証的に改善することができる。 ここで、二本腕のバンディット問題におけるこのトレードオフを調べ、2つの極端なケースを比較する: (i) $m$のメモリ状態間の遷移が許容されるランダムアクセスメモリと (ii) エージェントが最後の$m$アクションと報酬にアクセスできる固定メモリである。 i) に対して、最悪のアームをプレイする確率$q$は、最適ポリシーに対して$M$で指数関数的に小さいことが知られている。 我々の主な成果は、メモリアーキテクチャの単純さにもかかわらず、(ii)も同様のパフォーマンスに到達できることを示します: Gray-ordered binary necklacesの予想を使って、$q$が指数関数的に$2^m$で小さいポリシーを見つけます。 $q\sim\alpha^{2^m}$ for some $\alpha < 1$. 興味深いことに,ランダム初期化からのトレーニングは (i) に非常に悪い結果をもたらし, (ii) に有意によい結果をもたらすことを経験的に観察した。

Reinforcement learning is made much more complex when the agent's observation is partial or noisy. This case corresponds to a partially observable Markov decision process (POMDP). One strategy to seek good performance in POMDPs is to endow the agent with a finite memory, whose update is governed by the policy. However, policy optimization is non-convex in that case and can lead to poor training performance for random initialization. The performance can be empirically improved by constraining the memory architecture, then sacrificing optimality to facilitate training. Here we study this trade-off in the two-arm bandit problem, and compare two extreme cases: (i) the random access memory where any transitions between $M$ memory states are allowed and (ii) a fixed memory where the agent can access its last $m$ actions and rewards. For (i), the probability $q$ to play the worst arm is known to be exponentially small in $M$ for the optimal policy. Our main result is to show that similar performance can be reached for (ii) as well, despite the simplicity of the memory architecture: using a conjecture on Gray-ordered binary necklaces, we find policies for which $q$ is exponentially small in $2^m$ i.e. $q\sim\alpha^{2^m}$ for some $\alpha < 1$. Interestingly, we observe empirically that training from random initialization leads to very poor results for (i), and significantly better results for (ii).
翻訳日:2021-06-17 23:10:03 公開日:2021-06-16
# (参考訳) beyond tikhonov:反復正則化による自己一致損失による学習の高速化

Beyond Tikhonov: Faster Learning with Self-Concordant Losses via Iterative Regularization ( http://arxiv.org/abs/2106.08855v1 )

ライセンス: CC BY 4.0
Gaspard Beugnot, Julien Mairal, Alessandro Rudi(参考訳) スペクトルフィルタリングの理論は、カーネルを用いた学習の統計的性質を理解するための顕著なツールである。 少なくとも二乗法は、チコノフ正則化よりも過度リスクの収束率を速くする様々な正則化スキームを導出することができる。 これは典型的には、学習課題の難しさを特徴づけるソース条件とキャパシティ条件と呼ばれる古典的な仮定を活用することで達成される。 他の損失関数に由来する推定値を理解するために、Marteau-Ferey et al。 ティホノフ正則化の理論を一般化された自己一致損失関数(gsc)へと拡張し、それらは例えばロジスティック損失を含む。 本稿では,最適化における近点法に本質的に関係している反復的チコノフ正則化スキームを用いて,GSCに対して高速かつ最適な速度が達成できることを示し,古典的チコノフ正則化の限界を克服する。

The theory of spectral filtering is a remarkable tool to understand the statistical properties of learning with kernels. For least squares, it allows to derive various regularization schemes that yield faster convergence rates of the excess risk than with Tikhonov regularization. This is typically achieved by leveraging classical assumptions called source and capacity conditions, which characterize the difficulty of the learning task. In order to understand estimators derived from other loss functions, Marteau-Ferey et al. have extended the theory of Tikhonov regularization to generalized self concordant loss functions (GSC), which contain, e.g., the logistic loss. In this paper, we go a step further and show that fast and optimal rates can be achieved for GSC by using the iterated Tikhonov regularization scheme, which is intrinsically related to the proximal point method in optimization, and overcomes the limitation of the classical Tikhonov regularization.
翻訳日:2021-06-17 22:53:52 公開日:2021-06-16
# (参考訳) x-man: 複数の異常の源をビデオで説明する [全文訳有]

X-MAN: Explaining multiple sources of anomalies in video ( http://arxiv.org/abs/2106.08856v1 )

ライセンス: CC BY 4.0
Stanislaw Szymanowicz, James Charles, Roberto Cipolla(参考訳) 我々の目標は、ビデオ中の異常を検出しながら、検出器の応答の背後にある理由を自動で説明することである。 現実的な意味では、異常に対する要求応答はその性質と重大さに依存するため、このタスクには説明責任が不可欠である。 しかし、ほとんどの主要な手法(ディープニューラルネットワークに基づく)は解釈不能であり、解釈不能な特徴表現に意思決定プロセスを隠蔽する。 In an effort to tackle this problem we make the following contributions: (1) we show how to build interpretable feature representations suitable for detecting anomalies with state of the art performance, (2) we propose an interpretable probabilistic anomaly detector which can describe the reason behind it's response using high level concepts, (3) we are the first to directly consider object interactions for anomaly detection and (4) we propose a new task of explaining anomalies and release a large dataset for evaluating methods on this task. 提案手法は,オブジェクトとその相互作用に基づく異常な説明を提供するとともに,公開データセット上の技術状況とよく競合する。

Our objective is to detect anomalies in video while also automatically explaining the reason behind the detector's response. In a practical sense, explainability is crucial for this task as the required response to an anomaly depends on its nature and severity. However, most leading methods (based on deep neural networks) are not interpretable and hide the decision making process in uninterpretable feature representations. In an effort to tackle this problem we make the following contributions: (1) we show how to build interpretable feature representations suitable for detecting anomalies with state of the art performance, (2) we propose an interpretable probabilistic anomaly detector which can describe the reason behind it's response using high level concepts, (3) we are the first to directly consider object interactions for anomaly detection and (4) we propose a new task of explaining anomalies and release a large dataset for evaluating methods on this task. Our method competes well with the state of the art on public datasets while also providing anomaly explanation based on objects and their interactions.
翻訳日:2021-06-17 22:52:42 公開日:2021-06-16
# (参考訳) マルチゴール強化学習のためのアンバイアスド手法

Unbiased Methods for Multi-Goal Reinforcement Learning ( http://arxiv.org/abs/2106.08863v1 )

ライセンス: CC BY 4.0
L\'eonard Blier and Yann Ollivier(参考訳) multi-goal reinforcement learning (rl) の設定では、各目標に対する報酬は乏しく、ゴールの小さな近傍に位置する。 大きな次元では、報酬に達する確率は失われ、エージェントは学習信号をほとんど受け取らない。 hindsight experience replay(her)のような手法は、実現されるが計画されていない目標から学ぶことでこの問題に取り組む。 しかし、彼女はバイアスの導入で知られ、チャンシーの結果を過度に見積もることで、低リターン政策に収束することができる。 まず、HERは、多くの最適制御設定など、決定論的環境において非バイアスであることを示す。 次に、連続空間における確率的環境に対して、無限にスパースな報酬制限を直接受けてスパース報酬に取り組む。 目的ごとのダイラック報酬を無限にスパースしたマルチゴールRLの問題を完全形式化する。 このような無限にスパースな報酬を処理できる偏りのない深いq-learningとアクタ-クリティックアルゴリズムを導入し、おもちゃの環境でテストします。

In multi-goal reinforcement learning (RL) settings, the reward for each goal is sparse, and located in a small neighborhood of the goal. In large dimension, the probability of reaching a reward vanishes and the agent receives little learning signal. Methods such as Hindsight Experience Replay (HER) tackle this issue by also learning from realized but unplanned-for goals. But HER is known to introduce bias, and can converge to low-return policies by overestimating chancy outcomes. First, we vindicate HER by proving that it is actually unbiased in deterministic environments, such as many optimal control settings. Next, for stochastic environments in continuous spaces, we tackle sparse rewards by directly taking the infinitely sparse reward limit. We fully formalize the problem of multi-goal RL with infinitely sparse Dirac rewards at each goal. We introduce unbiased deep Q-learning and actor-critic algorithms that can handle such infinitely sparse rewards, and test them in toy environments.
翻訳日:2021-06-17 22:42:47 公開日:2021-06-16
# (参考訳) 共分散に基づく滑らかな粒子流体力学 ディスクフラグメンテーションシミュレーションのための機械学習応用 [全文訳有]

Covariance-based smoothed particle hydrodynamics. A machine-learning application to simulating disc fragmentation ( http://arxiv.org/abs/2106.08870v1 )

ライセンス: CC BY 4.0
Eraldo Pereira Marinho(参考訳) PCAをベースとしたSPH方式の機械学習バージョンを提案する。 本手法では, 共分散の主成分に比例する固有値を持つように平滑化テンソルを計算し, 異方性自己制御knの高速推定を可能にする修正octreeデータ構造を用いた。 それぞれの SPH 粒子はそのような最適な kNN クラスタの中心であり、すなわち共分散テンソルによってマハラノビス計量に従って kNN クラスタ自体を見つけることができる。 このような機械学習は固定点問題を構成する。 決定的な(自己制御的な)kNNクラスタは、異方性補間を行うのに必要な滑らかな体積、あるいは適切に言い換えれば滑らかな楕円体を定義する。 したがって、平滑化カーネルは楕円形プロファイルを持ち、カーネル勾配の計算方法を変更する。 応用として、非磁性で回転する気体球の崩壊と破砕のシミュレーションを行った。 興味深い結果として、円盤の断片化における原始星の形成があり、異方性シミュレーションにおいて等方性の場合よりもずっと永続的で豊富であることが示されている。

A PCA-based, machine learning version of the SPH method is proposed. In the present scheme, the smoothing tensor is computed to have their eigenvalues proportional to the covariance's principal components, using a modified octree data structure, which allows the fast estimation of the anisotropic self-regulating kNN. Each SPH particle is the center of such an optimal kNN cluster, i.e., the one whose covariance tensor allows the find of the kNN cluster itself according to the Mahalanobis metric. Such machine learning constitutes a fixed point problem. The definitive (self-regulating) kNN cluster defines the smoothing volume, or properly saying, the smoothing ellipsoid, required to perform the anisotropic interpolation. Thus, the smoothing kernel has an ellipsoidal profile, which changes how the kernel gradients are computed. As an application, it was performed the simulation of collapse and fragmentation of a non-magnetic, rotating gaseous sphere. An interesting outcome was the formation of protostars in the disc fragmentation, shown to be much more persistent and much more abundant in the anisotropic simulation than in the isotropic case.
翻訳日:2021-06-17 22:41:35 公開日:2021-06-16
# (参考訳) ブロック座標幾何中央降下による高次元ロバストトレーニング

Robust Training in High Dimensions via Block Coordinate Geometric Median Descent ( http://arxiv.org/abs/2106.08882v1 )

ライセンス: CC BY 4.0
Anish Acharya, Abolfazl Hashemi, Prateek Jain, Sujay Sanghavi, Inderjit S. Dhillon, Ufuk Topcu(参考訳) 幾何学的中央値 (\textsc{gm}) は統計学における古典的な手法であり、分解されていないデータのロバストな推定を実現する。 しかし、その計算複雑性は、高次元最適化問題に対する確率勾配勾配(SGD)の強固化に有効である。 本稿では,一度に選択された座標ブロックのみに \textsc{gm} を適用することで,sgd と \textsc{gm} に匹敵する非漸近収束率を持つ滑らかな非凸問題に対して,0.5 の分解点を保持することができることを示す。

Geometric median (\textsc{Gm}) is a classical method in statistics for achieving a robust estimation of the uncorrupted data; under gross corruption, it achieves the optimal breakdown point of 0.5. However, its computational complexity makes it infeasible for robustifying stochastic gradient descent (SGD) for high-dimensional optimization problems. In this paper, we show that by applying \textsc{Gm} to only a judiciously chosen block of coordinates at a time and using a memory mechanism, one can retain the breakdown point of 0.5 for smooth non-convex problems, with non-asymptotic convergence rates comparable to the SGD with \textsc{Gm}.
翻訳日:2021-06-17 22:14:34 公開日:2021-06-16
# (参考訳) MRI再建のためのオーバー・アンド・アンダー完全畳み込みRNN [全文訳有]

Over-and-Under Complete Convolutional RNN for MRI Reconstruction ( http://arxiv.org/abs/2106.08886v1 )

ライセンス: CC BY 4.0
Pengfei Guo, Jeya Maria Jose Valanarasu, Puyang Wang, Jinyuan Zhou, Shanshan Jiang, Vishal M. Patel(参考訳) アンダーサンプルデータからのMR画像の再構成は、アンダーサンプル操作によって導入された様々なアーティファクトのために難しい問題である。 MR画像再構成のための最近のディープラーニングベースの手法は、通常、初期層における低レベル特徴と深層における高レベル特徴をキャプチャする汎用のオートエンコーダアーキテクチャを利用する。 このようなネットワークは、全サンプル画像の再構成に最適でないグローバルな特徴に重点を置いている。 本稿では、オーバーコンプリート・コンボリュート・オン・アンダー・コンボリュート・リカレントニューラルネットワーク(OUCR)を提案し、オーバーコンプリート・コンボリュート・リカレント・ニューラルネットワーク(CRNN)とアンダーコンボリュート・リカレント・ニューラルネットワーク(CRNN)を併用する。 過完全分岐は、ネットワークの受容野を抑制して局所構造を学ぶことに特に注意を向ける。 不完全なブランチと組み合わせることで,グローバルな構造を損なうことなく,低レベルの機能を重視したネットワークが実現する。 2つのデータセットに対する大規模な実験により、提案手法は、トレーニング可能なパラメータの少ない圧縮されたセンシングと一般的なディープラーニングに基づく手法よりも大幅に改善されていることが示された。 私たちのコードはhttps://github.com/g uopengf/oucrで利用可能です。

Reconstructing magnetic resonance (MR) images from undersampled data is a challenging problem due to various artifacts introduced by the under-sampling operation. Recent deep learning-based methods for MR image reconstruction usually leverage a generic auto-encoder architecture which captures low-level features at the initial layers and high?level features at the deeper layers. Such networks focus much on global features which may not be optimal to reconstruct the fully-sampled image. In this paper, we propose an Over-and-Under Complete Convolu?tional Recurrent Neural Network (OUCR), which consists of an overcomplete and an undercomplete Convolutional Recurrent Neural Network(CRNN). The overcomplete branch gives special attention in learning local structures by restraining the receptive field of the network. Combining it with the undercomplete branch leads to a network which focuses more on low-level features without losing out on the global structures. Extensive experiments on two datasets demonstrate that the proposed method achieves significant improvements over the compressed sensing and popular deep learning-based methods with less number of trainable parameters. Our code is available at https://github.com/g uopengf/OUCR.
翻訳日:2021-06-17 22:13:33 公開日:2021-06-16
# (参考訳) 大文書集合に対する質問応答における結合文書とスニペットランキングのニューラルモデル [全文訳有]

A Neural Model for Joint Document and Snippet Ranking in Question Answering for Large Document Collections ( http://arxiv.org/abs/2106.08908v1 )

ライセンス: CC BY 4.0
Dimitris Pappas and Ion Androutsopoulos(参考訳) 質問応答 (QA) システムは通常、 (i) 関連文書を検索するパイプラインを使用し、 (ii) 関連文書を再ランク付けし、 (iii) 上位文書の段落や他のスニペットをランク付けし、 (iv) 上位文書のスニペットを正確な回答として選択する。 パイプラインは概念的には単純だが、エラーは1つのコンポーネントから次のコンポーネントへと伝播する。 関連文書が良好なスニペットと良好なスニペットを持つという直感を生かした2つの中間段階である,共同文書とスニペットランキングのためのアーキテクチャを提案する。 アーキテクチャは汎用的であり、ニューラルテキスト関連ローダで使用することができる。 本稿では, POSIT-DRMM (PDRMM) とBERTをベースとしたランカを用いたアーキテクチャの2つの主要なインスタンス化実験を行った。 bioasqによるバイオメディカルデータによる実験では、私たちの共同モデルが、トレーニング可能なパラメータの少ないqaの主な目標であるスニペット検索においてパイプラインを大きく上回っていることが分かりました。 さらに, pdrmmモデルとbertモデルとの競合性は高いが, パラメータは桁違いに小さい。 これらの主張は、BIOASQの2つのテストバッチに対する人間の評価でも支持されている。 別のデータセットで重要な結果をテストするために、Natural Questionsデータセットを変更して、ドキュメント検索やスニペット検索にも使用できるようにしました。 我々の共同PDRMMベースのモデルは、文書検索のパイプラインよりもパフォーマンスが悪くても、修正されたNatural Questionsデータセット上でスニペット検索において、対応するパイプラインを再び上回ります。 コードと修正されたNatural Questionsデータセットを公開しています。

Question answering (QA) systems for large document collections typically use pipelines that (i) retrieve possibly relevant documents, (ii) re-rank them, (iii) rank paragraphs or other snippets of the top-ranked documents, and (iv) select spans of the top-ranked snippets as exact answers. Pipelines are conceptually simple, but errors propagate from one component to the next, without later components being able to revise earlier decisions. We present an architecture for joint document and snippet ranking, the two middle stages, which leverages the intuition that relevant documents have good snippets and good snippets come from relevant documents. The architecture is general and can be used with any neural text relevance ranker. We experiment with two main instantiations of the architecture, based on POSIT-DRMM (PDRMM) and a BERT-based ranker. Experiments on biomedical data from BIOASQ show that our joint models vastly outperform the pipelines in snippet retrieval, the main goal for QA, with fewer trainable parameters, also remaining competitive in document retrieval. Furthermore, our joint PDRMM-based model is competitive with BERT-based models, despite using orders of magnitude fewer parameters. These claims are also supported by human evaluation on two test batches of BIOASQ. To test our key findings on another dataset, we modified the Natural Questions dataset so that it can also be used for document and snippet retrieval. Our joint PDRMM-based model again outperforms the corresponding pipeline in snippet retrieval on the modified Natural Questions dataset, even though it performs worse than the pipeline in document retrieval. We make our code and the modified Natural Questions dataset publicly available.
翻訳日:2021-06-17 22:03:27 公開日:2021-06-16
# (参考訳) 連続制御のためのアクタークリティカル自動解を目指して [全文訳有]

Towards Automatic Actor-Critic Solutions to Continuous Control ( http://arxiv.org/abs/2106.08918v1 )

ライセンス: CC BY 4.0
Jake Grigsby, Jin Yong Yoo, Yanjun Qi(参考訳) モデルフリーなアクター批判的手法は複雑な連続制御タスクの効率的な解法である。 しかし、これらのアルゴリズムは多くの設計トリックと多くのハイパーパラメータに依存しており、新しいドメインへの応用は困難で計算コストがかかる。 本稿では,これらの設計決定を自動的に調整し,ソフトアクタ-クリティックアルゴリズムからrl固有のハイパーパラメータを除去する進化的手法を提案する。 我々の設計はサンプル効率が高く、探索の改善、複数の制御周波数の一般化、高性能なポリシーの堅牢なアンサンブルなど、ベースラインアプローチよりも実用的な利点を提供する。 実験により、私たちのエージェントはDeepMind Control Suiteの人気のあるベンチマークにおいて、よく調整されたハイパーパラメータ設定よりも優れています。 そして、それを新しい制御タスクに適用して、最小限の計算と研究努力でハイパフォーマンスなソリューションを見つけます。

Model-free off-policy actor-critic methods are an efficient solution to complex continuous control tasks. However, these algorithms rely on a number of design tricks and many hyperparameters, making their applications to new domains difficult and computationally expensive. This paper creates an evolutionary approach that automatically tunes these design decisions and eliminates the RL-specific hyperparameters from the Soft Actor-Critic algorithm. Our design is sample efficient and provides practical advantages over baseline approaches, including improved exploration, generalization over multiple control frequencies, and a robust ensemble of high-performance policies. Empirically, we show that our agent outperforms well-tuned hyperparameter settings in popular benchmarks from the DeepMind Control Suite. We then apply it to new control tasks to find high-performance solutions with minimal compute and research effort.
翻訳日:2021-06-17 21:43:18 公開日:2021-06-16
# (参考訳) リカレントニューラルネットワークの安定集合体の再帰的構築 [全文訳有]

Recursive Construction of Stable Assemblies of Recurrent Neural Networks ( http://arxiv.org/abs/2106.08928v1 )

ライセンス: CC BY 4.0
Michaela Ennis, Leo Kozachkov, Jean-Jacques Slotine(参考訳) 現代の機械学習の高度な応用は、すでにDeepMindのAlphaGoのような壮大なシステムで使われているように、トレーニングされたネットワークの組み合わせを含む可能性が高い。 このような組み合わせを効果的かつ安定した方法で再帰的に構築すると同時に、個々のネットワーク(自然が生物学的ネットワークに対して行うように)の継続的な改善を可能にするためには、新たな分析ツールが必要である。 本稿では、非線形リカレントネットワークとニューラルODEの幅広いクラスの縮約特性を確立し、これらの定量化特性によって、ネットワークの安定なネットワークを系統的に再帰的に構築できることを示す。 この結果は、再帰ネットワークと物理システムと量子化収縮特性を安定的に結合するためにも利用できる。 同様に、それらは認知のモジュラー計算モデルにも適用できる。

Advanced applications of modern machine learning will likely involve combinations of trained networks, as are already used in spectacular systems such as DeepMind's AlphaGo. Recursively building such combinations in an effective and stable fashion while also allowing for continual refinement of the individual networks - as nature does for biological networks - will require new analysis tools. This paper takes a step in this direction by establishing contraction properties of broad classes of nonlinear recurrent networks and neural ODEs, and showing how these quantified properties allow in turn to recursively construct stable networks of networks in a systematic fashion. The results can also be used to stably combine recurrent networks and physical systems with quantified contraction properties. Similarly, they may be applied to modular computational models of cognition.
翻訳日:2021-06-17 21:27:42 公開日:2021-06-16
# (参考訳) KALE Flow: 解離支援のある確率のための緩和KL勾配流 [全文訳有]

KALE Flow: A Relaxed KL Gradient Flow for Probabilities with Disjoint Support ( http://arxiv.org/abs/2106.08929v1 )

ライセンス: CC BY 4.0
Pierre Glaser, Michael Arbel, Arthur Gretton(参考訳) 移動源と固定目標分布との間のクルバック・ライバー(kl)の発散に対する緩和近似の勾配流れについて検討した。 この近似は KALE (KL 近似下界推定器) と呼ばれ、関数の制限クラス上で KL を定義するフェンシェル双対問題の正規化版を解く。 再生カーネルヒルベルト空間(RKHS)を用いて関数クラスを定義すると、KALEがKLと最大平均離散性(MMD)を連続的に補間することを示す。 MMDや他の積分確率計量と同様に、KALEは互いに特異な分布に対してよく定義される。 それでも、KALEはKLの制限から、MDDと比較して分布の支持におけるミスマッチに対する感度が向上する。 これらの2つの性質により、ターゲット分布が低次元多様体上で支持されているとき、ケール勾配流は特に適している。 軌道の十分な滑らかさの仮定の下では、ケール流の大域的収束を示す。 本稿では,ソースから得られた初期サンプルとターゲット分布の粒子的実装を提案し,KALEの特性を実証的に確認する。

We study the gradient flow for a relaxed approximation to the Kullback-Leibler (KL) divergence between a moving source and a fixed target distribution. This approximation, termed the KALE (KL approximate lower-bound estimator), solves a regularized version of the Fenchel dual problem defining the KL over a restricted class of functions. When using a Reproducing Kernel Hilbert Space (RKHS) to define the function class, we show that the KALE continuously interpolates between the KL and the Maximum Mean Discrepancy (MMD). Like the MMD and other Integral Probability Metrics, the KALE remains well defined for mutually singular distributions. Nonetheless, the KALE inherits from the limiting KL a greater sensitivity to mismatch in the support of the distributions, compared with the MMD. These two properties make the KALE gradient flow particularly well suited when the target distribution is supported on a low-dimensional manifold. Under an assumption of sufficient smoothness of the trajectories, we show the global convergence of the KALE flow. We propose a particle implementation of the flow given initial samples from the source and the target distribution, which we use to empirically confirm the KALE's properties.
翻訳日:2021-06-17 21:08:07 公開日:2021-06-16
# (参考訳) カオス的 itinerancy に対する予測符号法 [全文訳有]

A Predictive Coding Account for Chaotic Itinerancy ( http://arxiv.org/abs/2106.08937v1 )

ライセンス: CC BY-SA 4.0
Louis Annabi, Alexandre Pitti and Mathias Quoy(参考訳) 安定な行動間の自律的な切り替えを可能にする力学系の現象として、カオス的随伴性は神経ロボティクス研究に注目されている。 本研究では, この現象と予測符号化理論との関係を, 予測符号化を実装した再帰的ニューラルネットワークが, 入力雑音の存在下でのカオス的イテナントと類似したニューラルトラジェクタを生成できることを示す。 本モデルを用いて,無作為かつ非依存なトラジェクタスイッチングトラジェクトリを生成する2つのシナリオを提案する。

As a phenomenon in dynamical systems allowing autonomous switching between stable behaviors, chaotic itinerancy has gained interest in neurorobotics research. In this study, we draw a connection between this phenomenon and the predictive coding theory by showing how a recurrent neural network implementing predictive coding can generate neural trajectories similar to chaotic itinerancy in the presence of input noise. We propose two scenarios generating random and past-independent attractor switching trajectories using our model.
翻訳日:2021-06-17 20:26:58 公開日:2021-06-16
# (参考訳) Banker Online Mirror Descent [全文訳有]

Banker Online Mirror Descent ( http://arxiv.org/abs/2106.08943v1 )

ライセンス: CC BY 4.0
Jiatai Huang, Longbo Huang(参考訳) 我々は,オンライン学習アルゴリズム設計において,古典的オンラインミラー・ディフレッシュ(OMD)技術を一般化した新しいフレームワークであるBanker-OMDを提案する。 Banker-OMDはアルゴリズムによる遅延フィードバックの堅牢な処理を可能にし、様々な遅延フィードバックオンライン学習タスクにおける$\tilde{O}(\sqrt{T} + \sqrt{D})$スタイルの後悔境界を達成するための一般的な方法論を提供する。 本稿では,Banker-OMDのパワーを3つの重要なバンディットシナリオに適用し,遅延逆数多腕バンディット(MAB),遅延逆数線形バンディット(MAB)などの遅延フィードバックを応用した。 Banker-OMDは3つの設定でほぼ最適のパフォーマンスを達成する。 特に、これは最初の遅延逆線型バンドイットアルゴリズムにつながり、$\tilde{O}(\text{poly}(n)(\sqrt{T} + \sqrt{D}))$ regretとなる。

We propose Banker-OMD, a novel framework generalizing the classical Online Mirror Descent (OMD) technique in online learning algorithm design. Banker-OMD allows algorithms to robustly handle delayed feedback, and offers a general methodology for achieving $\tilde{O}(\sqrt{T} + \sqrt{D})$-style regret bounds in various delayed-feedback online learning tasks, where $T$ is the time horizon length and $D$ is the total feedback delay. We demonstrate the power of Banker-OMD with applications to three important bandit scenarios with delayed feedback, including delayed adversarial Multi-armed bandits (MAB), delayed adversarial linear bandits, and a novel delayed best-of-both-worlds MAB setting. Banker-OMD achieves nearly-optimal performance in all the three settings. In particular, it leads to the first delayed adversarial linear bandit algorithm achieving $\tilde{O}(\text{poly}(n)(\sqrt{T} + \sqrt{D}))$ regret.
翻訳日:2021-06-17 20:19:19 公開日:2021-06-16
# (参考訳) sleeper agent:スクラッチからトレーニングされたニューラルネットワークのためのスケーラブルな隠れトリガーバックドア [全文訳有]

Sleeper Agent: Scalable Hidden Trigger Backdoors for Neural Networks Trained from Scratch ( http://arxiv.org/abs/2106.08970v1 )

ライセンス: CC BY 4.0
Hossein Souri, Micah Goldblum, Liam Fowl, Rama Chellappa, Tom Goldstein(参考訳) 機械学習のためのデータのキュレーションがますます自動化されるにつれて、データセットの改ざんは大きな脅威になっている。 バックドア攻撃者は、トレーニングデータを改ざんして、そのデータに基づいてトレーニングされたモデルに脆弱性を埋め込む。 この脆弱性はモデル入力に"トリガー"を配置することで、推論時に起動される。 典型的なバックドア攻撃はトレーニングデータに直接トリガーを挿入するが、そのような攻撃の存在は検査時に見ることができる。 これとは対照的に、Hidden Trigger Backdoor Attackはトレーニングデータにトリガーを一切入れずに毒を盛る。 しかし、この隠れトリガー攻撃は、スクラッチから訓練されたニューラルネットワークを中毒させるのに効果がない。 そこで我々は,新たな隠れトリガ攻撃として,グラデーションマッチング,データ選択,目標モデルの再トレーニングを行うスリーパーエージェントを開発した。 Sleeper Agentは、スクラッチからトレーニングされたニューラルネットワークに対して、最初の隠れトリガーバックドア攻撃である。 我々は、ImageNetとブラックボックス設定でその効果を実証する。 実装コードはhttps://github.com/h souri/sleeper-agentにあります。

As the curation of data for machine learning becomes increasingly automated, dataset tampering is a mounting threat. Backdoor attackers tamper with training data to embed a vulnerability in models that are trained on that data. This vulnerability is then activated at inference time by placing a "trigger" into the model's input. Typical backdoor attacks insert the trigger directly into the training data, although the presence of such an attack may be visible upon inspection. In contrast, the Hidden Trigger Backdoor Attack achieves poisoning without placing a trigger into the training data at all. However, this hidden trigger attack is ineffective at poisoning neural networks trained from scratch. We develop a new hidden trigger attack, Sleeper Agent, which employs gradient matching, data selection, and target model re-training during the crafting process. Sleeper Agent is the first hidden trigger backdoor attack to be effective against neural networks trained from scratch. We demonstrate its effectiveness on ImageNet and in black-box settings. Our implementation code can be found at https://github.com/h souri/Sleeper-Agent.
翻訳日:2021-06-17 19:40:35 公開日:2021-06-16
# (参考訳) モデルに基づく解釈用反事実合成器 [全文訳有]

Model-Based Counterfactual Synthesizer for Interpretation ( http://arxiv.org/abs/2106.08971v1 )

ライセンス: CC BY 4.0
Fan Yang, Sahan Suresh Alva, Jiahao Chen, Xia Hu(参考訳) 新たなタイプのモデル解釈の1つとして機能する反事実は、最近研究者と実践者の両方から注目を集めている。 反事実的説明は `what-if'' シナリオの探索を形式化し、仮説データサンプルのセットを用いた例ベースの推論の例である。 本質的には、モデル決定が入力摂動とどのように変化するかを示す。 既存の反事実生成法は主にアルゴリズムに基づいており、時間非効率であり、異なるクエリに対して同じ反事実宇宙を仮定する。 そこで本研究では,機械学習モデル解釈のためのモデルベース反事実合成(mcs)フレームワークを提案する。 まず,モデルに基づく逆ファクト過程を分析し,条件付き生成逆数ネット(CGAN)を用いてベースシンセサイザーを構築する。 それらの希少なクエリに対する反ファクト宇宙をよりよく近似するために,MCSフレームワークのトレーニングを行うために,傘サンプリング手法を新たに採用した。 さらに,モデル帰納バイアスを伴う属性間の因果依存性を取り入れ,因果性識別の観点から設計の正確性を検証することで,mcsフレームワークを強化した。 いくつかのデータセットに対する実験結果から,提案したMCSフレームワークの有効性と効率性を実証し,他の選択肢と比較して利点を検証した。

Counterfactuals, serving as one of the emerging type of model interpretations, have recently received attention from both researchers and practitioners. Counterfactual explanations formalize the exploration of ``what-if'' scenarios, and are an instance of example-based reasoning using a set of hypothetical data samples. Counterfactuals essentially show how the model decision alters with input perturbations. Existing methods for generating counterfactuals are mainly algorithm-based, which are time-inefficient and assume the same counterfactual universe for different queries. To address these limitations, we propose a Model-based Counterfactual Synthesizer (MCS) framework for interpreting machine learning models. We first analyze the model-based counterfactual process and construct a base synthesizer using a conditional generative adversarial net (CGAN). To better approximate the counterfactual universe for those rare queries, we novelly employ the umbrella sampling technique to conduct the MCS framework training. Besides, we also enhance the MCS framework by incorporating the causal dependence among attributes with model inductive bias, and validate its design correctness from the causality identification perspective. Experimental results on several datasets demonstrate the effectiveness as well as efficiency of our proposed MCS framework, and verify the advantages compared with other alternatives.
翻訳日:2021-06-17 19:25:16 公開日:2021-06-16
# (参考訳) 自己教師付き学習の非平衡熱力学 [全文訳有]

Nonequilibrium thermodynamics of self-supervised learning ( http://arxiv.org/abs/2106.08981v1 )

ライセンス: CC BY 4.0
Domingos S. P. Salazar(参考訳) エネルギーベースモデルの自己教師付き学習(SSL)は、エネルギーを確率にマッピングするソフトマックス層がギブス分布であるため、平衡熱力学と直感的な関係を持つ。 しかし、SSLは熱力学的プロセスとは何か? いくつかのSSLパラダイムは、非平衡貯水池と接触した表現と自己ラベルによって形成される熱力学的複合システムとして振る舞う。 さらに、この系は断熱膨張や等温加熱などの通常の熱力学サイクルに従属し、一般化されたギブスアンサンブル(GGE)となる。 本稿では,フィードバック測定を用いてシステムからネガティブな作業を引き出すことによって,学習をサイクルで動作させるデーモンとみなす。 アプリケーションとして,このアイデアを用いたSSLアルゴリズムについて検討する。

Self-supervised learning (SSL) of energy based models has an intuitive relation to equilibrium thermodynamics because the softmax layer, mapping energies to probabilities, is a Gibbs distribution. However, in what way SSL is a thermodynamic process? We show that some SSL paradigms behave as a thermodynamic composite system formed by representations and self-labels in contact with a nonequilibrium reservoir. Moreover, this system is subjected to usual thermodynamic cycles, such as adiabatic expansion and isochoric heating, resulting in a generalized Gibbs ensemble (GGE). In this picture, we show that learning is seen as a demon that operates in cycles using feedback measurements to extract negative work from the system. As applications, we examine some SSL algorithms using this idea.
翻訳日:2021-06-17 19:07:29 公開日:2021-06-16
# (参考訳) mSHAP: 2部モデルのSHAP値 [全文訳有]

mSHAP: SHAP Values for Two-Part Models ( http://arxiv.org/abs/2106.08990v1 )

ライセンス: CC BY 4.0
Spencer Matthews and Brian Hartman(参考訳) 2部構成モデルは保険とアクチュアリー科学において重要である。 自動車の登録、住宅ローンの取得、特定の事業への参加には保険が必要であるため、価格保険ポリシーが公正かつ差別的であるモデルが特に重要である。 ブラックボックスモデルは、どの共変体が結果に影響を与えるかを知るのが非常に困難である。 SHAP値は様々なブラックボックスモデルの解釈を可能にするが、2部モデルではほとんど進歩していない。 本稿では,個々のモデルのshap値を用いて2部モデルのshap値を計算する手法であるmshap(または乗法shap)を提案する。 この方法では、個々の観測レベルで説明できる2部モデルの予測が可能となる。 mSHAPを開発した後、詳細なシミュレーション研究を行う。 カーネルSHAPアルゴリズムは2部モデルに対する近似SHAP値の計算も可能であるが,本手法との比較により,mSHAPが指数関数的に高速であることを示す。 最終的にmSHAPを個人用自動車不動産損害保険保険の2部構成率モデルに適用する。 加えて、Rパッケージ(mshap)は、様々なアプリケーションで簡単にメソッドを実装することができる。

Two-part models are important to and used throughout insurance and actuarial science. Since insurance is required for registering a car, obtaining a mortgage, and participating in certain businesses, it is especially important that the models which price insurance policies are fair and non-discriminatory. Black box models can make it very difficult to know which covariates are influencing the results. SHAP values enable interpretation of various black box models, but little progress has been made in two-part models. In this paper, we propose mSHAP (or multiplicative SHAP), a method for computing SHAP values of two-part models using the SHAP values of the individual models. This method will allow for the predictions of two-part models to be explained at an individual observation level. After developing mSHAP, we perform an in-depth simulation study. Although the kernelSHAP algorithm is also capable of computing approximate SHAP values for a two-part model, a comparison with our method demonstrates that mSHAP is exponentially faster. Ultimately, we apply mSHAP to a two-part ratemaking model for personal auto property damage insurance coverage. Additionally, an R package (mshap) is available to easily implement the method in a wide variety of applications.
翻訳日:2021-06-17 18:56:11 公開日:2021-06-16
# (参考訳) ソフト教師によるエンド・ツー・エンド半教師物体検出 [全文訳有]

End-to-End Semi-Supervised Object Detection with Soft Teacher ( http://arxiv.org/abs/2106.09018v1 )

ライセンス: CC BY 4.0
Mengde Xu, Zheng Zhang, Han Hu, Jianfeng Wang, Lijuan Wang, Fangyun Wei, Xiang Bai, Zicheng Liu(参考訳) 本稿では,従来の複雑な多段階法とは対照的に,終端から終端までの半教師付き物体検出手法を提案する。 エンドツーエンドのトレーニングは、カリキュラム中の擬似ラベル品質を徐々に改善し、より正確な擬似ラベルがオブジェクト検出トレーニングに役立ちます。 また,この枠組みでは,教師ネットワークが生成する分類スコアによってラベルなし境界ボックスの分類損失を重み付けるソフト教師機構と,ボックス回帰学習のための信頼できる擬似ボックスを選択するボックスジッタリング手法という,単純かつ効果的な2つの手法を提案する。 cocoベンチマークでは,提案手法は,様々なラベル付け率,すなわち,従来の手法を大きく上回っている。 1\%,5\%,10\%であった。 さらに,ラベル付きデータの量が比較的大きい場合にも,本手法が有効であることを示す。 例えば、+3.6 mAPで設定されたCOCOの全訓練で訓練された40.9 mAPベースライン検出器を44.5 mAPまで改善することができる。 最先端のSwin Transformerベースのオブジェクト検出器(58.9 mAP on test-dev)では、検出精度は+1.5 mAPで60.4 mAPに達し、インスタンスセグメンテーション精度は+1.2 mAPで改善され、52.4 mAPに達した。

This paper presents an end-to-end semi-supervised object detection approach, in contrast to previous more complex multi-stage methods. The end-to-end training gradually improves pseudo label qualities during the curriculum, and the more and more accurate pseudo labels in turn benefit object detection training. We also propose two simple yet effective techniques within this framework: a soft teacher mechanism where the classification loss of each unlabeled bounding box is weighed by the classification score produced by the teacher network; a box jittering approach to select reliable pseudo boxes for the learning of box regression. On COCO benchmark, the proposed approach outperforms previous methods by a large margin under various labeling ratios, i.e. 1\%, 5\% and 10\%. Moreover, our approach proves to perform also well when the amount of labeled data is relatively large. For example, it can improve a 40.9 mAP baseline detector trained using the full COCO training set by +3.6 mAP, reaching 44.5 mAP, by leveraging the 123K unlabeled images of COCO. On the state-of-the-art Swin Transformer-based object detector (58.9 mAP on test-dev), it can still significantly improve the detection accuracy by +1.5 mAP, reaching 60.4 mAP, and improve the instance segmentation accuracy by +1.2 mAP, reaching 52.4 mAP, pushing the new state-of-the-art.
翻訳日:2021-06-17 18:40:39 公開日:2021-06-16
# 変圧器を用いた接地時空間言語

Grounding Spatio-Temporal Language with Transformers ( http://arxiv.org/abs/2106.08858v1 )

ライセンス: Link先を確認
Tristan Karch, Laetitia Teodorescu, Katja Hofmann, Cl\'ement Moulin-Frier and Pierre-Yves Oudeyer(参考訳) 言語は外界へのインタフェースである。 具体化エージェントがそれを使用するためには、言語を他のセンサーモジュレータのモダリティに基づかなければならない。 機械がどのように接地言語を学べるかを研究する広範な文献があるが、時空間言語の概念をいかに学ぶかという話題は、いまだにほとんど語られていない。 そこで,本稿では,具体化エージェントの行動トレースの時空間的記述の意味を学習することを目的とした,新たな時空間言語基底化タスクを提案する。 これは、記述が与えられた観測履歴と一致するかどうかを予測する真理関数を訓練することによって達成される。 記述には、過去と現在における時間拡張述語と、シーン内のオブジェクトに対する時空間的参照が含まれる。 このタスクにおけるアーキテクチャバイアスの役割を研究するために,マルチモーダルトランスフォーマーアーキテクチャを含む複数のモデルを訓練する。 1)ランダムに保持された文への一般化,2)文法プリミティブへの一般化である。 我々は,トランスフォーマーの注目計算におけるオブジェクトの同一性を維持することは,全体の一般化において優れた性能を達成するのに有効であり,単一トークンにおけるオブジェクトトレースの要約が性能にほとんど影響を与えないことを観察する。 次に, 言語誘導型自律型実施エージェントに対する新たな視点の開放について論じる。 また、私たちのコードをオープンソースライセンスの下でリリースし、トレーニング済みのモデルやデータセットもリリースしています。

Language is an interface to the outside world. In order for embodied agents to use it, language must be grounded in other, sensorimotor modalities. While there is an extended literature studying how machines can learn grounded language, the topic of how to learn spatio-temporal linguistic concepts is still largely uncharted. To make progress in this direction, we here introduce a novel spatio-temporal language grounding task where the goal is to learn the meaning of spatio-temporal descriptions of behavioral traces of an embodied agent. This is achieved by training a truth function that predicts if a description matches a given history of observations. The descriptions involve time-extended predicates in past and present tense as well as spatio-temporal references to objects in the scene. To study the role of architectural biases in this task, we train several models including multimodal Transformer architectures; the latter implement different attention computations between words and objects across space and time. We test models on two classes of generalization: 1) generalization to randomly held-out sentences; 2) generalization to grammar primitives. We observe that maintaining object identity in the attention computation of our Transformers is instrumental to achieving good performance on generalization overall, and that summarizing object traces in a single token has little influence on performance. We then discuss how this opens new perspectives for language-guided autonomous embodied agents. We also release our code under open-source license as well as pretrained models and datasets to encourage the wider community to build upon and extend our work in the future.
翻訳日:2021-06-17 17:49:06 公開日:2021-06-16
# 小さな強いラベル付きと大きな弱いラベル付きデータによる名前付きエンティティ認識

Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data ( http://arxiv.org/abs/2106.08977v1 )

ライセンス: Link先を確認
Haoming Jiang, Danqing Zhang, Tianyu Cao, Bing Yin, Tuo Zhao(参考訳) 弱監視は、名前付きエンティティ認識(NER)など、多くの自然言語処理タスクにおいて有望な結果を示している。 既存の研究は、人間のアノテーションを使わずに、より深いNERモデルを学習することのみに焦点を当てており、単に弱いラベル付きデータを使用することで、優れたパフォーマンスを達成できるが、手動/強くラベル付けされたデータで完全に教師されたNERの性能は低い。 本稿では,少量の強ラベル付きデータと大量の弱ラベル付きデータの両方を持つ,より実践的なシナリオについて考察する。 残念なことに、弱いラベル付きデータが必ずしも改善されないか、あるいは(弱いラベルの広範なノイズのため)モデル性能を低下させ、強いラベル付きおよび弱いラベル付きデータの単純または重み付けされた組み合わせで深部NERモデルを訓練する。 この問題に対処するために,(1)弱いラベル補完,(2)ノイズ認識損失関数,(3)強いラベル付きデータに対する最終的な微調整という3つの必須成分を持つ,新しい多段階計算フレームワークを提案する。 電子商取引クエリNERとバイオメディカルNERの実験を通じて、NEEDLEは弱いラベルのノイズを効果的に抑制し、既存の手法より優れていることを示す。 特にBC5CDR-chem 93.74,BC5CDR-disease 90.69,NCBI-disease 92.28。

Weak supervision has shown promising results in many natural language processing tasks, such as Named Entity Recognition (NER). Existing work mainly focuses on learning deep NER models only with weak supervision, i.e., without any human annotation, and shows that by merely using weakly labeled data, one can achieve good performance, though still underperforms fully supervised NER with manually/strongly labeled data. In this paper, we consider a more practical scenario, where we have both a small amount of strongly labeled data and a large amount of weakly labeled data. Unfortunately, we observe that weakly labeled data does not necessarily improve, or even deteriorate the model performance (due to the extensive noise in the weak labels) when we train deep NER models over a simple or weighted combination of the strongly labeled and weakly labeled data. To address this issue, we propose a new multi-stage computational framework -- NEEDLE with three essential ingredients: (1) weak label completion, (2) noise-aware loss function, and (3) final fine-tuning over the strongly labeled data. Through experiments on E-commerce query NER and Biomedical NER, we demonstrate that NEEDLE can effectively suppress the noise of the weak labels and outperforms existing methods. In particular, we achieve new SOTA F1-scores on 3 Biomedical NER datasets: BC5CDR-chem 93.74, BC5CDR-disease 90.69, NCBI-disease 92.28.
翻訳日:2021-06-17 17:48:40 公開日:2021-06-16
# C^3$:ビデオ音声対話のための合成対実的コンストラシティブ学習

$C^3$: Compositional Counterfactual Constrastive Learning for Video-grounded Dialogues ( http://arxiv.org/abs/2106.08914v1 )

ライセンス: Link先を確認
Hung Le, Nancy F. Chen, Steven C.H. Hoi(参考訳) video-grounded dialogue systemは、ビデオ理解と対話理解を統合し、対話とビデオのコンテキストの両方に関連する応答を生成することを目的としている。 既存のアプローチのほとんどはディープラーニングモデルを採用しており、利用可能な比較的小さなデータセットを考えると、驚くべきパフォーマンスを達成している。 しかし、結果はマルチモーダル推論を開発するのではなく、データセットのバイアスを利用して部分的に達成され、その結果は限定的な一般化をもたらす。 本稿では,映像対話における実例と実例の対比学習を開発するために,合成対実的コントラスト学習(C^3$)の新たなアプローチを提案する。 具体的には,対話における映像やトークンの時間的ステップに基づいて,実演/実演サンプリングをデザインし,オブジェクトレベルの分散や動作レベルの分散を利用したコントラスト損失関数を提案する。 従来の手法と異なり,生成時の表現空間を最適化するために,合成出力トークン間のコントラスト的隠れ状態表現に着目した。 我々は、avsd(audio-visual scene-aware dialogues)ベンチマークで有望な性能向上を達成し、映像と対話コンテキストの接地における我々のアプローチの利点を示した。

Video-grounded dialogue systems aim to integrate video understanding and dialogue understanding to generate responses that are relevant to both the dialogue and video context. Most existing approaches employ deep learning models and have achieved remarkable performance, given the relatively small datasets available. However, the results are partly accomplished by exploiting biases in the datasets rather than developing multimodal reasoning, resulting in limited generalization. In this paper, we propose a novel approach of Compositional Counterfactual Contrastive Learning ($C^3$) to develop contrastive training between factual and counterfactual samples in video-grounded dialogues. Specifically, we design factual/counterfactu al sampling based on the temporal steps in videos and tokens in dialogues and propose contrastive loss functions that exploit object-level or action-level variance. Different from prior approaches, we focus on contrastive hidden state representations among compositional output tokens to optimize the representation space in a generation setting. We achieved promising performance gains on the Audio-Visual Scene-Aware Dialogues (AVSD) benchmark and showed the benefits of our approach in grounding video and dialogue context.
翻訳日:2021-06-17 17:48:09 公開日:2021-06-16
# wasserstein fair regressionのコストとメリット

Costs and Benefits of Wasserstein Fair Regression ( http://arxiv.org/abs/2106.08812v1 )

ライセンス: Link先を確認
Han Zhao(参考訳) ハイテイク領域における機械学習ツールの現実的な応用は、予測対象が保護された属性に対するパリティの定量的な概念を満たす必要があるという意味で、しばしば公正であるように規制されている。 しかし、実際の評価対象との公正性と精度の正確なトレードオフは明らかではない。 本稿では,回帰設定における統計的パリティと精度との固有のトレードオフを,公平な回帰者の誤差に対する下限を提供することによって特徴付ける。 対象のモーメントがグループによって異なる場合、公平なアルゴリズムは、少なくとも1つのグループに対して大きな誤りを犯さなければなりません。 この結果をさらに拡張して、近似の質を測定するためにwasserstein距離を用いて、任意の(ほぼ)fairアルゴリズムのジョイント誤差の下限を与える。 上述のように、回帰器が個々に公平である場合、そのギャップが2つの群間のワッサーシュタイン距離によって与えられる精度パリティを概ね検証することを示し、個人公正性、精度パリティ、およびワッサーシュタイン距離の間の最初の接続を確立する。 理論的な結果に触発されて,表現学習のレンズを通して公平な回帰を行うための実用的なアルゴリズムを開発し,実世界のデータセットで実験を行い,その結果を裏付ける。

Real-world applications of machine learning tools in high-stakes domains are often regulated to be fair, in the sense that the predicted target should satisfy some quantitative notion of parity with respect to a protected attribute. However, the exact tradeoff between fairness and accuracy with a real-valued target is not clear. In this paper, we characterize the inherent tradeoff between statistical parity and accuracy in the regression setting by providing a lower bound on the error of any fair regressor. Our lower bound is sharp, algorithm-independen t, and admits a simple interpretation: when the moments of the target differ between groups, any fair algorithm has to make a large error on at least one of the groups. We further extend this result to give a lower bound on the joint error of any (approximately) fair algorithm, using the Wasserstein distance to measure the quality of the approximation. On the upside, we establish the first connection between individual fairness, accuracy parity, and the Wasserstein distance by showing that if a regressor is individually fair, it also approximately verifies the accuracy parity, where the gap is given by the Wasserstein distance between the two groups. Inspired by our theoretical results, we develop a practical algorithm for fair regression through the lens of representation learning, and conduct experiments on a real-world dataset to corroborate our findings.
翻訳日:2021-06-17 17:47:31 公開日:2021-06-16
# codesignのコンパイルアルゴリズム:ニューラルネットワークのスパーシティの統合ビュー

Algorithm to Compilation Codesign: An Integrated View of Neural Network Sparsity ( http://arxiv.org/abs/2106.08846v1 )

ライセンス: Link先を確認
Fu-Ming Guo, Austin Huang(参考訳) ニューラルネットワークの計算コスト、推論レイテンシ、メモリフットプリントの削減は、プルーニングとスパーシティの研究モチベーションとしてしばしば引用される。 しかし、これらの利点を運用し、アルゴリズム設計とランタイム実行における正規化によるエンドツーエンドの効果を理解することは、しばしば検討されない。 本稿では,BERT言語モデルのトランスフォーマーブロックの重み付けに対して,構造化および非構造化プルーニングを適用するとともに,TVMコンパイラにおけるブロックスパース表現(BSR)操作を拡張する。 bsr操作の統合により、tvmランタイムの実行はモデル正規化によって引き起こされる構造化パターンスパーシティを活用できる。 このプルーニングアルゴリズムの統合ビューにより、モデリング決定と空間的拡張実行に対する直接的影響の関係を研究できる。 1)sparsityブロックの正規化によるパフォーマンス上のメリットは,bsrによるtvmの拡張によって実現されなければならないこと,また,vanilla pytorchと比較して4倍のスピードアップ,標準のtvmコンパイルと比較して2.2倍のスピードアップ(拡張されたbsrサポートなしで)が実現可能であること,の確認。 2) BERTアテンション重みの場合、このCPU推論コンテキストにおけるエンドツーエンドのブロック間隔の形状は、正方ブロックではなく、線形32x1ブロックである。 性能とブロックサイズ/形状の関係は、タスクスケジューラ最適化とモデル正規化パラメータがどのように相互作用するかが示唆される。

Reducing computation cost, inference latency, and memory footprint of neural networks are frequently cited as research motivations for pruning and sparsity. However, operationalizing those benefits and understanding the end-to-end effect of algorithm design and regularization on the runtime execution is not often examined in depth. Here we apply structured and unstructured pruning to attention weights of transformer blocks of the BERT language model, while also expanding block sparse representation (BSR) operations in the TVM compiler. Integration of BSR operations enables the TVM runtime execution to leverage structured pattern sparsity induced by model regularization. This integrated view of pruning algorithms enables us to study relationships between modeling decisions and their direct impact on sparsity-enhanced execution. Our main findings are: 1) we validate that performance benefits of structured sparsity block regularization must be enabled by the BSR augmentations to TVM, with 4x speedup relative to vanilla PyTorch and 2.2x speedup relative to standard TVM compilation (without expanded BSR support). 2) for BERT attention weights, the end-to-end optimal block sparsity shape in this CPU inference context is not a square block (as in \cite{gray2017gpu}) but rather a linear 32x1 block 3) the relationship between performance and block size / shape is is suggestive of how model regularization parameters interact with task scheduler optimizations resulting in the observed end-to-end performance.
翻訳日:2021-06-17 17:46:48 公開日:2021-06-16
# マルチタスク学習とメタラーニングの橋渡し:効率的なトレーニングと効果的な適応に向けて

Bridging Multi-Task Learning and Meta-Learning: Towards Efficient Training and Effective Adaptation ( http://arxiv.org/abs/2106.09017v1 )

ライセンス: Link先を確認
Haoxiang Wang, Han Zhao, Bo Li(参考訳) マルチタスク学習(MTL)は、複数のタスクを共同で学習することで一般化することを目的としている。 比較として、ジョイントトレーニングスキームに加えて、現代のメタラーニングは、テストフェーズ中に限られたラベルを持つ見知らぬタスクを許容し、それらに対する迅速な適応を期待する。 問題定式化におけるMTLとメタラーニングの微妙な違いにもかかわらず、両方の学習パラダイムは、既存のトレーニングタスク間の共有構造がより一般化と適応をもたらすという知見を共有している。 本稿では,この2つの学習パラダイムの密接な関係を理解するために,理論的解析と実証的研究の両面から重要な一歩を踏み出した。 理論的には、MTLはグラデーションベースメタラーニング(GBML)アルゴリズムのクラスと同じ最適化形式を共有している。 そして、十分な深さを持つ過パラメータニューラルネットワークの場合、MTLとGBMLの学習された予測関数は近いことを証明した。 特に、この結果は、この2つのモデルによって与えられる予測が、同じ未知のタスクよりも類似していることを示している。 実験により,MTLは,適切な実装により,いくつかの画像分類ベンチマークにおいて,最先端のGBMLアルゴリズムと競合することを示した。 既存のGBMLアルゴリズムは2階二段最適化にコストがかかることが多いため、私たちの一階MTL法はmini-ImageNetのような大規模データセットよりも桁違いに高速である。 この作業は、これらの2つの学習パラダイムのギャップを埋め、高速なタスク適応をサポートするGBMLに代わる計算効率の良い代替手段を提供するのに役立つと考えています。

Multi-task learning (MTL) aims to improve the generalization of several related tasks by learning them jointly. As a comparison, in addition to the joint training scheme, modern meta-learning allows unseen tasks with limited labels during the test phase, in the hope of fast adaptation over them. Despite the subtle difference between MTL and meta-learning in the problem formulation, both learning paradigms share the same insight that the shared structure between existing training tasks could lead to better generalization and adaptation. In this paper, we take one important step further to understand the close connection between these two learning paradigms, through both theoretical analysis and empirical investigation. Theoretically, we first demonstrate that MTL shares the same optimization formulation with a class of gradient-based meta-learning (GBML) algorithms. We then prove that for over-parameterized neural networks with sufficient depth, the learned predictive functions of MTL and GBML are close. In particular, this result implies that the predictions given by these two models are similar over the same unseen task. Empirically, we corroborate our theoretical findings by showing that, with proper implementation, MTL is competitive against state-of-the-art GBML algorithms on a set of few-shot image classification benchmarks. Since existing GBML algorithms often involve costly second-order bi-level optimization, our first-order MTL method is an order of magnitude faster on large-scale datasets such as mini-ImageNet. We believe this work could help bridge the gap between these two learning paradigms, and provide a computationally efficient alternative to GBML that also supports fast task adaptation.
翻訳日:2021-06-17 17:46:20 公開日:2021-06-16
# モバイル拡張現実:ユーザインターフェース、フレームワーク、インテリジェンス

Mobile Augmented Reality: User Interfaces, Frameworks, and Intelligence ( http://arxiv.org/abs/2106.08710v1 )

ライセンス: Link先を確認
Jacky Cao, Kit-Yung Lam, Lik-Hang Lee, Xiaoli Liu, Pan Hui, Xiang Su(参考訳) Mobile Augmented Reality (MAR)は、コンピュータ生成された仮想オブジェクトとモバイルデバイスの物理的環境を統合する。 marシステムは、スマートフォンやヘッドウォーンウェアラブルなどのmarデバイスと対話でき、物理的な世界からデジタルエンティティとの混成世界へのシームレスな移行を可能にする。 これらのMARシステムは、デジタルコンテンツへのユニバーサルアクセシビリティを提供するために、MARデバイスを使用してユーザエクスペリエンスをサポートする。 過去20年にわたり、多くのmarシステムが開発されてきたが、marフレームワークの研究と設計はまだユーザー中心の設計の観点から体系的に検討されていない。 This article presents the first effort of surveying existing MAR frameworks (count: 37) and further discusses the latest studies on MAR through a top-down approach: 1) MAR applications; 2) MAR visualisation techniques adaptive to user mobility and contexts; 3) systematic evaluation of MAR frameworks including supported platforms and corresponding features such as tracking, feature extraction plus sensing capabilities; and 4) underlying machine learning approaches supporting intelligent operations within MAR systems. 最後に,最新の研究分野である最先端技術の発展を概説し,オープンな課題と理論的,技術的方向性について論じる。 この調査は、研究者とMARシステム開発者の両方に利益をもたらすことを目的としている。

Mobile Augmented Reality (MAR) integrates computer-generated virtual objects with physical environments for mobile devices. MAR systems enable users to interact with MAR devices, such as smartphones and head-worn wearables, and performs seamless transitions from the physical world to a mixed world with digital entities. These MAR systems support user experiences by using MAR devices to provide universal accessibility to digital contents. Over the past 20 years, a number of MAR systems have been developed, however, the studies and design of MAR frameworks have not yet been systematically reviewed from the perspective of user-centric design. This article presents the first effort of surveying existing MAR frameworks (count: 37) and further discusses the latest studies on MAR through a top-down approach: 1) MAR applications; 2) MAR visualisation techniques adaptive to user mobility and contexts; 3) systematic evaluation of MAR frameworks including supported platforms and corresponding features such as tracking, feature extraction plus sensing capabilities; and 4) underlying machine learning approaches supporting intelligent operations within MAR systems. Finally, we summarise the development of emerging research fields, current state-of-the-art, and discuss the important open challenges and possible theoretical and technical directions. This survey aims to benefit both researchers and MAR system developers alike.
翻訳日:2021-06-17 17:45:51 公開日:2021-06-16
# 相関対応対話要約

Coreference-Aware Dialogue Summarization ( http://arxiv.org/abs/2106.08556v1 )

ライセンス: Link先を確認
Zhengyuan Liu, Ke Shi, Nancy F. Chen(参考訳) ニューラルアプローチによる会話の要約は近年研究の原動力となっているが、実際的な解決策を得るのは難しい。 そのような課題の例としては、対話における非構造化情報交換、話者間の非公式な対話、対話の発展に伴う話者の役割の変化などがある。 このような課題の多くは複雑なコア参照リンクをもたらす。 そこで本研究では,上記の課題に取り組むために,神経抽象的対話要約モデルにコリファレンス情報を明示的に組み込むための異なるアプローチについて検討する。 実験結果から,提案手法は対話要約におけるコア参照情報の利用に有用であることが示唆された。 事実的正確性の評価結果から,このようなコリファレンス・アウェアモデルが,対話者間の情報フローを追跡し,適切な状況/行動と対応する対話者および人物の言及を関連付ける上で優れていることが示唆された。

Summarizing conversations via neural approaches has been gaining research traction lately, yet it is still challenging to obtain practical solutions. Examples of such challenges include unstructured information exchange in dialogues, informal interactions between speakers, and dynamic role changes of speakers as the dialogue evolves. Many of such challenges result in complex coreference links. Therefore, in this work, we investigate different approaches to explicitly incorporate coreference information in neural abstractive dialogue summarization models to tackle the aforementioned challenges. Experimental results show that the proposed approaches achieve state-of-the-art performance, implying it is useful to utilize coreference information in dialogue summarization. Evaluation results on factual correctness suggest such coreference-aware models are better at tracing the information flow among interlocutors and associating accurate status/actions with the corresponding interlocutors and person mentions.
翻訳日:2021-06-17 17:45:05 公開日:2021-06-16
# SEOVER: 文レベル感情指向ベクトルに基づく会話感情認識モデル

SEOVER: Sentence-level Emotion Orientation Vector based Conversation Emotion Recognition Model ( http://arxiv.org/abs/2106.08785v1 )

ライセンス: Link先を確認
Zaijing Li, Fengxiao Tang, Tieyu Sun, Yusen Zhu, Ming Zhao(参考訳) 本稿では, 会話感情認識の課題として, 話者関係モデリングに焦点をあてる一方で, 発話の感情傾向の役割を無視すること, 文ベクトル間の感情相関をモデル化するための文レベル感情指向ベクトルの新しい表現パラダイムを提案する。 そこで我々は,言語モデルから文レベル感情指向ベクトルを抽出し,対話感情分析モデルから共同で学習し,会話中の話者の感情指向を識別するために文レベル感情指向ベクトルを抽出する感情認識モデルの設計を行った。 2つのベンチマークデータセットで実験を行い、それらを5つのベースラインモデルと比較し、実験結果から、我々のモデルは全てのデータセットでより良い性能を示すことが示された。

For the task of conversation emotion recognition, recent works focus on speaker relationship modeling but ignore the role of utterance's emotional tendency.In this paper, we propose a new expression paradigm of sentence-level emotion orientation vector to model the potential correlation of emotions between sentence vectors. Based on it, we design an emotion recognition model, which extracts the sentence-level emotion orientation vectors from the language model and jointly learns from the dialogue sentiment analysis model and extracted sentence-level emotion orientation vectors to identify the speaker's emotional orientation during the conversation. We conduct experiments on two benchmark datasets and compare them with the five baseline models.The experimental results show that our model has better performance on all data sets.
翻訳日:2021-06-17 17:44:49 公開日:2021-06-16
# ICDAR 2021 文書写真のコンポーネント分割作業に関するコンペティション

ICDAR 2021 Competition on Components Segmentation Task of Document Photos ( http://arxiv.org/abs/2106.08499v1 )

ライセンス: Link先を確認
Celso A. M. Lopes Junior, Ricardo B. das Neves Junior, Byron L. D. Bezerra, Alejandro H. Toselli, Donato Impedovo(参考訳) 本稿では,第16回文書解析・認識国際会議(ICDAR 2021)の文脈で作成された文書写真のコンポーネント分割タスクに関する短期的コンペについて述べる。 このコンペティションは、識別文書画像処理の申請に携わる研究者を集め、文書画像の構成要素分割タスクにおいて、それらの技術を比較するのに適したベンチマークを提供する。 提供されたデータセット上で実行される異なるセグメンテーション割り当てを含む3つの課題タスクが提案された。 収集されたデータはブラジルのいくつかのID文書のもので、その個人情報は便利に交換された。 参加者は16名で,3つのタスクのそれぞれについて,Dice similarity Coefficientが0.06から0.99まで,それぞれ異なるレートで評価された。 それぞれのタスクで最高の結果を達成するために、さまざまな戦略を持つ参加者によって異なるディープラーニングモデルが適用された。 その結果,提案する課題(文書境界検出)の解法がすでに十分に確立されていることがわかった。 しかし、他の2つの課題(テキストゾーンと手書きサイン検出)に対して、より堅牢なアプローチの研究と開発は、受け入れられる結果を得るためには依然として必要である。

This paper describes the short-term competition on Components Segmentation Task of Document Photos that was prepared in the context of the 16th International Conference on Document Analysis and Recognition (ICDAR 2021). This competition aims to bring together researchers working on the filed of identification document image processing and provides them a suitable benchmark to compare their techniques on the component segmentation task of document images. Three challenge tasks were proposed entailing different segmentation assignments to be performed on a provided dataset. The collected data are from several types of Brazilian ID documents, whose personal information was conveniently replaced. There were 16 participants whose results obtained for some or all the three tasks show different rates for the adopted metrics, like Dice Similarity Coefficient ranging from 0.06 to 0.99. Different Deep Learning models were applied by the entrants with diverse strategies to achieve the best results in each of the tasks. Obtained results show that the current applied methods for solving one of the proposed tasks (document boundary detection) are already well stablished. However, for the other two challenge tasks (text zone and handwritten sign detection) research and development of more robust approaches are still required to achieve acceptable results.
翻訳日:2021-06-17 17:44:38 公開日:2021-06-16
# ECKPN: トランスダクティブFew-shot学習のための明示的なクラス知識伝達ネットワーク

ECKPN: Explicit Class Knowledge Propagation Network for Transductive Few-shot Learning ( http://arxiv.org/abs/2106.08523v1 )

ライセンス: Link先を確認
Chaofan Chen, Xiaoshan Yang, Changsheng Xu, Xuhui Huang, Zhe Ma(参考訳) 近年, トランスダクティブグラフに基づく手法が, マイナショット分類タスクにおいて大きな成功を収めている。 しかし、既存のほとんどの手法は、少数のサンプルから人間が容易に学べるクラスレベルの知識を探索することを無視している。 本稿では,この問題に対処するために,比較・圧縮・校正モジュールからなる明示的クラス知識伝搬ネットワーク(ECKPN)を提案する。 具体的には、まず比較モジュールを使用してペアワイズサンプル関係を調べ、インスタンスレベルのグラフでリッチなサンプル表現を学習します。 次に、インスタンスレベルのグラフを絞ってクラスレベルのグラフを生成し、クラスレベルの視覚的知識を取得し、異なるクラスの関係をモデル化するのに役立つ。 次に、キャリブレーションモジュールを用いて、クラス間の関係を明示的に特徴付け、より識別的なクラスレベルの知識表現を得る。 最後に、クラスレベルの知識とインスタンスレベルのサンプル表現を組み合わせて、クエリサンプルの推論をガイドします。 筆者らは,4つの数ショット分類ベンチマークについて広範な実験を行い,提案したECKPNが最先端の手法よりも優れていることを示す実験結果を得た。

Recently, the transductive graph-based methods have achieved great success in the few-shot classification task. However, most existing methods ignore exploring the class-level knowledge that can be easily learned by humans from just a handful of samples. In this paper, we propose an Explicit Class Knowledge Propagation Network (ECKPN), which is composed of the comparison, squeeze and calibration modules, to address this problem. Specifically, we first employ the comparison module to explore the pairwise sample relations to learn rich sample representations in the instance-level graph. Then, we squeeze the instance-level graph to generate the class-level graph, which can help obtain the class-level visual knowledge and facilitate modeling the relations of different classes. Next, the calibration module is adopted to characterize the relations of the classes explicitly to obtain the more discriminative class-level knowledge representations. Finally, we combine the class-level knowledge with the instance-level sample representations to guide the inference of the query samples. We conduct extensive experiments on four few-shot classification benchmarks, and the experimental results show that the proposed ECKPN significantly outperforms the state-of-the-art methods.
翻訳日:2021-06-17 17:44:09 公開日:2021-06-16
# PatchNet: パッチ埋め込みに基づく教師なしオブジェクトディスカバリ

PatchNet: Unsupervised Object Discovery based on Patch Embedding ( http://arxiv.org/abs/2106.08599v1 )

ライセンス: Link先を確認
Hankyu Moon, Heng Hao, Sima Didari, Jae Oh Woo, Patrick Bangert(参考訳) 少数の画像(100から200)からランダムにサンプリングされたパッチを自己監督でトレーニングすることで、頻繁に現れる物体が発見できることを実証する。 このアプローチの鍵は、与えられた画像データのすべての可能なサブイメージを表すパターンの潜在空間であるパターン空間である。 パターン空間における距離構造は、頻繁なオブジェクトによるパターンの共起を捉える。 ランダムに生成された隣接パッチ間のコントラスト損失を最小化することにより、パターン空間埋め込みを学習する。 組込みが背景を学習するのを防ぐため,色に基づく物体の鮮度と背景の相違によるコントラスト損失を変調する。 学習された距離構造はオブジェクトメモリとして機能し、頻繁なオブジェクトは推論のためにサンプリングされたランダムなパッチからパターンベクトルをクラスタリングすることで簡単に見つかる。 画像パッチに基づく画像表現は,マルチオブジェクト発見に不可欠な位置とスケール不変性を自然に処理する。 この方法は驚くほど効果的であることが証明され、自然画像から複数の人間の顔や身体を見つけるのに成功している。

We demonstrate that frequently appearing objects can be discovered by training randomly sampled patches from a small number of images (100 to 200) by self-supervision. Key to this approach is the pattern space, a latent space of patterns that represents all possible sub-images of the given image data. The distance structure in the pattern space captures the co-occurrence of patterns due to the frequent objects. The pattern space embedding is learned by minimizing the contrastive loss between randomly generated adjacent patches. To prevent the embedding from learning the background, we modulate the contrastive loss by color-based object saliency and background dissimilarity. The learned distance structure serves as object memory, and the frequent objects are simply discovered by clustering the pattern vectors from the random patches sampled for inference. Our image representation based on image patches naturally handles the position and scale invariance property that is crucial to multi-object discovery. The method has been proven surprisingly effective, and successfully applied to finding multiple human faces and bodies from natural images.
翻訳日:2021-06-17 17:43:50 公開日:2021-06-16
# 画像分類における不確かさ推論のための構造化DropConnect

Structured DropConnect for Uncertainty Inference in Image Classification ( http://arxiv.org/abs/2106.08624v1 )

ライセンス: Link先を確認
Wenqing Zheng, Jiyang Xie, Weidong Liu, Zhanyu Ma(参考訳) ネットワーク構造の複雑さにより、不確実性推論は人工知能システムの分類精度を向上させる重要な課題となっている。 画像分類タスクにおいて,ディリクレ分布によるディープニューラルネットワークの出力をモデル化する構造化DropConnect(SDC)フレームワークを提案する。 トレーニング中に,完全連結層における重み付けに関するdropconnect戦略を導入する。 テストでは、ネットワークを複数のサブネットワークに分割し、そのモーメントとそれらのサブネットワークの出力の平均と分散を一致させてディリクレ分布をモデル化する。 推定ディリクレ分布のエントロピーは、最終的に不確実性推論に利用される。 本稿では,MNIST と CIFAR のデータセットにおける誤分類検出とアウト・オブ・ディストリビューション検出のための LeNet$5$ と VGG$16$ モデルで実装した。 実験の結果,提案するsdcの性能は他の不確実性推定法と比較できることがわかった。 さらに、SDCは特定の一般化能力と研究の展望を持つ異なるネットワーク構造に適応している。

With the complexity of the network structure, uncertainty inference has become an important task to improve the classification accuracy for artificial intelligence systems. For image classification tasks, we propose a structured DropConnect (SDC) framework to model the output of a deep neural network by a Dirichlet distribution. We introduce a DropConnect strategy on weights in the fully connected layers during training. In test, we split the network into several sub-networks, and then model the Dirichlet distribution by match its moments with the mean and variance of the outputs of these sub-networks. The entropy of the estimated Dirichlet distribution is finally utilized for uncertainty inference. In this paper, this framework is implemented on LeNet$5$ and VGG$16$ models for misclassification detection and out-of-distribution detection on MNIST and CIFAR-$10$ datasets. Experimental results show that the performance of the proposed SDC can be comparable to other uncertainty inference methods. Furthermore, the SDC is adapted well to different network structures with certain generalization capabilities and research prospects.
翻訳日:2021-06-17 17:43:34 公開日:2021-06-16
# グラフ構造的洞察に基づくマルチラベル予測と分類による教師なし人物再同定

Unsupervised Person Re-identification via Multi-Label Prediction and Classification based on Graph-Structural Insight ( http://arxiv.org/abs/2106.08798v1 )

ライセンス: Link先を確認
Jongmin Yu and Hyeontaek Oh(参考訳) 本稿では,多ラベル予測とグラフ構造的洞察に基づく分類を用いた教師なし人物再識別(Re-ID)について述べる。 本手法では,人物画像から特徴を抽出し,特徴点と特徴点の相似性からなるグラフをノードとエッジとして生成する。 このグラフに基づいて,提案するグラフ構造に基づくマルチラベル予測 (gsmlp) 法は,各ノードの相似性と隣接ノード分布を考慮したマルチラベル予測を行う。 GSMLPによって作成されたマルチラベルは、提案した選択的マルチラベル分類(SMLC)損失に適用される。 SMLCは、ハードサンプルマイニングスキームとマルチラベル分類を統合している。 提案したGSMLPとSMLCは、事前ラベル付きデータセットなしで教師なしのRe-IDのパフォーマンスを向上させる。 実験により, 教師なしのRe-IDにおける提案手法の優位性を, 最先端の性能で正当化する。 本論文のソースコードは 'https://github.com/u knownpioneer/GSMLP-S MLC.git' で公開されている。

This paper addresses unsupervised person re-identification (Re-ID) using multi-label prediction and classification based on graph-structural insight. Our method extracts features from person images and produces a graph that consists of the features and a pairwise similarity of them as nodes and edges, respectively. Based on the graph, the proposed graph structure based multi-label prediction (GSMLP) method predicts multi-labels by considering the pairwise similarity and the adjacency node distribution of each node. The multi-labels created by GSMLP are applied to the proposed selective multi-label classification (SMLC) loss. SMLC integrates a hard-sample mining scheme and a multi-label classification. The proposed GSMLP and SMLC boost the performance of unsupervised person Re-ID without any pre-labelled dataset. Experimental results justify the superiority of the proposed method in unsupervised person Re-ID by producing state-of-the-art performance. The source code for this paper is publicly available on 'https://github.com/u knownpioneer/GSMLP-S MLC.git'.
翻訳日:2021-06-17 17:43:20 公開日:2021-06-16
# テキストモデリングのための離散自己回帰変動注意モデル

Discrete Auto-regressive Variational Attention Models for Text Modeling ( http://arxiv.org/abs/2106.08571v1 )

ライセンス: Link先を確認
Xianghong Fang and Haoli Bai and Jian Li and Zenglin Xu and Michael Lyu and Irwin King(参考訳) 変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。 しかし実際には、情報不足と後方崩壊という2つの課題に悩んでいる。 前者はLSTMエンコーダの最後の隠れ状態のみが潜在空間に変換されるため、概してデータを要約するには不十分である。 後者は、vaesのトレーニング中の長期にわたる問題であり、最適化は悲惨な局所的最適化に捕捉される。 本稿では,DAVAM(Disdisrete Auto-Regressive Variational Attention Model)を提案する。 具体的には,入力から意味的依存を効果的に捉え,潜在空間を豊かにするために,自己回帰的変分的注意アプローチを導入する。 さらに, 変分注意のための離散潜在空間の設計を行い, モデルが後方崩壊から自由であることを数学的に示す。 言語モデリングタスクに関する大規模な実験は、複数のVAEタスクに対するDAAMの優位性を実証している。

Variational autoencoders (VAEs) have been widely applied for text modeling. In practice, however, they are troubled by two challenges: information underrepresentation and posterior collapse. The former arises as only the last hidden state of LSTM encoder is transformed into the latent space, which is generally insufficient to summarize the data. The latter is a long-standing problem during the training of VAEs as the optimization is trapped to a disastrous local optimum. In this paper, we propose Discrete Auto-regressive Variational Attention Model (DAVAM) to address the challenges. Specifically, we introduce an auto-regressive variational attention approach to enrich the latent space by effectively capturing the semantic dependency from the input. We further design discrete latent space for the variational attention and mathematically show that our model is free from posterior collapse. Extensive experiments on language modeling tasks demonstrate the superiority of DAVAM against several VAE counterparts.
翻訳日:2021-06-17 17:43:06 公開日:2021-06-16
# LSTM LMの長期学習能力について

On the long-term learning ability of LSTM LMs ( http://arxiv.org/abs/2106.08927v1 )

ライセンス: Link先を確認
Wim Boes, Robbe Van Rompaey, Lyan Verwimp, Joris Pelemans, Hugo Van hamme, Patrick Wambacq(参考訳) 文と談話レベルのlstm lmsの連続的バガ・オブ・ワード(cbow)モデルに基づく文脈拡張の評価と、その性能分析により、長期短期記憶言語モデル(lstm lms)の長期学習能力を検証した。 私たちはテキストと音声で評価する。 長期的文脈モジュールを用いた文レベルモデルは、バニラ談話レベルLSTM LMと同等に動作する。 一方、この拡張は談話レベルのモデルに対して利得を提供しない。 これらの結果から,言論レベルのLSTM LMは長期学習にコンテキスト情報に既に依存していることが示唆された。

We inspect the long-term learning ability of Long Short-Term Memory language models (LSTM LMs) by evaluating a contextual extension based on the Continuous Bag-of-Words (CBOW) model for both sentence- and discourse-level LSTM LMs and by analyzing its performance. We evaluate on text and speech. Sentence-level models using the long-term contextual module perform comparably to vanilla discourse-level LSTM LMs. On the other hand, the extension does not provide gains for discourse-level models. These findings indicate that discourse-level LSTM LMs already rely on contextual information to perform long-term learning.
翻訳日:2021-06-17 17:42:52 公開日:2021-06-16
# 解釈可能な機械学習のための忠実度評価手法の開発

Developing a Fidelity Evaluation Approach for Interpretable Machine Learning ( http://arxiv.org/abs/2106.08492v1 )

ライセンス: Link先を確認
Mythreyi Velmurugan and Chun Ouyang and Catarina Moreira and Renuka Sindhgatta(参考訳) 最近の機械学習とディープラーニングは、複雑で深いデータ分析を可能にするが、これらの方法によって生成された予測モデルは、しばしば非常に複雑であり、透明性を欠いている。 説明可能なAI(XAI)メソッドは、これらの複雑なモデルの解釈可能性を改善するために使用され、それによって透明性が向上する。 しかし、これらの説明可能な方法の固有の適合性を評価するのは難しい。 特に、基礎となるブラックボックスに対する説明の忠実性を評価するには、特に表データに対するさらなる開発が必要である。 本稿では, (a) 評価手法開発のための3段階のアプローチを提案し, (b) 画像およびテキストデータを対象とした既存の評価手法を適用し, (c) 評価手法を用いた2つの一般的な説明可能なモデルの評価を行う。 本評価は, 基礎となる予測モデルの内部メカニズム, 使用法の内部メカニズム, モデルおよびデータの複雑さが, すべて説明忠実性に影響を与えることを示唆している。 説明の忠実さがコンテキストやツールやデータに非常に敏感であることを考えると、特定の説明可能なメソッドが他よりも優れていると明確に識別することはできない。

Although modern machine learning and deep learning methods allow for complex and in-depth data analytics, the predictive models generated by these methods are often highly complex, and lack transparency. Explainable AI (XAI) methods are used to improve the interpretability of these complex models, and in doing so improve transparency. However, the inherent fitness of these explainable methods can be hard to evaluate. In particular, methods to evaluate the fidelity of the explanation to the underlying black box require further development, especially for tabular data. In this paper, we (a) propose a three phase approach to developing an evaluation method; (b) adapt an existing evaluation method primarily for image and text data to evaluate models trained on tabular data; and (c) evaluate two popular explainable methods using this evaluation method. Our evaluations suggest that the internal mechanism of the underlying predictive model, the internal mechanism of the explainable method used and model and data complexity all affect explanation fidelity. Given that explanation fidelity is so sensitive to context and tools and data used, we could not clearly identify any specific explainable method as being superior to another.
翻訳日:2021-06-17 17:42:41 公開日:2021-06-16
# コントラストリンクから自己知識を抽出して、メッセージの通過なしにグラフノードを分類する

Distilling Self-Knowledge From Contrastive Links to Classify Graph Nodes Without Passing Messages ( http://arxiv.org/abs/2106.08541v1 )

ライセンス: Link先を確認
Yi Luo, Aiguo Chen, Ke Yan, Ling Tian(参考訳) 今日では、メッセージパッシングパラダイムに続くグラフニューラルネットワーク(GNN)が、グラフィックデータについて学ぶ主要な方法となっている。 このパラダイムのモデルでは、隣接ノードを隣接行列で調べるための余分なスペースと、隣接ノードから複数のメッセージを集約するための余分な時間が必要です。 この問題を解決するために、LinkDistと呼ばれる手法を開発し、接続ノード対からメッセージの集約を必要とせずに、自己知識をMLP(Multi-Layer Perceptron)に変換する。 実世界の8つのデータセットを用いた実験では、LinkDistから派生したMLPは、その隣接性を知らずにノードのラベルを予測できるが、半教師付きノード分類と完全教師付きノード分類のコンテキストにおいて、GNNに対して同等の精度を達成する。 さらに、LinkDistは非Message Passingパラダイムの利点として、任意にサンプリングされたノードペアから自己知識を不要にすることで、LinkDistの性能をさらに向上することができる。

Nowadays, Graph Neural Networks (GNNs) following the Message Passing paradigm become the dominant way to learn on graphic data. Models in this paradigm have to spend extra space to look up adjacent nodes with adjacency matrices and extra time to aggregate multiple messages from adjacent nodes. To address this issue, we develop a method called LinkDist that distils self-knowledge from connected node pairs into a Multi-Layer Perceptron (MLP) without the need to aggregate messages. Experiment with 8 real-world datasets shows the MLP derived from LinkDist can predict the label of a node without knowing its adjacencies but achieve comparable accuracy against GNNs in the contexts of semi- and full-supervised node classification. Moreover, LinkDist benefits from its Non-Message Passing paradigm that we can also distil self-knowledge from arbitrarily sampled node pairs in a contrastive way to further boost the performance of LinkDist.
翻訳日:2021-06-17 17:42:22 公開日:2021-06-16
# 適応可視性グラフニューラルネットワークとその変調分類への応用

Adaptive Visibility Graph Neural Network and It's Application in Modulation Classification ( http://arxiv.org/abs/2106.08564v1 )

ライセンス: Link先を確認
Qi Xuan, Kunfeng Qiu, Jinchao Zhou, Zhuangzhi Chen, Dongwei Xu, Shilian Zheng, Xiaoniu Yang(参考訳) 私たちのデジタル世界は、多くの複雑なシステムの様々な側面を捉えた時系列とグラフでいっぱいです。 従来、リカレントニューラルネットワーク(RNN)やグラフニューラルネットワーク(GNN)といった2つの異なるタイプのデータを処理する方法があるが、近年では、可視グラフ(VG)のような技術を用いて時系列をグラフにマッピングすることで、研究者はグラフアルゴリズムを使って時系列の知識をマイニングできるようになっている。 このようなマッピング手法は時系列とグラフの間のブリッジを確立し、様々な実世界の時系列の分析を容易にする高いポテンシャルを持つ。 しかしながら、VGメソッドとその変種は、単に一定のルールに基づいており、柔軟性が欠如しているため、アプリケーションの現実性はほとんど制限されない。 本稿では,GNNモデルDiffPoolを用いて,時系列をグラフに適応的にマッピング可能な適応可視グラフ(AVG)アルゴリズムを提案する。 次に,無線通信分野において重要な課題である無線信号変調分類にAVGNetを採用する。 シミュレーションにより、AVGNetは一連の高度なディープラーニング手法よりも優れており、このタスクにおける最先端のパフォーマンスを達成することができる。

Our digital world is full of time series and graphs which capture the various aspects of many complex systems. Traditionally, there are respective methods in processing these two different types of data, e.g., Recurrent Neural Network (RNN) and Graph Neural Network (GNN), while in recent years, time series could be mapped to graphs by using the techniques such as Visibility Graph (VG), so that researchers can use graph algorithms to mine the knowledge in time series. Such mapping methods establish a bridge between time series and graphs, and have high potential to facilitate the analysis of various real-world time series. However, the VG method and its variants are just based on fixed rules and thus lack of flexibility, largely limiting their application in reality. In this paper, we propose an Adaptive Visibility Graph (AVG) algorithm that can adaptively map time series into graphs, based on which we further establish an end-to-end classification framework AVGNet, by utilizing GNN model DiffPool as the classifier. We then adopt AVGNet for radio signal modulation classification which is an important task in the field of wireless communication. The simulations validate that AVGNet outperforms a series of advanced deep learning methods, achieving the state-of-the-art performance in this task.
翻訳日:2021-06-17 17:42:04 公開日:2021-06-16
# tso: 連続最適化によるカリキュラム生成

TSO: Curriculum Generation using continuous optimization ( http://arxiv.org/abs/2106.08569v1 )

ライセンス: Link先を確認
Dipankar Sarkar, Mukur Gupta(参考訳) ディープラーニングモデルのトレーニングは、パラメータチューニングとトレーニングデータの順序付けを含む、大きな課題を引き起こす。 トレーニングデータのシーケンスを最適化するためのカリキュラム学習において、重要な研究がなされている。 最近の研究は、複雑な強化学習技術を用いて、与えられたネットワークの学習を最大化する最適なデータ順序付け戦略を見つけることに重点を置いている。 本稿では,連続最適化に基づく簡便かつ効率的な手法を提案する。 この新しいアプローチをトレーニングシーケンス最適化(TSO)と呼ぶ。 提案手法には3つの重要な要素がある。 (a) エンコーダネットワークのトレーニングシーケンスを連続空間にマップ/組込みする。 b) 予測ネットワークは、戦略の連続表現を入力として使用し、固定ネットワークアーキテクチャの精度を予測する。 (c)デコーダは、さらに戦略の連続表現を順序付けられたトレーニングデータセットにマッピングする。 性能予測器およびエンコーダにより、連続空間における勾配に基づく最適化を行い、最適トレーニングデータの埋め込みをより精度良く見つけることができる。 実験の結果, CIFAR-100データセットを用いたランダム戦略に対して, 得られた最適カリキュラム戦略で2APを得ることができ, CLアルゴリズムの状況よりも向上できることがわかった。 我々は,我々のアプローチのロバスト性を示すアーキテクチャ,データセット,サンプルサイズを変化させたアブレーション研究を行う。

The training of deep learning models poses vast challenges of including parameter tuning and ordering of training data. Significant research has been done in Curriculum learning for optimizing the sequence of training data. Recent works have focused on using complex reinforcement learning techniques to find the optimal data ordering strategy to maximize learning for a given network. In this paper, we present a simple and efficient technique based on continuous optimization. We call this new approach Training Sequence Optimization (TSO). There are three critical components in our proposed approach: (a) An encoder network maps/embeds training sequence into continuous space. (b) A predictor network uses the continuous representation of a strategy as input and predicts the accuracy for fixed network architecture. (c) A decoder further maps a continuous representation of a strategy to the ordered training dataset. The performance predictor and encoder enable us to perform gradient-based optimization in the continuous space to find the embedding of optimal training data ordering with potentially better accuracy. Experiments show that we can gain 2AP with our generated optimal curriculum strategy over the random strategy using the CIFAR-100 dataset and have better boosts than the state of the art CL algorithms. We do an ablation study varying the architecture, dataset and sample sizes showcasing our approach's robustness.
翻訳日:2021-06-17 17:41:42 公開日:2021-06-16
# マルコフバンドの強化学習:後方サンプリングは楽観主義よりもスケーラブルか?

Reinforcement Learning for Markovian Bandits: Is Posterior Sampling more Scalable than Optimism? ( http://arxiv.org/abs/2106.08771v1 )

ライセンス: Link先を確認
Nicolas Gast (POLARIS), Bruno Gaujal (POLARIS), Kimang Khun (POLARIS)(参考訳) 古典マルコフ帯域問題に対する学習アルゴリズムを割引で検討する。 本稿では, PSRL [24] と UCRL2 [2] を適用し, 問題構造を利用する方法について説明する。 これらの変種はMB-PSRLとMB-UCRL2と呼ばれる。 PSRL と UCRL2 のバニラ実装の後悔と実行は、バンドイット数で指数関数的であるが、MB-PSRL と MB-UCRL2 のエピソディックな後悔は、K がエピソード数、n がバンドイット数、S が各バンドイットの状態数である(S, n と K の正確な境界は、論文の中で与えられる)。 最大で$\sqrt$ s とすると、これは論文で導かれる$\omega$($\sqrt$ snk) の下限に一致する。 MB-PSRLも計算効率が良く、その実行時間は帯域数で線形である。 さらに、この線形ランタイムは、UCRL2やUCBVIのような古典的非ベイズ的アルゴリズムをマルコフ的帯域問題に適応させることによって達成できないことを示す。 最後に, mb-psrlが後悔時間と計算時間の両方において, 既存のアルゴリズムよりも優れていることを確認する数値実験を行う。

We study learning algorithms for the classical Markovian bandit problem with discount. We explain how to adapt PSRL [24] and UCRL2 [2] to exploit the problem structure. These variants are called MB-PSRL and MB-UCRL2. While the regret bound and runtime of vanilla implementations of PSRL and UCRL2 are exponential in the number of bandits, we show that the episodic regret of MB-PSRL and MB-UCRL2 isÕ(S $\sqrt$ nK) where K is the number of episodes, n is the number of bandits and S is the number of states of each bandit (the exact bound in S, n and K is given in the paper). Up to a factor $\sqrt$ S, this matches the lower bound of $\Omega$($\sqrt$ SnK) that we also derive in the paper. MB-PSRL is also computationally efficient: its runtime is linear in the number of bandits. We further show that this linear runtime cannot be achieved by adapting classical non-Bayesian algorithms such as UCRL2 or UCBVI to Markovian bandit problems. Finally, we perform numerical experiments that confirm that MB-PSRL outperforms other existing algorithms in practice, both in terms of regret and of computation time.
翻訳日:2021-06-17 17:41:25 公開日:2021-06-16
# 汎用音声アシスタントのためのエンドツーエンド音声言語理解

End-to-End Spoken Language Understanding for Generalized Voice Assistants ( http://arxiv.org/abs/2106.09009v1 )

ライセンス: Link先を確認
Michael Saxon, Samridhi Choudhary, Joseph P. McKenna, Athanasios Mouchtaris(参考訳) エンド・ツー・エンド(E2E)音声言語理解システム(SLU)は,単一モデルを用いて発話意味を直接予測する。 この領域のこれまでの研究は、出力セマンティック構造を優先と仮定し、入力音声は限定的な複雑さを持つ固定領域におけるターゲットタスクに焦点を当ててきた。 本研究では,商用音声アシスタント(VA)における一般化SLUのためのE2Eモデルの開発について述べる。 本稿では,asrレベルとnluレベルの両方で事前学習可能な,完全微分可能でトランスフォーマーベースの階層システムを提案する。 これは転写と意味分類の両方の損失に基づいて微調整され、様々な目的と引数の組み合わせを扱う。 これによりSLUシステムは、複雑な内部一般化VAデータセットのベースラインよりも大幅に改善され、精度は43%向上する一方で、一般的なFluent Speech Commandsデータセットの99%の精度ベンチマークを満たしている。 さらに, ハードテストセットにおいて, スロット引数のみを含むモデルを評価し, 20%近くの改善を示すとともに, 本手法が本当に要求されるvaシナリオに有効であることを示す。

End-to-end (E2E) spoken language understanding (SLU) systems predict utterance semantics directly from speech using a single model. Previous work in this area has focused on targeted tasks in fixed domains, where the output semantic structure is assumed a priori and the input speech is of limited complexity. In this work we present our approach to developing an E2E model for generalized SLU in commercial voice assistants (VAs). We propose a fully differentiable, transformer-based, hierarchical system that can be pretrained at both the ASR and NLU levels. This is then fine-tuned on both transcription and semantic classification losses to handle a diverse set of intent and argument combinations. This leads to an SLU system that achieves significant improvements over baselines on a complex internal generalized VA dataset with a 43% improvement in accuracy, while still meeting the 99% accuracy benchmark on the popular Fluent Speech Commands dataset. We further evaluate our model on a hard test set, exclusively containing slot arguments unseen in training, and demonstrate a nearly 20% improvement, showing the efficacy of our approach in truly demanding VA scenarios.
翻訳日:2021-06-17 17:40:21 公開日:2021-06-16
# 3次元MRI分類のための連続プロキシメタデータを用いたコントラスト学習

Contrastive Learning with Continuous Proxy Meta-Data for 3D MRI Classification ( http://arxiv.org/abs/2106.08808v1 )

ライセンス: Link先を確認
Benoit Dufumier, Pietro Gori, Julie Victor, Antoine Grigis, Michel Wessa, Paolo Brambilla, Pauline Favre, Mircea Polosan, Colm McDonald, Camille Marie Piguet, Edouard Duchesnay(参考訳) ディープニューラルネットワークによる従来の教師付き学習は、優れたソリューションに収束するために、膨大なラベル付きデータを必要とする。 3d医療画像の場合、特定の病理学のために大きな均質な注釈付きデータセットを構築することは、しばしば非実用的である。 自己教師付き手法は、ニューラルネットワークを用いて教師なしの方法で画像の表現を学習する新しい方法を提供する。 特に、対照的な学習は、視覚タスクにおける完全な教師付きcnnのパフォーマンスに(ほぼ)マッチする大きな期待を示してきた。 しかし,この手法は,事前知識とみなす参加者の年齢など,利用可能なメタデータを活用できない。 本稿では,y-aware infonce lossと呼ばれる新たな損失を導入することで,コントラスト学習フレームワークにおいて,連続的なプロキシメタデータを活用することを提案する。 特に,類似したプロキシメタデータをアンカーと追加することにより,類似した識別的意味的特徴を仮定して,事前学習中のポジティブサンプリングを改善する。本手法では,10^4$の健常脳のmriスキャンにより,統合失調症,双極性診断,アルツハイマー病の検出という3つの分類課題に関連する特徴を抽出することができる。 微調整された場合、これらのタスクをスクラッチからトレーニングした3D CNNと、最先端の自己管理手法を上回ります。 私たちのコードはここで公開されています。

Traditional supervised learning with deep neural networks requires a tremendous amount of labelled data to converge to a good solution. For 3D medical images, it is often impractical to build a large homogeneous annotated dataset for a specific pathology. Self-supervised methods offer a new way to learn a representation of the images in an unsupervised manner with a neural network. In particular, contrastive learning has shown great promises by (almost) matching the performance of fully-supervised CNN on vision tasks. Nonetheless, this method does not take advantage of available meta-data, such as participant's age, viewed as prior knowledge. Here, we propose to leverage continuous proxy metadata, in the contrastive learning framework, by introducing a new loss called y-Aware InfoNCE loss. Specifically, we improve the positive sampling during pre-training by adding more positive examples with similar proxy meta-data with the anchor, assuming they share similar discriminative semantic features.With our method, a 3D CNN model pre-trained on $10^4$ multi-site healthy brain MRI scans can extract relevant features for three classification tasks: schizophrenia, bipolar diagnosis and Alzheimer's detection. When fine-tuned, it also outperforms 3D CNN trained from scratch on these tasks, as well as state-of-the-art self-supervised methods. Our code is made publicly available here.
翻訳日:2021-06-17 17:40:01 公開日:2021-06-16
# 非PSD行列スケッチと回帰と最適化への応用

Non-PSD Matrix Sketching with Applications to Regression and Optimization ( http://arxiv.org/abs/2106.08544v1 )

ライセンス: Link先を確認
Zhili Feng, Fred Roosta, David P. Woodruff(参考訳) 大きな行列を含む計算に様々な次元性低減技術が適用されている。 基礎となる行列はランダムに小さく圧縮され、元の性質の多くをほぼ保持する。 結果として、高価な計算の多くを小さな行列上で行うことができる。 正半定値行列(PSD)のスケッチはよく理解されているが、複素数を含む回帰応用における非凸最適化におけるヘッセン行列や共分散行列など、関連する行列がPSDではない多くの応用がある。 本稿では,非PSD行列に対する新しい次元性低減法と,複素成分を含む行列を包含する「二乗根」を提案する。 これらの手法を複数のダウンストリームタスクに使用できることを示す。 特に,提案した行列スケッチ手法を凸最適化と非凸最適化の両方に使用する方法,および1 に対して$\ell_p$-regression, ベクトル行列ベクトルクエリについて述べる。

A variety of dimensionality reduction techniques have been applied for computations involving large matrices. The underlying matrix is randomly compressed into a smaller one, while approximately retaining many of its original properties. As a result, much of the expensive computation can be performed on the small matrix. The sketching of positive semidefinite (PSD) matrices is well understood, but there are many applications where the related matrices are not PSD, including Hessian matrices in non-convex optimization and covariance matrices in regression applications involving complex numbers. In this paper, we present novel dimensionality reduction methods for non-PSD matrices, as well as their ``square-roots", which involve matrices with complex entries. We show how these techniques can be used for multiple downstream tasks. In particular, we show how to use the proposed matrix sketching techniques for both convex and non-convex optimization, $\ell_p$-regression for every $1 \leq p \leq \infty$, and vector-matrix-vector queries.
翻訳日:2021-06-17 17:39:01 公開日:2021-06-16
# Ada-BKB: 適応離散化による連続領域のスケーラブルガウスプロセス最適化

Ada-BKB: Scalable Gaussian Process Optimization on Continuous Domain by Adaptive Discretization ( http://arxiv.org/abs/2106.08598v1 )

ライセンス: Link先を確認
Marco Rando, Luigi Carratino, Silvia Villa and Lorenzo Rosasco(参考訳) ガウス過程最適化は成功したアルゴリズムのクラス(例)である。 GP-UCB) は逐次評価によりブラックボックス関数を最適化する。 しかし、関数の領域が連続であるとき、ガウス過程の最適化は空間の固定離散化に依存するか、各評価で非凸最適化部分問題を解く必要がある。 第1のアプローチは性能に悪影響を及ぼすが,第2のアプローチはアルゴリズムに計算負荷を強いる。 理論的に研究されたばかりの第3の選択肢は、適応的に関数領域を識別することである。 このアプローチは、余分な非凸最適化コストを回避するが、全体的な計算複雑性は禁じられている。 GP-UCBのようなアルゴリズムは、$O(T^4)$のランタイムを持ち、$T$は反復数である。 本稿では,Ada-BKB(Adaptive Budgeted Kernelized Bandit)を導入する。これは連続領域上の関数に対する非回帰ガウスプロセス最適化アルゴリズムで,$O(T^2 d_\text{eff}^2)$で確実に動作し,$d_\text{eff}$は探索空間の有効次元であり,典型的には$T$よりもはるかに小さい。 我々は, 合成非凸関数とハイパーパラメータ最適化の実世界問題について実験を行い, この知見を裏付ける。

Gaussian process optimization is a successful class of algorithms (e.g. GP-UCB) to optimize a black-box function through sequential evaluations. However, when the domain of the function is continuous, Gaussian process optimization has to either rely on a fixed discretization of the space, or solve a non-convex optimization subproblem at each evaluation. The first approach can negatively affect performance, while the second one puts a heavy computational burden on the algorithm. A third option, that only recently has been theoretically studied, is to adaptively discretize the function domain. Even though this approach avoids the extra non-convex optimization costs, the overall computational complexity is still prohibitive. An algorithm such as GP-UCB has a runtime of $O(T^4)$, where $T$ is the number of iterations. In this paper, we introduce Ada-BKB (Adaptive Budgeted Kernelized Bandit), a no-regret Gaussian process optimization algorithm for functions on continuous domains, that provably runs in $O(T^2 d_\text{eff}^2)$, where $d_\text{eff}$ is the effective dimension of the explored space, and which is typically much smaller than $T$. We corroborate our findings with experiments on synthetic non-convex functions and on the real-world problem of hyper-parameter optimization.
翻訳日:2021-06-17 17:38:43 公開日:2021-06-16
# ニューラルネットワークと木に基づく分類器のシルエットと準残留プロット

Silhouettes and quasi residual plots for neural nets and tree-based classifiers ( http://arxiv.org/abs/2106.08814v1 )

ライセンス: Link先を確認
Jakob Raymaekers and Peter J. Rousseeuw(参考訳) ニューラルネットワークとツリーベースの手法による分類は、機械学習の強力なツールである。 これらおよび他の分類器の内部動作の興味深い視覚化が存在する。 ここでは、トレーニングデータとテストデータの両方において、分類されたケースを視覚化する、別の目標を追求します。 重要な側面は、あるケースが与えられたクラス(ラベル)に分類されたかどうか、あるいは分類器が別のクラスに割り当てたいかどうかである。 これは代替クラス(PAC)の(条件と後方の)確率に反映される。 高いPACはラベルバイアス、すなわちラベルバイアスを示す。 その事件が誤記された可能性。 PACは、クラスター分析のためのシルエットプロットと精神的に類似したシルエットプロットを構築するために使用される(Rousseeuw, 1987)。 平均シルエット幅は、同じデータセットの異なる分類を比較するために使用できる。 また、pacの擬似的な残差プロットをデータ機能に対して描画することで、データに対するさらなる洞察を得ることができます。 これらのデータ機能の1つは、各ケースが与えられたクラスからどの程度離れているかである。 グラフィカルディスプレイは、画像、混合機能、ツイートを含むベンチマークデータセットで図示され、解釈される。

Classification by neural nets and by tree-based methods are powerful tools of machine learning. There exist interesting visualizations of the inner workings of these and other classifiers. Here we pursue a different goal, which is to visualize the cases being classified, either in training data or in test data. An important aspect is whether a case has been classified to its given class (label) or whether the classifier wants to assign it to different class. This is reflected in the (conditional and posterior) probability of the alternative class (PAC). A high PAC indicates label bias, i.e. the possibility that the case was mislabeled. The PAC is used to construct a silhouette plot which is similar in spirit to the silhouette plot for cluster analysis (Rousseeuw, 1987). The average silhouette width can be used to compare different classifications of the same dataset. We will also draw quasi residual plots of the PAC versus a data feature, which may lead to more insight in the data. One of these data features is how far each case lies from its given class. The graphical displays are illustrated and interpreted on benchmark data sets containing images, mixed features, and tweets.
翻訳日:2021-06-17 17:38:18 公開日:2021-06-16
# 矛盾のある単一クラスデータからの複数クラス分類

Multi-Class Classification from Single-Class Data with Confidences ( http://arxiv.org/abs/2106.08864v1 )

ライセンス: Link先を確認
Yuzhou Cao, Lei Feng, Senlin Shu, Yitian Xu, Bo An, Gang Niu, Masashi Sugiyama(参考訳) 1つのクラスのデータのみから、マルチクラス分類子を学べますか? 損失関数,モデル,オプティマイザに関する仮定がなければ,信頼度(すなわち,すべてのクラスに対するクラス後確率)が得られれば,厳密な一貫性を保証する単一クラスのデータのみから,マルチクラス分類器を学べることを示す。 具体的には,損失/モデル/最適化非依存な経験的リスク最小化フレームワークを提案する。 与えられたクラスと他のクラスの境界を構築する代わりに、他のクラスからのデータが提供されていなくても、すべてのクラス間で判別的な分類を行うことができる。 さらに理論および実験により,提案手法は,信頼度が極めて高い場合であっても,簡単な修正でベイズ一貫性を発揮できることを示した。 次に、すべてのクラスのサブセットからのデータが利用可能である場合に、このメソッドの拡張を提供する。 実験の結果,本手法の有効性が示された。

Can we learn a multi-class classifier from only data of a single class? We show that without any assumptions on the loss functions, models, and optimizers, we can successfully learn a multi-class classifier from only data of a single class with a rigorous consistency guarantee when confidences (i.e., the class-posterior probabilities for all the classes) are available. Specifically, we propose an empirical risk minimization framework that is loss-/model-/optimiz er-independent. Instead of constructing a boundary between the given class and other classes, our method can conduct discriminative classification between all the classes even if no data from the other classes are provided. We further theoretically and experimentally show that our method can be Bayes-consistent with a simple modification even if the provided confidences are highly noisy. Then, we provide an extension of our method for the case where data from a subset of all the classes are available. Experimental results demonstrate the effectiveness of our methods.
翻訳日:2021-06-17 17:38:02 公開日:2021-06-16
# オフライン評価のないオフラインRL

Offline RL Without Off-Policy Evaluation ( http://arxiv.org/abs/2106.08909v1 )

ライセンス: Link先を確認
David Brandfonbrener, William F. Whitney, Rajesh Ranganath, Joan Bruna(参考訳) オフライン強化学習(rl)に対するほとんどの以前のアプローチは、オフポリシー評価を含む反復的なアクター-批判的アプローチを採用している。 本稿では,行動政策のオンポリシーq推定を用いて,制約・規則化政策改善の一段階を単純に行えば,驚くほどうまく機能することを示す。 このワンステップアルゴリズムは、d4rlベンチマークの大部分で以前報告された反復アルゴリズムの結果を上回っている。 単純な1ステップベースラインは、以前に提案された反復アルゴリズムで使われる多くのトリックなしでこの強力な性能を実現し、ハイパーパラメータよりも堅牢である。 我々は、反復的アプローチの比較的貧弱な性能は、非政治的評価に固有の高分散の結果であり、これらの高分散推定に対するポリシーの繰り返し最適化によって拡大されていると論じる。 さらに,1段階のアルゴリズムの強い性能は,環境と行動方針の良好な構造の組み合わせによるものである,という仮説を立てた。

Most prior approaches to offline reinforcement learning (RL) have taken an iterative actor-critic approach involving off-policy evaluation. In this paper we show that simply doing one step of constrained/regulari zed policy improvement using an on-policy Q estimate of the behavior policy performs surprisingly well. This one-step algorithm beats the previously reported results of iterative algorithms on a large portion of the D4RL benchmark. The simple one-step baseline achieves this strong performance without many of the tricks used by previously proposed iterative algorithms and is more robust to hyperparameters. We argue that the relatively poor performance of iterative approaches is a result of the high variance inherent in doing off-policy evaluation and magnified by the repeated optimization of policies against those high-variance estimates. In addition, we hypothesize that the strong performance of the one-step algorithm is due to a combination of favorable structure in the environment and behavior policy.
翻訳日:2021-06-17 17:37:02 公開日:2021-06-16
# 海洋モデルにおける最適重み付け物理形ニューラルネットワークに向けて

Towards Optimally Weighted Physics-Informed Neural Networks in Ocean Modelling ( http://arxiv.org/abs/2106.08747v1 )

ライセンス: Link先を確認
Taco de Wolff (CIRIC), Hugo Carrillo (CIRIC), Luis Mart{\'i} (CIRIC), Nayat Sanchez-Pi (CIRIC)(参考訳) 世界の海洋の炭素ポンプは、地球の生物圏と気候において重要な役割を担っており、気候変動分析のための海洋の機能と影響の理解を深めている。 海流と温度の流れの複雑さを捉えるモデルを開発するには最先端の技術が必要である。 この研究は、バーガーズ、波動、対流拡散方程式など、海洋モデリングに関連する偏微分方程式を解くために物理学インフォームドニューラルネットワーク(PINN)の利点を探求する。 偏微分方程式の解法として,pinn におけるデータと物理モデルとのトレードオフを検討する。 PINNは、学習と一般化を改善するために、物理法則から逸脱している。 損失関数におけるデータと物理モデルの相対的な重み付けがトレーニング結果にどのように影響するかを観察した。

The carbon pump of the world's ocean plays a vital role in the biosphere and climate of the earth, urging improved understanding of the functions and influences of the ocean for climate change analyses. State-of-the-art techniques are required to develop models that can capture the complexity of ocean currents and temperature flows. This work explores the benefits of using physics-informed neural networks (PINNs) for solving partial differential equations related to ocean modeling; such as the Burgers, wave, and advection-diffusion equations. We explore the trade-offs of using data vs. physical models in PINNs for solving partial differential equations. PINNs account for the deviation from physical laws in order to improve learning and generalization. We observed how the relative weight between the data and physical model in the loss function influence training results, where small data sets benefit more from the added physics information.
翻訳日:2021-06-17 17:36:49 公開日:2021-06-16
# ParticleAugment: サンプリングベースのデータ拡張

ParticleAugment: Sampling-Based Data Augmentation ( http://arxiv.org/abs/2106.08693v1 )

ライセンス: Link先を確認
Alexander Tsaregorodtsev, Vasileios Belagiannis(参考訳) 画像分類のための自動データ拡張手法を提案する。 この問題をモンテカルロサンプリングとして定式化し, 最適増補政策の近似を目標とした。 モデルトレーニング中に最適な拡張ポリシーとスケジュールを求めるために,粒子フィルタリングの定式化を提案する。 私たちのパフォーマンス測定手順はトレーニングセットのバリデーションサブセットに依存しますが、ポリシー移行モデルはガウス前とオプションの強化速度パラメータに依存しています。 本実験では,CIFAR-10, CIFAR-100, ImageNetデータセット上で, 標準ネットワークアーキテクチャを用いた自動拡張の定式化が有望な結果に達することを示す。 また,関連する研究との比較により,提案手法が,ポリシー探索の計算コストとモデル性能のバランスに達することを示した。

We present an automated data augmentation approach for image classification. We formulate the problem as Monte Carlo sampling where our goal is to approximate the optimal augmentation policies. We propose a particle filtering formulation to find optimal augmentation policies and their schedules during model training. Our performance measurement procedure relies on a validation subset of our training set, while the policy transition model depends on a Gaussian prior and an optional augmentation velocity parameter. In our experiments, we show that our formulation for automated augmentation reaches promising results on CIFAR-10, CIFAR-100, and ImageNet datasets using the standard network architectures for this problem. By comparing with the related work, we also show that our method reaches a balance between the computational cost of policy search and the model performance.
翻訳日:2021-06-17 17:36:10 公開日:2021-06-16
# GNNの表現力に関する統一的視点

An unifying point of view on expressive power of GNNs ( http://arxiv.org/abs/2106.08992v1 )

ライセンス: Link先を確認
Giuseppe Alessio D'Inverno, Monica Bianchini, Maria Lucia Sampoli, Franco Scarselli(参考訳) グラフニューラルネットワーク(GNN)は、グラフ処理のための幅広い種類の接続モデルである。 彼らは、各ノードとその隣人に対して反復的なメッセージパッシング操作を実行し、分類/クラスタリングタスク -- ノードやグラフ全体 -- を解決し、その順序に関わらず、すべてのメッセージを収集する。 このクラスに属する様々なモデルの違いにもかかわらず、その多くは局所的な集約機構に基づく同じ計算方式を採用しており、直感的には、局所的な計算フレームワークは主にGNNの表現力に責任がある。 本稿では、Weisfeiler-Lehman検定により、元のGNNモデルで定義された展開等価値と正確に一致するグラフノード上で等価関係が導出されることを示す。 したがって、元の GNN の表現力に関する結果は、穏やかな条件下では、任意の精度で、展開する同値性を尊重するグラフ上の任意の関数を近似できる一般 GNN にまで拡張することができる。

Graph Neural Networks (GNNs) are a wide class of connectionist models for graph processing. They perform an iterative message passing operation on each node and its neighbors, to solve classification/ clustering tasks --- on some nodes or on the whole graph --- collecting all such messages, regardless of their order. Despite the differences among the various models belonging to this class, most of them adopt the same computation scheme, based on a local aggregation mechanism and, intuitively, the local computation framework is mainly responsible for the expressive power of GNNs. In this paper, we prove that the Weisfeiler--Lehman test induces an equivalence relationship on the graph nodes that exactly corresponds to the unfolding equivalence, defined on the original GNN model. Therefore, the results on the expressive power of the original GNNs can be extended to general GNNs which, under mild conditions, can be proved capable of approximating, in probability and up to any precision, any function on graphs that respects the unfolding equivalence.
翻訳日:2021-06-17 17:35:59 公開日:2021-06-16
# cascading modular network (cam-net) によるマルチモーダル画像合成

Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis ( http://arxiv.org/abs/2106.09015v1 )

ライセンス: Link先を確認
Shichong Peng, Alireza Moazeni, Ke Li(参考訳) ganのような深い生成モデルは近年、条件付き画像合成の素晴らしい進歩をもたらしている。 モード崩壊の問題により、同じ入力画像から出力画像の多様なバージョンを生成するのが永続的な課題であり、入力画像毎に1つの基底真理出力画像しか与えられないため、条件分布の1つのモードのみがモデル化される。 本稿では,マルチモーダルな条件付き画像合成の問題に焦点をあて,最近提案されたImplicit Maximum Likelihood Estimation (IMLE) 技術に基づいて構築する。 従来のIMLEベースの手法では、異なるタスクに対して異なるアーキテクチャを必要とするため、適用性が制限され、生成された画像の細部が不足していた。 我々は,幅広いタスクに適用可能な統一アーキテクチャであるCAM-Netを提案する。 さらに、信頼性の高い高周波ディテールを生成し、ベースラインと比較して最大45.3%のフレシェインセプション距離(fid)を削減できる。

Deep generative models such as GANs have driven impressive advances in conditional image synthesis in recent years. A persistent challenge has been to generate diverse versions of output images from the same input image, due to the problem of mode collapse: because only one ground truth output image is given per input image, only one mode of the conditional distribution is modelled. In this paper, we focus on this problem of multimodal conditional image synthesis and build on the recently proposed technique of Implicit Maximum Likelihood Estimation (IMLE). Prior IMLE-based methods required different architectures for different tasks, which limit their applicability, and were lacking in fine details in the generated images. We propose CAM-Net, a unified architecture that can be applied to a broad range of tasks. Additionally, it is capable of generating convincing high frequency details, achieving a reduction of the Frechet Inception Distance (FID) by up to 45.3% compared to the baseline.
翻訳日:2021-06-17 17:35:43 公開日:2021-06-16
# 教師なし画像-画像翻訳のためのアンタングル型ラテント型空間の平滑化

Smoothing the Disentangled Latent Style Space for Unsupervised Image-to-Image Translation ( http://arxiv.org/abs/2106.09016v1 )

ライセンス: Link先を確認
Yahui Liu, Enver Sangineto, Yajing Chen, Linchao Bao, Haoxian Zhang, Nicu Sebe, Bruno Lepri, Wei Wang and Marco De Nadai(参考訳) イメージ・トゥ・イメージ(I2I)マルチドメイン翻訳モデルは通常、意味補間結果の品質を用いて評価される。 しかし、最先端のモデルは、補間中の画像出現の急激な変化をしばしば示しており、通常、ドメイン間の補間が不十分である。 本稿では,翻訳ネットワークが,1)生成した画像の段階的変化に対応する領域内および領域間補間と,2)翻訳中にソース画像の内容がよりよく保存されるような,滑らかで不連続な潜在性空間を学習するための,3つの特定の損失に基づく新しい学習プロトコルを提案する。 さらに,I2I翻訳モデルの潜在スタイル空間の滑らかさを適切に測定する新しい評価指標を提案する。 提案手法は既存の翻訳手法に組み込むことができ、異なるデータセットに対する広範な実験により、生成された画像の品質と補間の漸進性を著しく向上できることが示された。

Image-to-Image (I2I) multi-domain translation models are usually evaluated also using the quality of their semantic interpolation results. However, state-of-the-art models frequently show abrupt changes in the image appearance during interpolation, and usually perform poorly in interpolations across domains. In this paper, we propose a new training protocol based on three specific losses which help a translation network to learn a smooth and disentangled latent style space in which: 1) Both intra- and inter-domain interpolations correspond to gradual changes in the generated images and 2) The content of the source image is better preserved during the translation. Moreover, we propose a novel evaluation metric to properly measure the smoothness of latent style space of I2I translation models. The proposed method can be plugged into existing translation approaches, and our extensive experiments on different datasets show that it can significantly boost the quality of the generated images and the graduality of the interpolations.
翻訳日:2021-06-17 17:35:26 公開日:2021-06-16
# Maxmin-Fair Ranking: Group-Fairness Constraint下での個人フェアネス

Maxmin-Fair Ranking: Individual Fairness under Group-Fairness Constraints ( http://arxiv.org/abs/2106.08652v1 )

ライセンス: Link先を確認
David Garcia-Soriano and Francesco Bonchi(参考訳) グループフェア性制約を課す際に生じる個々人の不公平さを最小化することを目的としたランキングにおける公平性の新たな問題について検討する。 本提案は分布的マックスミンフェアネス理論を基礎とし,最悪の個人が期待できる満足度を最大化するためにランダム化を用いる。 我々は,一般探索問題(ランキングを含むが限定的ではない)のmaxmin-fair分布を求めるために,多項式時間アルゴリズムを考案し,与えられた群-fairness制約を満たしながら,最大値が個人にもたらされることを保証するランキングを生成できることを示す。

We study a novel problem of fairness in ranking aimed at minimizing the amount of individual unfairness introduced when enforcing group-fairness constraints. Our proposal is rooted in the distributional maxmin fairness theory, which uses randomization to maximize the expected satisfaction of the worst-off individuals. We devise an exact polynomial-time algorithm to find maxmin-fair distributions of general search problems (including, but not limited to, ranking), and show that our algorithm can produce rankings which, while satisfying the given group-fairness constraints, ensure that the maximum possible value is brought to individuals.
翻訳日:2021-06-17 17:34:54 公開日:2021-06-16
# 可変サロゲートを用いた拘束構成の記憶合成

Amortized Synthesis of Constrained Configurations Using a Differentiable Surrogate ( http://arxiv.org/abs/2106.09019v1 )

ライセンス: Link先を確認
Xingyuan Sun, Tianju Xue, Szymon M. Rusinkiewicz, Ryan P. Adams(参考訳) 設計、製造、制御の問題において、私たちはしばしば合成のタスクに直面しており、1つ以上の目的関数を最大化しながら制約のセットを満たすオブジェクトや構成を生成する必要がある。 合成問題は通常、多くの異なる実現が目標を達成する物理過程によって特徴づけられる。 この多対一の地図はフィードフォワード合成の教師あり学習に困難をもたらし、実行可能な設計の集合は複雑な構造を持つ可能性がある。 加えて、多くの物理シミュレーションの非微分的性質は直接最適化を妨げている。 これら2つの問題を,オートエンコーダと考えられる2段階のニューラルネットワークアーキテクチャで解決する。 まずデコーダ、多対一の物理実現過程を近似した微分可能なサロゲートを学習する。 次に、ゴールから設計へマップするエンコーダを学習し、固定デコーダを使用して実現の質を評価する。 本研究は,加法製造における押出し経路計画とソフトロボット逆運動学の2つのケーススタディについて評価する。 学習したサロゲートを用いて設計を直接最適化するアプローチと、合成問題の教師付き学習を比較した。 このアプローチは教師付き学習よりも高品質なソリューションを生み出すと同時に,直接最適化による品質面での競争力を保ちながら,計算コストを大幅に削減する。

In design, fabrication, and control problems, we are often faced with the task of synthesis, in which we must generate an object or configuration that satisfies a set of constraints while maximizing one or more objective functions. The synthesis problem is typically characterized by a physical process in which many different realizations may achieve the goal. This many-to-one map presents challenges to the supervised learning of feed-forward synthesis, as the set of viable designs may have a complex structure. In addition, the non-differentiable nature of many physical simulations prevents direct optimization. We address both of these problems with a two-stage neural network architecture that we may consider to be an autoencoder. We first learn the decoder: a differentiable surrogate that approximates the many-to-one physical realization process. We then learn the encoder, which maps from goal to design, while using the fixed decoder to evaluate the quality of the realization. We evaluate the approach on two case studies: extruder path planning in additive manufacturing and constrained soft robot inverse kinematics. We compare our approach to direct optimization of design using the learned surrogate, and to supervised learning of the synthesis problem. We find that our approach produces higher quality solutions than supervised learning, while being competitive in quality with direct optimization, at a greatly reduced computational cost.
翻訳日:2021-06-17 17:34:40 公開日:2021-06-16
# 畳み込み型教師学生シナリオにおける局所性は次元性の呪いを破る

Locality defeats the curse of dimensionality in convolutional teacher-student scenarios ( http://arxiv.org/abs/2106.08619v1 )

ライセンス: Link先を確認
Alessandro Favero, Francesco Cagnetta, Matthieu Wyart(参考訳) 畳み込みニューラルネットワークは、データの局所的および翻訳的不変な処理を実行する。 本研究では,与えられたフィルタサイズの単純な畳み込みアーキテクチャのニューラルネットワークカーネルにインスパイアされた'畳み込み'カーネルを用いて,この問題をカーネル回帰のための教師学生フレームワーク内で研究する。 物理学からのヒューリスティックな方法を用いることで、学習曲線指数 $\beta$ (テスト誤差 $\epsilon_t\sim P^{-\beta}$ をトレーニングセット $P$ のサイズに関連付ける)を決定するのに局所性が鍵であることが分かるが、翻訳不変性はそうではない。 特に、教師$t$のフィルタサイズが学生$s$よりも小さい場合、$\beta$は$s$のみの関数であり、入力次元に依存しない。 実証的に$\beta$の予測を確認します。 理論的には、(教師と生徒が等しい場合を含む)ある場合において、この予測はパフォーマンスの上限であることを示すことができる。 最後に,自然普遍性仮定を用いて,学習集合の大きさで減少するリッジでカーネル回帰を行うことで,リッジレスの場合と同様の学習曲線指数が得られることを証明した。

Convolutional neural networks perform a local and translationally-inva riant treatment of the data: quantifying which of these two aspects is central to their success remains a challenge. We study this problem within a teacher-student framework for kernel regression, using `convolutional' kernels inspired by the neural tangent kernel of simple convolutional architectures of given filter size. Using heuristic methods from physics, we find in the ridgeless case that locality is key in determining the learning curve exponent $\beta$ (that relates the test error $\epsilon_t\sim P^{-\beta}$ to the size of the training set $P$), whereas translational invariance is not. In particular, if the filter size of the teacher $t$ is smaller than that of the student $s$, $\beta$ is a function of $s$ only and does not depend on the input dimension. We confirm our predictions on $\beta$ empirically. Theoretically, in some cases (including when teacher and student are equal) it can be shown that this prediction is an upper bound on performance. We conclude by proving, using a natural universality assumption, that performing kernel regression with a ridge that decreases with the size of the training set leads to similar learning curve exponents to those we obtain in the ridgeless case.
翻訳日:2021-06-17 17:33:55 公開日:2021-06-16
# ビデオ符号化における低複雑さ干渉予測のための補間フィルタのCNN学習の改善

Improved CNN-based Learning of Interpolation Filters for Low-Complexity Inter Prediction in Video Coding ( http://arxiv.org/abs/2106.08936v1 )

ライセンス: Link先を確認
Luka Murn, Saverio Blasi, Alan F. Smeaton and Marta Mrak(参考訳) 最近の機械学習アプローチの汎用性は、次世代のビデオ圧縮ソリューションの改善に理想的である。 残念ながら、これらのアプローチは一般的に計算複雑性を大幅に増加させ、説明可能なモデルへの解釈が困難であり、実用的なビデオコーディングアプリケーションにおける実装の可能性に影響を与える。 本稿では、分数精度運動補償に必要な参照サンプルの補間を改善するために、ニューラルネットワークを用いた新しい予測手法を提案する。 このアプローチでは、線形構造のためネットワークが容易に解釈できるため、全4分の1ピクセル補間フィルタセットを導出する単一のニューラルネットワークを訓練する必要がある。 新たなトレーニングフレームワークにより、各ネットワークブランチは特定の分数シフトに類似することができる。 この実用的な解決策は、従来のビデオ符号化方式と並行して使用するのが非常に効率的である。 最先端のVersatile Video Coding (VVC) テストモデルで実装された場合、ランダムアクセス、低遅延B、低遅延P構成の下で、平均0.77%、1.27%、および2.25%のBDレートの節約が達成され、学習された補間スキームの複雑さは完全なCNNの補間に比べて大幅に低減される。

The versatility of recent machine learning approaches makes them ideal for improvement of next generation video compression solutions. Unfortunately, these approaches typically bring significant increases in computational complexity and are difficult to interpret into explainable models, affecting their potential for implementation within practical video coding applications. This paper introduces a novel explainable neural network-based inter-prediction scheme, to improve the interpolation of reference samples needed for fractional precision motion compensation. The approach requires a single neural network to be trained from which a full quarter-pixel interpolation filter set is derived, as the network is easily interpretable due to its linear structure. A novel training framework enables each network branch to resemble a specific fractional shift. This practical solution makes it very efficient to use alongside conventional video coding schemes. When implemented in the context of the state-of-the-art Versatile Video Coding (VVC) test model, 0.77%, 1.27% and 2.25% BD-rate savings can be achieved on average for lower resolution sequences under the random access, low-delay B and low-delay P configurations, respectively, while the complexity of the learned interpolation schemes is significantly reduced compared to the interpolation with full CNNs.
翻訳日:2021-06-17 17:32:16 公開日:2021-06-16
# 特徴表現学習のための画像合成の進化

Evolving Image Compositions for Feature Representation Learning ( http://arxiv.org/abs/2106.09011v1 )

ライセンス: Link先を確認
Paola Cascante-Bonilla, Arshdeep Sekhon, Yanjun Qi, Vicente Ordonez(参考訳) 視覚認識のための畳み込みニューラルネットワークは大量のトレーニングサンプルを必要とし、通常はデータ拡張の恩恵を受ける。 本稿では,グリッド状のパターンで一対のイメージからパッチを合成し,新しいサンプルを作成するデータ拡張手法であるPatchMixを提案する。 これらの新しいサンプルの基底真理ラベルは、各画像からのパッチの数に比例して設定される。 次に、パッチレベルで追加の損失を追加して、正規化し、パッチレベルとイメージレベルの両方で良い表現を奨励します。 PatchMixを使用したImageNetでトレーニングされたResNet-50モデルは、幅広いベンチマークで優れた転送学習能力を示している。 PatchMixは、ランダムなペアリングとランダムなグリッドライクなパターンを混合に利用できるが、最適なグリッドライクなパターンとイメージペアリングを共同で発見するためのガイド戦略として進化的探索を探索する。 この目的のために、各選択を評価するためにモデルを再トレーニングする必要を回避したフィットネス機能を考える。 このように、PatchMixはCIFAR-10(+1.91)、CIFAR-100(+5.31)、Tiny Imagenet(+3.52)、ImageNet(+1.16)のベースモデルよりも大きなマージンで性能を上げ、また従来の最先端のペアワイズ戦略よりも優れている。

Convolutional neural networks for visual recognition require large amounts of training samples and usually benefit from data augmentation. This paper proposes PatchMix, a data augmentation method that creates new samples by composing patches from pairs of images in a grid-like pattern. These new samples' ground truth labels are set as proportional to the number of patches from each image. We then add a set of additional losses at the patch-level to regularize and to encourage good representations at both the patch and image levels. A ResNet-50 model trained on ImageNet using PatchMix exhibits superior transfer learning capabilities across a wide array of benchmarks. Although PatchMix can rely on random pairings and random grid-like patterns for mixing, we explore evolutionary search as a guiding strategy to discover optimal grid-like patterns and image pairing jointly. For this purpose, we conceive a fitness function that bypasses the need to re-train a model to evaluate each choice. In this way, PatchMix outperforms a base model on CIFAR-10 (+1.91), CIFAR-100 (+5.31), Tiny Imagenet (+3.52), and ImageNet (+1.16) by significant margins, also outperforming previous state-of-the-art pairwise augmentation strategies.
翻訳日:2021-06-17 17:31:53 公開日:2021-06-16
# ニューラルマシン翻訳のための合成データと真正データを用いた交互学習

Alternated Training with Synthetic and Authentic Data for Neural Machine Translation ( http://arxiv.org/abs/2106.08582v1 )

ライセンス: Link先を確認
Rui Jiao, Zonghan Yang, Maosong Sun and Yang Liu(参考訳) 合成バイリンガルコーパスは低リソースニューラルマシン翻訳(nmt)においてその効果を示したが、より多くの合成データを加えると翻訳性能が低下する。 本研究では,NMTのための合成および認証データを用いた交互トレーニングを提案する。 基本的な考え方は、トレーニング中に反復的に合成と認証を交互に行うことである。 従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入する。 中国語とドイツ語と英語の翻訳タスクを実験した結果,複数の強いベースラインのパフォーマンスが向上した。 BLEUランドスケープを可視化し、交互学習における認証データと合成データの役割をさらに調査する。 可視化の結果,NMTモデルのパラメータをBLEUスコアの高い点に向けることで,一貫した翻訳性能の向上が期待できることがわかった。

While synthetic bilingual corpora have demonstrated their effectiveness in low-resource neural machine translation (NMT), adding more synthetic data often deteriorates translation performance. In this work, we propose alternated training with synthetic and authentic data for NMT. The basic idea is to alternate synthetic and authentic corpora iteratively during training. Compared with previous work, we introduce authentic data as guidance to prevent the training of NMT models from being disturbed by noisy synthetic data. Experiments on Chinese-English and German-English translation tasks show that our approach improves the performance over several strong baselines. We visualize the BLEU landscape to further investigate the role of authentic and synthetic data during alternated training. From the visualization, we find that authentic data helps to direct the NMT model parameters towards points with higher BLEU scores and leads to consistent translation performance improvement.
翻訳日:2021-06-17 17:31:16 公開日:2021-06-16
# 意味的文類似性:サイズは必ずしも重要ではない

Semantic sentence similarity: size does not always matter ( http://arxiv.org/abs/2106.08648v1 )

ライセンス: Link先を確認
Danny Merkx, Stefan L. Frank, Mirjam Ernestus(参考訳) 本研究では,視覚的基盤音声認識(VGS)モデルが,事前の言語知識にアクセスせずに文の意味を捉えることができるかどうかを問う。 我々は、よく知られた意味的テキスト類似性データベースの合成および自然な音声バージョンを作成し、VGSモデルが人間の意味的類似性判定とよく相関する埋め込みを生成することを示す。 以上の結果から,小型画像キャプチャデータベースでトレーニングしたモデルは,より大きなデータベースでトレーニングした2つのモデルより優れており,データベースのサイズが重要でないことを示す。 また,画像毎に字幕を複数持つことの重要性について検討し,画像の総数が少ない場合でも,これが本当に有用であることを見出し,パラフレージングが貴重な学習信号であることを示す。 この分野の一般的なトレンドは、モデルをトレーニングするために、さらに大きなデータセットを作成することですが、データベースの他の特性も同様に重要であることが分かりました。

This study addresses the question whether visually grounded speech recognition (VGS) models learn to capture sentence semantics without access to any prior linguistic knowledge. We produce synthetic and natural spoken versions of a well known semantic textual similarity database and show that our VGS model produces embeddings that correlate well with human semantic similarity judgements. Our results show that a model trained on a small image-caption database outperforms two models trained on much larger databases, indicating that database size is not all that matters. We also investigate the importance of having multiple captions per image and find that this is indeed helpful even if the total number of images is lower, suggesting that paraphrasing is a valuable learning signal. While the general trend in the field is to create ever larger datasets to train models on, our findings indicate other characteristics of the database can just as important important.
翻訳日:2021-06-17 17:31:01 公開日:2021-06-16
# Eider:Evidence-enhan ced Document-level Relation extract

Eider: Evidence-enhanced Document-level Relation Extraction ( http://arxiv.org/abs/2106.08657v1 )

ライセンス: Link先を確認
Yiqing Xie, Jiaming Shen, Sha Li, Yuning Mao, Jiawei Han(参考訳) 文書レベルの関係抽出(DocRE)は、文書内のエンティティペア間の意味関係を抽出することを目的としている。 DocREでは、証拠文と呼ばれる文書内の文のサブセットは、特定のエンティティペア間の関係を予測するのに十分かもしれない。 本稿では, 証拠文をよりよく活用するために, 共同関係と証拠抽出, 証拠中心関係抽出 (RE) と抽出結果の融合からなる3段階のエビデンス強化DocREフレームワークを提案する。 まず、単純かつメモリ効率の良いエビデンス抽出モデルを用いてREモデルを共同訓練する。 そして,抽出した証拠文に基づいて疑似文書を作成し,REモデルを再実行する。 最後に,混合層を用いて第2段階の抽出結果を融合し,最終的な予測を行う。 大規模な実験により,提案フレームワークはDocREDデータセット上での最先端性能を実現し,第2のベストメソッドを0.76/0.82 Ign F1/F1で上回った。 特に,本手法は文間関係の性能を1.23インターF1で大幅に向上させる。

Document-level relation extraction (DocRE) aims at extracting the semantic relations among entity pairs in a document. In DocRE, a subset of the sentences in a document, called the evidence sentences, might be sufficient for predicting the relation between a specific entity pair. To make better use of the evidence sentences, in this paper, we propose a three-stage evidence-enhanced DocRE framework consisting of joint relation and evidence extraction, evidence-centered relation extraction (RE), and fusion of extraction results. We first jointly train an RE model with a simple and memory-efficient evidence extraction model. Then, we construct pseudo documents based on the extracted evidence sentences and run the RE model again. Finally, we fuse the extraction results of the first two stages using a blending layer and make a final prediction. Extensive experiments show that our proposed framework achieves state-of-the-art performance on the DocRED dataset, outperforming the second-best method by 0.76/0.82 Ign F1/F1. In particular, our method significantly improves the performance on inter-sentence relations by 1.23 Inter F1.
翻訳日:2021-06-17 17:30:46 公開日:2021-06-16
# 言語難易度と(Dis)Fluency特徴と事前学習言語モデルを組み合わせた自発音声からのアルツハイマー病の検出

Alzheimer's Disease Detection from Spontaneous Speech through Combining Linguistic Complexity and (Dis)Fluency Features with Pretrained Language Models ( http://arxiv.org/abs/2106.08689v1 )

ライセンス: Link先を確認
Yu Qiao, Xuefeng Yin, Daniel Wiechmann, Elma Kerz(参考訳) 本稿では,2021 ADReSSo (Alzheimer's Dementia Recognition through Stanetaneous Speech) の課題に対して,言語的複雑性と(非)周波数特性を,アルツハイマー病の検出のための事前訓練言語モデルと組み合わせた。 83.1%の精度がテストセットで達成され、ベースラインモデルよりも4.23%向上した。 スタックングアンサンブル技術を用いてコンポーネントモデルを統合した最善のモデルが,クロスバリデーションとテストデータで等しく良好に動作し,オーバーフィッティングに対して頑健であることを示す。

In this paper, we combined linguistic complexity and (dis)fluency features with pretrained language models for the task of Alzheimer's disease detection of the 2021 ADReSSo (Alzheimer's Dementia Recognition through Spontaneous Speech) challenge. An accuracy of 83.1% was achieved on the test set, which amounts to an improvement of 4.23% over the baseline model. Our best-performing model that integrated component models using a stacking ensemble technique performed equally well on cross-validation and test data, indicating that it is robust against overfitting.
翻訳日:2021-06-17 17:30:27 公開日:2021-06-16
# 言語理論における言語指向深層ネット分析の適切な役割について

On the proper role of linguistically-orien ted deep net analysis in linguistic theorizing ( http://arxiv.org/abs/2106.08694v1 )

ライセンス: Link先を確認
Marco Baroni(参考訳) 近年,現代の深層ネットワークの言語行動を調べる実験手法を用いた活発な研究分野が出現している。 この伝統における研究は、ディープネットの文法的スキルに関する興味深い結果をしばしば報告しているが、それらが言語理論に与える影響は明らかではない。 その結果、言語指向のディープネット分析は、言語学に大きな影響をほとんど与えていない。 本章では,深層ネットワークを言語発話の受容性に関する明確な予測を行う理論として扱うことを提案する。 このアイデアを真剣に追求する過程で立っている障害を克服すれば、主流の代数的アプローチを補完する強力な新しい理論ツールが得られると私は論じます。

A lively research field has recently emerged that uses experimental methods to probe the linguistic behavior of modern deep networks. While work in this tradition often reports intriguing results about the grammatical skills of deep nets, it is not clear what their implications for linguistic theorizing should be. As a consequence, linguistically-orien ted deep net analysis has had very little impact on linguistics at large. In this chapter, I suggest that deep networks should be treated as theories making explicit predictions about the acceptability of linguistic utterances. I argue that, if we overcome some obstacles standing in the way of seriously pursuing this idea, we will gain a powerful new theoretical tool, complementary to mainstream algebraic approaches.
翻訳日:2021-06-17 17:30:16 公開日:2021-06-16
# マルチドメインタスク指向対話状態追跡のための参照強化

Coreference Augmentation for Multi-Domain Task-Oriented Dialogue State Tracking ( http://arxiv.org/abs/2106.08723v1 )

ライセンス: Link先を確認
Ting Han, Chongxuan Huang, Wei Peng(参考訳) 対話状態追跡(DST)は,対話履歴が与えられた信念状態を推定し,ユーザ目標を推定するプロセスであり,タスク指向対話システムにおいて重要な役割を果たす。 マルチターン会話で観測されるコア参照現象は、既存のDSTモデルでは対処されない。 本稿では,コア参照機能を明示的にモデル化したCDST(Coreference Dialogue State Tracker)を提案する。 特に,各ターンにおいて,提案手法はコアフェラード領域とスロットペアを共同で予測し,対話コンテキストからコア参照値を抽出する。 マルチウォズ2.1データセットの実験結果から,提案モデルは56.47%の目標達成率を達成した。

Dialogue State Tracking (DST), which is the process of inferring user goals by estimating belief states given the dialogue history, plays a critical role in task-oriented dialogue systems. A coreference phenomenon observed in multi-turn conversations is not addressed by existing DST models, leading to sub-optimal performances. In this paper, we propose Coreference Dialogue State Tracker (CDST) that explicitly models the coreference feature. In particular, at each turn, the proposed model jointly predicts the coreferred domain-slot pair and extracts the coreference values from the dialogue context. Experimental results on MultiWOZ 2.1 dataset show that the proposed model achieves the state-of-the-art joint goal accuracy of 56.47%.
翻訳日:2021-06-17 17:30:03 公開日:2021-06-16
# タスク指向対話システムのためのトランスフォーマによるドメイン非依存ユーザシミュレーション

Domain-independent User Simulation with Transformers for Task-oriented Dialogue Systems ( http://arxiv.org/abs/2106.08838v1 )

ライセンス: Link先を確認
Hsien-chin Lin, Nurul Lubis, Songbo Hu, Carel van Niekerk, Christian Geishauser, Michael Heck, Shutong Feng, Milica Ga\v{s}i\'c(参考訳) 強化学習による対話政策の最適化には,多数のトレーニングインタラクションが必要である。 そのため、多くのセットアップは人間ではなくユーザーシミュレータに頼っている。 これらのユーザーシミュレータには独自の問題がある。 ルールベースのユーザシミュレータは手書きだが、複雑なドメインに対して小さな単純なドメインでは十分であることが示されている。 一方、最先端のデータ駆動型ユーザーシミュレータはドメインに依存している。 つまり、新しいドメインへの適応には再設計と再トレーニングが必要です。 本研究では,ドメインに依存しないトランスフォーマーベースユーザシミュレータ(TUS)を提案する。 TUSの構造は特定のドメインと結びついておらず、データからドメイン間のユーザ動作の一般化と学習を可能にします。 自動評価と人的評価を用いて,TUSとアートの現状を比較した。 TUSは、事前定義されたドメイン上のルールベースのユーザーシミュレータと競合し、ゼロショット方式で見えないドメインに一般化することができる。

Dialogue policy optimisation via reinforcement learning requires a large number of training interactions, which makes learning with real users time consuming and expensive. Many set-ups therefore rely on a user simulator instead of humans. These user simulators have their own problems. While hand-coded, rule-based user simulators have been shown to be sufficient in small, simple domains, for complex domains the number of rules quickly becomes intractable. State-of-the-art data-driven user simulators, on the other hand, are still domain-dependent. This means that adaptation to each new domain requires redesigning and retraining. In this work, we propose a domain-independent transformer-based user simulator (TUS). The structure of our TUS is not tied to a specific domain, enabling domain generalisation and learning of cross-domain user behaviour from data. We compare TUS with the state of the art using automatic as well as human evaluations. TUS can compete with rule-based user simulators on pre-defined domains and is able to generalise to unseen domains in a zero-shot fashion.
翻訳日:2021-06-17 17:29:50 公開日:2021-06-16
# ニューラルネットワーク翻訳における強化学習の弱点の再検討

Revisiting the Weaknesses of Reinforcement Learning for Neural Machine Translation ( http://arxiv.org/abs/2106.08942v1 )

ライセンス: Link先を確認
Samuel Kiegeland and Julia Kreutzer(参考訳) 政策勾配アルゴリズムはNLPで広く採用されているが、最近批判の対象となり、NMTに対する適合性を疑っている。 Choshenら。 (2020年)複数の弱点を特定し、その成功は報酬ではなく出力分布の形によって決まると疑う。 本稿では,これらの主張を再考し,より広範な構成下で研究する。 ドメイン内適応とクロスドメイン適応に関する実験は,探索と報酬のスケーリングの重要性を明らかにし,これらの主張に対する実証的な反証を与える。

Policy gradient algorithms have found wide adoption in NLP, but have recently become subject to criticism, doubting their suitability for NMT. Choshen et al. (2020) identify multiple weaknesses and suspect that their success is determined by the shape of output distributions rather than the reward. In this paper, we revisit these claims and study them under a wider range of configurations. Our experiments on in-domain and cross-domain adaptation reveal the importance of exploration and reward scaling, and provide empirical counter-evidence to these claims.
翻訳日:2021-06-17 17:29:36 公開日:2021-06-16
# 音声認識のための音響エンコーダの協調学習

Collaborative Training of Acoustic Encoders for Speech Recognition ( http://arxiv.org/abs/2106.08960v1 )

ライセンス: Link先を確認
Varun Nagaraja, Yangyang Shi, Ganesh Venkatesh, Ozlem Kalinli, Michael L. Seltzer, Vikas Chandra(参考訳) オンデバイス音声認識は、様々な計算予算のデバイスにデプロイするために、異なるサイズのトレーニングモデルを必要とする。 このような異なるモデルを構築する場合、それら間で共有される知識を活用するために、共同でトレーニングすることで利益を得ることができる。 ジョイントトレーニングは、トレーニング手順のデータハンドリング操作の冗長性を低減できるため、効率的である。 音声認識のための異なる大きさの音響エンコーダを協調訓練する手法を提案する。 異なる音響エンコーダが共通の予測器と結合モジュールを共有するシーケンストランスデューサ設定を用いる。 音響エンコーダは、トランスデューサの損失とともにフレームレベルのチェノン予測の補助タスクを通じて共蒸留を用いて訓練される。 我々は,LibriSpeechコーパスを用いて実験を行い,協調的に訓練された音響エンコーダが両テスト分割における単語誤り率を最大11%向上させることができることを示した。

On-device speech recognition requires training models of different sizes for deploying on devices with various computational budgets. When building such different models, we can benefit from training them jointly to take advantage of the knowledge shared between them. Joint training is also efficient since it reduces the redundancy in the training procedure's data handling operations. We propose a method for collaboratively training acoustic encoders of different sizes for speech recognition. We use a sequence transducer setup where different acoustic encoders share a common predictor and joiner modules. The acoustic encoders are also trained using co-distillation through an auxiliary task for frame level chenone prediction, along with the transducer loss. We perform experiments using the LibriSpeech corpus and demonstrate that the collaboratively trained acoustic encoders can provide up to a 11% relative improvement in the word error rate on both the test partitions.
翻訳日:2021-06-17 17:29:26 公開日:2021-06-16
# グラフベース手法によるグラフトランスフォーマーネットワークの最適化

Optimizing Graph Transformer Networks with Graph-based Techniques ( http://arxiv.org/abs/2106.08500v1 )

ライセンス: Link先を確認
Loc Hoang and Udit Agarwal and Gurbinder Gill and Roshan Dathathri and Abhik Seal and Brian Martin and Keshav Pingali(参考訳) グラフ変換器ネットワーク(GTN)は、ノードとエッジが関連する型情報を持ち、推論精度を向上させるために利用することができる異種グラフをターゲットにしたグラフ畳み込みネットワーク(GCN)の変種である。 gtnはグラフの重要なメタパスを学び、これらのメタパスの重み付けされたエッジを作成し、gcnでグラフを使用する。 現在、gtnsの唯一の実装は、メタパスを見つけるために密度行列の乗算を用いる。 残念ながら、このアプローチの空間オーバーヘッドは大きい可能性があるので、実際には小さなグラフでのみ使用される。 さらに、マトリックスベースの実装は、メタパス探索を最適化するためにランダムウォークベースのメソッドを使用するのに十分な細粒度ではない。 本稿では,GTNメタパス探索問題のグラフに基づく定式化と実装について述べる。 このグラフベースの定式化は行列ベースのアプローチよりも2つの利点がある。 第一に、元のGTN実装よりも空間効率が良く、実用的なメタパスサイズでは計算効率が良い。 第二に、列挙しなければならないメタパスの数を削減し、より大きなグラフとより大きなメタパスサイズに実装を使用できるサンプリングメソッドを実装することができる。 実験結果から,本実装はメタパス長4のGTN実装よりも平均6.5\times$高速であり,サンプリング実装はGTNの精度を損なうことなく,この実装よりも平均155\times$高速であることがわかった。

Graph transformer networks (GTN) are a variant of graph convolutional networks (GCN) that are targeted to heterogeneous graphs in which nodes and edges have associated type information that can be exploited to improve inference accuracy. GTNs learn important metapaths in the graph, create weighted edges for these metapaths, and use the resulting graph in a GCN. Currently, the only available implementation of GTNs uses dense matrix multiplication to find metapaths. Unfortunately, the space overhead of this approach can be large, so in practice it is used only for small graphs. In addition, the matrix-based implementation is not fine-grained enough to use random-walk based methods to optimize metapath finding. In this paper, we present a graph-based formulation and implementation of the GTN metapath finding problem. This graph-based formulation has two advantages over the matrix-based approach. First, it is more space efficient than the original GTN implementation and more compute-efficient for metapath sizes of practical interest. Second, it permits us to implement a sampling method that reduces the number of metapaths that must be enumerated, allowing the implementation to be used for larger graphs and larger metapath sizes. Experimental results show that our implementation is $6.5\times$ faster than the original GTN implementation on average for a metapath length of 4, and our sampling implementation is $155\times$ faster on average than this implementation without compromising on the accuracy of the GTN.
翻訳日:2021-06-17 17:27:48 公開日:2021-06-16
# 深層音響・言語的特徴を用いた音声文書の話題分類

Topic Classification on Spoken Documents Using Deep Acoustic and Linguistic Features ( http://arxiv.org/abs/2106.08637v1 )

ライセンス: Link先を確認
Tan Liu, Wu Guo, Bin Gu(参考訳) 音声文書のトピック分類システムは通常、音声をテキストに変換する自動音声認識(ASR)モジュールと、デコードされたテキストからトピッククラスを予測するテキストトピック分類(TTC)モジュールの2つのモジュールで構成される。 本稿では,asrの書き起こしを用いる代わりに,音声文書の話題分類において,音響的特徴と言語的特徴の融合が用いられる。 より具体的には、音素を出力単位とする従来のctcベースの音響モデル(am)をまず訓練し、訓練されたamにおける線形音素分類器以前の層の出力を音声文書の深い音響的特徴として用いる。 さらに、これらの深い音響特徴を音素対単語(P2W)モジュールに供給し、深い言語的特徴を得る。 最後に、トピック分類のための2種類の深い特徴を融合するために、局所的なマルチヘッドアテンションモジュールを提案する。 スイッチボードコーパスから選択したサブセットを用いた実験では,提案フレームワークが従来のasr+ttcシステムよりも優れ,accが3.13%向上した。

Topic classification systems on spoken documents usually consist of two modules: an automatic speech recognition (ASR) module to convert speech into text and a text topic classification (TTC) module to predict the topic class from the decoded text. In this paper, instead of using the ASR transcripts, the fusion of deep acoustic and linguistic features is used for topic classification on spoken documents. More specifically, a conventional CTC-based acoustic model (AM) using phonemes as output units is first trained, and the outputs of the layer before the linear phoneme classifier in the trained AM are used as the deep acoustic features of spoken documents. Furthermore, these deep acoustic features are fed to a phoneme-to-word (P2W) module to obtain deep linguistic features. Finally, a local multi-head attention module is proposed to fuse these two types of deep features for topic classification. Experiments conducted on a subset selected from Switchboard corpus show that our proposed framework outperforms the conventional ASR+TTC systems and achieves a 3.13% improvement in ACC.
翻訳日:2021-06-17 17:27:20 公開日:2021-06-16
# オープンワールド物理領域における新奇性検出の難しさ--angry birdsへの応用

The Difficulty of Novelty Detection in Open-World Physical Domains: An Application to Angry Birds ( http://arxiv.org/abs/2106.08670v1 )

ライセンス: Link先を確認
Vimukthini Pinto, Cheng Xue, Chathura Nagoda Gamage and Jochen Renz(参考訳) オープンワールド環境における新しい状況の検出と応答は、人間の認知の重要な能力である。 現在の人工知能(AI)研究者は、オープンワールド環境で実行可能なシステムの開発に取り組んでいる。 ノベルティ検出は、そのようなAIシステムの重要な能力である。 オープンワールドでは、ノベルティは様々な形で現れ、それらを検出するのが困難である。 したがって、AIシステムの検出能力を正確に評価するには、新規性の検出の困難さを調査する必要がある。 本稿では,オープンワールドな物理領域に着目した新規性検出の難しさを定量化する定性物理に基づく手法を提案する。 我々は,一般的な物理シミュレーションゲームAngry Birdsに本手法を適用した。 我々はangry birdsの異なるノベルティを持つ人間と実験を行い,その方法を検証する。 その結果,計算された難易度値は,人間の検出難易度と一致していることがわかった。

Detecting and responding to novel situations in open-world environments is a key capability of human cognition. Current artificial intelligence (AI) researchers strive to develop systems that can perform in open-world environments. Novelty detection is an important ability of such AI systems. In an open-world, novelties appear in various forms and the difficulty to detect them varies. Therefore, to accurately evaluate the detection capability of AI systems, it is necessary to investigate the difficulty to detect novelties. In this paper, we propose a qualitative physics-based method to quantify the difficulty of novelty detection focusing on open-world physical domains. We apply our method in a popular physics simulation game, Angry Birds. We conduct an experiment with human players with different novelties in Angry Birds to validate our method. Results indicate that the calculated difficulty values are in line with the detection difficulty of the human players.
翻訳日:2021-06-17 17:27:01 公開日:2021-06-16
# パワー知識グラフに基づく知的質問応答システム

An Intelligent Question Answering System based on Power Knowledge Graph ( http://arxiv.org/abs/2106.09013v1 )

ライセンス: Link先を確認
Yachen Tang, Haiyun Han, Xianmao Yu, Jing Zhao, Guangyi Liu, and Longfei Wei(参考訳) 知的な質問応答(IQA)システムは、自然言語の質問を理解し、大量の知識ベースから関連コンテンツを効率的に検索し、ユーザに直接回答を返すことによって、ユーザの検索意図を正確に把握することができる。 IQAシステムは、データ検索と推論において推定不可能な時間と労働力を節約できるため、データサイエンスと人工知能にますます注目を集めている。 本稿では、電力の巨大異種データからグラフデータベースとグラフコンピューティング技術を用いて、ドメイン知識グラフを紹介した。 次に,自然言語処理(nlp)法に基づく自然問合せの意図と制約を抽出し,知識推論によるグラフデータ問合せ文を構築し,正確な知識検索と分析を完了し,直感的な可視化を実現するための,電力知識グラフに基づくiqaシステムを提案する。 本手法は,知識グラフとグラフ計算特性を徹底的に組み合わせ,膨大な知識量で高速マルチホップ知識相関推論解析を実現する。 提案する研究は、文脈認識型知的質問と回答の基盤を提供することもできる。

The intelligent question answering (IQA) system can accurately capture users' search intention by understanding the natural language questions, searching relevant content efficiently from a massive knowledge-base, and returning the answer directly to the user. Since the IQA system can save inestimable time and workforce in data search and reasoning, it has received more and more attention in data science and artificial intelligence. This article introduced a domain knowledge graph using the graph database and graph computing technologies from massive heterogeneous data in electric power. It then proposed an IQA system based on the electrical power knowledge graph to extract the intent and constraints of natural interrogation based on the natural language processing (NLP) method, to construct graph data query statements via knowledge reasoning, and to complete the accurate knowledge search and analysis to provide users with an intuitive visualization. This method thoroughly combined knowledge graph and graph computing characteristics, realized high-speed multi-hop knowledge correlation reasoning analysis in tremendous knowledge. The proposed work can also provide a basis for the context-aware intelligent question and answer.
翻訳日:2021-06-17 17:26:49 公開日:2021-06-16
# 3次元医用画像登録のためのマルチスケールニューラルode

Multi-scale Neural ODEs for 3D Medical Image Registration ( http://arxiv.org/abs/2106.08493v1 )

ライセンス: Link先を確認
Junshen Xu, Eric Z. Chen, Xiao Chen, Terrence Chen, Shanhui Sun(参考訳) 画像登録は医用画像解析において重要な役割を果たす。 従来の最適化に基づく手法は、計算コストのかかる反復過程による正確な推定を提供する。 ラーニング・トゥ・マップのような深層学習手法はより高速であるが、大きな動きを扱うための精度を改善するために反復的あるいは粗大なアプローチが必要である。 本研究では,多スケールニューラルodeモデルによる登録オプティマイザの学習を提案する。 推論は、従来の勾配降下最適化器と同様の反復勾配更新で構成されるが、ニューラルODEはトレーニングデータから学習し、各イテレーションで効率よく勾配を適応するため、はるかに高速な方法である。 さらに,異なる画像コントラストにまたがる画像の出現変化に対処するために,モーダル非依存的類似度指標を学習することを提案した。 公開データとプライベートデータの両方から得られた複数コントラスト3次元mr画像の文脈における広範囲な実験を通して評価を行い,提案手法の優れた性能を実証した。

Image registration plays an important role in medical image analysis. Conventional optimization based methods provide an accurate estimation due to the iterative process at the cost of expensive computation. Deep learning methods such as learn-to-map are much faster but either iterative or coarse-to-fine approach is required to improve accuracy for handling large motions. In this work, we proposed to learn a registration optimizer via a multi-scale neural ODE model. The inference consists of iterative gradient updates similar to a conventional gradient descent optimizer but in a much faster way, because the neural ODE learns from the training data to adapt the gradient efficiently at each iteration. Furthermore, we proposed to learn a modal-independent similarity metric to address image appearance variations across different image contrasts. We performed evaluations through extensive experiments in the context of multi-contrast 3D MR images from both public and private data sources and demonstrate the superior performance of our proposed methods.
翻訳日:2021-06-17 17:25:52 公開日:2021-06-16
# 分析分類学における視覚表現の再考:圧縮的視点

Revisit Visual Representation in Analytics Taxonomy: A Compression Perspective ( http://arxiv.org/abs/2106.08512v1 )

ライセンス: Link先を確認
Yueyu Hu, Wenhan Yang, Haofeng Huang, Jiaying Liu(参考訳) 視覚分析はモノのインターネット(Internet of Things)においてますます重要な役割を担っている。 しかし、そのようなビッグデータと帯域幅の制限に直面して、既存の画像/ビデオ圧縮手法は非常に低品質な表現をもたらす一方、既存の特徴圧縮技術は低ビットレートの表現を持つ多様な視覚分析アプリケーション/タスクをサポートしない。 本稿では,解析分類学における情報圧縮問題である圧縮視覚表現を用いて,複数のマシンビジョン分析タスクをサポートする新しい問題を提起し,検討する。 異なるタスク間の内在的な転送可能性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築し、高レベル意味関連タスクと中レベル幾何解析タスクの両方を含む、機械ビジョンタスクの多様化をサポートする。 表現にコンパクトさを課すために、低次元多様体への表現の写像を支援するコードブックベースのハイパープライアを提案する。 深い視覚特徴の信号構造によく適合するため、より正確なエントロピー推定を容易にし、より高い圧縮効率をもたらす。 提案フレームワークとコードブックベースのhyperpriorを用いて,異なる抽象化レベルの粒度を持つ異なるタスク特徴の関係をさらに調査する。 実験の結果,提案手法では,既存の圧縮方式に比べて,より低いビットレートで多様なタスクをサポートできることがわかった。

Visual analytics have played an increasingly critical role in the Internet of Things, where massive visual signals have to be compressed and fed into machines. But facing such big data and constrained bandwidth capacity, existing image/video compression methods lead to very low-quality representations, while existing feature compression techniques fail to support diversified visual analytics applications/tasks with low-bit-rate representations. In this paper, we raise and study the novel problem of supporting multiple machine vision analytics tasks with the compressed visual representation, namely, the information compression problem in analytics taxonomy. By utilizing the intrinsic transferability among different tasks, our framework successfully constructs compact and expressive representations at low bit-rates to support a diversified set of machine vision tasks, including both high-level semantic-related tasks and mid-level geometry analytic tasks. In order to impose compactness in the representations, we propose a codebook-based hyperprior, which helps map the representation into a low-dimensional manifold. As it well fits the signal structure of the deep visual feature, it facilitates more accurate entropy estimation, and results in higher compression efficiency. With the proposed framework and the codebook-based hyperprior, we further investigate the relationship of different task features owning different levels of abstraction granularity. Experimental results demonstrate that with the proposed scheme, a set of diversified tasks can be supported at a significantly lower bit-rate, compared with existing compression schemes.
翻訳日:2021-06-17 17:25:36 公開日:2021-06-16
# テレビの視聴が大きすぎる:映画やテレビ番組の自己監督による映像表現学習

Watching Too Much Television is Good: Self-Supervised Audio-Visual Representation Learning from Movies and TV Shows ( http://arxiv.org/abs/2106.08513v1 )

ライセンス: Link先を確認
Mahdi M. Kalayeh, Nagendra Kamath, Lingyi Liu and Ashok Chandrashekar(参考訳) 音の活用の多さと容易さに加えて、聴覚的手がかりがシーンで何が起こるかを明らかにしているという事実により、オーディオ視覚空間は、自己教師付き表現学習にとって、完全に直感的な選択となる。 しかしながら、現在の文献では、 \textit{uncurated} データのトレーニングは、教師付き方法で収集された \textit{curated} 代替よりもかなり貧弱な表現をもたらし、そのギャップはデータのボリュームが著しく増加すると狭くなることを示唆している。 さらに、学習表現の質は、自己教師付きトレーニングに使用されるキュレーションデータセットのサイズと分類に大きく影響されることが知られている。 これは、自己監督活動がほとんどキュレーションされたデータに依存している場合、教師付き学習に追いつくのに早すぎるかどうかを問うものだ。 本稿では,映画やテレビ番組からの学習を,音声・視覚的自己監督学習のための未修正データの形式として活用する。 映画やテレビ番組のコレクションに基づいて訓練された,コントラスト学習に基づく単純なモデルが,大規模な未解決データセットでトレーニングされる複雑な手法を劇的に上回っているだけでなく,大規模に収集されたデータから学ぶ最先端技術と非常に競争力があることを示す。 主キャラクターの出現や目立った場面、映画全体を通して頻繁に起こるミセ・エン・スクエンなどの視聴覚パターンは、コントラスト学習の定式化において、簡単な否定的な例が多すぎることが判明した。 そこで,このような観察を生かした階層的サンプリングポリシーを提案し,その単純さにもかかわらず,特に自然に意味的多様性の少ないテレビ番組から学習する場合に,効果的に性能を向上させる手法を提案する。

The abundance and ease of utilizing sound, along with the fact that auditory clues reveal so much about what happens in the scene, make the audio-visual space a perfectly intuitive choice for self-supervised representation learning. However, the current literature suggests that training on \textit{uncurated} data yields considerably poorer representations compared to the \textit{curated} alternatives collected in supervised manner, and the gap only narrows when the volume of data significantly increases. Furthermore, the quality of learned representations is known to be heavily influenced by the size and taxonomy of the curated datasets used for self-supervised training. This begs the question of whether we are celebrating too early on catching up with supervised learning when our self-supervised efforts still rely almost exclusively on curated data. In this paper, we study the efficacy of learning from Movies and TV Shows as forms of uncurated data for audio-visual self-supervised learning. We demonstrate that a simple model based on contrastive learning, trained on a collection of movies and TV shows, not only dramatically outperforms more complex methods which are trained on orders of magnitude larger uncurated datasets, but also performs very competitively with the state-of-the-art that learns from large-scale curated data. We identify that audiovisual patterns like the appearance of the main character or prominent scenes and mise-en-sc\`ene which frequently occur through the whole duration of a movie, lead to an overabundance of easy negative instances in the contrastive learning formulation. Capitalizing on such observation, we propose a hierarchical sampling policy, which despite its simplicity, effectively improves the performance, particularly when learning from TV shows which naturally face less semantic diversity.
翻訳日:2021-06-17 17:25:11 公開日:2021-06-16
# 構造拘束型非教師付き生成注意ネットワークを用いた胸部MRI-CT変換の教師なし学習に基づく方法

Unsupervised-learnin g-based method for chest MRI-CT transformation using structure constrained unsupervised generative attention networks ( http://arxiv.org/abs/2106.08557v1 )

ライセンス: Link先を確認
Hidetoshi Matsuo (1), Mizuho Nishio (1), Munenobu Nogami (1), Feibi Zeng (1), Takako Kurimoto (2), Sandeep Kaushik (3), Florian Wiesinger (3), Atsushi K Kono (1), and Takamichi Murakami (1) ((1) Department of Radiology, Kobe University Graduate School of Medicine, Kobe, Japan, (2) GE Healthcare, Hino, Japan and (3) GE Healthcare, Munich, Germany)(参考訳) PET/MRI(Integrated positron emission tomography/magnetic resonance imaging)スキャナーは、PETによる代謝情報の同時取得と、MRIを用いた高軟質コントラストによる形態情報の取得を容易にする。 PET/MRIは高精度な融合画像の撮影を容易にするが、その大きな欠点は、定量PET評価に必要な減衰補正を行う際の困難さにある。 PET/MRIスキャンの組み合わせは、ガンマ線減衰情報とMRIとの直接的関係がないため、MRIから減衰補正マップを生成する必要がある。 頭部・骨盤領域ではMRIによる骨切片分割が容易に行えるが,胸部CTによる正確な骨切片形成は依然として困難な課題である。 これは胸部における呼吸と心臓の動きと、解剖学的に複雑な構造と比較的薄い骨皮質に起因していると考えられる。 本稿では,非対位画像の変換が可能なGAN(Generative Adversarial Network)に,モダリティ非依存的近傍記述子(MIND)を用いた構造制約を加えることにより,人間のアノテーションなしで解剖学的構造変化を最小限に抑える手段を提案する。 その結果,U-GAT-IT + MINDアプローチは,他の競合するアプローチよりも優れていた。 本研究は,ヒトのアノテーションを使わずに胸部MRIから臨床的に許容されるCT像を合成し,解剖学的構造の変化を最小限に抑える可能性が示唆された。

The integrated positron emission tomography/magnetic resonance imaging (PET/MRI) scanner facilitates the simultaneous acquisition of metabolic information via PET and morphological information with high soft-tissue contrast using MRI. Although PET/MRI facilitates the capture of high-accuracy fusion images, its major drawback can be attributed to the difficulty encountered when performing attenuation correction, which is necessary for quantitative PET evaluation. The combined PET/MRI scanning requires the generation of attenuation-correcti on maps from MRI owing to no direct relationship between the gamma-ray attenuation information and MRIs. While MRI-based bone-tissue segmentation can be readily performed for the head and pelvis regions, the realization of accurate bone segmentation via chest CT generation remains a challenging task. This can be attributed to the respiratory and cardiac motions occurring in the chest as well as its anatomically complicated structure and relatively thin bone cortex. This paper presents a means to minimise the anatomical structural changes without human annotation by adding structural constraints using a modality-independent neighbourhood descriptor (MIND) to a generative adversarial network (GAN) that can transform unpaired images. The results obtained in this study revealed the proposed U-GAT-IT + MIND approach to outperform all other competing approaches. The findings of this study hint towards possibility of synthesising clinically acceptable CT images from chest MRI without human annotation, thereby minimising the changes in the anatomical structure.
翻訳日:2021-06-17 17:24:40 公開日:2021-06-16
# GAN生成画像の品質評価のための複合フレチェット開始距離

Compound Frechet Inception Distance for Quality Assessment of GAN Created Images ( http://arxiv.org/abs/2106.08575v1 )

ライセンス: Link先を確認
Eric J. Nunn, Pejman Khadivi, Shadrokh Samavi(参考訳) generative adversarial networks(gans)は、生成モデリングフレームワークの一種である。 GANには、実際のデータと区別できない偽のデータを反復的に生成する競合に関わる2つのニューラルネットワークが含まれる。 gansの注目すべき応用のひとつは、ganフレームワークのコアにあるディープラーニングアルゴリズムのために、"deep fakes"としても知られる偽の人間の顔を開発することだ。 生成した画像の品質を測定することは本質的に主観的であるが、標準化されたメトリクスを使って品質を客観化しようとする試みがなされている。 客観的指標の1つの例はフレシェインセプション距離(frechet inception distance, fid)であり、画像の2つの別々のデータセットに対する特徴ベクトルの分布の差を測定する。 知覚品質の低い画像には適切なFIDスコアが割り当てられていない状況がある。 評価プロセスのロバスト性を向上させるために,より広い視覚欠陥に対応する低レベルの機能を統合することを提案する。 提案手法は,生成画像の品質評価のために3段階の機能抽象化を統合する。 実験により,歪み画像に対する提案手法の性能が向上した。

Generative adversarial networks or GANs are a type of generative modeling framework. GANs involve a pair of neural networks engaged in a competition in iteratively creating fake data, indistinguishable from the real data. One notable application of GANs is developing fake human faces, also known as "deep fakes," due to the deep learning algorithms at the core of the GAN framework. Measuring the quality of the generated images is inherently subjective but attempts to objectify quality using standardized metrics have been made. One example of objective metrics is the Frechet Inception Distance (FID), which measures the difference between distributions of feature vectors for two separate datasets of images. There are situations that images with low perceptual qualities are not assigned appropriate FID scores. We propose to improve the robustness of the evaluation process by integrating lower-level features to cover a wider array of visual defects. Our proposed method integrates three levels of feature abstractions to evaluate the quality of generated images. Experimental evaluations show better performance of the proposed method for distorted images.
翻訳日:2021-06-17 17:24:18 公開日:2021-06-16
# 教師なしマルチソースドメイン適応分類のためのドメイン一貫性規則化

Domain Consistency Regularization for Unsupervised Multi-source Domain Adaptive Classification ( http://arxiv.org/abs/2106.08590v1 )

ライセンス: Link先を確認
Zhipeng Luo, Xiaobing Zhang, Shijian Lu, Shuai Yi(参考訳) 近年,深層学習に基づくマルチソース非教師付きドメイン適応(MUDA)が活発に研究されている。 suda(single-source unsupervised domain adaptation)と比較すると、mudaのドメインシフトはソースドメインとターゲットドメインの間だけでなく、複数のソースドメイン間に存在する。 既存のMUDAアルゴリズムの多くは、すべてのドメイン間のドメイン不変表現の抽出に重点を置いている。 本稿では,非教師付きマルチソースドメイン適応分類(crma)のドメイン一貫性規則化を利用するエンドツーエンドのトレーニング可能なネットワークを提案する。 CRMAは、ソースとターゲットの各ドメインの分布だけでなく、すべてのドメインの分布も調整します。 ソースとターゲットの各ドメインに対して、ドメイン内整合性を用いてドメイン内整合性を達成するために、ドメイン固有の分類器のペアを正規化する。 さらに,ドメイン間の整合性を設計し,ドメイン間の整合性を設計する。 複数のソースドメインとターゲットドメインの異なる類似性に対処するために、異なる権限をドメイン固有の分類器に割り当て、最適な擬似ラベル予測と自己学習に適応させる認可戦略を設計する。 大規模な実験により、CRMAはマルチソース設定下で非教師なしのドメイン適応に効果的に取り組み、複数のMUDAデータセットに対して一貫して優れた適応を実現することが示された。

Deep learning-based multi-source unsupervised domain adaptation (MUDA) has been actively studied in recent years. Compared with single-source unsupervised domain adaptation (SUDA), domain shift in MUDA exists not only between the source and target domains but also among multiple source domains. Most existing MUDA algorithms focus on extracting domain-invariant representations among all domains whereas the task-specific decision boundaries among classes are largely neglected. In this paper, we propose an end-to-end trainable network that exploits domain Consistency Regularization for unsupervised Multi-source domain Adaptive classification (CRMA). CRMA aligns not only the distributions of each pair of source and target domains but also that of all domains. For each pair of source and target domains, we employ an intra-domain consistency to regularize a pair of domain-specific classifiers to achieve intra-domain alignment. In addition, we design an inter-domain consistency that targets joint inter-domain alignment among all domains. To address different similarities between multiple source domains and the target domain, we design an authorization strategy that assigns different authorities to domain-specific classifiers adaptively for optimal pseudo label prediction and self-training. Extensive experiments show that CRMA tackles unsupervised domain adaptation effectively under a multi-source setup and achieves superior adaptation consistently across multiple MUDA datasets.
翻訳日:2021-06-17 17:24:00 公開日:2021-06-16
# 相互関係マッチングによる半教師付き医用画像分類

Federated Semi-supervised Medical Image Classification via Inter-client Relation Matching ( http://arxiv.org/abs/2106.08600v1 )

ライセンス: Link先を確認
Quande Liu, Hongzheng Yang, Qi Dou, Pheng-Ann Heng(参考訳) 分散学習(federated learning, fl)は、深層ネットワークを訓練するための分散医療機関のコラボレーションとして人気が高まっている。 しかし、既存のflアルゴリズムは教師付きトレーニングしか許可していないが、現実のほとんどの病院は予算や専門知識の欠如により複雑なデータラベルを付ける余裕がない。 本稿では,ラベル付きクライアントと未ラベルクライアント(病院)のデータを共同で活用することにより,フェデレーションモデルの学習を目的とした,FSSL(textit{Federated Semi-supervised Learning})という実用的かつ困難なFL問題について検討する。 本稿では,新しいクライアント間関係マッチング方式を用いて,従来の一貫性規則化機構よりも改善する新しい手法を提案する。 提案手法は, ラベル付きおよびラベルなしクライアント間の学習を, 抽出した疾患関係を整列させることにより, ラベルなしクライアントにおけるタスク知識の欠如を軽減し, ラベルなしサンプルからの識別情報を促進することによって, 明示的に接続する。 本手法を2つの大規模医用画像分類データセットで検証する。 本手法の有効性は,最先端技術に対する明確な改善と,両タスクの徹底的なアブレーション解析によって実証されている。

Federated learning (FL) has emerged with increasing popularity to collaborate distributed medical institutions for training deep networks. However, despite existing FL algorithms only allow the supervised training setting, most hospitals in realistic usually cannot afford the intricate data labeling due to absence of budget or expertise. This paper studies a practical yet challenging FL problem, named \textit{Federated Semi-supervised Learning} (FSSL), which aims to learn a federated model by jointly utilizing the data from both labeled and unlabeled clients (i.e., hospitals). We present a novel approach for this problem, which improves over traditional consistency regularization mechanism with a new inter-client relation matching scheme. The proposed learning scheme explicitly connects the learning across labeled and unlabeled clients by aligning their extracted disease relationships, thereby mitigating the deficiency of task knowledge at unlabeled clients and promoting discriminative information from unlabeled samples. We validate our method on two large-scale medical image classification datasets. The effectiveness of our method has been demonstrated with the clear improvements over state-of-the-arts as well as the thorough ablation analysis on both tasks\footnote{Code will be made available at \url{https://github.com/l iuquande/FedIRM}}.
翻訳日:2021-06-17 17:23:38 公開日:2021-06-16
# ゼロショット学習のための意味と視覚の融合

Disentangling Semantic-to-visual Confusion for Zero-shot Learning ( http://arxiv.org/abs/2106.08605v1 )

ライセンス: Link先を確認
Zihan Ye, Fuyuan Hu, Fan Lyu, Linyan Li, Kaizhu Huang(参考訳) セマンティクス分布から視覚的特徴を合成するために生成モデルを使用することは、近年zsl画像分類の最も一般的な解決策の1つである。 三重項損失(TL)は、識別表現を自動的に検索することで意味論から現実的な視覚分布を生成するために一般的に用いられる。 しかし、従来の TL は ZSL の未確認クラスが利用できないため、信頼できない非絡み合い表現を探索することはできない。 この欠点を軽減するために,マルチモーダル情報を用いて不整合表現空間を探索するマルチモーダル三重項損失(MMTL)を提案する。 したがって、すべてのクラスは、検索された空間で乱れたクラス表現を学ぶのに役立つ、相互作用できる。 さらに, 学習, 特徴合成, 最終認識段階における不連続表現の活用に着目し, disentangling class representation generative adversarial network (dcr-gan) と呼ばれる新しいモデルを開発した。 DCR-GANは、歪んだ表現から恩恵を受け、見えない特徴と見えない特徴の両方に対して、より現実的な分布に適合する。 大規模な実験により,提案モデルが4つのベンチマークデータセットの最先端モデルよりも優れた性能を示すことが示された。 私たちのコードはhttps://github.com/F ouriYe/DCRGAN-TMMで利用可能です。

Using generative models to synthesize visual features from semantic distribution is one of the most popular solutions to ZSL image classification in recent years. The triplet loss (TL) is popularly used to generate realistic visual distributions from semantics by automatically searching discriminative representations. However, the traditional TL cannot search reliable unseen disentangled representations due to the unavailability of unseen classes in ZSL. To alleviate this drawback, we propose in this work a multi-modal triplet loss (MMTL) which utilizes multimodal information to search a disentangled representation space. As such, all classes can interplay which can benefit learning disentangled class representations in the searched space. Furthermore, we develop a novel model called Disentangling Class Representation Generative Adversarial Network (DCR-GAN) focusing on exploiting the disentangled representations in training, feature synthesis, and final recognition stages. Benefiting from the disentangled representations, DCR-GAN could fit a more realistic distribution over both seen and unseen features. Extensive experiments show that our proposed model can lead to superior performance to the state-of-the-arts on four benchmark datasets. Our code is available at https://github.com/F ouriYe/DCRGAN-TMM.
翻訳日:2021-06-17 17:23:15 公開日:2021-06-16
# FastAno: 時空間パッチ変換による高速異常検出

FastAno: Fast Anomaly Detection via Spatio-temporal Patch Transformation ( http://arxiv.org/abs/2106.08613v1 )

ライセンス: Link先を確認
Chaewon Park, MyeongAh Cho, Minhyeok Lee, Sangyoun Lee(参考訳) 監視ビデオの自動監視の必要性が高まっているため,映像異常検出が注目されている。 特に、予測に基づくアプローチは、トレーニングセットの通常のフレームで学習した後、テストセットの異常事象を含むフレームを予測することによって異常を検出する最も研究された方法の1つである。 しかしながら、事前訓練された光フローネットワークを使用することで計算コストが高まるか、異常を予測できる強力な生成能力があるため異常な状況を検出することができない。 これらの欠点に対処するために、通常のフレームキューブ内で不規則なパッチキューブを生成するために、空間回転変換(SRT)と時間混合変換(TMT)を提案する。 さらに,提案したパッチ変換はトレーニング段階でのみ使用されるので,推論時に高速に異常フレームを検出することができる。 提案手法は,3つの異常検出ベンチマークで評価され,競争精度が向上し,従来の処理を全て高速化した。

Video anomaly detection has gained significant attention due to the increasing requirements of automatic monitoring for surveillance videos. Especially, the prediction based approach is one of the most studied methods to detect anomalies by predicting frames that include abnormal events in the test set after learning with the normal frames of the training set. However, a lot of prediction networks are computationally expensive owing to the use of pre-trained optical flow networks, or fail to detect abnormal situations because of their strong generative ability to predict even the anomalies. To address these shortcomings, we propose spatial rotation transformation (SRT) and temporal mixing transformation (TMT) to generate irregular patch cuboids within normal frame cuboids in order to enhance the learning of normal features. Additionally, the proposed patch transformation is used only during the training phase, allowing our model to detect abnormal frames at fast speed during inference. Our model is evaluated on three anomaly detection benchmarks, achieving competitive accuracy and surpassing all the previous works in terms of speed.
翻訳日:2021-06-17 17:22:54 公開日:2021-06-16
# 単眼深度推定のための注意モジュール付きEdgeConv

EdgeConv with Attention Module for Monocular Depth Estimation ( http://arxiv.org/abs/2106.08615v1 )

ライセンス: Link先を確認
Minhyeok Lee, Sangwon Hwang, Chaewon Park, Sangyoun Lee(参考訳) 単眼深度推定はロボット工学や自律運転において特に重要な課題であり、3D構造情報は不可欠である。 しかし、極端な照明条件と複雑な表面物体は、単一の画像の深さを予測するのを困難にしている。 したがって、正確な深度マップを生成するためには、モデルがシーンの構造情報を学ぶことが重要である。 単眼深度推定の難しさを解決するために,Patch-Wise EdgeConv Module (PEM) と EdgeConv Attention Module (EAM) を提案する。 提案するモジュールは,エッジ畳み込みを用いて空間内の画像パッチ間の関係を学習することにより,構造情報を抽出する。 提案手法は,NYU Depth V2 と KITTI Eigen の2つの一般的なデータセットを用いて評価し,最先端の性能を実現する。 提案手法は,様々な比較実験により,挑戦シーンの深度を頑健に予測できることを示す。

Monocular depth estimation is an especially important task in robotics and autonomous driving, where 3D structural information is essential. However, extreme lighting conditions and complex surface objects make it difficult to predict depth in a single image. Therefore, to generate accurate depth maps, it is important for the model to learn structural information about the scene. We propose a novel Patch-Wise EdgeConv Module (PEM) and EdgeConv Attention Module (EAM) to solve the difficulty of monocular depth estimation. The proposed modules extract structural information by learning the relationship between image patches close to each other in space using edge convolution. Our method is evaluated on two popular datasets, the NYU Depth V2 and the KITTI Eigen split, achieving state-of-the-art performance. We prove that the proposed model predicts depth robustly in challenging scenes through various comparative experiments.
翻訳日:2021-06-17 17:22:37 公開日:2021-06-16
# ビデオ顔解析のための特徴アライメント付きシャッフル変換器

Shuffle Transformer with Feature Alignment for Video Face Parsing ( http://arxiv.org/abs/2106.08650v1 )

ライセンス: Link先を確認
Rui Zhang, Yang Han, Zilong Huang, Pei Cheng, Guozhong Luo, Gang Yu, Bin Fu(参考訳) CVPR 2021の3番目の人物(PIC)ワークショップとチャレンジのショートビデオ顔解析トラックのためのTCParserのソリューションを紹介する短いテクニカルレポートである。 本稿では,ウィンドウ横断型Shuffle Transformerを用いて,正確な顔解析表現を示す強力なバックボーンを提案する。 さらに細かなセグメンテーション結果(特にエッジ)を得るために,我々はFeature Alignment Aggregation (FAA)モジュールを導入する。 マルチレゾリューション機能アグリゲーションによる特徴調整問題を効果的に解消することができる。 より強固なバックボーンとより優れた機能集約の恩恵を受け、提案手法は第3人組(pic)ワークショップとチャレンジのショートビデオ顔解析トラックにおいて86.9519%のスコアを達成し、第1位にランクインした。

This is a short technical report introducing the solution of the Team TCParser for Short-video Face Parsing Track of The 3rd Person in Context (PIC) Workshop and Challenge at CVPR 2021. In this paper, we introduce a strong backbone which is cross-window based Shuffle Transformer for presenting accurate face parsing representation. To further obtain the finer segmentation results, especially on the edges, we introduce a Feature Alignment Aggregation (FAA) module. It can effectively relieve the feature misalignment issue caused by multi-resolution feature aggregation. Benefiting from the stronger backbone and better feature aggregation, the proposed method achieves 86.9519% score in the Short-video Face Parsing track of the 3rd Person in Context (PIC) Workshop and Challenge, ranked the first place.
翻訳日:2021-06-17 17:22:22 公開日:2021-06-16
# 2nd Place Solution for Waymo Open Dataset Challenge - リアルタイム2Dオブジェクト検出

2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D Object Detection ( http://arxiv.org/abs/2106.08713v1 )

ライセンス: Link先を確認
Yueming Zhang, Xiaolin Song, Bing Bai, Tengfei Xing, Chao Liu, Xin Gao, Zhihui Wang, Yawei Wen, Haojin Liao, Guoshan Zhang, Pengfei Xu(参考訳) 自動運転システムでは、画像から車両、歩行者、サイクリストを認識することが不可欠である。 予測の正確性に加えて、リアルタイム実行の必要性は畳み込みネットワークモデルに新たな課題をもたらす。 本稿では,画像から2次元物体をリアルタイムに検出する手法を提案する。 我々は,複数の一般的な一段階物体検出器を収集し,様々な入力戦略のモデルを個別に訓練することにより,各カテゴリ,特に小型物体の正確なマルチスケール検出性能を向上させる。 モデル加速にはTensorRTを使用し、検出パイプラインの推論時間を最適化する。 リーダボードに示されているように、当社の提案した検出フレームワークは、Waymo Open Dataset Challengesのリアルタイム2D検出トラックにおいて、75.00% L1 mAPと69.72% L2 mAPの2位にランク付けしています。

In an autonomous driving system, it is essential to recognize vehicles, pedestrians and cyclists from images. Besides the high accuracy of the prediction, the requirement of real-time running brings new challenges for convolutional network models. In this report, we introduce a real-time method to detect the 2D objects from images. We aggregate several popular one-stage object detectors and train the models of variety input strategies independently, to yield better performance for accurate multi-scale detection of each category, especially for small objects. For model acceleration, we leverage TensorRT to optimize the inference time of our detection pipeline. As shown in the leaderboard, our proposed detection framework ranks the 2nd place with 75.00% L1 mAP and 69.72% L2 mAP in the real-time 2D detection track of the Waymo Open Dataset Challenges, while our framework achieves the latency of 45.8ms/frame on an Nvidia Tesla V100 GPU.
翻訳日:2021-06-17 17:22:05 公開日:2021-06-16
# 偽画像帰属のためのGANフィンガープリントの分散学習

Learning to Disentangle GAN Fingerprint for Fake Image Attribution ( http://arxiv.org/abs/2106.08749v1 )

ライセンス: Link先を確認
Tianyun Yang, Juan Cao, Qiang Sheng, Lei Li, Jiaqi Ji, Xirong Li, Sheng Tang(参考訳) 生成モデルの急速なペースは、悪意のある人格化やデジタル著作権侵害などの視覚科学に新たな脅威をもたらし、偽画像の帰属を促進する。 既存のフェイク画像属性の研究は主に直接的な分類フレームワークに依存している。 追加の監視がなければ、抽出された機能は多くのコンテンツ関連コンポーネントを含み、一般化が不十分になる可能性がある。 一方、その決定を説明するための解釈可能なGAN指紋の入手方法には、未解決の問題が残る。 マルチタスク・フレームワークを採用し,gan生成画像から同時に指紋を抽出し,偽画像の帰属のためのコンテンツ非関連表現を生成するgan指紋照合ネットワーク(gfd-net)を提案する。 一連の制約により、指紋の安定性と識別性が保証され、結果として、コンテンツ無関係な特徴抽出に役立つ。 さらに,GANの指紋の特徴や,GANアーキテクチャにおいてどの因子が指紋を支配しているかについて,GANの指紋の包括的解析を行った。 我々のGFD-Netは、クローズドワールドとオープンワールドの両方のテストにおいて、優れたフェイク画像帰属性能を達成している。 また,この手法を2値の偽画像検出に適用し,未知のジェネレータに有意な一般化能力を示す。

Rapid pace of generative models has brought about new threats to visual forensics such as malicious personation and digital copyright infringement, which promotes works on fake image attribution. Existing works on fake image attribution mainly rely on a direct classification framework. Without additional supervision, the extracted features could include many content-relevant components and generalize poorly. Meanwhile, how to obtain an interpretable GAN fingerprint to explain the decision remains an open question. Adopting a multi-task framework, we propose a GAN Fingerprint Disentangling Network (GFD-Net) to simultaneously disentangle the fingerprint from GAN-generated images and produce a content-irrelevant representation for fake image attribution. A series of constraints are provided to guarantee the stability and discriminability of the fingerprint, which in turn helps content-irrelevant feature extraction. Further, we perform comprehensive analysis on GAN fingerprint, providing some clues about the properties of GAN fingerprint and which factors dominate the fingerprint in GAN architecture. Experiments show that our GFD-Net achieves superior fake image attribution performance in both closed-world and open-world testing. We also apply our method in binary fake image detection and exhibit a significant generalization ability on unseen generators.
翻訳日:2021-06-17 17:21:46 公開日:2021-06-16
# ブラの形状:高速移動物体の3次元形状と運動を復元する

Shape from Blur: Recovering Textured 3D Shape and Motion of Fast Moving Objects ( http://arxiv.org/abs/2106.08762v1 )

ライセンス: Link先を確認
Denys Rozumnyi, Martin R. Oswald, Vittorio Ferrari, Marc Pollefeys(参考訳) 本研究では, 物体の3次元形状, テクスチャ, 動きを単一動画像から共同で再構成する作業について述べる。 従来のアプローチでは2次元画像領域のみのデブラリング問題に対処するが,提案手法では3次元領域内のすべてのオブジェクト特性の厳密なモデリングにより,任意のオブジェクトの動きを正しく記述できる。 これにより、画像分解が大幅に改善され、より鮮明なデブラリング結果が得られる。 我々は、背景と3Dオブジェクトの組み合わせとして、一定の翻訳と回転で観察された動きをモデル化する。 本手法は,適切な正規化子を用いた微分可能レンダリングによる入力画像の再構成における損失を最小限に抑える。 これにより、ぼやけたオブジェクトのテクスチャ化された3dメッシュを高い忠実度で推定することができる。 提案手法は, 高速移動物体をデブラリングする複数のベンチマークにおいて, 競合するアプローチを実質的に上回っている。 定性的な結果から, 再構成された3次元メッシュは高画質の時間分解能を発生し, 劣化物体の新規な視界が得られた。

We address the novel task of jointly reconstructing the 3D shape, texture, and motion of an object from a single motion-blurred image. While previous approaches address the deblurring problem only in the 2D image domain, our proposed rigorous modeling of all object properties in the 3D domain enables the correct description of arbitrary object motion. This leads to significantly better image decomposition and sharper deblurring results. We model the observed appearance of a motion-blurred object as a combination of the background and a 3D object with constant translation and rotation. Our method minimizes a loss on reconstructing the input image via differentiable rendering with suitable regularizers. This enables estimating the textured 3D mesh of the blurred object with high fidelity. Our method substantially outperforms competing approaches on several benchmarks for fast moving objects deblurring. Qualitative results show that the reconstructed 3D mesh generates high-quality temporal super-resolution and novel views of the deblurred object.
翻訳日:2021-06-17 17:21:24 公開日:2021-06-16
# 半ラグランジアンスキームを用いた変成像登録

Metamorphic image registration using a semi-Lagrangian scheme ( http://arxiv.org/abs/2106.08817v1 )

ライセンス: Link先を確認
Anton Fran\c{c}ois, Pietro Gori, Joan Glaun\`es(参考訳) 本稿では,測地線撮影のための半ラグランジュ的スキームを用いて,大変形拡散度メトリックマッピング(LDDMM)と変態画像登録の両方の実装を提案する。 本稿では,コスト関数を単一かつ統一的に提供する不正確なマッチングとして,両問題を解くことを提案する。 画像登録において,半ラグランジュ型スキームの使用は標準ユーレリア型スキームよりも安定であることを示す。 当社のGPU実装はPyTorchをベースにしており、強力な自動微分エンジンのおかげで計算を大幅に単純化し、高速化しています。 それはhttps://github.com/a ntonfrancois/demeter _metamorphosisで無料で利用できる。

In this paper, we propose an implementation of both Large Deformation Diffeomorphic Metric Mapping (LDDMM) and Metamorphosis image registration using a semi-Lagrangian scheme for geodesic shooting. We propose to solve both problems as an inexact matching providing a single and unifying cost function. We demonstrate that for image registration the use of a semi-Lagrangian scheme is more stable than a standard Eulerian scheme. Our GPU implementation is based on PyTorch, which greatly simplifies and accelerates the computations thanks to its powerful automatic differentiation engine. It will be freely available at https://github.com/a ntonfrancois/Demeter _metamorphosis.
翻訳日:2021-06-17 17:21:08 公開日:2021-06-16
# JRDB-Act:時空間行動・社会集団・活動検出のための大規模マルチモーダルデータセット

JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action, Social Group and Activity Detection ( http://arxiv.org/abs/2106.08827v1 )

ライセンス: Link先を確認
Mahsa Ehsanpour, Fatemeh Saleh, Silvio Savarese, Ian Reid, Hamid Rezatofighi(参考訳) 大規模ビデオアクション理解データセットの可用性は、人を含む視覚シーンの解釈の進歩を促した。 しかし、高度にバランスのとれたロングテールの分散データを持つ、訓練されていない実世界環境で人間の活動を認識することの学習は、特に反射型大規模データセットの欠如のために、重要な課題である。 既存の大規模データセットの多くは、特定の環境や制約のある環境から収集される。 キッチンや部屋、YouTubeのようなビデオ共有プラットフォーム。 本稿では,大学構内における生活行動の実際の分布を反映した,既存のJRDBの拡張として,マルチモーダルデータセットであるJRDB-Actを紹介する。 JRDB-Actは280万以上のアクションラベルから構成され、大規模な時空間行動検出データセットを構成する。 各人間のバウンディングボックスには、1つのポーズベースのアクションラベルと複数の(オプションの)インタラクションベースのアクションラベルがラベルされている。 さらに、JRDB-Actには、現場での交流に基づいて個人をグループ化し、社会的活動(各社会集団の共通活動)を推測するソーシャルグループ識別アノテーションが付属している。

The availability of large-scale video action understanding datasets has facilitated advances in the interpretation of visual scenes containing people. However, learning to recognize human activities in an unconstrained real-world environment, with potentially highly unbalanced and long-tailed distributed data remains a significant challenge, not least owing to the lack of a reflective large-scale dataset. Most existing large-scale datasets are either collected from a specific or constrained environment, e.g. kitchens or rooms, or video sharing platforms such as YouTube. In this paper, we introduce JRDB-Act, a multi-modal dataset, as an extension of the existing JRDB, which is captured by asocial mobile manipulator and reflects a real distribution of human daily life actions in a university campus environment. JRDB-Act has been densely annotated with atomic actions, comprises over 2.8M action labels, constituting a large-scale spatio-temporal action detection dataset. Each human bounding box is labelled with one pose-based action label and multiple (optional) interaction-based action labels. Moreover JRDB-Act comes with social group identification annotations conducive to the task of grouping individuals based on their interactions in the scene to infer their social activities (common activities in each social group).
翻訳日:2021-06-17 17:20:58 公開日:2021-06-16
# ロボット雑草制御に向けて:不正確かつ不十分な訓練データを用いたバミューダグラス芝生の雑草検出

Toward Robotic Weed Control: Detection of Nutsedge Weed in Bermudagrass Turf Using Inaccurate and Insufficient Training Data ( http://arxiv.org/abs/2106.08897v1 )

ライセンス: Link先を確認
Shuangyu Xie, Chengsong Hu, Muthukumar Bagavathiannan, and Dezhen Song(参考訳) ロボット雑草制御を実現するため,野草雑草からナツシャッジ雑草を検出するアルゴリズムを開発した。 雑草と背景芝の類似性のため、手動によるデータラベリングは高価でエラーを起こしやすい。 したがって、オブジェクト検出にディープラーニングメソッドを直接適用しても、十分な結果が得られない。 インスタンス検出アプローチ(すなわち、インスタンス検出アプローチ)の構築 Mask R-CNN)では,合成データと生データを組み合わせてネットワークを訓練する。 そこで本研究では,高い忠実度を持つ合成データを生成するアルゴリズムを提案し,異なるレベルのアノテーションを適用し,ラベリングコストを削減する。 さらに,ニューラルネットワーク入力としてナッツエッジ骨格に基づく確率マップ(NSPM)を構築し,ピクセル単位の正確なラベリングへの依存を減らす。 また,ラベリング過程における不確実性を考慮したクロスエントロピーからkullback-leibler divergenceへの損失関数の修正を行った。 本稿では,提案アルゴリズムを実装し,Faster R-CNNとMask R-CNNを比較した。 その結果,不正確で不十分なサンプル問題の影響を効果的に克服し,偽陰性率0.4%の高速R-CNNよりも優れていた。 特に本手法では,従来のMask R-CNN手法と比較した場合,ラベリング時間を95%削減し,性能も向上する。

To enable robotic weed control, we develop algorithms to detect nutsedge weed from bermudagrass turf. Due to the similarity between the weed and the background turf, manual data labeling is expensive and error-prone. Consequently, directly applying deep learning methods for object detection cannot generate satisfactory results. Building on an instance detection approach (i.e. Mask R-CNN), we combine synthetic data with raw data to train the network. We propose an algorithm to generate high fidelity synthetic data, adopting different levels of annotations to reduce labeling cost. Moreover, we construct a nutsedge skeleton-based probabilistic map (NSPM) as the neural network input to reduce the reliance on pixel-wise precise labeling. We also modify loss function from cross entropy to Kullback-Leibler divergence which accommodates uncertainty in the labeling process. We implement the proposed algorithm and compare it with both Faster R-CNN and Mask R-CNN. The results show that our design can effectively overcome the impact of imprecise and insufficient training sample issues and significantly outperform the Faster R-CNN counterpart with a false negative rate of only 0.4%. In particular, our approach also reduces labeling time by 95% while achieving better performance if comparing with the original Mask R-CNN approach.
翻訳日:2021-06-17 17:20:38 公開日:2021-06-16
# structure first detail next: image inpainting with pyramid generator

Structure First Detail Next: Image Inpainting with Pyramid Generator ( http://arxiv.org/abs/2106.08905v1 )

ライセンス: Link先を確認
Shuyi Qu, Zhenxing Niu, Kaizhu Huang, Jianke Zhu, Matan Protter, Gadi Zimerman, Yinghui Xu(参考訳) 近年の深層生成モデルは, 画像インペイントにおいて有望な性能を達成している。 しかし、その固有のスペクトルバイアスのため、ニューラルネットワークが現実的な画像の詳細とテクスチャを生成することは依然として非常に困難である。 アーティストの働き方を理解することで、イメージインパインティングに‘structure first detail next’ワークフローを採用することを提案します。 そこで本研究では,下層サブジェネレータが画像構造の復元に重点を置き,高層サブジェネレータが画像詳細を強調する,複数のサブジェネレータを積み重ねてピラミッド生成器を構築することを提案する。 入力画像が与えられると、ピラミッド全体をボトムアップで通り抜けて徐々に復元される。 特に,本手法では,ホールサイズを徐々に増大させる学習手法により,大穴画像の復元が可能となる。 また,高分解能画像を用いた学習の利点を十分に活用できるため,高分解能画像のインパインティングに適している。 ベンチマークデータセットの広範な実験結果から,最先端手法と比較して,本手法の有効性が検証された。

Recent deep generative models have achieved promising performance in image inpainting. However, it is still very challenging for a neural network to generate realistic image details and textures, due to its inherent spectral bias. By our understanding of how artists work, we suggest to adopt a `structure first detail next' workflow for image inpainting. To this end, we propose to build a Pyramid Generator by stacking several sub-generators, where lower-layer sub-generators focus on restoring image structures while the higher-layer sub-generators emphasize image details. Given an input image, it will be gradually restored by going through the entire pyramid in a bottom-up fashion. Particularly, our approach has a learning scheme of progressively increasing hole size, which allows it to restore large-hole images. In addition, our method could fully exploit the benefits of learning with high-resolution images, and hence is suitable for high-resolution image inpainting. Extensive experimental results on benchmark datasets have validated the effectiveness of our approach compared with state-of-the-art methods.
翻訳日:2021-06-17 17:20:16 公開日:2021-06-16
# 多視点画像からの深度推定のための微分拡散

Differentiable Diffusion for Dense Depth Estimation from Multi-view Images ( http://arxiv.org/abs/2106.08917v1 )

ライセンス: Link先を確認
Numair Khan, Min H. Kim, James Tompkin(参考訳) 深度マップへの拡散がRGB監督からの多視点再投射誤差を最小限に抑えるように、細かな点集合を最適化することにより、深度を推定する手法を提案する。 解析透過率を持つガウスをモデルとした微分スプラッティングによる損失に対する点位置、深さ、重量を最適化する。 さらに,複雑なシーン復元に必要な50k以上のポイントを同時に最適化できる効率的な最適化ルーチンを開発した。 地上真理データを用いて本ルーチンを検証し,高いコンストラクション品質を示す。 次に,光電界および自己監視によるより広いベースライン画像に適用し,不正確なスパース点から拡散した深度マップの平均誤差と外れ誤差の両方を改善した。 最後に,質的および定量的な結果を画像処理およびディープラーニング手法と比較する。

We present a method to estimate dense depth by optimizing a sparse set of points such that their diffusion into a depth map minimizes a multi-view reprojection error from RGB supervision. We optimize point positions, depths, and weights with respect to the loss by differential splatting that models points as Gaussians with analytic transmittance. Further, we develop an efficient optimization routine that can simultaneously optimize the 50k+ points required for complex scene reconstruction. We validate our routine using ground truth data and show high reconstruction quality. Then, we apply this to light field and wider baseline images via self supervision, and show improvements in both average and outlier error for depth maps diffused from inaccurate sparse points. Finally, we compare qualitative and quantitative results to image processing and deep learning methods.
翻訳日:2021-06-17 17:19:59 公開日:2021-06-16
# 可逆的注意

Invertible Attention ( http://arxiv.org/abs/2106.09003v1 )

ライセンス: Link先を確認
Jiajun Zha, Yiran Zhong, Jing Zhang, Liang Zheng, Richard Hartley(参考訳) 長距離の依存関係をキャプチャする効率的なメカニズムとして注目されている。 しかし、現時点では可逆ネットワークには展開されていない。 これは、ネットワークを可逆的にするためには、ネットワーク内のすべてのコンポーネントは単射変換が必要であるが、通常の注意ブロックはそうではないという事実による。 本稿では,既存の可逆モデルにプラグイン可能な可逆的注意を提案する。 数学的および実験的に、注意モデルの可逆性は、そのリプシッツ定数を慎重に拘束することで達成できることを示す。 我々は,CIFAR-10,SVHN,Celeb Aの3つの一般的なデータセットを用いて,画像再構成作業における可逆的注意の可逆性を検証する。 また,我々の非可逆的注意は,高密度予測タスクにおける通常の非可逆的注意と比較して,同様の性能が得られることを示す。

Attention has been proved to be an efficient mechanism to capture long-range dependencies. However, so far it has not been deployed in invertible networks. This is due to the fact that in order to make a network invertible, every component within the network needs to be a bijective transformation, but a normal attention block is not. In this paper, we propose invertible attention that can be plugged into existing invertible models. We mathematically and experimentally prove that the invertibility of an attention model can be achieved by carefully constraining its Lipschitz constant. We validate the invertibility of our invertible attention on image reconstruction task with 3 popular datasets: CIFAR-10, SVHN, and CelebA. We also show that our invertible attention achieves similar performance in comparison with normal non-invertible attention on dense prediction tasks.
翻訳日:2021-06-17 17:19:47 公開日:2021-06-16
# 病院入院の予測モデル : 課題と解決法

Predictive Modeling of Hospital Readmission: Challenges and Solutions ( http://arxiv.org/abs/2106.08488v1 )

ライセンス: Link先を確認
Shuwen Wang and Xingquan Zhu(参考訳) hospital readmission predictionは、退院後30日から90日以内に病院に戻る患者の確率を予測するために、過去の医療データからモデルを学ぶための研究である。 その動機は、医療提供者がより良い治療と退院後の戦略を提供し、入院率を下げ、最終的には医療コストを下げることにある。 疾患や医療のエコシステムに固有の複雑さがあるため、病院の入院のモデリングは多くの課題に直面している。 現時点では、さまざまな方法が開発されているが、既存の文献では、病院のリードミッションのモデリングにおける主な課題や解決策、リードミッション予測に使用される典型的な機能やモデル、意思決定において有意義で透明な予測を達成する方法、実際の使用のために予測アプローチを展開する際の競合点など、いくつかの基本的な質問に答える完全な図を提供していない。 そこで本研究では,(1)データ多様性と複雑性,(2)データ不均衡,局所性とプライバシ,(3)モデル解釈可能性,(4)モデル実装という4つの主カテゴリを特徴とする課題の分類法を提案する。 それぞれのカテゴリの手法を要約し、課題に対処するために提案された技術的解決策を強調した。 加えて、病院の整流モデルで利用可能なデータセットとリソースのレビューでは、研究者や実践者が効果的で効率的な病院整流予測のための新しいアプローチを設計するための直接資料も提供されている。

Hospital readmission prediction is a study to learn models from historical medical data to predict probability of a patient returning to hospital in a certain period, 30 or 90 days, after the discharge. The motivation is to help health providers deliver better treatment and post-discharge strategies, lower the hospital readmission rate, and eventually reduce the medical costs. Due to inherent complexity of diseases and healthcare ecosystems, modeling hospital readmission is facing many challenges. By now, a variety of methods have been developed, but existing literature fails to deliver a complete picture to answer some fundamental questions, such as what are the main challenges and solutions in modeling hospital readmission; what are typical features/models used for readmission prediction; how to achieve meaningful and transparent predictions for decision making; and what are possible conflicts when deploying predictive approaches for real-world usages. In this paper, we systematically review computational models for hospital readmission prediction, and propose a taxonomy of challenges featuring four main categories: (1) data variety and complexity; (2) data imbalance, locality and privacy; (3) model interpretability; and (4) model implementation. The review summarizes methods in each category, and highlights technical solutions proposed to address the challenges. In addition, a review of datasets and resources available for hospital readmission modeling also provides firsthand materials to support researchers and practitioners to design new approaches for effective and efficient hospital readmission prediction.
翻訳日:2021-06-17 17:18:51 公開日:2021-06-16
# SEEN: 周辺地域の説明を用いたグラフニューラルネットワークの高速化

SEEN: Sharpening Explanations for Graph Neural Networks using Explanations from Neighborhoods ( http://arxiv.org/abs/2106.08532v1 )

ライセンス: Link先を確認
Hyeoncheol Cho, Youngrock Oh, Eunjoo Jeon(参考訳) グラフニューラルネットワーク(GNN)から得られる予測の基礎を説明することは、実世界の問題にGNNモデルを使用する上で極めて重要である。 GNNアプリケーションの急速な成長に伴い、感度分析、摂動法、帰属法などのGNNからの予測を説明する最近の進歩は、GNNの予測を説明する大きな機会と可能性を示した。 本研究では,SEENと呼ばれる重要な隣接ノードからの補助的説明を集約することで,ポストホックな方法で適用可能なノード分類タスクの説明品質を向上させる手法を提案する。 seeを適用するにはグラフの変更は不要であり、独立したメカニズムのため、さまざまな説明可能性技術で使用できる。 与えられたグラフからモチーフ参加ノードをマッチングする実験では、説明精度が最大12.71%向上し、補助説明と説明精度の向上との相関性が示される。 SEENは、GNNモデル出力の説明品質を高めるためのシンプルだが効果的な方法を提供し、ほとんどの説明可能性技術と組み合わせて適用することができる。

Explaining the foundations for predictions obtained from graph neural networks (GNNs) is critical for credible use of GNN models for real-world problems. Owing to the rapid growth of GNN applications, recent progress in explaining predictions from GNNs, such as sensitivity analysis, perturbation methods, and attribution methods, showed great opportunities and possibilities for explaining GNN predictions. In this study, we propose a method to improve the explanation quality of node classification tasks that can be applied in a post hoc manner through aggregation of auxiliary explanations from important neighboring nodes, named SEEN. Applying SEEN does not require modification of a graph and can be used with diverse explainability techniques due to its independent mechanism. Experiments on matching motif-participating nodes from a given graph show great improvement in explanation accuracy of up to 12.71% and demonstrate the correlation between the auxiliary explanations and the enhanced explanation accuracy through leveraging their contributions. SEEN provides a simple but effective method to enhance the explanation quality of GNN model outputs, and this method is applicable in combination with most explainability techniques.
翻訳日:2021-06-17 17:18:25 公開日:2021-06-16
# 深い2次元および3次元グラフネットワークによる高速量子特性予測

Fast Quantum Property Prediction via Deeper 2D and 3D Graph Networks ( http://arxiv.org/abs/2106.08551v1 )

ライセンス: Link先を確認
Meng Liu, Cong Fu, Xuan Zhang, Limei Wang, Yaochen Xie, Hao Yuan, Youzhi Luo, Zhao Xu, Shenglong Xu, and Shuiwang Ji(参考訳) 分子特性予測はその多様な応用によって注目を集めている。 特定の関心と重要性の1つの課題は、3次元平衡構造なしで量子化学特性を予測することである。 これは3次元平衡構造を得るには極めて高価な計算が必要であるため、実質的に有利である。 本研究では,2次元分子グラフから直接学習することで,量子特性を予測するディープグラフニューラルネットワークを設計する。 さらに,低価格なコンフォーメータセットから学ぶための3次元グラフニューラルネットワークを提案する。 我々は2021 kdd cup on ogb large-scale challenge (ogb-lsc) に参加するために,分子のホモ・ルーモエネルギーギャップの予測を目的とした手法を用いる。 最終評価結果から,我々はホールドアウトテストセットの平均絶対誤差0.1235の勝者であることがわかった。 私たちの実装はMoeculeXパッケージ(https://github.com/ divelab/MoleculeX)の一部として利用可能です。

Molecular property prediction is gaining increasing attention due to its diverse applications. One task of particular interests and importance is to predict quantum chemical properties without 3D equilibrium structures. This is practically favorable since obtaining 3D equilibrium structures requires extremely expensive calculations. In this work, we design a deep graph neural network to predict quantum properties by directly learning from 2D molecular graphs. In addition, we propose a 3D graph neural network to learn from low-cost conformer sets, which can be obtained with open-source tools using an affordable budget. We employ our methods to participate in the 2021 KDD Cup on OGB Large-Scale Challenge (OGB-LSC), which aims to predict the HOMO-LUMO energy gap of molecules. Final evaluation results reveal that we are one of the winners with a mean absolute error of 0.1235 on the holdout test set. Our implementation is available as part of the MoleculeX package (https://github.com/ divelab/MoleculeX).
翻訳日:2021-06-17 17:18:09 公開日:2021-06-16
# ラベル拡張による自己監督型GAN

Self-supervised GANs with Label Augmentation ( http://arxiv.org/abs/2106.08601v1 )

ライセンス: Link先を確認
Liang Hou, Huawei Shen, Qi Cao, Xueqi Cheng(参考訳) 近年, 変換に基づく自己教師型学習がGAN(Generative Adversarial Network)に応用され, 安定した表現を学習することで, 判別器の破滅的忘れ問題を軽減することができる。 しかし、既存の自己教師付きganにおける個別の自己教師付きタスクは、ジェネレータ分布非依存の分類器からジェネレータを学習することによる生成モデルと矛盾する目標をもたらす。 この問題に対処するために,ラベル拡張を伴う新たな自己教師型GANフレームワーク,すなわち,自己教師型擬似ラベルを用いたGANラベル(実物または偽物)の強化を提案する。 特に、判別器と自己教師付き分類器は統一され、識別器/分類器がジェネレータ分布を認識しているように拡張ラベルを予測する1つのタスクを学習し、生成器は変換された実分布と生成された分布との差を最適化して判別器/分類器を混乱させようとする。 理論的には、生成元は平衡点において、データ分布を複製するために収束する。 実験により,提案手法は,ベンチマークデータセット間の生成モデルと表現学習の両方において,競合ベースラインを大幅に上回ることを示す。

Recently, transformation-based self-supervised learning has been applied to generative adversarial networks (GANs) to mitigate the catastrophic forgetting problem of discriminator by learning stable representations. However, the separate self-supervised tasks in existing self-supervised GANs cause an inconsistent goal with generative modeling due to the learning of the generator from their generator distribution-agnosti c classifiers. To address this issue, we propose a novel self-supervised GANs framework with label augmentation, i.e., augmenting the GAN labels (real or fake) with the self-supervised pseudo-labels. In particular, the discriminator and the self-supervised classifier are unified to learn a single task that predicts the augmented label such that the discriminator/classi fier is aware of the generator distribution, while the generator tries to confuse the discriminator/classi fier by optimizing the discrepancy between the transformed real and generated distributions. Theoretically, we prove that the generator, at the equilibrium point, converges to replicate the data distribution. Empirically, we demonstrate that the proposed method significantly outperforms competitive baselines on both generative modeling and representation learning across benchmark datasets.
翻訳日:2021-06-17 17:17:53 公開日:2021-06-16
# HELP:メタラーニングによるNASのハードウェア適応型遅延予測器

HELP: Hardware-Adaptive Efficient Latency Predictor for NAS via Meta-Learning ( http://arxiv.org/abs/2106.08630v1 )

ライセンス: Link先を確認
Hayeon Lee, Sewoong Lee, Song Chong, Sung Ju Hwang(参考訳) デプロイメントでは、デバイス固有の制約(メモリ使用量、レイテンシ、エネルギー消費など)を満たし、モデルの効率を高めるために、ニューラルネットワーク検索はハードウェア対応であるべきだ。 既存のハードウェア対応NASの方法は、ターゲットデバイスから多数のサンプル(例えば、精度とレイテンシ)を収集し、ルックアップテーブルまたは遅延推定器を構築する。 しかし、そのようなアプローチは、様々なハードウェア仕様のデバイスが多数存在する現実のシナリオでは実践不可能であり、そのような多数のデバイスからサンプルを収集するには、計算と金銭的コストを禁ずる必要がある。 このような制約を克服するため,ハードウェア適応型高効率遅延予測器 (HELP) を提案する。これは,デバイス固有の遅延推定問題をメタラーニング問題として定式化し,与えられたタスクに対するモデルの性能の遅延をサンプル数個で推定する。 そこで本研究では,遅延を出力するブラックボックス関数とみなすデバイスを組み込み可能なハードウェア埋め込みを導入し,ハードウェア埋め込みを用いてハードウェア適応型遅延予測器をデバイス依存方式でメタ学習する。 提案するHELPの遅延推定性能について検証し,最大10個の測定サンプルを用いて高い推定性能を達成し,関連するベースラインを全て上回る結果を得た。 また、HELPを使用せずに使用するエンドツーエンドNASフレームワークの検証を行い、遅延制約のある設定において、基本NAS手法のトータル時間コストを大幅に削減することを示す。

For deployment, neural architecture search should be hardware-aware, in order to satisfy the device-specific constraints (e.g., memory usage, latency and energy consumption) and enhance the model efficiency. Existing methods on hardware-aware NAS collect a large number of samples (e.g., accuracy and latency) from a target device, either builds a lookup table or a latency estimator. However, such approach is impractical in real-world scenarios as there exist numerous devices with different hardware specifications, and collecting samples from such a large number of devices will require prohibitive computational and monetary cost. To overcome such limitations, we propose Hardware-adaptive Efficient Latency Predictor (HELP), which formulates the device-specific latency estimation problem as a meta-learning problem, such that we can estimate the latency of a model's performance for a given task on an unseen device with a few samples. To this end, we introduce novel hardware embeddings to embed any devices considering them as black-box functions that output latencies, and meta-learn the hardware-adaptive latency predictor in a device-dependent manner, using the hardware embeddings. We validate the proposed HELP for its latency estimation performance on unseen platforms, on which it achieves high estimation performance with as few as 10 measurement samples, outperforming all relevant baselines. We also validate end-to-end NAS frameworks using HELP against ones without it, and show that it largely reduces the total time cost of the base NAS method, in latency-constrained settings.
翻訳日:2021-06-17 17:17:31 公開日:2021-06-16
# 非パラメトリックマルチ出力回帰のための確率回路の活用

Leveraging Probabilistic Circuits for Nonparametric Multi-Output Regression ( http://arxiv.org/abs/2106.08687v1 )

ライセンス: Link先を確認
Zhongjie Yu, Mingye Zhu, Martin Trapp, Arseny Skryagin, Kristian Kersting(参考訳) ガウス過程 (GP) のエキスパートベース近似の分野における最近の進歩に触発されて, 単一出力GPエキスパートを用いた大規模マルチアウトプットレグレッションへの専門家ベースアプローチを提案する。 確率回路を介して符号化された単一出力GPの深い混合構造を用いることで、複数の出力次元間の相関関係を正確に捉えることができる。 共変量空間と出力空間を再帰的に分割することにより、我々のモデルにおける後部推論は、観測の小さな部分集合にのみ条件を付ける必要がある単出力GP専門家の推論に還元される。 本モデルでは,出力次元間の相関を捉えることができ,その結果,負のログ予測密度を用いて複数のデータセットで示されるように,出力間相関を含まない手法を上回ることが少なくない。

Inspired by recent advances in the field of expert-based approximations of Gaussian processes (GPs), we present an expert-based approach to large-scale multi-output regression using single-output GP experts. Employing a deeply structured mixture of single-output GPs encoded via a probabilistic circuit allows us to capture correlations between multiple output dimensions accurately. By recursively partitioning the covariate space and the output space, posterior inference in our model reduces to inference on single-output GP experts, which only need to be conditioned on a small subset of the observations. We show that inference can be performed exactly and efficiently in our model, that it can capture correlations between output dimensions and, hence, often outperforms approaches that do not incorporate inter-output correlations, as demonstrated on several data sets in terms of the negative log predictive density.
翻訳日:2021-06-17 17:17:02 公開日:2021-06-16
# 根底真理の少ない作物収量の予測:シーズン内予測のための簡易統計モデル

Predicting crop yields with little ground truth: A simple statistical model for in-season forecasting ( http://arxiv.org/abs/2106.08720v1 )

ライセンス: Link先を確認
Nemo Semret(参考訳) 我々は,サブナショナルな「地下真理」情報が存在する場所で機能するように設計された,シーズン内収量予測の完全自動化モデルを提案する。 我々のアプローチは主に衛星データに依存しており、簡単な回帰モデルと組み合わせた注意深い特徴工学が特徴である。 そのため、世界中のほぼどこでも使える。 10種(トウモロコシ、小麦、ソルガム、大麦、ミレットの5穀類、エチオピア、ケニアの2か国)に適用すると、毎年9ヶ月の予測では5\%-10\%、年間3ヶ月の予測では7\%-14\%のRMSEが得られる。 モデルは、今年の最終利回りの日次予測を出力します。 各収穫国ごとに約400万のデータポイントを使用してトレーニングされる。 これらは、歴史的国レベルの年収、収穫の暦、作物の被覆、NDVI、温度、降雨、蒸発散である。

We present a fully automated model for in-season crop yield prediction, designed to work where there is a dearth of sub-national "ground truth" information. Our approach relies primarily on satellite data and is characterized by careful feature engineering combined with a simple regression model. As such, it can work almost anywhere in the world. Applying it to 10 different crop-country pairs (5 cereals -- corn, wheat, sorghum, barley and millet, in 2 countries -- Ethiopia and Kenya), we achieve RMSEs of 5\%-10\% for predictions 9 months into the year, and 7\%-14\% for predictions 3 months into the year. The model outputs daily forecasts for the final yield of the current year. It is trained using approximately 4 million data points for each crop-country pair. These consist of: historical country-level annual yields, crop calendars, crop cover, NDVI, temperature, rainfall, and evapotransporation.
翻訳日:2021-06-17 17:16:46 公開日:2021-06-16
# 入力ベクトルニューラルネット

Input Invex Neural Network ( http://arxiv.org/abs/2106.08748v1 )

ライセンス: Link先を確認
Suman Sapkota and Binod Bhattarai(参考訳) 本稿では,ニューラルネットワーク(NN)における不凸性を抑制する新しい手法を提案する。 invex関数はすべての定常点がグローバルミニマであることを保証する。 したがって、任意の点から勾配降下が始まり、大域最小化につながる。 NNにおける不凸性のもう1つの利点は、単に出力を閾値付けすることで、データ空間を高度に非線形な決定境界を持つ2つの連結集合に局所的に分割することである。 この目的のためにユニバーサル・インベックス関数近似子を定式化し、それを用いてnnのインベキシティを強制する。 入力Invex Neural Networks (II-NN) と呼ぶ。 まず, 既知のインベックス関数をデータに適合させ, 次にnnを修飾し, 勾配の方向を比較し, 基準インベックス関数の方向と矛盾する場合, nn上の勾配の方向をペナライズする。 勾配方向をペナルティ化するために、勾配クリップド勾配ペナルティ(gc-gp)を行う。 本手法を既存のNNに適用し,画像分類と回帰処理を行った。 広範な実験および定性実験から,本手法が通常のnnと同等の性能を与えるが,非凸性は認められないことを確認した。 本手法は,線形nnおよび入力凸ニューラルネットワーク(icnn)を大きなマージンで上回っている。 コードと実装の詳細はgithubで公開しています。

In this paper, we present a novel method to constrain invexity on Neural Networks (NN). Invex functions ensure every stationary point is global minima. Hence, gradient descent commenced from any point will lead to the global minima. Another advantage of invexity on NN is to divide data space locally into two connected sets with a highly non-linear decision boundary by simply thresholding the output. To this end, we formulate a universal invex function approximator and employ it to enforce invexity in NN. We call it Input Invex Neural Networks (II-NN). We first fit data with a known invex function, followed by modification with a NN, compare the direction of the gradient and penalize the direction of gradient on NN if it contradicts with the direction of reference invex function. In order to penalize the direction of the gradient we perform Gradient Clipped Gradient Penalty (GC-GP). We applied our method to the existing NNs for both image classification and regression tasks. From the extensive empirical and qualitative experiments, we observe that our method gives the performance similar to ordinary NN yet having invexity. Our method outperforms linear NN and Input Convex Neural Network (ICNN) with a large margin. We publish our code and implementation details at github.
翻訳日:2021-06-17 17:16:29 公開日:2021-06-16
# 神経機能近似を用いたベルマン残差誤差の解析と最適化

Analysis and Optimisation of Bellman Residual Errors with Neural Function Approximation ( http://arxiv.org/abs/2106.08774v1 )

ライセンス: Link先を確認
Martin Gottwald (1), Sven Gronauer (1), Hao Shen (2), Klaus Diepold (1) ((1) Technical University of Munich, (2) fortiss)(参考訳) 近年のDeep Reinforcement Learningは,大規模あるいは連続的な状態空間での課題解決において,ニューラルネットワークの優れた性能を示した。 特定のアプローチの一つは、平均二乗ベルマン誤差関数を最小化することで近似値関数にニューラルネットワークを展開することである。 ディープ強化学習の大きな成功にもかかわらず、ベルマン誤差を最小限に抑える信頼性と効率のよい数値アルゴリズムの開発は、いまだに科学的な関心と実践的な要求を伴っている。 このような課題は、基礎となる最適化問題が非常に非凸であるか、あるいはセミグラディエントアルゴリズムでなされる誤った勾配情報を使用するためである。 本研究では,スムーズな最適化の観点から平均正方形ベルマン誤差と残留勾配の定式化を併用して解析する。 私たちの貢献は2倍です。 まず、誤差関数の臨界点を分析し、ニューラルネットワークの最適化手続きと設計選択に関する技術的な洞察を提供する。 大域的ミニマの存在を仮定し、目的が一定の条件を満たすと、オーバーパラメトリドニューラルネットワークを使用する場合、最適な局所最小マを排除できる。 この解析に基づいて効率的な近似ニュートンアルゴリズムを構築し、局所的に極小に収束するなど、このアルゴリズムの理論的性質を確認することができる。 第2に,連続制御問題を用いた経験的アルゴリズムの実現可能性と一般化能力を示し,臨界点解析の数値検証を行う。 セミグラディエントの短所について概説する。 ニュートンの近似アルゴリズムの恩恵を受けるためには、訓練中に平均二乗ベルマン誤差の完全な微分を考える必要がある。

Recent development of Deep Reinforcement Learning has demonstrated superior performance of neural networks in solving challenging problems with large or even continuous state spaces. One specific approach is to deploy neural networks to approximate value functions by minimising the Mean Squared Bellman Error function. Despite great successes of Deep Reinforcement Learning, development of reliable and efficient numerical algorithms to minimise the Bellman Error is still of great scientific interest and practical demand. Such a challenge is partially due to the underlying optimisation problem being highly non-convex or using incorrect gradient information as done in Semi-Gradient algorithms. In this work, we analyse the Mean Squared Bellman Error from a smooth optimisation perspective combined with a Residual Gradient formulation. Our contribution is two-fold. First, we analyse critical points of the error function and provide technical insights on the optimisation procure and design choices for neural networks. When the existence of global minima is assumed and the objective fulfils certain conditions we can eliminate suboptimal local minima when using over-parametrised neural networks. We can construct an efficient Approximate Newton's algorithm based on our analysis and confirm theoretical properties of this algorithm such as being locally quadratically convergent to a global minimum numerically. Second, we demonstrate feasibility and generalisation capabilities of the proposed algorithm empirically using continuous control problems and provide a numerical verification of our critical point analysis. We outline the short coming of Semi-Gradients. To benefit from an approximate Newton's algorithm complete derivatives of the Mean Squared Bellman error must be considered during training.
翻訳日:2021-06-17 17:16:10 公開日:2021-06-16
# 構造データにおける外乱検出手法の比較

Comparison of Outlier Detection Techniques for Structured Data ( http://arxiv.org/abs/2106.08779v1 )

ライセンス: Link先を確認
Amulya Agarwal and Nitin Gupta(参考訳) 外れ値 (outlier) は、与えられたデータセットの残りのデータポイントから遠く離れた観測点またはデータポイント、または、外れ値が観測の質量の中心から離れていると言えます。 外れ値の存在は統計測度やデータ分布を歪め、基礎となるデータと関係の誤解を招く可能性がある。 モデリングの前にトレーニングデータセットから外れ値を削除することで、より良い予測が可能になる。 機械学習の進歩により、異常検出モデルも良いペースで進歩している。 この研究の目的は、データサイエンティストが機械学習モデルを構築しながら、その情報を使用して外れ値のアルゴリズム選択を行うために、既存の外れ値検出技術をいくつか強調して比較することである。

An outlier is an observation or a data point that is far from rest of the data points in a given dataset or we can be said that an outlier is away from the center of mass of observations. Presence of outliers can skew statistical measures and data distributions which can lead to misleading representation of the underlying data and relationships. It is seen that the removal of outliers from the training dataset before modeling can give better predictions. With the advancement of machine learning, the outlier detection models are also advancing at a good pace. The goal of this work is to highlight and compare some of the existing outlier detection techniques for the data scientists to use that information for outlier algorithm selection while building a machine learning model.
翻訳日:2021-06-17 17:15:45 公開日:2021-06-16
# 自己拘束の固有解析と部分計算による再構成

Eigen Analysis of Self-Attention and its Reconstruction from Partial Computation ( http://arxiv.org/abs/2106.08823v1 )

ライセンス: Link先を確認
Srinadh Bhojanapalli, Ayan Chakrabarti, Himanshu Jain, Sanjiv Kumar, Michal Lukasik, Andreas Veit(参考訳) State-of-the-art Transformerモデルは、入力シーケンス長の計算コストが2倍になるペアワイズドット積ベースの自己アテンションを使用する。 本稿では,この点生成機構を用いて計算した注目点のグローバルな構造を入力の典型的な分布について検討し,その変動の主成分について検討する。 注意点行列と個々の行の固有解析により,注目点の変動の大部分は低次元の固有空間にあることがわかった。 さらに、異なる層に対する固有空間と異なるトランスモデルの間に大きな重なりがあることが分かる。 そこで本研究では,トークンペアの部分集合に対してのみスコアを計算し,残りのペアのスコアを推定する手法を提案する。 注意点の再構成の精度を調査するだけでなく,これらの近似を用いた変圧器モデルの訓練を行い,その効果を総合的に分析する。 分析と提案手法は、正確な対の注意力の利点と計算コストのバランスをとる方法についての知見を提供する。

State-of-the-art transformer models use pairwise dot-product based self-attention, which comes at a computational cost quadratic in the input sequence length. In this paper, we investigate the global structure of attention scores computed using this dot product mechanism on a typical distribution of inputs, and study the principal components of their variation. Through eigen analysis of full attention score matrices, as well as of their individual rows, we find that most of the variation among attention scores lie in a low-dimensional eigenspace. Moreover, we find significant overlap between these eigenspaces for different layers and even different transformer models. Based on this, we propose to compute scores only for a partial subset of token pairs, and use them to estimate scores for the remaining pairs. Beyond investigating the accuracy of reconstructing attention scores themselves, we investigate training transformer models that employ these approximations, and analyze the effect on overall accuracy. Our analysis and the proposed method provide insights into how to balance the benefits of exact pair-wise attention and its significant computational expense.
翻訳日:2021-06-17 17:15:33 公開日:2021-06-16
# 多線形ディリクレ過程

Multilinear Dirichlet Processes ( http://arxiv.org/abs/2106.08852v1 )

ライセンス: Link先を確認
Xiaoli Li(参考訳) 依存ディリクレプロセス(DDP)は、何らかの方法で相関する尺度の集合上の分布からのデータモデルに広く応用されている。 一方で、近年では、機械学習とデータマイニングの研究活動の増大が、2つ以上の要因によるインタラクションに関わるデータを扱うことに重点が置かれている。 しかし、ddpの手法を用いて複数の因子の変調によってもたらされるデータの不均質な関係に対処した研究者はほとんどいない。 本稿では,DPと最先端因子分析技術,マルチ線形因子解析器(MLFA)を組み合わせてDDPを構築するための新しい手法であるMultiLinear Dirichlet Processes (MLDP)を提案する。 我々は,様々なアプリケーションを対象とした実単語データセット上でMLDPを評価し,最先端の性能を実現した。

Dependent Dirichlet processes (DDP) have been widely applied to model data from distributions over collections of measures which are correlated in some way. On the other hand, in recent years, increasing research efforts in machine learning and data mining have been dedicated to dealing with data involving interactions from two or more factors. However, few researchers have addressed the heterogeneous relationship in data brought by modulation of multiple factors using techniques of DDP. In this paper, we propose a novel technique, MultiLinear Dirichlet Processes (MLDP), to constructing DDPs by combining DP with a state-of-the-art factor analysis technique, multilinear factor analyzers (MLFA). We have evaluated MLDP on real-word data sets for different applications and have achieved state-of-the-art performance.
翻訳日:2021-06-17 17:15:16 公開日:2021-06-16
# 部分的マスクニューラルネットワークの同時学習

Simultaneous Training of Partially Masked Neural Networks ( http://arxiv.org/abs/2106.08895v1 )

ライセンス: Link先を確認
Amirkeivan Mohtashami, Martin Jaggi, Sebastian U. Stich(参考訳) ディープラーニングモデルをローエンドデバイスにデプロイするには、最先端アーキテクチャのリソース要求の少ないバリエーションをトレーニングする必要がある。 これは、より高いパフォーマンスを持つため、より高価なモデルの必要性をなくすものではない。 2つの異なるモデルのトレーニングを避けるために、事前定義された「コア」サブネットワークをトレーニングされたフルネットワークから切り離して、優れたパフォーマンスでニューラルネットワークを訓練することが可能であることを示す。 我々は、幅の小さいコアネットワークのみに焦点を当てた先行手法を拡張し、任意のコアネットワークアーキテクチャをサポートすることに重点を置いている。 提案手法では,ネットワークのコア部分のみを最適化し,全部分を最適化する。 完全なモデルの精度は相変わらず、コアネットワークは独立してトレーニングされた時よりも優れたパフォーマンスを達成する。 特に,低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独でのトレーニングよりも優れた低ランクモデルが得られることを示す。 理論上はトレーニングスキームを解析し,標準的あるいは事実上正当化された仮定下での収束を示す。 さらに,この理論フレームワークにより,ニューラルネットワークの他の部分的トレーニングスキームを解析できることを示す。

For deploying deep learning models to lower end devices, it is necessary to train less resource-demanding variants of state-of-the-art architectures. This does not eliminate the need for more expensive models as they have a higher performance. In order to avoid training two separate models, we show that it is possible to train neural networks in such a way that a predefined 'core' subnetwork can be split-off from the trained full network with remarkable good performance. We extend on prior methods that focused only on core networks of smaller width, while we focus on supporting arbitrary core network architectures. Our proposed training scheme switches consecutively between optimizing only the core part of the network and the full one. The accuracy of the full model remains comparable, while the core network achieves better performance than when it is trained in isolation. In particular, we show that training a Transformer with a low-rank core gives a low-rank model with superior performance than when training the low-rank model alone. We analyze our training scheme theoretically, and show its convergence under assumptions that are either standard or practically justified. Moreover, we show that the developed theoretical framework allows analyzing many other partial training schemes for neural networks.
翻訳日:2021-06-17 17:15:05 公開日:2021-06-16
# 効果的なディープラーニング: ディープラーニングモデルをより小さく、より速く、より良くするための調査

Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better ( http://arxiv.org/abs/2106.08962v1 )

ライセンス: Link先を確認
Gaurav Menghani(参考訳) ディープラーニングは、コンピュータビジョン、自然言語理解、音声認識、情報検索などの分野に革命をもたらした。 しかし、ディープラーニングモデルの進歩的な改善、パラメータの数、レイテンシ、トレーニングに必要なリソースなどによって、この傾向は変わります。 すべてが大幅に増加しました その結果、モデルの品質だけでなく、モデルのこれらのフットプリントメトリクスにも注意を払うことが重要になりました。 ディープラーニングにおける効率の問題を提示し,その動機付けとして,モデル効率(スパンニングモデリング技術,インフラストラクチャ,ハードウェア)の5つのコア領域と,そこでのセレントな作業に関する徹底的な調査を行った。 また、実践者がモデルトレーニングとデプロイメントを最適化するために、コードとともに実験ベースのガイドも提示します。 これは、モデリング技術からハードウェアサポートまで、モデル効率の展望をカバーする効率的なディープラーニング分野における、初めての包括的な調査であると考えています。 我々の期待は、この調査が読者にメンタルモデルと分野の理解を提供し、即時に大幅な改善を得るための総合的効率技術を適用し、さらにさらなる研究と実験を行うためのアイデアを提供することである。

Deep Learning has revolutionized the fields of computer vision, natural language understanding, speech recognition, information retrieval and more. However, with the progressive improvements in deep learning models, their number of parameters, latency, resources required to train, etc. have all have increased significantly. Consequently, it has become important to pay attention to these footprint metrics of a model as well, not just its quality. We present and motivate the problem of efficiency in deep learning, followed by a thorough survey of the five core areas of model efficiency (spanning modeling techniques, infrastructure, and hardware) and the seminal work there. We also present an experiment-based guide along with code, for practitioners to optimize their model training and deployment. We believe this is the first comprehensive survey in the efficient deep learning space that covers the landscape of model efficiency from modeling techniques to hardware support. Our hope is that this survey would provide the reader with the mental model and the necessary understanding of the field to apply generic efficiency techniques to immediately get significant improvements, and also equip them with ideas for further research and experimentation to achieve additional gains.
翻訳日:2021-06-17 17:14:48 公開日:2021-06-16
# 時間的畳み込みネットワークを用いたcanバスのメッセージ修正攻撃の検出

Detecting message modification attacks on the CAN bus with Temporal Convolutional Networks ( http://arxiv.org/abs/2106.08692v1 )

ライセンス: Link先を確認
Irina Chiscop, Andr\'as Gazdag, Joost Bosman, Gergely Bicz\'ok(参考訳) 複数の攻撃により、車載ネットワークには悪用できる脆弱性があることが示されている。 現代の自動車の制御領域ネットワーク(CAN)の確保は、自動車メーカーにとって必要な課題となっている。 いくつかの攻撃はCANネットワークに大量の偽のメッセージを注入するが、そのような攻撃は比較的容易に検出できる。 より高度な攻撃では、元のメッセージが修正され、デテクションがより複雑な問題になる。 本稿では,CANネットワークに対する新しい機械学習による侵入検出手法を提案する。 我々は、通信のタイミングパターンを変えないメッセージ修正攻撃を検出することに注力する。 提案する時間的畳み込みネットワークベースソリューションは,can信号の正常な振る舞いを学習し,悪意のあるものと区別することができる。 攻撃の種類を含む2つの公開データセットから複数のCANバスメッセージIDを評価する。 結果, 軽量なアプローチは最先端の教師なし学習手法と好適に比較でき, 偽陽性率を有意に低く, 幅広いシナリオにおいて類似あるいは良好な精度が得られることがわかった。

Multiple attacks have shown that in-vehicle networks have vulnerabilities which can be exploited. Securing the Controller Area Network (CAN) for modern vehicles has become a necessary task for car manufacturers. Some attacks inject potentially large amount of fake messages into the CAN network; however, such attacks are relatively easy to detect. In more sophisticated attacks, the original messages are modified, making the de- tection a more complex problem. In this paper, we present a novel machine learning based intrusion detection method for CAN networks. We focus on detecting message modification attacks, which do not change the timing patterns of communications. Our proposed temporal convolutional network-based solution can learn the normal behavior of CAN signals and differentiate them from malicious ones. The method is evaluated on multiple CAN-bus message IDs from two public datasets including different types of attacks. Performance results show that our lightweight approach compares favorably to the state-of-the-art unsupervised learning approach, achieving similar or better accuracy for a wide range of scenarios with a significantly lower false positive rate.
翻訳日:2021-06-17 17:14:27 公開日:2021-06-16
# real-to-sim tactile image translation による光触覚 sim-to-real policy transfer

Optical Tactile Sim-to-Real Policy Transfer via Real-to-Sim Tactile Image Translation ( http://arxiv.org/abs/2106.08796v1 )

ライセンス: Link先を確認
Alex Church, John Lloyd, Raia Hadsell and Nathan F. Lepora(参考訳) 近年,深層強化学習において,視覚的および固有的入力から一般および複雑な制御方針を安全かつ効率的に取得するためのシミュレーションが重要になっている。 触覚情報は通常、環境相互作用と直接関係があるにもかかわらず考慮されない。 本研究では,触覚ロボットと強化学習に適したシミュレーション環境について紹介する。 高解像度接触形状を深度画像として表現する、光学触覚センサの簡易かつ高速なシミュレーション方法が提供される。 PPO(Proximal Policy Optimisation)は、すべての考慮されたタスクで成功したポリシーを学ぶために使用される。 データ駆動アプローチは、実際の触覚センサの現在の状態を対応するシミュレーション深度画像に変換することを可能にする。 このポリシーは、物理的ロボットのリアルタイム制御ループ内で実装され、タッチ感覚を必要とするいくつかの物理的にインタラクティブなタスクでゼロショットのsim-to-realポリシー転送を示す。

Simulation has recently become key for deep reinforcement learning to safely and efficiently acquire general and complex control policies from visual and proprioceptive inputs. Tactile information is not usually considered despite its direct relation to environment interaction. In this work, we present a suite of simulated environments tailored towards tactile robotics and reinforcement learning. A simple and fast method of simulating optical tactile sensors is provided, where high-resolution contact geometry is represented as depth images. Proximal Policy Optimisation (PPO) is used to learn successful policies across all considered tasks. A data-driven approach enables translation of the current state of a real tactile sensor to corresponding simulated depth images. This policy is implemented within a real-time control loop on a physical robot to demonstrate zero-shot sim-to-real policy transfer on several physically-interacti ve tasks requiring a sense of touch.
翻訳日:2021-06-17 17:14:11 公開日:2021-06-16
# 非アフィン正規化流によるニューラルボコーディングの表現性の向上

Improving the expressiveness of neural vocoding with non-affine Normalizing Flows ( http://arxiv.org/abs/2106.08649v1 )

ライセンス: Link先を確認
Adam Gabry\'s, Yunlong Jiao, Viacheslav Klimkov, Daniel Korzekwa, Roberto Barra-Chicote(参考訳) 本稿では,ニューラルボコーディングにおける正規化フロー(NF)の一般化を提案する。 事例研究として,改良されたパラレルウェーブネット(pw)を用いた表現型音声ボコーディングの改善を行った。 具体的には、pw のアフィン変換をより表現力のある可逆非アフィン関数に拡張する。 改良されたPWの表現性が向上すると、波形再構成やTTS(text-to-speech)タスクの信号品質と自然性が向上する。 マルチ話者・多言語データセットを用いて,様々な話し方でモデルを評価した。 波形再構成タスクでは、提案モデルにより、元のPWから記録への自然性と信号品質のギャップを10\%$で、他の最先端のニューラルヴォコーディングシステムから60\%$で閉じる。 また、l2スペクトル距離とクロスエントロピーを3\%$と6\unicode{x2030}$でアフィンpwと比較した評価テストセットにおける客観的指標の改善を示す。 さらに,本論文で提案した確率密度蒸留法を拡張し,非アフィン可逆かつ微分可能な機能で機能するようにした。

This paper proposes a general enhancement to the Normalizing Flows (NF) used in neural vocoding. As a case study, we improve expressive speech vocoding with a revamped Parallel Wavenet (PW). Specifically, we propose to extend the affine transformation of PW to the more expressive invertible non-affine function. The greater expressiveness of the improved PW leads to better-perceived signal quality and naturalness in the waveform reconstruction and text-to-speech (TTS) tasks. We evaluate the model across different speaking styles on a multi-speaker, multi-lingual dataset. In the waveform reconstruction task, the proposed model closes the naturalness and signal quality gap from the original PW to recordings by $10\%$, and from other state-of-the-art neural vocoding systems by more than $60\%$. We also demonstrate improvements in objective metrics on the evaluation test set with L2 Spectral Distance and Cross-Entropy reduced by $3\%$ and $6\unicode{x2030}$ comparing to the affine PW. Furthermore, we extend the probability density distillation procedure proposed by the original PW paper, so that it works with any non-affine invertible and differentiable function.
翻訳日:2021-06-17 17:13:57 公開日:2021-06-16
# 視覚接地を用いた音声における注意に基づくキーワードの局所化

Attention-Based Keyword Localisation in Speech using Visual Grounding ( http://arxiv.org/abs/2106.08859v1 )

ライセンス: Link先を確認
Kayode Olaleye and Herman Kamper(参考訳) 視覚接地音声モデルは、音声キャプションと組み合わせた画像から学習する。 一定の語彙を持つ訓練された視覚分類器を用いて、ソフトテキストラベルで画像にタグ付けすることで、前回の研究では、特定のテキストキーワードが発話中に発生するかどうかを検出できるモデルを訓練できることが示されている。 ここでは,音声モデルがキーワードローカライズも可能かどうかを検討する。 発話中, テキストベースやアライメントの監督なしに, 与えられたテキストキーワードがどこで発生するかを予測する。 畳み込みモデルに注意を組み込むことが局所化に有益かどうかを特に検討する。 視覚的教師付きモデルを用いた絶対的なローカライゼーション性能は、いまだに控えめな状態にあるが(非秩序な単語のテキストラベルを監督に使用した場合と比較して)、従来の視覚的基盤モデルよりも大きなパフォーマンス向上をもたらすことを示す。 他の多くの音声画像研究と同様に、不正確な局所化の多くは意味的混乱によるものである。 クエリキーワード 'swimming' の 'backstroke' を指定します。

Visually grounded speech models learn from images paired with spoken captions. By tagging images with soft text labels using a trained visual classifier with a fixed vocabulary, previous work has shown that it is possible to train a model that can detect whether a particular text keyword occurs in speech utterances or not. Here we investigate whether visually grounded speech models can also do keyword localisation: predicting where, within an utterance, a given textual keyword occurs without any explicit text-based or alignment supervision. We specifically consider whether incorporating attention into a convolutional model is beneficial for localisation. Although absolute localisation performance with visually supervised models is still modest (compared to using unordered bag-of-word text labels for supervision), we show that attention provides a large gain in performance over previous visually grounded models. As in many other speech-image studies, we find that many of the incorrect localisations are due to semantic confusions, e.g. locating the word 'backstroke' for the query keyword 'swimming'.
翻訳日:2021-06-17 17:13:37 公開日:2021-06-16
# GKNet: 候補検出のためのキーポイントネットワークの把握

GKNet: grasp keypoint network for grasp candidates detection ( http://arxiv.org/abs/2106.08497v1 )

ライセンス: Link先を確認
Ruinian Xu, Fu-Jen Chu and Patricio A. Vela(参考訳) センサや物体モデルの不確実性に対するロバスト性を実現するため、現代の把握検出手法ではディープラーニングを採用している。 2つの支配的アプローチは、把持品質スコアリングまたはアンカーベースの把持認識ネットワークを設計する。 本稿では、キーポイント検出として扱うことにより、検出を把握するための異なるアプローチを提案する。 ディープネットワークは、各把持候補を、三重項または四重項ではなく、把持表現 g = {x, y, w, {\theta}}^t に変換可能な一対のキーポイントとして検出する。 キーポイントをペアにグループ化することで検出の困難さを減らすことで、パフォーマンスが向上する。 キーポイント間の依存関係をさらに促進するため、一般的な非ローカルモジュールを学習フレームワークに組み込む。 離散および連続方向予測に基づく最終的なフィルタリング戦略は、誤対応を除去し、さらに把握検出性能を向上させる。 ここで示したアプローチであるgknetは、コーネルとabridged jacquardデータセット(41.67と23.26fpsで96.9%と98.39%)の精度と速度の最高のバランスを実現している。 マニピュレータにおける追従実験は, 静的な把握, ダイナミックな把握, 様々なカメラアングルでの把握, ビンピッキングの4種類のグリップ実験を用いて, GKNetを評価する。 GKNetは、様々なカメラ視点とビンピッキング実験に頑健さを示しながら、静的および動的把握実験において基準ベースラインを上回っている。 以上の結果から,鍵点の把握が,予測されたニュアサンス要因に対するロバスト性を提供する深層把握ネットワークの効果的な出力表現であるという仮説が裏付けられた。

Contemporary grasp detection approaches employ deep learning to achieve robustness to sensor and object model uncertainty. The two dominant approaches design either grasp-quality scoring or anchor-based grasp recognition networks. This paper presents a different approach to grasp detection by treating it as keypoint detection. The deep network detects each grasp candidate as a pair of keypoints, convertible to the grasp representation g = {x, y, w, {\theta}}^T, rather than a triplet or quartet of corner points. Decreasing the detection difficulty by grouping keypoints into pairs boosts performance. To further promote dependencies between keypoints, the general non-local module is incorporated into the proposed learning framework. A final filtering strategy based on discrete and continuous orientation prediction removes false correspondences and further improves grasp detection performance. GKNet, the approach presented here, achieves the best balance of accuracy and speed on the Cornell and the abridged Jacquard dataset (96.9% and 98.39% at 41.67 and 23.26 fps). Follow-up experiments on a manipulator evaluate GKNet using 4 types of grasping experiments reflecting different nuisance sources: static grasping, dynamic grasping, grasping at varied camera angles, and bin picking. GKNet outperforms reference baselines in static and dynamic grasping experiments while showing robustness to varied camera viewpoints and bin picking experiments. The results confirm the hypothesis that grasp keypoints are an effective output representation for deep grasp networks that provide robustness to expected nuisance factors.
翻訳日:2021-06-17 17:13:19 公開日:2021-06-16
# gelsight wedge:コンパクトロボット指による高解像度3d接触形状の測定

GelSight Wedge: Measuring High-Resolution 3D Contact Geometry with a Compact Robot Finger ( http://arxiv.org/abs/2106.08851v1 )

ライセンス: Link先を確認
Shaoxiong Wang, Yu She, Branden Romero, Edward Adelson(参考訳) 視覚に基づく触覚センサは、視覚的閉塞で目的をローカライズするための重要な接触幾何学を提供する可能性がある。 しかし,小型ロボット指の高分解能3次元接触形状を計測し,光学的制約と機械的制約を同時に満たすことは困難である。 本稿では,ロボットの指にコンパクトな形状に最適化されたGelSight Wedgeセンサについて述べる。 異なる照明構成下での3次元再構成を評価し,3灯から1灯または2灯まで拡張した。 センサを人間の指の大きさに縮小して微妙な操作を行うことにより,設計の柔軟性を実証する。 また,3次元空間におけるポーズ追跡における再構成3次元形状の有効性と可能性を示す。

Vision-based tactile sensors have the potential to provide important contact geometry to localize the objective with visual occlusion. However, it is challenging to measure high-resolution 3D contact geometry for a compact robot finger, to simultaneously meet optical and mechanical constraints. In this work, we present the GelSight Wedge sensor, which is optimized to have a compact shape for robot fingers, while achieving high-resolution 3D reconstruction. We evaluate the 3D reconstruction under different lighting configurations, and extend the method from 3 lights to 1 or 2 lights. We demonstrate the flexibility of the design by shrinking the sensor to the size of a human finger for fine manipulation tasks. We also show the effectiveness and potential of the reconstructed 3D geometry for pose tracking in the 3D space.
翻訳日:2021-06-17 17:12:51 公開日:2021-06-16
# オックスフォード道路境界データセット

The Oxford Road Boundaries Dataset ( http://arxiv.org/abs/2106.08983v1 )

ライセンス: Link先を確認
Tarlan Suleymanov, Matthew Gadd, Daniele De Martini, Paul Newman(参考訳) 本稿では,機械学習に基づく道路境界検出と推論手法の訓練と試験を目的とした,オックスフォード道路境界データセットを提案する。 我々は,オックスフォード・ロボットカー・データセットから10kmの地点でハンドアノテートを行い,さらに数千の地点でセミアノテートされた道路境界マスクを作成した。 このようにトレーニングサンプルの数を増やすために、私たちは視覚ベースのローカライザを使用して、注釈付きデータセットから異なる時間と天候条件で他のトラバーサルにラベルを投影しました。 その結果, 62605 のラベル付きサンプルを公表し, そのうち 47639 のサンプルをキュレートした。 これらのサンプルには、左右のレンズ用の生マスクと分類マスクが含まれている。 私たちのデータには、直線道路、駐車中の車、ジャンクションなど、さまざまなシナリオの画像が含まれています。 ダウンロード用のファイルとラベル付きデータを操作するためのツールは、oxford-robotics-inst itute.github.io/road -boundaries-datasetで利用可能である。

In this paper we present the Oxford Road Boundaries Dataset, designed for training and testing machine-learning-bas ed road-boundary detection and inference approaches. We have hand-annotated two of the 10 km-long forays from the Oxford Robotcar Dataset and generated from other forays several thousand further examples with semi-annotated road-boundary masks. To boost the number of training samples in this way, we used a vision-based localiser to project labels from the annotated datasets to other traversals at different times and weather conditions. As a result, we release 62605 labelled samples, of which 47639 samples are curated. Each of these samples contains both raw and classified masks for left and right lenses. Our data contains images from a diverse set of scenarios such as straight roads, parked cars, junctions, etc. Files for download and tools for manipulating the labelled data are available at: oxford-robotics-inst itute.github.io/road -boundaries-dataset
翻訳日:2021-06-17 17:12:39 公開日:2021-06-16
# Bures-Wasserstein多様体上の平均化:勾配勾配の次元自由収束

Averaging on the Bures-Wasserstein manifold: dimension-free convergence of gradient descent ( http://arxiv.org/abs/2106.08502v1 )

ライセンス: Link先を確認
Jason M. Altschuler, Sinho Chewi, Patrik Gerber, Austin J. Stromme(参考訳) 最適輸送計量に関してガウス分布のバリ中心を計算するための一階最適化アルゴリズムについて検討する。 目的は測地的に非凸であるが、リーマン GD は経験的に急速に収束し、実際はユークリッド GD や SDP ソルバのような既製の方法よりも速い。 これは、次元に指数関数的に依存するリーマン gd の最もよく知られた理論結果とは対照的である。 本研究では,新たな測地的凸性を証明し,イテレートをより強く制御し,次元自由収束率を導出する。 また本手法は, 2つの関連する平均化概念, エントロピー正規化バリセンタと幾何学的中央値の解析を可能にし, リーマン gd に対する最初の収束保証を提供する。

We study first-order optimization algorithms for computing the barycenter of Gaussian distributions with respect to the optimal transport metric. Although the objective is geodesically non-convex, Riemannian GD empirically converges rapidly, in fact faster than off-the-shelf methods such as Euclidean GD and SDP solvers. This stands in stark contrast to the best-known theoretical results for Riemannian GD, which depend exponentially on the dimension. In this work, we prove new geodesic convexity results which provide stronger control of the iterates, yielding a dimension-free convergence rate. Our techniques also enable the analysis of two related notions of averaging, the entropically-regular ized barycenter and the geometric median, providing the first convergence guarantees for Riemannian GD for these problems.
翻訳日:2021-06-17 17:11:23 公開日:2021-06-16
# 脳ネットワークの説明可能な分類のための偽グラフ

Counterfactual Graphs for Explainable Classification of Brain Networks ( http://arxiv.org/abs/2106.08640v1 )

ライセンス: Link先を確認
Carlo Abrate and Francesco Bonchi(参考訳) 正常な脳と機能不全な脳を区別できる訓練用グラフ分類器は、特定の認知表現型に関連するサブ構造を特定するのに役立つ。 しかし、グラフ分類器の単なる予測能力は、特定の精神疾患を診断するためのツールが豊富にある神経科学者に限定されている。 重要なのはモデルの解釈であり、新しい洞察と新しい仮説を提供することができる。 本稿では,ブラックボックスグラフ分類器の局所的なポストホックな説明を生成する方法として,emph{counterfactual graphs}を提案する。 グラフとブラックボックスが与えられたとき、カウンターファクトは元のグラフと高い構造的類似性を持つグラフであり、異なるクラスのブラックボックスによって分類される。 本稿では,反実グラフ探索のためのいくつかの戦略を提案し,実証的に比較する。 既知の最適カウンターファクチュアを持つホワイトボックス分類器に対する実験は、ヒューリスティックではあるが、最適と非常に近い反ファクチュアを生成することができることを示した。 最後に,様々なブラックボックス分類器の挙動を正しく把握し,神経科学者に興味深い洞察を与えるために,反事実グラフを用いてグローバル説明を構築する方法を示す。

Training graph classifiers able to distinguish between healthy brains and dysfunctional ones, can help identifying substructures associated to specific cognitive phenotypes. However, the mere predictive power of the graph classifier is of limited interest to the neuroscientists, which have plenty of tools for the diagnosis of specific mental disorders. What matters is the interpretation of the model, as it can provide novel insights and new hypotheses. In this paper we propose \emph{counterfactual graphs} as a way to produce local post-hoc explanations of any black-box graph classifier. Given a graph and a black-box, a counterfactual is a graph which, while having high structural similarity with the original graph, is classified by the black-box in a different class. We propose and empirically compare several strategies for counterfactual graph search. Our experiments against a white-box classifier with known optimal counterfactual, show that our methods, although heuristic, can produce counterfactuals very close to the optimal one. Finally, we show how to use counterfactual graphs to build global explanations correctly capturing the behaviour of different black-box classifiers and providing interesting insights for the neuroscientists.
翻訳日:2021-06-17 17:11:07 公開日:2021-06-16
# レコメンダシステムのためのトポロジー蒸留

Topology Distillation for Recommender System ( http://arxiv.org/abs/2106.08700v1 )

ライセンス: Link先を確認
SeongKu Kang, Junyoung Hwang, Wonbin Kweon, Hwanjo Yu(参考訳) Recommender Systems (RS)は、訓練済みの大規模教師モデルから移行した知識を用いて、コンパクトな学生モデルを訓練するモデル圧縮技術である知識蒸留を採用している。 近年の研究では、教師の中間層から知識を伝達することで、学生の推薦品質が大幅に向上することが示されている。 しかし、それらは個々の表現の知識をポイントごとに転送し、したがって、 rs の一次情報は表現空間内の関係にあるという制限を持つ。 本稿では,教師空間におけるトポロジカルな構造を伝達することで,生徒を導く新しいトポロジ的蒸留手法を提案する。 まず, 単にトポロジカルな構造を学習させるだけでは必ずしも効果的ではなく, 生徒のパフォーマンスを低下させる。 生徒の能力は教師の能力に比べて非常に限られているため、位相構造全体を学ぶことは生徒にとって厄介であることを示す。 そこで本研究では,階層構造を階層的に蒸留する階層構造蒸留法(htd)を提案する。 実世界のデータセットに関する広範な実験により,提案手法が最先端の競争相手を大きく上回っていることが示された。 また, RSのトポロジを蒸留することのメリットを確認するために, 詳細な分析を行った。

Recommender Systems (RS) have employed knowledge distillation which is a model compression technique training a compact student model with the knowledge transferred from a pre-trained large teacher model. Recent work has shown that transferring knowledge from the teacher's intermediate layer significantly improves the recommendation quality of the student. However, they transfer the knowledge of individual representation point-wise and thus have a limitation in that primary information of RS lies in the relations in the representation space. This paper proposes a new topology distillation approach that guides the student by transferring the topological structure built upon the relations in the teacher space. We first observe that simply making the student learn the whole topological structure is not always effective and even degrades the student's performance. We demonstrate that because the capacity of the student is highly limited compared to that of the teacher, learning the whole topological structure is daunting for the student. To address this issue, we propose a novel method named Hierarchical Topology Distillation (HTD) which distills the topology hierarchically to cope with the large capacity gap. Our extensive experiments on real-world datasets show that the proposed method significantly outperforms the state-of-the-art competitors. We also provide in-depth analyses to ascertain the benefit of distilling the topology for RS.
翻訳日:2021-06-17 17:10:48 公開日:2021-06-16
# 半教師付き分類に基づくグラフ畳み込みネットワークのためのデータ拡張

Data Augmentation for Graph Convolutional Network on Semi-Supervised Classification ( http://arxiv.org/abs/2106.08848v1 )

ライセンス: Link先を確認
Zhengzheng Tang, Ziyue Qiao, Xuehai Hong, Yang Wang, Fayaz Ali Dharejo, Yuanchun Zhou, Yi Du(参考訳) データ拡張は、元のデータから新しい合成機能を生成し、より優れたデータ表現を特定し、下流タスクのパフォーマンスと一般化性を改善することを目的としている。 しかし、グラフトポロジとノード属性という2つの特性を持つグラフデータが従来のデータよりも複雑であるため、グラフベースのモデルに対するデータ拡張は依然として難しい問題である。 本稿では,グラフ畳み込みネットワーク(GCN)におけるグラフデータ拡張の問題について,半教師付きノード分類におけるノード埋め込みの改善の観点から検討する。 具体的には,新しいノード属性や新しいグラフトポロジを含む新しいグラフ機能を作成するために,元の特徴に基づいてコサイン類似性に基づくクロスオペレーションを行い,それらを特定のGCNに対する新しいペア入力として組み合わせる。 次に,これらのGCNによって符号化された隠れノード埋め込みを最終ノード埋め込みに重み付けした注意統合モデルを提案する。 また、異なる特徴から非冗長情報が捕捉されることを保証するために、トレーニング時にこれらの隠れノード埋め込みに不均一な制約を課す。 5つの実世界のデータセットによる実験結果から,本手法はGCNモデルよりも明確なマージン(+2.5% - +84.2%)で分類精度を向上させることが示された。

Data augmentation aims to generate new and synthetic features from the original data, which can identify a better representation of data and improve the performance and generalizability of downstream tasks. However, data augmentation for graph-based models remains a challenging problem, as graph data is more complex than traditional data, which consists of two features with different properties: graph topology and node attributes. In this paper, we study the problem of graph data augmentation for Graph Convolutional Network (GCN) in the context of improving the node embeddings for semi-supervised node classification. Specifically, we conduct cosine similarity based cross operation on the original features to create new graph features, including new node attributes and new graph topologies, and we combine them as new pairwise inputs for specific GCNs. Then, we propose an attentional integrating model to weighted sum the hidden node embeddings encoded by these GCNs into the final node embeddings. We also conduct a disparity constraint on these hidden node embeddings when training to ensure that non-redundant information is captured from different features. Experimental results on five real-world datasets show that our method improves the classification accuracy with a clear margin (+2.5% - +84.2%) than the original GCN model.
翻訳日:2021-06-17 17:10:26 公開日:2021-06-16
# スパース信号とヘテロセダス信号の非パラメトリック経験的ベイズ推定と試験

Nonparametric Empirical Bayes Estimation and Testing for Sparse and Heteroscedastic Signals ( http://arxiv.org/abs/2106.08881v1 )

ライセンス: Link先を確認
Junhui Cai, Xu Han, Ya'acov Ritov, Linda Zhao(参考訳) 大規模な現代データは、しばしば高次元未知パラメータの推定とテストを伴う。 ばらばらな信号である ``the needles in the haystack''' を精度と誤検出制御で識別することが望ましい。 しかし、現代のデータ構造における前例のない複雑さと不均一性は、共通性を効果的に活用し、疎性と不均一性の両方を堅牢に調整するために新しい機械学習ツールを必要とする。 さらに、高次元パラメータの推定には不確かさの定量化が欠けていることが多い。 本稿では,SNP(Spyke-and-Nonpa rametric mixture prior)と非パラメトリック構造(Spike-and-Nonparame tric mixture prior)を提案する。 現状の手法とは対照的に,提案手法は,(1)精度の高い空間推定,2)縮退/ソフト保持特性を持つ点推定,3)不確実性定量化のための信頼区間,(4)偽発見率を制御する最適多重試験手順,の3つを同時に解く。 本手法は、シミュレーションデータと遺伝子発現ケーススタディの両方に有望な実験性能を示す。

Large-scale modern data often involves estimation and testing for high-dimensional unknown parameters. It is desirable to identify the sparse signals, ``the needles in the haystack'', with accuracy and false discovery control. However, the unprecedented complexity and heterogeneity in modern data structure require new machine learning tools to effectively exploit commonalities and to robustly adjust for both sparsity and heterogeneity. In addition, estimates for high-dimensional parameters often lack uncertainty quantification. In this paper, we propose a novel Spike-and-Nonparamet ric mixture prior (SNP) -- a spike to promote the sparsity and a nonparametric structure to capture signals. In contrast to the state-of-the-art methods, the proposed methods solve the estimation and testing problem at once with several merits: 1) an accurate sparsity estimation; 2) point estimates with shrinkage/soft-thres holding property; 3) credible intervals for uncertainty quantification; 4) an optimal multiple testing procedure that controls false discovery rate. Our method exhibits promising empirical performance on both simulated data and a gene expression case study.
翻訳日:2021-06-17 17:10:06 公開日:2021-06-16
# 画像分割のためのスパイクニューラルネットワーク

A Spiking Neural Network for Image Segmentation ( http://arxiv.org/abs/2106.08921v1 )

ライセンス: Link先を確認
Kinjal Patel, Eric Hunsberger, Sean Batir, and Chris Eliasmith(参考訳) コンピュータビジョンにおけるニューロモーフィックコンピューティングのスケーラビリティについて検討し,コンピュータビジョンタスクにおける非ニューロモーフィック性能を再現し,消費電力の低減を図る。 我々は,深層ニューラルネットワーク(ANN)アーキテクチャのU-Netを,Nengoフレームワークを用いたスパイキングニューラルネットワーク(SNN)アーキテクチャに変換する。 レートベースモデルとスパイクベースモデルの両方が、細胞の顕微鏡画像からなるISBI 2D EMセグメンテーションデータセットの修正版を使用して、パフォーマンスとパワーのベンチマークのために訓練され、最適化されている。 本稿では,loihiニューロモルフィックチップ上にマルチチップネットワークを配置する際の速度とエネルギー効率を向上させるため,チップ間通信を最適化するパーティショニング手法を提案する。 我々は,ANNをSNNに変換するために,Loihiニューロンの発火速度を最小限の精度で調整し,エネルギー消費を最適化する利点について検討する。 ニューロンのスパイキング速度を所望の範囲内に制限するために,パーセンタイルを用いた正規化損失関数を提案する。 SNNは対応するANNから直接変換され、同じ数のニューロンと重みを使ってANNと類似したセマンティックセグメンテーションを示す。 しかし、Intel Loihiニューロモルフィックチップのニューロモルフィック実装は、オンライン(一度に1つの画像)を実行する場合、従来のハードウェア(CPU、GPU)よりも2倍エネルギー効率が高い。 これらのパワー改善は、ネットワークのタスクパフォーマンスを犠牲にすることなく実現され、すべての重み(loihi、cpu、gpuネットワーク)が8ビットに量子化される。

We seek to investigate the scalability of neuromorphic computing for computer vision, with the objective of replicating non-neuromorphic performance on computer vision tasks while reducing power consumption. We convert the deep Artificial Neural Network (ANN) architecture U-Net to a Spiking Neural Network (SNN) architecture using the Nengo framework. Both rate-based and spike-based models are trained and optimized for benchmarking performance and power, using a modified version of the ISBI 2D EM Segmentation dataset consisting of microscope images of cells. We propose a partitioning method to optimize inter-chip communication to improve speed and energy efficiency when deploying multi-chip networks on the Loihi neuromorphic chip. We explore the advantages of regularizing firing rates of Loihi neurons for converting ANN to SNN with minimum accuracy loss and optimized energy consumption. We propose a percentile based regularization loss function to limit the spiking rate of the neuron between a desired range. The SNN is converted directly from the corresponding ANN, and demonstrates similar semantic segmentation as the ANN using the same number of neurons and weights. However, the neuromorphic implementation on the Intel Loihi neuromorphic chip is over 2x more energy-efficient than conventional hardware (CPU, GPU) when running online (one image at a time). These power improvements are achieved without sacrificing the task performance accuracy of the network, and when all weights (Loihi, CPU, and GPU networks) are quantized to 8 bits.
翻訳日:2021-06-17 17:09:41 公開日:2021-06-16
# テキスト転写のないグローバルリズムスタイルの転送

Global Rhythm Style Transfer Without Text Transcriptions ( http://arxiv.org/abs/2106.08519v1 )

ライセンス: Link先を確認
Kaizhi Qian, Yang Zhang, Shiyu Chang, Jinjun Xiong, Chuang Gan, David Cox, Mark Hasegawa-Johnson(参考訳) 韻律は話者や感情のスタイルを特徴づける上で重要な役割を果たすが、ほとんどの非並列音声や感情スタイルの伝達アルゴリズムは韻律情報を変換しない。 韻律の主な要素はピッチとリズムである。 韻律情報、特にリズム成分を音声から遠ざけることは、入力された音声と非絡み合った音声表現との同期を壊すため困難である。 結果として、既存のprosodyスタイル転送アルゴリズムの多くは、コンテンツ情報を特定するために、何らかの形式のテキスト転写に依存する必要がある。 近年, speechsplitは, 教師なしのプロソディスタイルへの移行に向けて大きな進歩を遂げているが, 教師なしの方法でハイレベルなグローバルプロソディスタイルを抽出できない。 本稿では,テキストの書き起こしに頼ることなく,グローバルな韻律スタイルを音声から切り離すことができるAutoPSTを提案する。 AutoPST は Autoencoder ベースの Prosody Style Transfer フレームワークで,自己表現型表現学習によってガイドされる完全なリズム除去モジュールを備えている。 異なるスタイル転送タスクの実験は、AutoPSTがターゲットドメインのスタイルを正しく反映した韻律を効果的に変換できることを示している。

Prosody plays an important role in characterizing the style of a speaker or an emotion, but most non-parallel voice or emotion style transfer algorithms do not convert any prosody information. Two major components of prosody are pitch and rhythm. Disentangling the prosody information, particularly the rhythm component, from the speech is challenging because it involves breaking the synchrony between the input speech and the disentangled speech representation. As a result, most existing prosody style transfer algorithms would need to rely on some form of text transcriptions to identify the content information, which confines their application to high-resource languages only. Recently, SpeechSplit has made sizeable progress towards unsupervised prosody style transfer, but it is unable to extract high-level global prosody style in an unsupervised manner. In this paper, we propose AutoPST, which can disentangle global prosody style from speech without relying on any text transcriptions. AutoPST is an Autoencoder-based Prosody Style Transfer framework with a thorough rhythm removal module guided by the self-expressive representation learning. Experiments on different style transfer tasks show that AutoPST can effectively convert prosody that correctly reflects the styles of the target domains.
翻訳日:2021-06-17 17:07:43 公開日:2021-06-16
# ドラムアウェアアンサンブルによる楽音とダウンビート追跡の改善

Drum-Aware Ensemble Architecture for Improved Joint Musical Beat and Downbeat Tracking ( http://arxiv.org/abs/2106.08685v1 )

ライセンス: Link先を確認
Ching-Yu Chiu, Alvin Wen-Yu Su, and Yi-Hsuan Yang(参考訳) 本稿では,音楽信号におけるブラインド音源分離とジョイントビートとダウンビート追跡を統合した新しいシステムアーキテクチャを提案する。 ソース分離モジュールは、ビートとダウンビート追跡を別々に行う入力信号のパーカッシブ成分と非パーカッシブ成分とを分離し、学習可能な融合機構で結果を集約する。 このようにして、システムは入力信号のトラッキング結果が入力のパーカッシブ成分や非パーカッシブ成分に依存するかどうかを適応的に決定できる。 ドラム音の存在レベルが異なる4つのテストセットの評価は、新しいアーキテクチャがソース分離を使用しない広く採用されているベースラインアーキテクチャを一貫して上回っていることを示している。

This paper presents a novel system architecture that integrates blind source separation with joint beat and downbeat tracking in musical audio signals. The source separation module segregates the percussive and non-percussive components of the input signal, over which beat and downbeat tracking are performed separately and then the results are aggregated with a learnable fusion mechanism. This way, the system can adaptively determine how much the tracking result for an input signal should depend on the input's percussive or non-percussive components. Evaluation on four testing sets that feature different levels of presence of drum sounds shows that the new architecture consistently outperforms the widely-adopted baseline architecture that does not employ source separation.
翻訳日:2021-06-17 17:07:23 公開日:2021-06-16
# 音源分離に基づくジョイントビートとダウンビート追跡の改善のためのデータ拡張

Source Separation-based Data Augmentation for Improved Joint Beat and Downbeat Tracking ( http://arxiv.org/abs/2106.08703v1 )

ライセンス: Link先を確認
Ching-Yu Chiu, Joann Ching, Wen-Yi Hsiao, Yu-Hua Chen, Alvin Wen-Yu Su, and Yi-Hsuan Yang(参考訳) 近年,深層学習の進歩により,音楽信号における自動ビートとダウンビート追跡の性能が向上している。 このような深層学習に基づくモデルのトレーニングにおいて、データ拡張は重要なテクニックであることがわかった。 しかし,既存のデータ拡張手法は主に,トレーニングデータのテンポに対する分布のバランスをとることを目的としている。 本稿では,データ拡張のための別のアプローチとして,知覚的および非知覚的音源のトレーニングデータの構成について検討する。 具体的には、各訓練音声信号からドラム音と非ドラム音を分離し、無ドラム音の訓練信号をフィルタリングし、得られたドラム音と非ドラム音の茎を用いて訓練データを強化するブラインドドラム分離モデルを提案する。 提案手法の有効性を検証し,ビート・ダウンビート追跡のための訓練データにおけるドラム構成の重要性を検証した。

Due to advances in deep learning, the performance of automatic beat and downbeat tracking in musical audio signals has seen great improvement in recent years. In training such deep learning based models, data augmentation has been found an important technique. However, existing data augmentation methods for this task mainly target at balancing the distribution of the training data with respect to their tempo. In this paper, we investigate another approach for data augmentation, to account for the composition of the training data in terms of the percussive and non-percussive sound sources. Specifically, we propose to employ a blind drum separation model to segregate the drum and non-drum sounds from each training audio signal, filtering out training signals that are drumless, and then use the obtained drum and non-drum stems to augment the training data. We report experiments on four completely unseen test sets, validating the effectiveness of the proposed method, and accordingly the importance of drum sound composition in the training data for beat and downbeat tracking.
翻訳日:2021-06-17 17:07:08 公開日:2021-06-16
# ニューラルコードインテリジェンスモデルの記憶と一般化

Memorization and Generalization in Neural Code Intelligence Models ( http://arxiv.org/abs/2106.08704v1 )

ライセンス: Link先を確認
Md Rafiqul Islam Rabin, Aftab Hussain, Vincent J. Hellendoorn and Mohammad Amin Alipour(参考訳) ディープニューラルネットワーク(DNN)は、ソフトウェアエンジニアリングやコードインテリジェンスタスクで一般的に使われている。 これらは、巨大なデータセットから数百万のパラメータを通じて、高度に一般化可能なパターンを学習できる強力なツールです。 同時に、DNNのトレーニングはナイフの端を歩くことを意味している。 従来、過剰なトレーニングの側面として考えられていたが、最近の研究は、トレーニングデータセットが騒がしく、記憶が唯一のリコースである場合に、特に記憶リスクが強く現れることを示唆している。 残念なことに、ほとんどのコードインテリジェンスタスクは、GitHubのような、ノイズの多い反復的なデータソースに依存している。 トレーニングデータセットにターゲットノイズを導入するなど、DNNを使用する他の分野からの確立したアプローチを活用することにより、ニューラルネットワークインテリジェンスモデルの記憶と一般化傾向を評価する。 DNNの暗記範囲に関する事前の一般的な知見の強化に加えて,本研究の結果は,トレーニングにおけるノイズデータセットの影響を浮き彫りにした。

Deep Neural Networks (DNN) are increasingly commonly used in software engineering and code intelligence tasks. These are powerful tools that are capable of learning highly generalizable patterns from large datasets through millions of parameters. At the same time, training DNNs means walking a knife's edges, because their large capacity also renders them prone to memorizing data points. While traditionally thought of as an aspect of over-training, recent work suggests that the memorization risk manifests especially strongly when the training datasets are noisy and memorization is the only recourse. Unfortunately, most code intelligence tasks rely on rather noise-prone and repetitive data sources, such as GitHub, which, due to their sheer size, cannot be manually inspected and evaluated. We evaluate the memorization and generalization tendencies in neural code intelligence models through a case study across several benchmarks and model families by leveraging established approaches from other fields that use DNNs, such as introducing targeted noise into the training dataset. In addition to reinforcing prior general findings about the extent of memorization in DNNs, our results shed light on the impact of noisy dataset in training.
翻訳日:2021-06-17 17:06:51 公開日:2021-06-16
# 音声:ノイズ残響環境におけるゼロショット非パラレル音声変換

Voicy: Zero-Shot Non-Parallel Voice Conversion in Noisy Reverberant Environments ( http://arxiv.org/abs/2106.08873v1 )

ライセンス: Link先を確認
Alejandro Mottini, Jaime Lorenzo-Trueba, Sri Vishnu Kumar Karlapati, Thomas Drugman(参考訳) 音声変換(Voice Conversion, VC)は, 音源発話の非言語情報を変換し, 話者の同一性を変化させることを目的とした技術である。 VCに関する豊富な文献があるが、提案手法のほとんどは、クリーンな音声記録に基づいて訓練され評価されている。 しかし、多くの音響環境は騒々しく残響であり、一般的なVC手法の適用性を厳しく制限している。 この制限に対処するため、我々は、特に騒々しいスピーチに適した新しいVCフレームワークであるVoicyを提案する。 自動エンコーダフレームワークにインスパイアされた本手法は,4つのエンコーダ(スピーカ,コンテンツ,音声,音響-ASR)と1つのデコーダから構成される。 Voicyは非並列ゼロショットVC(non-parallel zero-shot VC)を実行することができる。 We have confirmeded our approach using a noisy reverberant version of the LibriSpeech dataset。 実験結果から,Voicyは自然性や雑音の残響環境におけるターゲット話者の類似性の観点から,他の試験VC技術よりも優れていた。

Voice Conversion (VC) is a technique that aims to transform the non-linguistic information of a source utterance to change the perceived identity of the speaker. While there is a rich literature on VC, most proposed methods are trained and evaluated on clean speech recordings. However, many acoustic environments are noisy and reverberant, severely restricting the applicability of popular VC methods to such scenarios. To address this limitation, we propose Voicy, a new VC framework particularly tailored for noisy speech. Our method, which is inspired by the de-noising auto-encoders framework, is comprised of four encoders (speaker, content, phonetic and acoustic-ASR) and one decoder. Importantly, Voicy is capable of performing non-parallel zero-shot VC, an important requirement for any VC system that needs to work on speakers not seen during training. We have validated our approach using a noisy reverberant version of the LibriSpeech dataset. Experimental results show that Voicy outperforms other tested VC techniques in terms of naturalness and target speaker similarity in noisy reverberant environments.
翻訳日:2021-06-17 17:06:31 公開日:2021-06-16
# 半教師付き音声認識のためのモーメントム擬似ラベル

Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition ( http://arxiv.org/abs/2106.08922v1 )

ライセンス: Link先を確認
Yosuke Higuchi, Niko Moritz, Jonathan Le Roux, Takaaki Hori(参考訳) 擬似ラベル(pl)は、半教師付き自動音声認識(asr)において有効であることが示されており、ベースモデルにはラベルなしデータから生成された擬似ラベルが自己学習される。 モデルの進化に伴って擬似ラベルを反復的に更新することでplをさらに改善することができるが、以前のアプローチのほとんどは、モデルの非効率な再トレーニングやラベル更新の複雑な制御を含む。 半教師付きASRのための簡易かつ効果的な戦略である運動量擬似ラベル(MPL)を提案する。 MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。 オンラインモデルは、オフラインモデルによってフライで生成された擬似ラベルを予測するように訓練されている。 オフラインモデルはオンラインモデルの運動量ベース移動平均を維持している。 MPLは1つのトレーニングプロセスで実行され、2つのモデル間の相互作用はASR性能を改善するために互いに強化するのに効果的である。 MPLを接続型時間分類に基づくエンドツーエンドのASRモデルに適用する。 実験の結果、mplはベースモデルよりも効果的に改善され、データ量やドメインミスマッチの異なる半教師ありシナリオにスケーラブルであることが判明した。

Pseudo-labeling (PL) has been shown to be effective in semi-supervised automatic speech recognition (ASR), where a base model is self-trained with pseudo-labels generated from unlabeled data. While PL can be further improved by iteratively updating pseudo-labels as the model evolves, most of the previous approaches involve inefficient retraining of the model or intricate control of the label update. We present momentum pseudo-labeling (MPL), a simple yet effective strategy for semi-supervised ASR. MPL consists of a pair of online and offline models that interact and learn from each other, inspired by the mean teacher method. The online model is trained to predict pseudo-labels generated on the fly by the offline model. The offline model maintains a momentum-based moving average of the online model. MPL is performed in a single training process and the interaction between the two models effectively helps them reinforce each other to improve the ASR performance. We apply MPL to an end-to-end ASR model based on the connectionist temporal classification. The experimental results demonstrate that MPL effectively improves over the base model and is scalable to different semi-supervised scenarios with varying amounts of data or domain mismatch.
翻訳日:2021-06-17 17:05:46 公開日:2021-06-16
# (参考訳) マルチチャネルランダムトレース推定を用いた低メモリ確率バックプロパゲーション [全文訳有]

Low-memory stochastic backpropagation with multi-channel randomized trace estimation ( http://arxiv.org/abs/2106.06998v2 )

ライセンス: CC BY 4.0
Mathias Louboutin, Ali Siahkoohi, Rongrong Wang, Felix J. Herrmann(参考訳) 最先端のアクセラレータと高度に最適化されたオープンソフトウェアフレームワークを組み合わせることで、ディープニューラルネットワークのパフォーマンスが大幅に向上した。 これらの開発は多くのブレークスルーの原因となっているが、ビデオエンコーディングや3Dのセマンティックセグメンテーションといった大規模問題の解決に向けた進歩は、オンプレミスメモリへのアクセスが制限されることが多いため妨げられている。 バックプロパゲーション中のアクティベーションを回復するために、ネットワーク層の(最適)チェックポイントや反転可能性に頼る代わりに、マルチチャネルのランダム化トレース推定手法を用いて、ニューラルネットワークにおける畳み込み層の勾配を近似する。 他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。 ランダム化トレース推定はトレーニング中に確率性をもたらすが、確率的勾配勾配を用いた場合、誘導誤差が勾配誤差と同じ順序である限り、これはほとんど帰結しない。 本稿では,確率的バックプロパゲーションでトレーニングしたネットワークの性能と,メモリ使用量を最大化し,計算オーバーヘッドを最小化しながらエラーを制御する方法について述べる。

Thanks to the combination of state-of-the-art accelerators and highly optimized open software frameworks, there has been tremendous progress in the performance of deep neural networks. While these developments have been responsible for many breakthroughs, progress towards solving large-scale problems, such as video encoding and semantic segmentation in 3D, is hampered because access to on-premise memory is often limited. Instead of relying on (optimal) checkpointing or invertibility of the network layers -- to recover the activations during backpropagation -- we propose to approximate the gradient of convolutional layers in neural networks with a multi-channel randomized trace estimation technique. Compared to other methods, this approach is simple, amenable to analyses, and leads to a greatly reduced memory footprint. Even though the randomized trace estimation introduces stochasticity during training, we argue that this is of little consequence as long as the induced errors are of the same order as errors in the gradient due to the use of stochastic gradient descent. We discuss the performance of networks trained with stochastic backpropagation and how the error can be controlled while maximizing memory usage and minimizing computational overhead.
翻訳日:2021-06-17 12:57:19 公開日:2021-06-16
# (参考訳) 交渉エージェントの進化のためのターゲットデータ取得 [全文訳有]

Targeted Data Acquisition for Evolving Negotiation Agents ( http://arxiv.org/abs/2106.07728v2 )

ライセンス: CC BY 4.0
Minae Kwon, Siddharth Karamcheti, Mariano-Florentino Cuellar, Dorsa Sadigh(参考訳) 成功する交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ぶ必要がある。 しかし、現在の人工交渉エージェントは、訓練された静的データセットの品質に大きく依存し、自己関心と協力のバランスをとる適応的な応答を形作る能力を制限する。 このため、これらのエージェントは高い実用性または協調性を達成することができるが、両方は達成できない。 これを解決するために,専門家の託宣のアノテーションを用いた強化学習エージェントの探索を指導するターゲットデータ取得フレームワークを導入する。 このガイド付き探索は、学習エージェントに静的データセットを超えて新しい交渉戦略を開発するようインセンティブを与える。 その結果, エージェントは, 通常の教師付き学習法や強化学習法と比較して, シミュレーションおよびヒューマンパートナーとの交渉において, より高位に, よりパレートな最適解を得ることができた。 この傾向は、対象とするデータ取得フレームワークを使用したエージェントを、教師付き学習と強化学習の混合で訓練されたエージェントの亜種と比較する場合や、ユーティリティとパレート最適化を明示的に最適化した報酬関数を使用したエージェントと比較する場合にも有効である。

Successful negotiators must learn how to balance optimizing for self-interest and cooperation. Yet current artificial negotiation agents often heavily depend on the quality of the static datasets they were trained on, limiting their capacity to fashion an adaptive response balancing self-interest and cooperation. For this reason, we find that these agents can achieve either high utility or cooperation, but not both. To address this, we introduce a targeted data acquisition framework where we guide the exploration of a reinforcement learning agent using annotations from an expert oracle. The guided exploration incentivizes the learning agent to go beyond its static dataset and develop new negotiation strategies. We show that this enables our agents to obtain higher-reward and more Pareto-optimal solutions when negotiating with both simulated and human partners compared to standard supervised learning and reinforcement learning methods. This trend additionally holds when comparing agents using our targeted data acquisition framework to variants of agents trained with a mix of supervised learning and reinforcement learning, or to agents using tailored reward functions that explicitly optimize for utility and Pareto-optimality.
翻訳日:2021-06-17 12:37:42 公開日:2021-06-16
# (参考訳) 音源と直感的知覚量への音楽感情予測の追跡 [全文訳有]

Tracing Back Music Emotion Predictions to Sound Sources and Intuitive Perceptual Qualities ( http://arxiv.org/abs/2106.07787v2 )

ライセンス: CC BY 4.0
Shreyan Chowdhury, Verena Praher, Gerhard Widmer(参考訳) 楽曲感情認識はmir(music information retrieval)研究において重要な課題である。 課題の主観的性質や音楽ジャンル間の感情的手がかりの変化などの要因から、信頼性と一般化可能なモデルを開発する上で、依然として大きな課題がある。 より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるもの、そして特定の入力の予測方法を理解することである。 これまでの研究では,高レベルの感情予測に接続するスペクトル画像セグメントを用いて,容易に解釈可能な知覚的特徴の層を通じてモデル予測の説明を導出する方法を示した。 しかし、このスキームはスペクトログラムレベルで直感的な音楽理解性に欠ける。 本研究では,音源分離に基づく説明器であるaudiolimeと,中間レベルの知覚的特徴を融合することにより,入力音声と出力感情予測との直感的な接続連鎖を形成することにより,このギャップを埋める。 偏りのある感情予測モデルをデバッグするために,本手法の有効性を示す。

Music emotion recognition is an important task in MIR (Music Information Retrieval) research. Owing to factors like the subjective nature of the task and the variation of emotional cues between musical genres, there are still significant challenges in developing reliable and generalizable models. One important step towards better models would be to understand what a model is actually learning from the data and how the prediction for a particular input is made. In previous work, we have shown how to derive explanations of model predictions in terms of spectrogram image segments that connect to the high-level emotion prediction via a layer of easily interpretable perceptual features. However, that scheme lacks intuitive musical comprehensibility at the spectrogram level. In the present work, we bridge this gap by merging audioLIME -- a source-separation based explainer -- with mid-level perceptual features, thus forming an intuitive connection chain between the input audio and the output emotion predictions. We demonstrate the usefulness of this method by applying it to debug a biased emotion prediction model.
翻訳日:2021-06-17 12:16:12 公開日:2021-06-16
# (参考訳) 複数のウイルス株の疫学的モデリング:モスクワにおけるSARS-CoV-2 B.1.7の事例研究 [全文訳有]

Epidemic modelling of multiple virus strains: a case study of SARS-CoV-2 B.1.1.7 in Moscow ( http://arxiv.org/abs/2106.08048v2 )

ライセンス: CC BY 4.0
Boris Tseytlin and Ilya Makarov(参考訳) 長期にわたるパンデミックの間、病原体は変異し、異なる疫学的パラメータを持つ新しい株を生成する。 既存の流行モデルへのアプローチは1つのウイルス株しか考慮していない。 我々は同じ集団内で複数のウイルス株をシミュレートするSEIRモデルを開発した。 ケーススタディとして,SARS-CoV-2株B.1.1.7がモスクワ市に与える影響について検討した。 分析の結果,2021年9月から10月にかけては1日当たり35万件の感染が確認された。 コードとデータをオープンソースにしています。

During a long-running pandemic a pathogen can mutate, producing new strains with different epidemiological parameters. Existing approaches to epidemic modelling only consider one virus strain. We have developed a modified SEIR model to simulate multiple virus strains within the same population. As a case study, we investigate the potential effects of SARS-CoV-2 strain B.1.1.7 on the city of Moscow. Our analysis indicates a high risk of a new wave of infections in September-October 2021 with up to 35 000 daily infections at peak. We open-source our code and data.
翻訳日:2021-06-17 12:04:10 公開日:2021-06-16
# (参考訳) 時空間行動定位における関係モデリング [全文訳有]

Relation Modeling in Spatio-Temporal Action Localization ( http://arxiv.org/abs/2106.08061v2 )

ライセンス: CC BY 4.0
Yutong Feng, Jianwen Jiang, Ziyuan Huang, Zhiwu Qing, Xiang Wang, Shiwei Zhang, Mingqian Tang, Yue Gao(参考訳) 本稿では,CVPR 2021 における AVA-Kinetics Crossover Challenge of ActivityNet ワークショップの報告を行う。 提案手法では,複数種類の関係モデリング手法を時空間行動検出に利用し,大規模ビデオデータセットのエンドツーエンドトレーニングにおいて,複数の関係モデリングを統合するためのトレーニング戦略を採用する。 メモリバンクによる学習やロングテール分布の微調整も研究され、さらに性能が向上した。 本稿では,提案手法の実装を詳述し,実験結果と対応する議論について述べる。 AVA-Kineticsのテストセットで40.67 mAPを達成した。

This paper presents our solution to the AVA-Kinetics Crossover Challenge of ActivityNet workshop at CVPR 2021. Our solution utilizes multiple types of relation modeling methods for spatio-temporal action detection and adopts a training strategy to integrate multiple relation modeling in end-to-end training over the two large-scale video datasets. Learning with memory bank and finetuning for long-tailed distribution are also investigated to further improve the performance. In this paper, we detail the implementations of our solution and provide experiments results and corresponding discussions. We finally achieve 40.67 mAP on the test set of AVA-Kinetics.
翻訳日:2021-06-17 11:54:21 公開日:2021-06-16
# ニューラルネットワーク圧縮のための高効率マイクロ構造重み統一とプルーニング

Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression ( http://arxiv.org/abs/2106.08301v2 )

ライセンス: Link先を確認
Sheng Lin, Wei Jiang, Wei Wang, Kaidi Xu, Yanzhi Wang, Shan Liu and Songnan Li(参考訳) ストレージと計算要件を緩和するためにディープニューラルネットワーク(dnn)モデルを圧縮することは、実用的なアプリケーション、特にリソース制限されたデバイスには不可欠である。 モデルパラメータの妥当な量を削減できるが、非構造的あるいは構造的ウェイトプルーニング手法は、非構造的スパーシティのハードウェア互換性の低さや、構造的プルーニングネットワークのスパースレートの低さのために、推論を真に加速することはほとんどできない。 ストレージと計算の双方を削減し、元のタスク性能を維持することを目的として、ハードウェア互換のマイクロ構造レベルで一般化された重み統一フレームワークを提案し、高い圧縮と加速度を実現する。 選択されたマイクロ構造ブロックの重み係数を統一して、ニューロン接続を変更することなくブロックの記憶と計算を低減し、すべての統一係数がゼロに設定された場合、ニューロン接続(ストレージと計算)を完全に除去するマイクロ構造プルーニング特別ケースに変換する。 さらに,複雑な制約付き最適化を個別に解けるサブプロブレムに変換する乗算器の交互方向法(ADMM)に基づく効果的なトレーニングフレームワークを開発した。 サブプロブレムを反復的に最適化することで、所望のマイクロ構造を高い圧縮比と低い性能劣化で確保することができる。 様々なアプリケーションのためのベンチマークモデルとデータセットを用いて,本手法を広範囲に評価した。 実験結果は最先端の性能を示す。

Compressing Deep Neural Network (DNN) models to alleviate the storage and computation requirements is essential for practical applications, especially for resource limited devices. Although capable of reducing a reasonable amount of model parameters, previous unstructured or structured weight pruning methods can hardly truly accelerate inference, either due to the poor hardware compatibility of the unstructured sparsity or due to the low sparse rate of the structurally pruned network. Aiming at reducing both storage and computation, as well as preserving the original task performance, we propose a generalized weight unification framework at a hardware compatible micro-structured level to achieve high amount of compression and acceleration. Weight coefficients of a selected micro-structured block are unified to reduce the storage and computation of the block without changing the neuron connections, which turns to a micro-structured pruning special case when all unified coefficients are set to zero, where neuron connections (hence storage and computation) are completely removed. In addition, we developed an effective training framework based on the alternating direction method of multipliers (ADMM), which converts our complex constrained optimization into separately solvable subproblems. Through iteratively optimizing the subproblems, the desired micro-structure can be ensured with high compression ratio and low performance degradation. We extensively evaluated our method using a variety of benchmark models and datasets for different applications. Experimental results demonstrate state-of-the-art performance.
翻訳日:2021-06-17 11:45:52 公開日:2021-06-16
# ユニモーダルバンディットに対するトンプソンサンプリング

Thompson Sampling for Unimodal Bandits ( http://arxiv.org/abs/2106.08187v2 )

ライセンス: Link先を確認
Long Yang, Zhao Li, Zehong Hu, Shasha Ruan, Shijian Li, Gang Pan, Hongyang Chen(参考訳) 本稿では,半順序の腕に対して期待される報酬が一様である「emph{unimodal} bandits」に対するトンプソンサンプリングアルゴリズムを提案する。 各ステップにおいて、決定空間全体から探索するのではなく、一様構造をよりうまく活用するために、我々のアルゴリズムは、最も経験的平均推定値の高い腕の近傍にのみ後部分布に従って決定を行う。 理論上、ベルヌーイの報酬に対して、我々のアルゴリズムの後悔はユニモーダル・バンディットの下限に達することを証明し、漸近的に最適である。 ガウスの報酬に対して、我々のアルゴリズムの後悔は$\mathcal{O}(\log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。 大規模な実験は、合成データセットと実世界の応用の両方において提案アルゴリズムの有効性を示す。

In this paper, we propose a Thompson Sampling algorithm for \emph{unimodal} bandits, where the expected reward is unimodal over the partially ordered arms. To exploit the unimodal structure better, at each step, instead of exploration from the entire decision space, our algorithm makes decision according to posterior distribution only in the neighborhood of the arm that has the highest empirical mean estimate. We theoretically prove that, for Bernoulli rewards, the regret of our algorithm reaches the lower bound of unimodal bandits, thus it is asymptotically optimal. For Gaussian rewards, the regret of our algorithm is $\mathcal{O}(\log T)$, which is far better than standard Thompson Sampling algorithms. Extensive experiments demonstrate the effectiveness of the proposed algorithm on both synthetic data sets and the real-world applications.
翻訳日:2021-06-17 11:45:25 公開日:2021-06-16
# 情報源画像の選択は敵攻撃の有効性に大きく影響する

Selection of Source Images Heavily Influences the Effectiveness of Adversarial Attacks ( http://arxiv.org/abs/2106.07141v2 )

ライセンス: Link先を確認
Utku Ozbulak, Esla Timothy Anzaku, Wesley De Neve, Arnout Van Messem(参考訳) 近年、ディープニューラルネットワーク(DNN)の採用率は大幅に増加しているが、敵の例に対する脆弱性の解決策はまだ見つかっていない。 結果として、この弱点を解決するためにかなりの研究努力が費やされ、多くの研究は典型的にソースイメージのサブセットを使用して逆例を生成し、このサブセット内のすべてのイメージを等しいものとして扱う。 実際、すべてのソースイメージがこの種の評価に等しく適しているわけではないことを実証する。 そこで我々は,ImageNetの適切なソース画像から生成した敵例の特性を,最も頻繁にデプロイされる攻撃の2つを巧みに分析する大規模モデル間転送可能性シナリオを考案した。 最近提案されたビジョントランスフォーマーを含む7つの異なるDNNモデルを含むトランスファービリティシナリオでは、モデルからモデルへのトランスファービリティの成功で最大$2.5\%、平均$L_2$摂動で$1.01$、平均$L_{\infty}$摂動で$0.03$(8/225$)の差がある可能性がある。 次に,実例作成に使用する画像のロバスト性を評価するための第一歩を踏み出し,不適切なソース画像を特定するための単純かつ効果的な手法を多数提案し,実験の極端なケースを軽減し,高品質なベンチマークをサポートする。

Although the adoption rate of deep neural networks (DNNs) has tremendously increased in recent years, a solution for their vulnerability against adversarial examples has not yet been found. As a result, substantial research efforts are dedicated to fix this weakness, with many studies typically using a subset of source images to generate adversarial examples, treating every image in this subset as equal. We demonstrate that, in fact, not every source image is equally suited for this kind of assessment. To do so, we devise a large-scale model-to-model transferability scenario for which we meticulously analyze the properties of adversarial examples, generated from every suitable source image in ImageNet by making use of two of the most frequently deployed attacks. In this transferability scenario, which involves seven distinct DNN models, including the recently proposed vision transformers, we reveal that it is possible to have a difference of up to $12.5\%$ in model-to-model transferability success, $1.01$ in average $L_2$ perturbation, and $0.03$ ($8/225$) in average $L_{\infty}$ perturbation when $1,000$ source images are sampled randomly among all suitable candidates. We then take one of the first steps in evaluating the robustness of images used to create adversarial examples, proposing a number of simple but effective methods to identify unsuitable source images, thus making it possible to mitigate extreme cases in experimentation and support high-quality benchmarking.
翻訳日:2021-06-17 11:45:10 公開日:2021-06-16
# 深層学習に基づく物体検出による空中画像中のジャガイモ作物ストレス同定

Potato Crop Stress Identification in Aerial Images using Deep Learning-based Object Detection ( http://arxiv.org/abs/2106.07770v2 )

ライセンス: Link先を確認
Sujata Butte, Aleksandar Vakanski, Kasia Duellman, Haotian Wang, Amin Mirkouei(参考訳) 精密農業におけるリモートセンシングと深層学習に基づく分析の適用に関する最近の研究は、作物管理の改善と農業生産の環境影響の低減の可能性を示した。 有望な結果にもかかわらず、実地展開におけるこれらの技術の実用的妥当性は、農業画像の解析用にカスタマイズされ、自然地画像の実装に堅牢な新しいアルゴリズムを必要とする。 本稿では, 深層ニューラルネットワークを用いたジャガイモの空中画像解析手法を提案する。 主な目的は、植物レベルでの健康作物とストレス作物の自動空間認識を実証することである。 具体的には,ニワトリバーバンクジャガイモの乾燥ストレスを生じさせる早熟な植物老化について検討する。 提案されているディープラーニングモデルはretina-unet-agと呼ばれ、retina-unet(jaeger et al., 2018)の変種であり、低レベルの意味的密表現マップから特徴ピラミッドネットワークへの接続を含んでいる。 また、Solo無人航空機が運んだParrot Sequoiaカメラで取得したフィールド画像のデータセットも紹介した。 実験により, フィールド画像中の植物とストレス植物を識別し, 平均Diceスコア係数0.74を達成できた。 対象検出のための最先端ディープラーニングモデルとの比較により,提案手法が課題に有効であることを明らかにした。 本手法は,実環境下で収集した自然空中画像におけるジャガイモ作物ストレス(この場合,干ばつストレスによる初期植物老化)の評価と認識をめざすものである。

Recent research on the application of remote sensing and deep learning-based analysis in precision agriculture demonstrated a potential for improved crop management and reduced environmental impacts of agricultural production. Despite the promising results, the practical relevance of these technologies for actual field deployment requires novel algorithms that are customized for analysis of agricultural images and robust to implementation on natural field imagery. The paper presents an approach for analyzing aerial images of a potato crop using deep neural networks. The main objective is to demonstrate automated spatial recognition of a healthy versus stressed crop at a plant level. Specifically, we examine premature plant senescence resulting in drought stress on Russet Burbank potato plants. The proposed deep learning model, named Retina-UNet-Ag, is a variant of Retina-UNet (Jaeger et al., 2018) and includes connections from low-level semantic dense representation maps to the feature pyramid network. The paper also introduces a dataset of field images acquired with a Parrot Sequoia camera carried by a Solo unmanned aerial vehicle. Experimental validation demonstrated the ability for distinguishing healthy and stressed plants in field images, achieving an average Dice score coefficient of 0.74. A comparison to related state-of-the-art deep learning models for object detection revealed that the presented approach is effective for the task at hand. The method applied here is conducive toward the assessment and recognition of potato crop stress (early plant senescence resulting from drought stress in this case) in natural aerial field images collected under real conditions.
翻訳日:2021-06-17 11:44:42 公開日:2021-06-16
# 混合線形回帰のためのWasserstein Minimaxフレームワーク

A Wasserstein Minimax Framework for Mixed Linear Regression ( http://arxiv.org/abs/2106.07537v2 )

ライセンス: Link先を確認
Theo Diamandis, Yonina C. Eldar, Alireza Fallah, Farzan Farnia, Asuman Ozdaglar(参考訳) マルチモーダル分布は、統計的学習タスクでクラスタ化されたデータをモデル化するために一般的に使用される。 本稿では,Mixed Linear Regression (MLR)問題について考察する。 本稿では,学習と目標混合回帰モデル間のwasserstein距離を最小化する,mlr問題の最適トランスポートベースフレームワークであるwasserstein mixed linear regression (wmlr)を提案する。 モデルに基づく双対性解析により、WMLR は基礎となる MLR タスクを非凸-凹極小最適化問題に還元し、グラディエント・Descent Ascent (GDA) アルゴリズムによりミニマックス定常点を求めることを証明可能とした。 2つの線形回帰モデルの混合の場合、WMLRが大域収束と一般化の保証を享受していることが示される。 We prove that WMLR's sample complexity growly with the dimension of data。 最後に、ネットワーク内の複数のエージェントがトレーニングサンプルを収集するフェデレート学習タスクへのWMLRの適用について論じる。 expectation Maximizationアルゴリズムとは異なり、WMLRは分散されたフェデレーション学習設定に直接拡張する。 我々はいくつかの数値実験を通じて理論的結果をサポートし、混合モデルを用いて統合学習環境を扱うフレームワークの能力を強調した。

Multi-modal distributions are commonly used to model clustered data in statistical learning tasks. In this paper, we consider the Mixed Linear Regression (MLR) problem. We propose an optimal transport-based framework for MLR problems, Wasserstein Mixed Linear Regression (WMLR), which minimizes the Wasserstein distance between the learned and target mixture regression models. Through a model-based duality analysis, WMLR reduces the underlying MLR task to a nonconvex-concave minimax optimization problem, which can be provably solved to find a minimax stationary point by the Gradient Descent Ascent (GDA) algorithm. In the special case of mixtures of two linear regression models, we show that WMLR enjoys global convergence and generalization guarantees. We prove that WMLR's sample complexity grows linearly with the dimension of data. Finally, we discuss the application of WMLR to the federated learning task where the training samples are collected by multiple agents in a network. Unlike the Expectation Maximization algorithm, WMLR directly extends to the distributed, federated learning setting. We support our theoretical results through several numerical experiments, which highlight our framework's ability to handle the federated learning setting with mixture models.
翻訳日:2021-06-17 11:44:17 公開日:2021-06-16
# 深層機械学習を用いたアルツハイマー病の磁気共鳴画像における海馬分節

Hippocampus segmentation in magnetic resonance images of Alzheimer's patients using Deep machine learning ( http://arxiv.org/abs/2106.06743v2 )

ライセンス: Link先を確認
Hossein Yousefi-Banaem, Saber Malekzadeh(参考訳) 背景:アルツハイマー病は進行性神経変性疾患であり、認知症の主な原因である。 海馬はアルツハイマー病の初期段階で変化しやすい。 アルツハイマー病発症前におけるMRI(MRI)による海馬変化の検出と観察により,予防・治療の迅速化が図られた。 目的: 本研究の目的は, 深層機械学習を用いたアルツハイマー病患者のMRI画像における海馬のセグメンテーションであった。 方法:畳み込みニューラルネットワークのU-Netアーキテクチャは、実際のMRIデータに海馬を分割するために提案された。 アルツハイマー病ニューロイメージング・イニシアチブ(ADNI)データセットで得られた100例と35例のMR画像は,それぞれ,モデルの訓練と試験に使用された。 提案手法の性能を,類似度の測定により手動分割と比較した。 結果: 所望のセグメンテーションは10回のイテレーションで達成された。 a dice similarity coefficient (dsc) = 92.3%, sensitivity = 96.5%, positive prediction value (ppv) = 90.4%, and intersection over union (iou) value for the train 92.94 and test 92.93 setsが得られた。 結論: 提案手法は有望であり, 早期の海馬容積変化の予測により, アルツハイマー病の予後に拡張することができる。

Background: Alzheimers disease is a progressive neurodegenerative disorder and the main cause of dementia in aging. Hippocampus is prone to changes in the early stages of Alzheimers disease. Detection and observation of the hippocampus changes using magnetic resonance imaging (MRI) before the onset of Alzheimers disease leads to the faster preventive and therapeutic measures. Objective: The aim of this study was the segmentation of the hippocampus in magnetic resonance (MR) images of Alzheimers patients using deep machine learning method. Methods: U-Net architecture of convolutional neural network was proposed to segment the hippocampus in the real MRI data. The MR images of the 100 and 35 patients available in Alzheimers disease Neuroimaging Initiative (ADNI) dataset, was used for the train and test of the model, respectively. The performance of the proposed method was compared with manual segmentation by measuring the similarity metrics. Results: The desired segmentation achieved after 10 iterations. A Dice similarity coefficient (DSC) = 92.3%, sensitivity = 96.5%, positive predicted value (PPV) = 90.4%, and Intersection over Union (IoU) value for the train 92.94 and test 92.93 sets were obtained which are acceptable. Conclusion: The proposed approach is promising and can be extended in the prognosis of Alzheimers disease by the prediction of the hippocampus volume changes in the early stage of the disease.
翻訳日:2021-06-17 11:43:57 公開日:2021-06-16
# Pseudo Label-wise Attention Network for Automatic ICD Coding

A Pseudo Label-wise Attention Network for Automatic ICD Coding ( http://arxiv.org/abs/2106.06822v2 )

ライセンス: Link先を確認
Yifan Wu, Min Zeng, Ying Yu, Min Li(参考訳) 自動病原体分類(ICD)符号化はテキスト多ラベル分類問題の一種として定義されており,ラベルの数がとても多く,ラベルの分布が不均衡であるため難しい。 ラベルワイドアテンション機構は、異なるICD符号に対して完全な電子医療記録(EMR)に含まれる全ての単語に重みを割り当てることができるため、自動ICD符号化において広く用いられている。 しかし,ラベル単位の注意機構は冗長であり,コストがかかる。 本稿では,この問題に取り組むための擬似ラベルワイズ注意機構を提案する。 異なるICD符号の異なるアテンションモードを計算する代わりに、擬似ラベル対応アテンション機構が自動的に類似のICD符号とマージし、類似のICD符号のアテンションモードを1つだけ計算し、アテンションモードの数を大幅に圧縮し、予測精度を向上させる。 さらに, より便利かつ効果的にICDベクトルを得る方法を適用することにより, EMRベクトルとICDベクトルとの類似性を計算することにより, 新しいICD符号を予測できる。 広範な実験により,モデルの性能が向上した。 パブリックMIMIC-IIIデータセットとプライベートXiangyaデータセットでは,それぞれ0.583と0.806のマイクロf1を達成した。 さらに、新しいICD符号の予測におけるモデルの有効性を検証する。 本ケーススタディでは擬似ラベルワイズアテンションがどのように機能するかを示し,擬似ラベルワイズアテンション機構の有効性を示す。

Automatic International Classification of Diseases (ICD) coding is defined as a kind of text multi-label classification problem, which is difficult because the number of labels is very large and the distribution of labels is unbalanced. The label-wise attention mechanism is widely used in automatic ICD coding because it can assign weights to every word in full Electronic Medical Records (EMR) for different ICD codes. However, the label-wise attention mechanism is computational redundant and costly. In this paper, we propose a pseudo label-wise attention mechanism to tackle the problem. Instead of computing different attention modes for different ICD codes, the pseudo label-wise attention mechanism automatically merges similar ICD codes and computes only one attention mode for the similar ICD codes, which greatly compresses the number of attention modes and improves the predicted accuracy. In addition, we apply a more convenient and effective way to obtain the ICD vectors, and thus our model can predict new ICD codes by calculating the similarities between EMR vectors and ICD vectors. Extensive experiments show the superior performance of our model. On the public MIMIC-III dataset and private Xiangya dataset, our model achieves micro f1 of 0.583 and 0.806, respectively, which outperforms other competing models. Furthermore, we verify the ability of our model in predicting new ICD codes. The case study shows how pseudo label-wise attention works, and demonstrates the effectiveness of pseudo label-wise attention mechanism.
翻訳日:2021-06-17 11:43:34 公開日:2021-06-16
# Neural Bellman-Ford Networks: リンク予測のための汎用グラフニューラルネットワークフレームワーク

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction ( http://arxiv.org/abs/2106.06935v2 )

ライセンス: Link先を確認
Zhaocheng Zhu, Zuobai Zhang, Louis-Pascal Xhonneux, Jian Tang(参考訳) リンク予測はグラフの基本的なタスクである。 本稿では,従来のパスベース手法に着想を得て,リンク予測のためのパスに基づく汎用的で柔軟な表現学習フレームワークを提案する。 具体的には、一対のノードの表現をすべての経路表現の一般化和として定義し、各経路表現を経路の辺表現の一般化積として定義する。 最短経路問題を解くためのベルマン・フォードアルゴリズムに動機づけられ、提案する経路定式化は一般化されたベルマン・フォードアルゴリズムによって効率的に解くことができることを示した。 経路定式化の能力をさらに向上するため,一般化されたベルマン・フォードアルゴリズムにおいて,学習演算子による経路定式化を解決する汎用グラフニューラルネットワークフレームワークであるNeural Bellman-Ford Network (NBFNet)を提案する。 NBFNetは、境界条件、乗算演算子、和演算子に対応する3つのニューラル成分、INDICATOR、MESSAGE、AGGREGATE関数で一般化されたベルマンフォードアルゴリズムをパラメータ化する。 NBFNetは非常に一般的で、多くの伝統的なパスベースの手法をカバーしており、同質グラフと多値グラフ(例えば知識グラフ)の両方に適用することができる。 均質グラフと知識グラフの両方の実験により、提案されたNBFNetは、トランスダクティブとインダクティブの両方で既存の手法よりも優れた性能を示し、新しい最先端の結果を達成している。

Link prediction is a very fundamental task on graphs. Inspired by traditional path-based methods, in this paper we propose a general and flexible representation learning framework based on paths for link prediction. Specifically, we define the representation of a pair of nodes as the generalized sum of all path representations, with each path representation as the generalized product of the edge representations in the path. Motivated by the Bellman-Ford algorithm for solving the shortest path problem, we show that the proposed path formulation can be efficiently solved by the generalized Bellman-Ford algorithm. To further improve the capacity of the path formulation, we propose the Neural Bellman-Ford Network (NBFNet), a general graph neural network framework that solves the path formulation with learned operators in the generalized Bellman-Ford algorithm. The NBFNet parameterizes the generalized Bellman-Ford algorithm with 3 neural components, namely INDICATOR, MESSAGE and AGGREGATE functions, which corresponds to the boundary condition, multiplication operator, and summation operator respectively. The NBFNet is very general, covers many traditional path-based methods, and can be applied to both homogeneous graphs and multi-relational graphs (e.g., knowledge graphs) in both transductive and inductive settings. Experiments on both homogeneous graphs and knowledge graphs show that the proposed NBFNet outperforms existing methods by a large margin in both transductive and inductive settings, achieving new state-of-the-art results.
翻訳日:2021-06-17 11:43:09 公開日:2021-06-16
# 教師と教師の混合による教師なし・半教師なし音声分離

Teacher-Student MixIT for Unsupervised and Semi-supervised Speech Separation ( http://arxiv.org/abs/2106.07843v2 )

ライセンス: Link先を確認
Jisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker(参考訳) 本稿では,エンドツーエンド音声分離のための半教師付き学習フレームワークを提案する。 提案手法はまず,教師モデルを訓練するために,未分離音源と混合不変訓練基準(MixIT)を用いた。 教師モデルは、標準変分不変訓練(PIT)で学生モデルを訓練するために使用される分離された情報源を推定する。 学生モデルは、教師付きデータ、すなわちペア人工混合物とクリーン音声源で微調整することができ、さらにモデルの蒸留により改善される。 単一チャネルと複数チャネルの混合実験により,MixIT法で観測されたオーバーセパレーション問題を教師と学生の学習で解決することを示した。 さらに、半教師付き性能は、教師付きデータの10倍の量で訓練された完全教師付き分離システムに匹敵する。

In this paper, we introduce a novel semi-supervised learning framework for end-to-end speech separation. The proposed method first uses mixtures of unseparated sources and the mixture invariant training (MixIT) criterion to train a teacher model. The teacher model then estimates separated sources that are used to train a student model with standard permutation invariant training (PIT). The student model can be fine-tuned with supervised data, i.e., paired artificial mixtures and clean speech sources, and further improved via model distillation. Experiments with single and multi channel mixtures show that the teacher-student training resolves the over-separation problem observed in the original MixIT method. Further, the semisupervised performance is comparable to a fully-supervised separation system trained using ten times the amount of supervised data.
翻訳日:2021-06-17 11:42:42 公開日:2021-06-16
# Color2Style: 自己参照学習とDeep Feature Modulationによる実時間模擬画像のカラー化

Color2Style: Real-Time Exemplar-Based Image Colorization with Self-Reference Learning and Deep Feature Modulation ( http://arxiv.org/abs/2106.08017v2 )

ライセンス: Link先を確認
Hengyuan Zhao, Wenhao Wu, Yihao Liu, Dongliang He(参考訳) 古き良き白黒の写真は、人々の懐かしさと過去の栄光に満ちています。 そこで,本論文では,色鮮やかな色で満たして,これらのグレースケールの画像媒体を再現する,Color2Styleという画像カラー化手法を提案する。 一般に、例示ベースの色付けでは、入力と基底の真理のペアを得るのが困難であるため、教師なし・ペアなしの訓練が採用されることが多い。 模範的なカラー化モデルを訓練するために、現在のアルゴリズムは通常、2つの手順を達成しようと試みている: i) 事前に高い類似性を持つ多数の参照画像を取得すること; i) 参照画像の色をグレースケール画像に転送するために複雑なモジュールを設計し、それら間の深い意味的対応(例えば、非局所操作)を計算し、活用すること。 従来の方法とは対照的に,1つのエンドツーエンド学習手順において,上記の2つのステップを解いて単純化する。 まず,原色からグラフィカルな変換によって参照画像を生成する自己表現型自己参照型学習方式を採用し,ペア方式でトレーニングを定式化する。 第2に,複雑な対応マップを演算する代わりに,入力されたグレースケール画像の奥行き表現に基準画像から抽出された色埋め込みを注入する,単純で効果的なdfm(deep feature modulation)モジュールを利用する。 このような設計はより軽量で知性が高く、リアルタイム処理速度で魅力的な性能を実現している。 さらに, 本モデルは, 多元的損失関数や既存手法のような正規化項を必要としないが, 広く用いられている損失関数は2つしかない。 コードとモデルはhttps://github.com/z haohengyuan1/Color2S tyleで入手できる。

Legacy black-and-white photos are riddled with people's nostalgia and glorious memories of the past. To better relive the elapsed frozen moments, in this paper, we present a deep exemplar-based image colorization approach named Color2Style to resurrect these grayscale image media by filling them with vibrant colors. Generally, for exemplar-based colorization, unsupervised and unpaired training are usually adopted, due to the difficulty of obtaining input and ground truth image pairs. To train an exemplar-based colorization model, current algorithms usually strive to achieve two procedures: i) retrieving a large number of reference images with high similarity in advance, which is inevitably time-consuming and tedious; ii) designing complicated modules to transfer the colors of the reference image to the grayscale image, by calculating and leveraging the deep semantic correspondence between them (e.g., non-local operation). Contrary to the previous methods, we solve and simplify the above two steps in one end-to-end learning procedure. First, we adopt a self-augmented self-reference training scheme, where the reference image is generated by graphical transformations from the original colorful one whereby the training can be formulated in a paired manner. Second, instead of computing complex and inexplicable correspondence maps, our method exploits a simple yet effective deep feature modulation (DFM) module, which injects the color embeddings extracted from the reference image into the deep representations of the input grayscale image. Such design is much more lightweight and intelligible, achieving appealing performance with real-time processing speed. Moreover, our model does not require multifarious loss functions and regularization terms like existing methods, but only two widely used loss functions. Codes and models will be available at https://github.com/z haohengyuan1/Color2S tyle.
翻訳日:2021-06-17 11:42:30 公開日:2021-06-16
# 顔識別におけるデモグラフィックフェアネス:ウォッチリストの不均衡効果

Demographic Fairness in Face Identification: The Watchlist Imbalance Effect ( http://arxiv.org/abs/2106.08049v2 )

ライセンス: Link先を確認
Pawel Drozdowski, Christian Rathgeb, Christoph Busch(参考訳) 近年、顔データベースのギャラリー構成は、プローブ画像がすべての記憶されている参照画像に対して比較された顔識別システムの性能差を誘導し、生体的決定に達することが判明している。 この負の効果は「ウォッチリストの不均衡効果」と呼ばれる。 本研究では,人口統計学的グループ間での検証性能と使用済みギャラリーの構成から,生体認証システムにおけるその効果を理論的に推定する手法を提案する。 さらに, 異なる構成の分類群, すなわち, 識別実験の結果について報告する。 オープンソースの顔認証システムであるArcFaceを使用して、公開学術MORPHデータベースの女性と男性。 また, データベース構成は, 検証シナリオにおいて性能差があまり発音されない場合でも, 生体認証システムの性能差に大きな影響を与えることが示された。 本研究は、顔認識の分野での今後の研究に高い関心を持つであろうウォッチリストの不均衡効果の、最初の詳細な分析である。

Recently, different researchers have found that the gallery composition of a face database can induce performance differentials to facial identification systems in which a probe image is compared against up to all stored reference images to reach a biometric decision. This negative effect is referred to as "watchlist imbalance effect". In this work, we present a method to theoretically estimate said effect for a biometric identification system given its verification performance across demographic groups and the composition of the used gallery. Further, we report results for identification experiments on differently composed demographic subsets, i.e. females and males, of the public academic MORPH database using the open-source ArcFace face recognition system. It is shown that the database composition has a huge impact on performance differentials in biometric identification systems, even if performance differentials are less pronounced in the verification scenario. This study represents the first detailed analysis of the watchlist imbalance effect which is expected to be of high interest for future research in the field of facial recognition.
翻訳日:2021-06-17 11:41:59 公開日:2021-06-16
# ウェアラブル脳波デバイスによるてんかんの長期非侵襲的モニタリングに向けて

Towards Long-term Non-invasive Monitoring for Epilepsy via Wearable EEG Devices ( http://arxiv.org/abs/2106.08008v2 )

ライセンス: Link先を確認
Thorir Mar Ingolfsson, Andrea Cossettini, Xiaying Wang, Enrico Tabanelli, Giuseppe Tagliavini, Philippe Ryvlin, Luca Benini(参考訳) 並列超低消費電力組込みプラットフォーム上での最小数の脳波チャンネルに基づく発作検出アルゴリズムの実装について述べる。 この分析はCHB-MITデータセットに基づいており、異なる分類手法(Support Vector Machines、Random Forest、Extra Trees、AdaBoost)と、誤報を保証しながら感度を最大化するための様々な前処理技術の調査を含んでいる。 全23電極または4チャネルのみを考慮した,グローバルおよび主題固有のアプローチを分析する。 8sウィンドウサイズと主観的アプローチでは,偽陽性はゼロ,感度は100%であった。 これらのアルゴリズムは並列化され、並列超低電力(PULP)プラットフォームに最適化され、300mAhのバッテリーで300hの連続的なモニタリングを可能にする。 これらの結果は、患者と介護者の両方の要件を満たす、安価でウェアラブルで、偽陽性率と高感度の長期的なてんかんモニタリングソリューションの実装への道を開いた。

We present the implementation of seizure detection algorithms based on a minimal number of EEG channels on a parallel ultra-low-power embedded platform. The analyses are based on the CHB-MIT dataset, and include explorations of different classification approaches (Support Vector Machines, Random Forest, Extra Trees, AdaBoost) and different pre/post-processing techniques to maximize sensitivity while guaranteeing no false alarms. We analyze global and subject-specific approaches, considering all 23-electrodes or only 4 temporal channels. For 8s window size and subject-specific approach, we report zero false positives and 100% sensitivity. These algorithms are parallelized and optimized for a parallel ultra-low power (PULP) platform, enabling 300h of continuous monitoring on a 300 mAh battery, in a wearable form factor and power budget. These results pave the way for the implementation of affordable, wearable, long-term epilepsy monitoring solutions with low false-positive rates and high sensitivity, meeting both patient and caregiver requirements.
翻訳日:2021-06-17 11:41:45 公開日:2021-06-16