このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210909となっている論文です。

PDF登録状況(公開日: 20210909)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 医用対話要約用データジェネレータとしてのGPT-3 [全文訳有]

Medically Aware GPT-3 as a Data Generator for Medical Dialogue Summarization ( http://arxiv.org/abs/2110.07356v1 )

ライセンス: CC BY 4.0
Bharath Chintagunta and Namit Katariya and Xavier Amatriain and Anitha Kannan(参考訳) 医学的対話の要約では、要約はコヒーレントでなければならず、対話において医学的に関連する全ての情報を捉えなければならない。 しかしながら、要約のための効果的なモデルを学ぶには、特に取得が難しいラベル付きデータが必要となる。 本稿では,医療関連情報の収集に着目した合成学習データを作成するアルゴリズムを提案する。 我々はGPT-3をアルゴリズムのバックボーンとして利用し、210人のラベル付きサンプルをスケールし、ローショット学習とアンサンブル法を用いた6400人のラベル付きサンプル(~30倍)に匹敵する結果を得る。 詳細な実験において,本手法は人間のラベル付きデータと組み合わせて,医療的精度と一貫性の両面から,人的データだけで訓練したモデルに強く好適な要約を得ることのできる高品質なトレーニングデータを生成する。

In medical dialogue summarization, summaries must be coherent and must capture all the medically relevant information in the dialogue. However, learning effective models for summarization require large amounts of labeled data which is especially hard to obtain. We present an algorithm to create synthetic training data with an explicit focus on capturing medically relevant information. We utilize GPT-3 as the backbone of our algorithm and scale 210 human labeled examples to yield results comparable to using 6400 human labeled examples (~30x) leveraging low-shot learning and an ensemble method. In detailed experiments, we show that this approach produces high quality training data that can further be combined with human labeled data to get summaries that are strongly preferable to those produced by models trained on human data alone both in terms of medical accuracy and coherency.
翻訳日:2021-10-17 17:22:53 公開日:2021-09-09
# (参考訳) アラビア語学習者の文書アクセシビリティ向上のための可読性の効率的な測定 [全文訳有]

Efficient Measuring of Readability to Improve Documents Accessibility for Arabic Language Learners ( http://arxiv.org/abs/2109.08648v1 )

ライセンス: CC BY 4.0
Sadik Bessou, Ghozlane Chenni(参考訳) 本稿では,アラビア語学習者のレベルに適したテキストを提示するために,テキストの複雑さを識別できる分類器を構築するための教師付き機械学習手法に基づくアプローチを提案する。 このアプローチは、テキストの読み書きの難易度と理解の難易度を区別する機械学習の分類手法に基づいている。 いくつかのモデルは、オンラインアラビア語ウェブサイトから採掘された大きなコーパスで訓練され、手動で注釈が付された。 このモデルは、CountとTF-IDFの両方の表現を使用し、5つの機械学習アルゴリズムを適用している: Multinomial Naive Bayes, Bernoulli Naive Bayes, Logistic Regression, Support Vector Machine, Random Forest。 テキストの複雑さを抽出することを目的として、通常はレベル識別を分類タスクとして定式化する。 実験結果から,n-gramの特徴はテキストの読解レベルを示唆し,性能を大幅に向上する可能性が示唆され,SVMとMultinomial Naive Bayesが複雑性レベルを予測する上で最も正確であることが示唆された。 TF-IDFベクトルは単語ベースのユニグラムとビッグラムの組み合わせで訓練され、全体的な精度は4種類の複雑性に対して87.14%であった。

This paper presents an approach based on supervised machine learning methods to build a classifier that can identify text complexity in order to present Arabic language learners with texts suitable to their levels. The approach is based on machine learning classification methods to discriminate between the different levels of difficulty in reading and understanding a text. Several models were trained on a large corpus mined from online Arabic websites and manually annotated. The model uses both Count and TF-IDF representations and applies five machine learning algorithms; Multinomial Naive Bayes, Bernoulli Naive Bayes, Logistic Regression, Support Vector Machine and Random Forest, using unigrams and bigrams features. With the goal of extracting the text complexity, the problem is usually addressed by formulating the level identification as a classification task. Experimental results showed that n-gram features could be indicative of the reading level of a text and could substantially improve performance, and showed that SVM and Multinomial Naive Bayes are the most accurate in predicting the complexity level. Best results were achieved using TF-IDF Vectors trained by a combination of word-based unigrams and bigrams with an overall accuracy of 87.14% over four classes of complexity.
翻訳日:2021-09-26 23:13:37 公開日:2021-09-09
# (参考訳) 学生のフィードバック評価ツールとその感情分析における利用に関する文献調査 [全文訳有]

A literature survey on student feedback assessment tools and their usage in sentiment analysis ( http://arxiv.org/abs/2109.07904v1 )

ライセンス: CC0 1.0
Himali Aryal(参考訳) オンライン学習は、コンビニエンス、勤務時間への対応、あるいは単にどこからでも学習できる自由など、ますます人気になっています。 特に新型コロナウイルス(covid-19)パンデミックでは、学習の唯一の選択肢となっている。 様々なハードコアプログラミングコースを理論的内容の混合で教えることの有効性は,学生のインタラクションと反応によって決定される。 ZoomやTeamsによるデジタル講義とは対照的に、講師は、たとえリスナーがほとんどアイドルで非アクティブであっても、物理セッションにおける生徒の表情、行動、態度から素早くそのような反応を得ることができる。 しかし、仮想学習における学生評価は難しい課題である。 課題にもかかわらず、さまざまな技術が徐々に教育環境に統合され、学生のエンゲージメントとモチベーションを高めている。 本稿では,Kahoot!のようなクラス内フィードバック評価手法の有効性を評価する。 セッションを通して学生からリアルタイムのフィードバックを得て,それに応じて指導スタイルを適応する講師を支援するため,メンタイター,パドレット,ポーリングを行った。 さらに、生徒の提案で取り上げられるトピックには、教師の提案、教育スタイルの向上、コース内容、その他の話題が含まれる。 どんなインプットでもインストラクターは、生徒の学習体験を改善するための貴重な洞察を与えるが、手動で質的なコメントをすべて読み、アイデアを抽出するのは面倒である。 そこで本稿では,学生の質的フィードバックコメントから明示的な提案を抽出するための感情分析モデルを提案する。

Online learning is becoming increasingly popular, whether for convenience, to accommodate work hours, or simply to have the freedom to study from anywhere. Especially, during the Covid-19 pandemic, it has become the only viable option for learning. The effectiveness of teaching various hard-core programming courses with a mix of theoretical content is determined by the student interaction and responses. In contrast to a digital lecture through Zoom or Teams, a lecturer may rapidly acquire such responses from students' facial expressions, behavior, and attitude in a physical session, even if the listener is largely idle and non-interactive. However, student assessment in virtual learning is a challenging task. Despite the challenges, different technologies are progressively being integrated into teaching environments to boost student engagement and motivation. In this paper, we evaluate the effectiveness of various in-class feedback assessment methods such as Kahoot!, Mentimeter, Padlet, and polling to assist a lecturer in obtaining real-time feedback from students throughout a session and adapting the teaching style accordingly. Furthermore, some of the topics covered by student suggestions include tutor suggestions, enhancing teaching style, course content, and other subjects. Any input gives the instructor valuable insight into how to improve the student's learning experience, however, manually going through all of the qualitative comments and extracting the ideas is tedious. Thus, in this paper, we propose a sentiment analysis model for extracting the explicit suggestions from the students' qualitative feedback comments.
翻訳日:2021-09-19 14:46:57 公開日:2021-09-09
# (参考訳) 機械学習に基づく微分方程式を用いたモデリングシステム [全文訳有]

Modeling Systems with Machine Learning based Differential Equations ( http://arxiv.org/abs/2109.05935v1 )

ライセンス: CC BY 4.0
Pedro Garcia(参考訳) 力学系における振る舞いの予測は、しばしばモデルの設計の対象となる。 システム観測から得られた時系列が利用可能であれば、追加の仮定なしにこれらの観測からモデルを設計したり、システムに関する追加情報を用いてモデル内の前提構造を仮定することでタスクを遂行することができる。 第2のケースでは、理論と観測を適切に結合し、次に混合を最適化する問題である。 本研究では,非均一なサンプルあるいはノイズの観測結果から,微分方程式の解法として,動的システムの時間連続モデルの設計を提案する。 戦略のパフォーマンスは、いくつかのシミュレーションデータセットと、Hare-Lynx集団とCoronavirus 2019による実験データの両方で示されている。 以上の結果から, モデリングシステムに対するこのアプローチは, 合成データや実験データにおいて有用な手法であることが示唆された。

The prediction of behavior in dynamical systems, is frequently subject to the design of models. When a time series obtained from observing the system is available, the task can be performed by designing the model from these observations without additional assumptions or by assuming a preconceived structure in the model, with the help of additional information about the system. In the second case, it is a question of adequately combining theory with observations and subsequently optimizing the mixture. In this work, we proposes the design of time-continuous models of dynamical systems as solutions of differential equations, from non-uniform sampled or noisy observations, using machine learning techniques. The performance of strategy is shown with both, several simulated data sets and experimental data from Hare-Lynx population and Coronavirus 2019 outbreack. Our results suggest that this approach to the modeling systems, can be an useful technique in the case of synthetic or experimental data.
翻訳日:2021-09-19 01:52:17 公開日:2021-09-09
# (参考訳) Video2Skill: サイクリックMDP準同型を用いたデモ映像のイベント適応環境 [全文訳有]

Video2Skill: Adapting Events in Demonstration Videos to Skills in an Environment using Cyclic MDP Homomorphisms ( http://arxiv.org/abs/2109.03813v2 )

ライセンス: CC BY 4.0
Sumedh A Sontakke, Sumegh Roychowdhury, Mausoom Sarkar, Nikaash Puri, Balaji Krishnamurthy, Laurent Itti(参考訳) オンラインのチュートリアルビデオの人気が急増していることから、人間はテキストコメンタリーで強化されたデモから長期のタスクを学ぶのが得意だ。 直感的には、この能力は2つの異なるサブタスクに分けられる - まず、長い水平のデモシーケンスを意味的に意味のあるイベントに分割する。 ここでは、ロボットアームが人間の料理ビデオから学習できるようにして、この機能を人工エージェントに拡張しようとするvideo2skill(v2s)を紹介する。 まず,シーケンシャル・ツー・シーケンシャルなオートエンコーダ方式のアーキテクチャを用いて,ロングホライゾンのデモンストレーションでイベントの時間的潜在空間を学習する。 そして、これらの表現をロボットターゲットドメインに転送し、少量のオフラインおよび無関係なインタラクションデータ(専門家が制御するロボットアームの状態-アクションペアのシーケンス)を使用して、これらのイベントを実行可能な表現、すなわちスキルに適応させます。 実験により,ロボット環境における動作と動作の類似性について,エージェントが学習する自己教師型アナロジー学習が実現されることが実証された。 また,Voice2Skillは,人間の実演から得た事前知識を用いて,従来のモデル学習の長軸ダイナミクスよりも優れていることを示す。 最後に,非タブララサ意思決定におけるアプローチの有用性,すなわちゼロショットスキル生成のためのビデオデモの利用を実証する。

Humans excel at learning long-horizon tasks from demonstrations augmented with textual commentary, as evidenced by the burgeoning popularity of tutorial videos online. Intuitively, this capability can be separated into 2 distinct subtasks - first, dividing a long-horizon demonstration sequence into semantically meaningful events; second, adapting such events into meaningful behaviors in one's own environment. Here, we present Video2Skill (V2S), which attempts to extend this capability to artificial agents by allowing a robot arm to learn from human cooking videos. We first use sequence-to-sequence Auto-Encoder style architectures to learn a temporal latent space for events in long-horizon demonstrations. We then transfer these representations to the robotic target domain, using a small amount of offline and unrelated interaction data (sequences of state-action pairs of the robot arm controlled by an expert) to adapt these events into actionable representations, i.e., skills. Through experiments, we demonstrate that our approach results in self-supervised analogy learning, where the agent learns to draw analogies between motions in human demonstration data and behaviors in the robotic environment. We also demonstrate the efficacy of our approach on model learning - demonstrating how Video2Skill utilizes prior knowledge from human demonstration to outperform traditional model learning of long-horizon dynamics. Finally, we demonstrate the utility of our approach for non-tabula rasa decision-making, i.e, utilizing video demonstration for zero-shot skill generation.
翻訳日:2021-09-14 05:44:35 公開日:2021-09-09
# (参考訳) Recursive Insertion-based Encoder を用いたタスク指向対話における意味解析 [全文訳有]

Semantic Parsing in Task-Oriented Dialog with Recursive Insertion-based Encoder ( http://arxiv.org/abs/2109.04500v1 )

ライセンス: CC BY 4.0
Elman Mansimov and Yi Zhang(参考訳) 本稿では,タスク指向対話における意味解析の新しいアプローチであるRecursive INsertion-based Encoder (RINE)を紹介する。 本モデルは,非終端ラベルとその線形化木の位置を予測して意味構文解析木を漸進的に構築するエンコーダネットワークからなる。 生成時には、予測された非終端ラベルを予測された位置に再帰的に挿入して意味構文解析木を構築する。 rineは、conversational semantic parsing benchmark top(gupta et al., 2018; chen et al., 2020)の低リソースバージョンにおいて、最先端の正確なマッチング精度を実現し、強いシーケンスからシーケンスへのモデルとトランジッションベースのパーサよりも優れている。 また、このモデル設計はネストした名前付きエンティティ認識タスクに適用可能であり、そのタスク用に設計された最先端のアプローチと同等の性能を発揮することを示した。 最後に,提案手法は推定時のシーケンシャル・ツー・シーケンスモデルよりも2~3.5倍高速であることを示す。

We introduce a Recursive INsertion-based Encoder (RINE), a novel approach for semantic parsing in task-oriented dialog. Our model consists of an encoder network that incrementally builds the semantic parse tree by predicting the non-terminal label and its positions in the linearized tree. At the generation time, the model constructs the semantic parse tree by recursively inserting the predicted non-terminal labels at the predicted positions until termination. RINE achieves state-of-the-art exact match accuracy on low- and high-resource versions of the conversational semantic parsing benchmark TOP (Gupta et al., 2018; Chen et al., 2020), outperforming strong sequence-to-sequence models and transition-based parsers. We also show that our model design is applicable to nested named entity recognition task, where it performs on par with state-of-the-art approach designed for that task. Finally, we demonstrate that our approach is 2-3.5 times faster than the sequence-to-sequence model at inference time.
翻訳日:2021-09-14 05:14:32 公開日:2021-09-09
# (参考訳) ブートストラップ型メタラーニング

Bootstrapped Meta-Learning ( http://arxiv.org/abs/2109.04504v1 )

ライセンス: CC BY 4.0
Sebastian Flennerhag and Yannick Schroecker and Tom Zahavy and Hado van Hasselt and David Silver and Satinder Singh(参考訳) メタ学習は、人工知能が学習方法を学ぶことによって、その効率を高める力を与える。 この可能性を解き明かすには、しばしば条件の悪いメタ最適化問題や、筋電図のメタオブジェクトを克服する必要がある。 本稿では,メタ学習者が自身に教えることによって,これらの問題に取り組むアルゴリズムを提案する。 アルゴリズムはまずメタラーナーからターゲットをブートストラップし、選択した(擬似)測定値の下でそのターゲットまでの距離を最小化することでメタラーナーを最適化する。 グラデーションによるメタラーニングに着目し,性能向上を保証し,目標距離に改善が関係していることを示す。 したがって、曲率を制御することで、例えば条件の悪さを減らしてメタ最適化を容易にすることができる。 さらに、ブートストラップ機構は、すべての更新をバックプロパゲーションすることなく、効果的なメタラーニング水平線を拡張することができる。 このアルゴリズムは多用途で実装が容易である。 我々は,Atari ALEベンチマークにおけるモデルフリーエージェントの新たな最先端技術の実現,数ショット学習におけるMAMLの改善,Qラーニングエージェントのメタラーニング効率向上による新たな可能性の開放を実証する。

Meta-learning empowers artificial intelligence to increase its efficiency by learning how to learn. Unlocking this potential involves overcoming a challenging meta-optimisation problem that often exhibits ill-conditioning, and myopic meta-objectives. We propose an algorithm that tackles these issues by letting the meta-learner teach itself. The algorithm first bootstraps a target from the meta-learner, then optimises the meta-learner by minimising the distance to that target under a chosen (pseudo-)metric. Focusing on meta-learning with gradients, we establish conditions that guarantee performance improvements and show that the improvement is related to the target distance. Thus, by controlling curvature, the distance measure can be used to ease meta-optimization, for instance by reducing ill-conditioning. Further, the bootstrapping mechanism can extend the effective meta-learning horizon without requiring backpropagation through all updates. The algorithm is versatile and easy to implement. We achieve a new state-of-the art for model-free agents on the Atari ALE benchmark, improve upon MAML in few-shot learning, and demonstrate how our approach opens up new possibilities by meta-learning efficient exploration in a Q-learning agent.
翻訳日:2021-09-14 04:55:25 公開日:2021-09-09
# (参考訳) ブラックボックスモデル記述のためのVAEを用いた教師なし因果関係概念発見 [全文訳有]

Unsupervised Causal Binary Concepts Discovery with VAE for Black-box Model Explanation ( http://arxiv.org/abs/2109.04518v1 )

ライセンス: CC BY 4.0
Thien Q. Tran, Kazuto Fukuchi, Youhei Akimoto, Jun Sakuma(参考訳) X は A, B, C が高レベルな概念であるような X \textit{has} A, B および \textit{does not have} C' であるため、クラス Y に分類される。 課題は、分類器の説明に有用な概念、すなわちA、B、Cの集合を教師なしの方法で発見する必要があることである。 まず,そのような概念の表現と発見に適した構造生成モデルを提案する。 次に,データ分布を同時に学習し,特定の概念が分類器出力に大きな因果影響を持つように促す学習プロセスを提案する。 また,ユーザの事前知識の統合が容易になり,概念の解釈性が向上する。 複数のデータセットを用いて,提案手法が説明に有用なバイナリ概念を発見できることを実証する。

We aim to explain a black-box classifier with the form: `data X is classified as class Y because X \textit{has} A, B and \textit{does not have} C' in which A, B, and C are high-level concepts. The challenge is that we have to discover in an unsupervised manner a set of concepts, i.e., A, B and C, that is useful for the explaining the classifier. We first introduce a structural generative model that is suitable to express and discover such concepts. We then propose a learning process that simultaneously learns the data distribution and encourages certain concepts to have a large causal influence on the classifier output. Our method also allows easy integration of user's prior knowledge to induce high interpretability of concepts. Using multiple datasets, we demonstrate that our method can discover useful binary concepts for explanation.
翻訳日:2021-09-14 04:53:49 公開日:2021-09-09
# (参考訳) 最適化における非同期イテレーション:新しいシーケンス結果とシャーパアルゴリズム保証

Asynchronous Iterations in Optimization: New Sequence Results and Sharper Algorithmic Guarantees ( http://arxiv.org/abs/2109.04522v1 )

ライセンス: CC BY 4.0
Hamid Reza Feyzmahdavian and Mikael Johansson(参考訳) 本稿では並列および分散最適化アルゴリズムの解析に現れる非同期反復に対する新しい収束結果を提案する。 結果は簡単に適用でき、非同期度が反復の収束率にどのように影響するかを明確に見積もることができる。 その結果,既存の非同期最適化手法の収束証明の短縮,合理化,強化が可能となり,これまで完全に理論的な理解を欠いていた一般的なアルゴリズムに対する収束保証を確立することが可能となった。 具体的には, 逐次集約勾配法において, より優れた反復複雑性境界を導出し, クラスノセルスキー・マン反復の非同期ブロック座標実装の高速化条件の保守的解析を小さくし, 通信遅延や更新率の様々な仮定の下で, 完全非同期反復の収束率を定量化する。

We introduce novel convergence results for asynchronous iterations which appear in the analysis of parallel and distributed optimization algorithms. The results are simple to apply and give explicit estimates for how the degree of asynchrony impacts the convergence rates of the iterates. Our results shorten, streamline and strengthen existing convergence proofs for several asynchronous optimization methods, and allow us to establish convergence guarantees for popular algorithms that were thus far lacking a complete theoretical understanding. Specifically, we use our results to derive better iteration complexity bounds for proximal incremental aggregated gradient methods, to provide less conservative analyses of the speedup conditions for asynchronous block-coordinate implementations of Krasnoselskii-Mann iterations, and to quantify the convergence rates for totally asynchronous iterations under various assumptions on communication delays and update rates.
翻訳日:2021-09-14 04:33:36 公開日:2021-09-09
# (参考訳) 群衆からのシーケンスラベルの真理発見 [全文訳有]

Truth Discovery in Sequence Labels from Crowds ( http://arxiv.org/abs/2109.04470v1 )

ライセンス: CC BY 4.0
Nasim Sabetpour, Adithya Kulkarni, Sihong Xie, Qi Li(参考訳) アノテーションの品質と量は、自然言語処理における重要なタスクであるシーケンスラベリングのパフォーマンスに肯定的な影響を及ぼす。 ドメインの専門家を雇ってコーパスセットに注釈をつけるのは非常にコストがかかる。 Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。 しかしながら、これらのプラットフォームは専門知識の欠如によりヒューマンエラーを起こしやすいため、モデルのトレーニングに1人のワーカーのアノテーションを直接使用することはできない。 アノテーションアグリゲーションにおける既存の文献は、バイナリ問題やマルチチョース問題に焦点を当てている。 近年、トークン間の複雑な依存関係を持つ不均衡データセット上でのシーケンシャルラベルアグリゲーションタスクの処理が課題となっている。 この課題を克服するために,労働者が提供したラベルを用いて最適なアノテーションセットを推定する最適化手法を提案する。 群集(aggslc$)からの逐次ラベルの集約手法は,逐次ラベル付けタスク,作業者の信頼性,高度な機械学習技術の特徴を共同で検討する。 我々は,様々なクラウドソースデータを用いて,名前付きエンティティ認識(ner),バイオメディカル情報抽出タスク(pico)およびシミュレーションデータセットに対する$aggslc$の評価を行った。 その結果,提案手法は最先端の集約手法よりも優れていることがわかった。 本研究では,予測モジュールや不整合損失関数が存在しない場合のモデルを評価することにより,AggSLC$コンポーネントの有効性をアブレーション研究により検証する。 提案する$aggslc$が有限個の反復の後に停止するというアルゴリズムの収束点の理論的解析。

Annotations quality and quantity positively affect the performance of sequence labeling, a vital task in Natural Language Processing. Hiring domain experts to annotate a corpus set is very costly in terms of money and time. Crowdsourcing platforms, such as Amazon Mechanical Turk (AMT), have been deployed to assist in this purpose. However, these platforms are prone to human errors due to the lack of expertise; hence, one worker's annotations cannot be directly used to train the model. Existing literature in annotation aggregation more focuses on binary or multi-choice problems. In recent years, handling the sequential label aggregation tasks on imbalanced datasets with complex dependencies between tokens has been challenging. To conquer the challenge, we propose an optimization-based method that infers the best set of aggregated annotations using labels provided by workers. The proposed Aggregation method for Sequential Labels from Crowds ($AggSLC$) jointly considers the characteristics of sequential labeling tasks, workers' reliabilities, and advanced machine learning techniques. We evaluate $AggSLC$ on different crowdsourced data for Named Entity Recognition (NER), Information Extraction tasks in biomedical (PICO), and the simulated dataset. Our results show that the proposed method outperforms the state-of-the-art aggregation methods. To achieve insights into the framework, we study $AggSLC$ components' effectiveness through ablation studies by evaluating our model in the absence of the prediction module and inconsistency loss function. Theoretical analysis of our algorithm's convergence points that the proposed $AggSLC$ halts after a finite number of iterations.
翻訳日:2021-09-14 04:32:27 公開日:2021-09-09
# (参考訳) 不確実データに対する最大エントロピー原理の一般化に関する一考察 [全文訳有]

Notes on Generalizing the Maximum Entropy Principle to Uncertain Data ( http://arxiv.org/abs/2109.04530v1 )

ライセンス: CC BY 4.0
Kenneth Bogert(参考訳) 最大エントロピーの原理(英: principle of maximum entropy)は、最も少ない情報量で分布を計算するための広く適用可能な手法である。 この原理を、モデル変数が部分的にのみ観察されるため、経験的特徴期待が計算できないシナリオに一般化し、学習モデルへの依存性を導入することを目指している。 潜在最大エントロピーの原理を拡張し一般化し、不確実な最大エントロピーを導入し、これらの問題を概ね解くために期待最大化に基づく解を記述する。 本手法は,最大エントロピーと潜在最大エントロピーの原理を一般化し,限られたデータに対して特徴的期待制約に誤差項を追加する一般的な正規化手法について考察する。

The principle of maximum entropy is a broadly applicable technique for computing a distribution with the least amount of information possible while commonly constrained to match empirically estimated feature expectations. We seek to generalize this principle to scenarios where the empirical feature expectations cannot be computed because the model variables are only partially observed, which introduces a dependency on the learned model. Extending and generalizing the principle of latent maximum entropy, we introduce uncertain maximum entropy and describe an expectation-maximiza tion based solution to approximately solve these problems. We show that our technique generalizes the principle of maximum entropy and latent maximum entropy and discuss a generally applicable regularization technique for adding error terms to feature expectation constraints in the event of limited data.
翻訳日:2021-09-14 04:11:12 公開日:2021-09-09
# (参考訳) マトリックス分解より注意がよいか? [全文訳有]

Is Attention Better Than Matrix Decomposition? ( http://arxiv.org/abs/2109.04553v1 )

ライセンス: CC BY 4.0
Zhengyang Geng, Meng-Hao Guo, Hongxu Chen, Xia Li, Ke Wei, Zhouchen Lin(参考訳) 現代のディープラーニングの重要な要素として、注意機構、特に自己注意は、グローバルな相関発見において重要な役割を果たす。 しかし、グローバルな文脈をモデル化する際、手作りの注意は置き換えられないのか? 興味をそそられる発見は,20年前に開発された行列分解(md)モデルよりも,長距離依存関係を符号化するための性能と計算コストが優れていることにある。 我々は,グローバルコンテキスト問題を低ランク回復問題としてモデル化し,その最適化アルゴリズムがグローバル情報ブロックの設計に役立つことを示す。 そこで本稿では,MDを解くための最適化アルゴリズムを用いて,入力表現をサブ行列に分解し,低ランク埋め込みを再構築する一連のハンバーグを提案する。 異なるMDを持つハンバーガーは、MDを通してバックプロパゲーションされた勾配に慎重に対処する際に、一般的なグローバルコンテキストモジュールの自己注意に対して好適に機能する。 意味的セグメンテーションや画像生成など,グローバルな文脈の学習が不可欠であるビジョンタスクにおいて,総合的な実験が実施され,自己意識とその変種に対する大幅な改善が示された。

As an essential ingredient of modern deep learning, attention mechanism, especially self-attention, plays a vital role in the global correlation discovery. However, is hand-crafted attention irreplaceable when modeling the global context? Our intriguing finding is that self-attention is not better than the matrix decomposition (MD) model developed 20 years ago regarding the performance and computational cost for encoding the long-distance dependencies. We model the global context issue as a low-rank recovery problem and show that its optimization algorithms can help design global information blocks. This paper then proposes a series of Hamburgers, in which we employ the optimization algorithms for solving MDs to factorize the input representations into sub-matrices and reconstruct a low-rank embedding. Hamburgers with different MDs can perform favorably against the popular global context module self-attention when carefully coping with gradients back-propagated through MDs. Comprehensive experiments are conducted in the vision tasks where it is crucial to learn the global context, including semantic segmentation and image generation, demonstrating significant improvements over self-attention and its variants.
翻訳日:2021-09-14 04:03:12 公開日:2021-09-09
# (参考訳) kクラスタリングにおける特徴に基づく個人フェアネス [全文訳有]

Feature-based Individual Fairness in k-Clustering ( http://arxiv.org/abs/2109.04554v1 )

ライセンス: CC BY 4.0
Debajyoti Kar, Sourav Medya, Debmalya Mandal, Arlei Silva, Palash Dey, Swagato Sanyal(参考訳) 機械学習アルゴリズムの公平性を保証することは、挑戦的で重要なタスクである。 公平性制約を確保しつつ,点群をクラスタリングする問題を考える。 kクラスタリング問題において群フェアネスを捉える試みはいくつかあるが、個々のレベルでのフェアネスは十分に研究されていない。 我々は,クラスタ化に必ずしも用いられない特徴に基づくkクラスタ化において,個々人の公平性という新たな概念を導入する。 この問題はnp-hardであり、定数因子近似は認めないことを示す。 次に, クラスタリング距離目標の最小化と, 距離距離とフェアネス制約に対する自然制約下での個々フェアネスの両立を保証するランダム化アルゴリズムを設計した。 最後に,本アルゴリズムが既存のアルゴリズムに比べてクラスタリングコストを低減し,また個々に公平性を有することを検証した。

Ensuring fairness in machine learning algorithms is a challenging and important task. We consider the problem of clustering a set of points while ensuring fairness constraints. While there have been several attempts to capture group fairness in the k-clustering problem, fairness at an individual level is not well-studied. We introduce a new notion of individual fairness in k-clustering based on features that are not necessarily used for clustering. We show that this problem is NP-hard and does not admit a constant factor approximation. We then design a randomized algorithm that guarantees approximation both in terms of minimizing the clustering distance objective as well as individual fairness under natural restrictions on the distance metric and fairness constraints. Finally, our experimental results validate that our algorithm produces lower clustering costs compared to existing algorithms while being competitive in individual fairness.
翻訳日:2021-09-14 03:33:29 公開日:2021-09-09
# (参考訳) 変分オートエンコーダのデコーダによる科学的有用性向上 [全文訳有]

Supervising the Decoder of Variational Autoencoders to Improve Scientific Utility ( http://arxiv.org/abs/2109.04561v1 )

ライセンス: CC BY 4.0
Liyun Tu, Austin Talbot, Neil Gallagher, David Carlson(参考訳) 確率的生成モデル(probabilistic generative model)は、推論されたパラメータが仮説の生成や設計実験に使用できるため、科学的モデリングにおいて魅力的である。 これは、学習モデルが入力データの正確な表現を提供し、科学的問題に関連する結果を効果的に予測する潜在空間を与える必要がある。 SVAE(Supervised Variational Autoencoder)はこの目的のために使われており、注意深く設計されたデコーダを解釈可能な生成モデルとして使用でき、教師付き目的によって予測潜在表現が保証される。 残念なことに、教師付き目的により、エンコーダは生成後続分布に対する偏りのある近似を学習せざるを得ず、科学的モデルで使用する場合、生成パラメータは信頼できない。 この問題は、モデル性能を評価するために一般的に使用される再構成損失がエンコーダのバイアスを検知しないため、未検出のままである。 本稿では,デコーダに影響を与える2次監視フレームワーク(SOS-VAE)を開発し,予測潜在表現を誘導する手法を提案する。 これにより、関連するエンコーダが信頼できる生成解釈を維持する。 我々は,SVAEと新たなSOS-VAEの中間的選択肢として機能し,予測性能向上のための生成パラメータの偏りのトレードオフを可能にするために,この手法を拡張した。 また、この手法を用いて、複数の科学実験からの録音を組み合わせる際にしばしば発生する欠落データ問題にも対処する。 本研究は, 合成データと電気生理学的記録を用いて, 科学的実験を設計するために, 学習した表現をどのように利用できるかに注目した。

Probabilistic generative models are attractive for scientific modeling because their inferred parameters can be used to generate hypotheses and design experiments. This requires that the learned model provide an accurate representation of the input data and yield a latent space that effectively predicts outcomes relevant to the scientific question. Supervised Variational Autoencoders (SVAEs) have previously been used for this purpose, where a carefully designed decoder can be used as an interpretable generative model while the supervised objective ensures a predictive latent representation. Unfortunately, the supervised objective forces the encoder to learn a biased approximation to the generative posterior distribution, which renders the generative parameters unreliable when used in scientific models. This issue has remained undetected as reconstruction losses commonly used to evaluate model performance do not detect bias in the encoder. We address this previously-unreporte d issue by developing a second order supervision framework (SOS-VAE) that influences the decoder to induce a predictive latent representation. This ensures that the associated encoder maintains a reliable generative interpretation. We extend this technique to allow the user to trade-off some bias in the generative parameters for improved predictive performance, acting as an intermediate option between SVAEs and our new SOS-VAE. We also use this methodology to address missing data issues that often arise when combining recordings from multiple scientific experiments. We demonstrate the effectiveness of these developments using synthetic data and electrophysiological recordings with an emphasis on how our learned representations can be used to design scientific experiments.
翻訳日:2021-09-14 03:16:05 公開日:2021-09-09
# (参考訳) TIAGE: トピックシフト対応ダイアログモデリングのためのベンチマーク [全文訳有]

TIAGE: A Benchmark for Topic-Shift Aware Dialog Modeling ( http://arxiv.org/abs/2109.04562v1 )

ライセンス: CC BY 4.0
Huiyuan Xie, Zhenghao Liu, Chenyan Xiong, Zhiyuan Liu, Ann Copestake(参考訳) 人間の会話は自然に異なるトピックの周りに進化し、それらの間を流れる。 対話システムの研究では、アクティブでスムーズに新しいトピックに移行する能力は無視されることが多い。 本稿では,トピックシフトのヒューマンアノテーションを利用した新しいトピックシフト対応ダイアログベンチマークであるtiageを紹介する。 TIAGEに基づいて,トピックシフト検出,トピックシフトトリガ応答生成,トピック対応ダイアログ生成という3つのダイアログ設定におけるトピックシフトモデリングのシナリオについて検討する。 これらのタスクの実験により、TIAGEのトピックシフト信号はトピックシフト応答生成に有用であることが示されている。 一方、ダイアログシステムは、いつトピックを変更するかを決めるのに苦労している。 これは、トピックシフト対応ダイアログモデリングにおいてさらなる研究が必要であることを示している。

Human conversations naturally evolve around different topics and fluently move between them. In research on dialog systems, the ability to actively and smoothly transition to new topics is often ignored. In this paper we introduce TIAGE, a new topic-shift aware dialog benchmark constructed utilizing human annotations on topic shifts. Based on TIAGE, we introduce three tasks to investigate different scenarios of topic-shift modeling in dialog settings: topic-shift detection, topic-shift triggered response generation and topic-aware dialog generation. Experiments on these tasks show that the topic-shift signals in TIAGE are useful for topic-shift response generation. On the other hand, dialog systems still struggle to decide when to change topic. This indicates further research is needed in topic-shift aware dialog modeling.
翻訳日:2021-09-14 02:15:56 公開日:2021-09-09
# (参考訳) S3G-ARM:絶対的および相対的測定を用いたシーケンスセマンティックシーングラフからの高圧縮的自己局在 [全文訳有]

S3G-ARM: Highly Compressive Visual Self-localization from Sequential Semantic Scene Graph Using Absolute and Relative Measurements ( http://arxiv.org/abs/2109.04569v1 )

ライセンス: CC BY 4.0
Mitsuki Yoshida, Ryogo Yamamoto, Kanji Tanaka(参考訳) 本稿では,シーケンシャル・セマンティクス・シーングラフ(s3g)と呼ばれる新しい高圧縮シーン表現から,画像シーケンスに基づく自己局所化(iss)の問題に対処する。 近年のディープグラフ畳み込みニューラルネットワーク(gcns)の開発により、シーングラフを入力モダリティとして使用できる高圧縮視覚位置分類器(vpc)が実現されている。 しかし、このような高度圧縮応用では、画像からグラフへのマッピングで失われる情報量は重要であり、分類性能を損なう可能性がある。 この問題に対処するために,ノードとエッジが互いに補完する絶対的かつ相対的な特徴として機能するように,類似性保存マッピング,イメージ・ツー・ノード,イメージ・ツー・エッジのペアを提案する。 さらに、提案したGCN-VPCは、クエリ画像シーケンスの視点計画(VP)の新たなタスクに適用され、VPC性能のさらなる向上に寄与する。 NCLTデータセットを用いた実験により,提案手法の有効性が検証された。

In this paper, we address the problem of image sequence-based self-localization (ISS) from a new highly compressive scene representation called sequential semantic scene graph (S3G). Recent developments in deep graph convolutional neural networks (GCNs) have enabled a highly compressive visual place classifier (VPC) that can use a scene graph as the input modality. However, in such a highly compressive application, the amount of information lost in the image-to-graph mapping is significant and can damage the classification performance. To address this issue, we propose a pair of similarity-preservin g mappings, image-to-nodes and image-to-edges, such that the nodes and edges act as absolute and relative features, respectively, that complement each other. Moreover, the proposed GCN-VPC is applied to a new task of viewpoint planning (VP) of the query image sequence, which contributes to further improvement in the VPC performance. Experiments using the public NCLT dataset validated the effectiveness of the proposed method.
翻訳日:2021-09-14 02:06:40 公開日:2021-09-09
# (参考訳) 大規模都市データによる環境大気汚染の解明 [全文訳有]

Deciphering Environmental Air Pollution with Large Scale City Data ( http://arxiv.org/abs/2109.04572v1 )

ライセンス: CC BY 4.0
Mayukh Bhattacharyya, Sayan Nag, Udita Ghosh(参考訳) 21世紀の持続可能な環境環境に脅威をもたらす多くの危険のうち、大気汚染よりも深刻な影響を持つのはわずかである。 都市環境における健康と生活水準を決定することの重要性は、時間とともに増加すると期待されている。 交通や発電所からの排出、家庭の排出、自然の要因など様々な要因が、大気汚染レベルが上昇する背景にある主要な要因や影響要因であることが知られている。 しかしながら、主要な要因を含む大規模なデータがないことが、異なる大気汚染物質の変動性を支配する原因と関係の研究を妨げている。 本研究では,これらのエージェント間の関係を長期にわたって探究するための大規模都市別データセットを提案する。 私たちはデータセットを分析して探索し、データモデリングによって導出できる推論を導き出します。 また,様々なモデルと方法論を用いて汚染物質レベルを推定または予測する問題に対するベンチマークのセットを提供する。 本稿では,この領域のさらなる研究のための基礎的基盤を提供し,近い将来,我々の批判的関心を喚起することを目指している。

Out of the numerous hazards posing a threat to sustainable environmental conditions in the 21st century, only a few have a graver impact than air pollution. Its importance in determining the health and living standards in urban settings is only expected to increase with time. Various factors ranging from emissions from traffic and power plants, household emissions, natural causes are known to be primary causal agents or influencers behind rising air pollution levels. However, the lack of large scale data involving the major factors has hindered the research on the causes and relations governing the variability of the different air pollutants. Through this work, we introduce a large scale city-wise dataset for exploring the relationships among these agents over a long period of time. We analyze and explore the dataset to bring out inferences which we can derive by modeling the data. Also, we provide a set of benchmarks for the problem of estimating or forecasting pollutant levels with a set of diverse models and methodologies. Through our paper, we seek to provide a ground base for further research into this domain that will demand critical attention of ours in the near future.
翻訳日:2021-09-14 01:55:00 公開日:2021-09-09
# (参考訳) 異なるニューラルネットワークアーキテクチャを用いた触覚時系列データからのロボットの物体認識 [全文訳有]

Object recognition for robotics from tactile time series data utilising different neural network architectures ( http://arxiv.org/abs/2109.04573v1 )

ライセンス: CC BY 4.0
Wolfgang Bottcher, Pedro Machado, Nikesh Lama, T.M. McGinnity(参考訳) ロボットは、物理的環境と対話するために、把握された物体の高品質な情報を利用する必要がある。 したがって、触覚データは視覚モダリティを補うために使用できる。 本稿では、時空間触覚把握データに基づくオブジェクト分類のための畳み込みニューラルネットワーク(CNN)と長短項記憶(LSTM)ニューラルネットワークアーキテクチャについて検討する。 さらに,2つの異なるフィンガーチップセンサ(biotac sp と wts-ft)のデータを同一の物理的セットアップで比較し,同一の触覚物体分類データセットに対する手法とセンサ間の現実的な比較を可能にした。 さらに,記録データからより多くのトレーニング例を作成する方法を提案する。 提案手法は,全時系列データを用いた最大精度を82.4% (BioTac SP fingertips) と90.7% (WTS-FT fingertips) から約94% に改善した。

Robots need to exploit high-quality information on grasped objects to interact with the physical environment. Haptic data can therefore be used for supplementing the visual modality. This paper investigates the use of Convolutional Neural Networks (CNN) and Long-Short Term Memory (LSTM) neural network architectures for object classification on Spatio-temporal tactile grasping data. Furthermore, we compared these methods using data from two different fingertip sensors (namely the BioTac SP and WTS-FT) in the same physical setup, allowing for a realistic comparison across methods and sensors for the same tactile object classification dataset. Additionally, we propose a way to create more training examples from the recorded data. The results show that the proposed method improves the maximum accuracy from 82.4% (BioTac SP fingertips) and 90.7% (WTS-FT fingertips) with complete time-series data to about 94% for both sensor types.
翻訳日:2021-09-14 01:47:25 公開日:2021-09-09
# (参考訳) トルコ語における機械翻訳の大規模研究 [全文訳有]

A Large-Scale Study of Machine Translation in the Turkic Languages ( http://arxiv.org/abs/2109.04593v1 )

ライセンス: CC BY 4.0
Jamshidbek Mirzakhalov, Anoop Babu, Duygu Ataman, Sherzod Kariev, Francis Tyers, Otabek Abduraufov, Mammad Hajili, Sardana Ivanova, Abror Khaytbaev, Antonio Laverghetta Jr., Behzodbek Moydinboyev, Esra Onal, Shaxnoza Pulatova, Ahsan Wahab, Orhan Firat, Sriram Chellappan(参考訳) 近年のニューラルマシン翻訳(nmt)の進歩により、機械翻訳システムの品質が向上し、競争力のあるシステムを構築するために広く採用されている。 しかし、まだNMTのメリットを享受できていない言語はたくさんあります。 本稿では,テュルク語族におけるMTの実践的応用に関する大規模なケーススタディとして,高リソース・低リソースシナリオ下でのNMTの獲得を実現する。 データ不足を緩和する競争システム構築のボトルネックを特定する広範な分析に加えて、本研究では、いくつかの重要な貢献をしている。 一 約二百万の並行文の新しいデータセットと組み合わせて、共通の公開データセットからなる22のトルコ語を包含する大きな平行コーパス 二 26の言語対のバイリンガルベースライン 三) 3つの異なる翻訳領域における新規な高品質な試験セット iv) 人間の評価スコア。 すべてのモデル、スクリプト、データは一般に公開される。

Recent advances in neural machine translation (NMT) have pushed the quality of machine translation systems to the point where they are becoming widely adopted to build competitive systems. However, there is still a large number of languages that are yet to reap the benefits of NMT. In this paper, we provide the first large-scale case study of the practical application of MT in the Turkic language family in order to realize the gains of NMT for Turkic languages under high-resource to extremely low-resource scenarios. In addition to presenting an extensive analysis that identifies the bottlenecks towards building competitive systems to ameliorate data scarcity, our study has several key contributions, including, i) a large parallel corpus covering 22 Turkic languages consisting of common public datasets in combination with new datasets of approximately 2 million parallel sentences, ii) bilingual baselines for 26 language pairs, iii) novel high-quality test sets in three different translation domains and iv) human evaluation scores. All models, scripts, and data will be released to the public.
翻訳日:2021-09-14 01:34:48 公開日:2021-09-09
# 関係学習を用いた政治ツイートのモラルフレームの同定

Identifying Morality Frames in Political Tweets using Relational Learning ( http://arxiv.org/abs/2109.04535v1 )

ライセンス: Link先を確認
Shamik Roy, Maria Leonor Pacheco, Dan Goldwasser(参考訳) テキストから道徳的感情を抽出することは、世論、社会運動、政策決定を理解する上で重要な要素である。 モラル・ファンデーション理論は、正極性と負極性に関連する5つの道徳的基礎を識別する。 しかし、道徳的感情は、個人や集団的な実体に対応できる目標によって動機づけられることが多い。 本稿では、異なる主体に向けられた道徳的態度を組織化するための表現枠組みである道徳的枠組みを導入し、米国の政治家によって書かれた新しい高品質な注釈付きツイートデータセットを考案する。 そこで我々は,関係学習モデルを提案し,実体や道徳的基礎に対する道徳的態度を共同で予測する。 我々は質的かつ定量的な評価を行い、実体に対する道徳的感情が政治的イデオロギーによって大きく異なることを示す。

Extracting moral sentiment from text is a vital component in understanding public opinion, social movements, and policy decisions. The Moral Foundation Theory identifies five moral foundations, each associated with a positive and negative polarity. However, moral sentiment is often motivated by its targets, which can correspond to individuals or collective entities. In this paper, we introduce morality frames, a representation framework for organizing moral attitudes directed at different entities, and come up with a novel and high-quality annotated dataset of tweets written by US politicians. Then, we propose a relational learning model to predict moral attitudes towards entities and moral foundations jointly. We do qualitative and quantitative evaluations, showing that moral sentiment towards entities differs highly across political ideologies.
翻訳日:2021-09-13 13:47:32 公開日:2021-09-09
# SeDyT:動的エンティティ埋め込みのシーケンスモデリングによるマルチステップイベント予測のための汎用フレームワーク

SeDyT: A General Framework for Multi-Step Event Forecasting via Sequence Modeling on Dynamic Entity Embeddings ( http://arxiv.org/abs/2109.04550v1 )

ライセンス: Link先を確認
Hongkuan Zhou, James Orme-Rogers, Rajgopal Kannan, Viktor Prasanna(参考訳) 時間的知識グラフ(Temporal Knowledge Graphs)は、イベントを主題、関係、オブジェクト、タイムスタンプの形式で格納する。 イベント予測は、時間的知識グラフの推論において重要で困難なタスクであり、将来のイベントの主題や対象を予測する。 将来,複数段階の時間埋め込みを得るために,観測された事象の連成分布を捉える生成モデルを学習する。 高い計算コストを削減するために、これらの手法は独立性の非現実的な仮定と訓練や推論の近似に依存する。 本研究では,マルチステップイベント予測問題を解くために,動的エンティティ埋め込み上でシーケンスモデリングを行う識別フレームワークであるSeDyTを提案する。 SeDyTは、過去の動的エンティティの埋め込みを生成するテンポラルグラフニューラルネットワークと、将来的なエンティティの埋め込みを予測するシーケンスモデルという2つのコンポーネントで構成されている。 生成モデルと比較して、sedytはヒューリスティックな確率モデルに依存しておらず、トレーニングと推論の両方において計算の複雑さが低い。 SeDyTは、ほとんどの時間グラフニューラルネットワークやシーケンスモデルと互換性がある。 また、2つの成分を1つの勾配降下伝搬で訓練する効率的な訓練法を設計する。 5つの人気データセットにおけるsedytの性能評価を行った。 時間的グラフニューラルネットワークモデルとシーケンスモデルを組み合わせることで、検証セットを使用しない場合の平均2.4%のMRR改善と、検証セットを使用する場合の10%以上のMRR改善を実現している。

Temporal Knowledge Graphs store events in the form of subjects, relations, objects, and timestamps which are often represented by dynamic heterogeneous graphs. Event forecasting is a critical and challenging task in Temporal Knowledge Graph reasoning that predicts the subject or object of an event in the future. To obtain temporal embeddings multi-step away in the future, existing methods learn generative models that capture the joint distribution of the observed events. To reduce the high computation costs, these methods rely on unrealistic assumptions of independence and approximations in training and inference. In this work, we propose SeDyT, a discriminative framework that performs sequence modeling on the dynamic entity embeddings to solve the multi-step event forecasting problem. SeDyT consists of two components: a Temporal Graph Neural Network that generates dynamic entity embeddings in the past and a sequence model that predicts the entity embeddings in the future. Compared with the generative models, SeDyT does not rely on any heuristic-based probability model and has low computation complexity in both training and inference. SeDyT is compatible with most Temporal Graph Neural Networks and sequence models. We also design an efficient training method that trains the two components in one gradient descent propagation. We evaluate the performance of SeDyT on five popular datasets. By combining temporal Graph Neural Network models and sequence models, SeDyT achieves an average of 2.4% MRR improvement when not using the validation set and more than 10% MRR improvement when using the validation set.
翻訳日:2021-09-13 13:44:06 公開日:2021-09-09
# SPECTRA:スパース構造化テキスト合理化

SPECTRA: Sparse Structured Text Rationalization ( http://arxiv.org/abs/2109.04552v1 )

ライセンス: Link先を確認
Nuno Miguel Guerreiro, Andr\'e F. T. Martins(参考訳) 選択的合理化は、合理性(テキストハイライトや2つの文間の単語のアライメントなど)とともに意思決定を行うことを目的としている。 一般に、合理性は確率的二乗マスクとしてモデル化され、サンプリングベースの勾配推定器を必要とする。 スパースアテンションメカニズムは決定論的な代替手段であるが、合理的抽出(例えばテキストハイライトの空間性やアライメントの数を制御する)を規則化する手段が欠けている。 本稿では,因子グラフ上の制約付き推論による構造的説明を決定論的に抽出するための統一的な枠組みについて述べる。 我々のアプローチは、トレーニングと合理化を大いに緩和し、一般的に、抽出された合理化のパフォーマンスと可能性に関して、以前の仕事よりも優れています。 さらに,分類と自然言語推論タスクの合理化のための確率的および決定論的手法の比較研究を行い,それらの予測能力,説明の質,モデル変動を共同で評価した。

Selective rationalization aims to produce decisions along with rationales (e.g., text highlights or word alignments between two sentences). Commonly, rationales are modeled as stochastic binary masks, requiring sampling-based gradient estimators, which complicates training and requires careful hyperparameter tuning. Sparse attention mechanisms are a deterministic alternative, but they lack a way to regularize the rationale extraction (e.g., to control the sparsity of a text highlight or the number of alignments). In this paper, we present a unified framework for deterministic extraction of structured explanations via constrained inference on a factor graph, forming a differentiable layer. Our approach greatly eases training and rationale regularization, generally outperforming previous work on what comes to performance and plausibility of the extracted rationales. We further provide a comparative study of stochastic and deterministic methods for rationale extraction for classification and natural language inference tasks, jointly assessing their predictive power, quality of the explanations, and model variability.
翻訳日:2021-09-13 13:43:41 公開日:2021-09-09
# ランダムウォークノード埋め込みのエルゴディック限界, 緩和, 幾何学的特性

Ergodic Limits, Relaxations, and Geometric Properties of Random Walk Node Embeddings ( http://arxiv.org/abs/2109.04526v1 )

ライセンス: Link先を確認
Christy Lin, Daniel Sussman, Prakash Ishwar(参考訳) ランダムウォークに基づくノード埋め込みアルゴリズムは、ノード埋め込みベクトルの目的関数とネットワーク上のランダムウォークから計算されたスキップビグラム統計を最適化することにより、ノードのベクトル表現を学習する。 これらはリンク予測やノード分類といった多くの教師付き学習問題に適用され、最先端のパフォーマンスを示している。 しかし、その性質はよく分かっていない。 本稿では,ネットワーク内の隠れブロック構造,すなわち,ユークリッド空間におけるクラスター構造がネットワーク内の隣接構造を反映した学習ノード表現の教師なし設定におけるランダムウォークベースのノード埋め込みの特性について検討する。 埋め込み対象のエルゴード的限界,その一般化,および関連する凸緩和を特徴付けることにより,ノード埋め込み対象の非ランダム化バージョンを導出する。 また, 2-community stochastic block model (sbm) の期待グラフに対して,非ランダム目的の最適ノード埋め込みグラムを特徴付ける。 我々は、グラミアン解が非ランダム化目的の適切な核ノルム緩和に対して1ドルであることを示す。 SBMランダムネットワークにおける総合的な実験結果から,我々の非ランダム化エルゴード目的は,分布がガウス様であるノード埋め込みを,各コミュニティ内の期待ネットワークのノード埋め込みを中心に生成し,ノード数が増加するにつれて線形次数スケーリング体制に集中することを明らかにする。

Random walk based node embedding algorithms learn vector representations of nodes by optimizing an objective function of node embedding vectors and skip-bigram statistics computed from random walks on the network. They have been applied to many supervised learning problems such as link prediction and node classification and have demonstrated state-of-the-art performance. Yet, their properties remain poorly understood. This paper studies properties of random walk based node embeddings in the unsupervised setting of discovering hidden block structure in the network, i.e., learning node representations whose cluster structure in Euclidean space reflects their adjacency structure within the network. We characterize the ergodic limits of the embedding objective, its generalization, and related convex relaxations to derive corresponding non-randomized versions of the node embedding objectives. We also characterize the optimal node embedding Grammians of the non-randomized objectives for the expected graph of a two-community Stochastic Block Model (SBM). We prove that the solution Grammian has rank $1$ for a suitable nuclear norm relaxation of the non-randomized objective. Comprehensive experimental results on SBM random networks reveal that our non-randomized ergodic objectives yield node embeddings whose distribution is Gaussian-like, centered at the node embeddings of the expected network within each community, and concentrate in the linear degree-scaling regime as the number of nodes increases.
翻訳日:2021-09-13 13:40:47 公開日:2021-09-09
# TENET: 自動車のサイバー物理システムにおける異常検出を意識した時間CNN

TENET: Temporal CNN with Attention for Anomaly Detection in Automotive Cyber-Physical Systems ( http://arxiv.org/abs/2109.04565v1 )

ライセンス: Link先を確認
S. V. Thiruloga, V. K. Kukkala, S. Pasricha(参考訳) 現代の車両には、複合分散サイバー物理システム(CPS)の一部として接続される複数の電子制御ユニット(ECU)がある。 ECUと外部電子システムとの通信が絶え間なく増加することで、これらの車両は特に様々なサイバー攻撃を受けやすくなっている。 本研究では,車両のサイバー攻撃による異常を検出するためのTENETと呼ばれる新しい異常検出フレームワークを提案する。 TENETは、時間畳み込みニューラルネットワークと注意機構を統合して、異常な攻撃パターンを検出する。 tenetは偽陰性率32.70%、マシューズ相関係数19.14%、roc-aucメトリック17.25%の改善を達成でき、モデルパラメータ94.62%減少、メモリフットプリント86.95%減少、自動車異常検出における最善の先行研究と比較すると48.14%減少している。

Modern vehicles have multiple electronic control units (ECUs) that are connected together as part of a complex distributed cyber-physical system (CPS). The ever-increasing communication between ECUs and external electronic systems has made these vehicles particularly susceptible to a variety of cyber-attacks. In this work, we present a novel anomaly detection framework called TENET to detect anomalies induced by cyber-attacks on vehicles. TENET uses temporal convolutional neural networks with an integrated attention mechanism to detect anomalous attack patterns. TENET is able to achieve an improvement of 32.70% in False Negative Rate, 19.14% in the Mathews Correlation Coefficient, and 17.25% in the ROC-AUC metric, with 94.62% fewer model parameters, 86.95% decrease in memory footprint, and 48.14% lower inference time when compared to the best performing prior work on automotive anomaly detection.
翻訳日:2021-09-13 13:39:00 公開日:2021-09-09
# 古代アッカド語テキストにおけるギャップを埋める:マスケッド言語モデリングアプローチ

Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling Approach ( http://arxiv.org/abs/2109.04513v1 )

ライセンス: Link先を確認
Koren Lazar, Benny Saret, Asaf Yehudai, Wayne Horowitz, Nathan Wasserman, Gabriel Stanovsky(参考訳) 我々は、古代メソポタミアの文書の文字化によって失われたテキストを完遂するモデルを提示する(紀元前2500年~100年)。 タブレットの劣化のため、学者はしばしば、主観的かつ時間を要するプロセスにおいて、テキストの欠落部分を手作業で埋める文脈的な手がかりに頼っている。 この課題は、主に文脈型言語モデルの事前学習目的として使用される、マスク付き言語モデリングタスクとして定式化することができる。 以下に、当時の言語であるアッカディアン言語に焦点を当てたいくつかのアーキテクチャを開発する。 データ不足(1Mトークン)にもかかわらず、greedyデコードスキームを使用して、他の言語や異なる期間のデータに基づいて事前トレーニングすることで、不足トークン予測(89% hit@5)のアートパフォーマンスを実現することができる。 最後に, 絶滅した言語におけるテキストの書き起こしを支援するために, モデルの適用性を示すヒューマン評価を行う。

We present models which complete missing text given transliterations of ancient Mesopotamian documents, originally written on cuneiform clay tablets (2500 BCE - 100 CE). Due to the tablets' deterioration, scholars often rely on contextual cues to manually fill in missing parts in the text in a subjective and time-consuming process. We identify that this challenge can be formulated as a masked language modelling task, used mostly as a pretraining objective for contextualized language models. Following, we develop several architectures focusing on the Akkadian language, the lingua franca of the time. We find that despite data scarcity (1M tokens) we can achieve state of the art performance on missing tokens prediction (89% hit@5) using a greedy decoding scheme and pretraining on data from other languages and different time periods. Finally, we conduct human evaluations showing the applicability of our models in assisting experts to transcribe texts in extinct languages.
翻訳日:2021-09-13 13:37:45 公開日:2021-09-09
# ジェネリックリソースは必要なもの:タスク固有の並列トレーニングデータを持たないスタイル転送タスク

Generic resources are what you need: Style transfer tasks without task-specific parallel training data ( http://arxiv.org/abs/2109.04543v1 )

ライセンス: Link先を確認
Huiyuan Lai, Antonio Toral, Malvina Nissim(参考訳) スタイル転送は、コンテンツを保存しながら異なるターゲットスタイルでソーステキストを書き直すことを目的としている。 本稿では, 汎用リソースを活用する新しい手法を提案する。また, タスク固有の並列(ソースターゲット)データを使わずに, 定式化と極性スワップという2つの最もポピュラーなスタイル転送タスクにおいて, 既存の教師なしアプローチよりも優れていることを示す。 実際に我々は、汎用的な事前学習シーケンス・ツー・シーケンス・モデル(BART)に基づくマルチステップ手順を採用する。 まず,既存の一般的なパラフレーズのコレクションと,汎用語彙を用いた合成ペアの両方に対してbartをさらに事前学習することで,モデルの書き直し能力を強化する。 第二に、反復的バックトランスレーション手法により、2つのモデルをそれぞれ転送方向で訓練し、トレーニングプロセスにおいて動的に合成されたペアを互いに提供できるようにします。 最後に, 教師付きトレーニングシステムで使用する静的合成ペアを, 最良再帰モデルに生成させる。 方法論と最先端の結果に加えて、この研究のコアコントリビューションは、私たちが取り組んだ2つのタスクの性質と、その違いがアプローチに対する反応によってどのように強調されるかの反映である。

Style transfer aims to rewrite a source text in a different target style while preserving its content. We propose a novel approach to this task that leverages generic resources, and without using any task-specific parallel (source-target) data outperforms existing unsupervised approaches on the two most popular style transfer tasks: formality transfer and polarity swap. In practice, we adopt a multi-step procedure which builds on a generic pre-trained sequence-to-sequence model (BART). First, we strengthen the model's ability to rewrite by further pre-training BART on both an existing collection of generic paraphrases, as well as on synthetic pairs created using a general-purpose lexical resource. Second, through an iterative back-translation approach, we train two models, each in a transfer direction, so that they can provide each other with synthetically generated pairs, dynamically in the training process. Lastly, we let our best reresulting model generate static synthetic pairs to be used in a supervised training regime. Besides methodology and state-of-the-art results, a core contribution of this work is a reflection on the nature of the two tasks we address, and how their differences are highlighted by their response to our approach.
翻訳日:2021-09-13 13:37:26 公開日:2021-09-09
# 数学的一貫性と問題コンテキスト制約を用いた数学語問題生成

Math Word Problem Generation with Mathematical Consistency and Problem Context Constraints ( http://arxiv.org/abs/2109.04546v1 )

ライセンス: Link先を確認
Zichao Wang, Andrew S. Lan, Richard G. Baraniuk(参考訳) 本研究では,数学計算を規定する数学方程式と問題シナリオを規定する文脈を与えられた算術演算語問題(MWP)を生成する問題について検討する。 既存のアプローチは、数学的に無効か不満足な言語品質を持つMWPを生成する傾向がある。 また、コンテキストを無視したり、生成したmwpの多様性を損なう問題テンプレートの手動仕様を必要としたりします。 本稿では,新しいMWP生成手法を提案する。 一 生成したmwpの言語品質を向上させるための事前学習された言語モデル及び文脈キーワード選択モデル 二 生成したMWPの数学的妥当性を向上させるための数学方程式の整合性制約 3つの実世界のMWPデータセットに対する大規模定量的および定性的実験は、様々なベースラインと比較して、我々のアプローチの優れた性能を示している。

We study the problem of generating arithmetic math word problems (MWPs) given a math equation that specifies the mathematical computation and a context that specifies the problem scenario. Existing approaches are prone to generating MWPs that are either mathematically invalid or have unsatisfactory language quality. They also either ignore the context or require manual specification of a problem template, which compromises the diversity of the generated MWPs. In this paper, we develop a novel MWP generation approach that leverages i) pre-trained language models and a context keyword selection model to improve the language quality of the generated MWPs and ii) an equation consistency constraint for math equations to improve the mathematical validity of the generated MWPs. Extensive quantitative and qualitative experiments on three real-world MWP datasets demonstrate the superior performance of our approach compared to various baselines.
翻訳日:2021-09-13 13:37:04 公開日:2021-09-09
# 言語間のサブワードマッピングとアンカー

Subword Mapping and Anchoring across Languages ( http://arxiv.org/abs/2109.04556v1 )

ライセンス: Link先を確認
Giorgos Vernikos and Andrei Popescu-Belis(参考訳) 最先端の多言語システムは、すべての考慮された言語を十分にカバーする共有語彙に依存している。 この目的のために、単純で頻繁に使われるアプローチは、複数の言語で共同で構築されたサブワード語彙を利用する。 このような語彙は偽陽性(言語間で異なる意味を持つ同一のサブワード)と偽陰性(類似した意味を持つ異なるサブワード)による亜最適であると仮定する。 これらの問題に対処するために,二言語単語の語彙構築手法であるsmala(subword mapping and anchoring across languages)を提案する。 SMALAは、教師なしの最先端マッピング技術を用いてサブワードアライメントを抽出し、サブワード類似性に基づいた言語間アンカーを作成する。 言語間自然言語推論(xnli)におけるsmalaの利点を実証し,タスク固有のデータ無しで無意味な言語へのゼロショット転送を改善する。 さらに, ニューラルマシン翻訳では, SMALAで得られる接尾辞語彙が, 多くの偽陽性と偽陰性を含む文のBLEUスコアを高くすることを示した。

State-of-the-art multilingual systems rely on shared vocabularies that sufficiently cover all considered languages. To this end, a simple and frequently used approach makes use of subword vocabularies constructed jointly over several languages. We hypothesize that such vocabularies are suboptimal due to false positives (identical subwords with different meanings across languages) and false negatives (different subwords with similar meanings). To address these issues, we propose Subword Mapping and Anchoring across Languages (SMALA), a method to construct bilingual subword vocabularies. SMALA extracts subword alignments using an unsupervised state-of-the-art mapping technique and uses them to create cross-lingual anchors based on subword similarities. We demonstrate the benefits of SMALA for cross-lingual natural language inference (XNLI), where it improves zero-shot transfer to an unseen language without task-specific data, but only by sharing subword embeddings. Moreover, in neural machine translation, we show that joint subword vocabularies obtained with SMALA lead to higher BLEU scores on sentences that contain many false positives and false negatives.
翻訳日:2021-09-13 13:36:53 公開日:2021-09-09
# speechformer: 直接音声翻訳における情報損失の低減

Speechformer: Reducing Information Loss in Direct Speech Translation ( http://arxiv.org/abs/2109.04574v1 )

ライセンス: Link先を確認
Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi(参考訳) トランスフォーマーベースのモデルは、音声翻訳を含む多くの研究分野で最先端のパフォーマンスを達成する人気が高まっている。 しかし、入力シーケンス長に関するトランスフォーマーの二次的な複雑さは、通常長いシーケンスで表される音声信号と同様に、その採用を妨げる。 現在のソリューションは、生音声特徴の固定サンプリングに基づいて、初期最適部分圧縮を利用する。 したがって、潜在的に有用な言語情報は、アーキテクチャの上位層にはアクセスできない。 この問題を解決するために,注意層におけるメモリ使用量の削減により,初期損失圧縮を回避し,より詳細な言語基準に従って情報のみを高レベルに集約するアーキテクチャであるSpeechformerを提案する。 3つの言語対(en->de/es/nl)の実験では、標準の MuST-C コーパスでは 0.8 BLEU、低リソースシナリオでは 4.0 BLEU が得られた。

Transformer-based models have gained increasing popularity achieving state-of-the-art performance in many research fields including speech translation. However, Transformer's quadratic complexity with respect to the input sequence length prevents its adoption as is with audio signals, which are typically represented by long sequences. Current solutions resort to an initial sub-optimal compression based on a fixed sampling of raw audio features. Therefore, potentially useful linguistic information is not accessible to higher-level layers in the architecture. To solve this issue, we propose Speechformer, an architecture that, thanks to reduced memory usage in the attention layers, avoids the initial lossy compression and aggregates information only at a higher level according to more informed linguistic criteria. Experiments on three language pairs (en->de/es/nl) show the efficacy of our solution, with gains of up to 0.8 BLEU on the standard MuST-C corpus and of up to 4.0 BLEU in a low resource scenario.
翻訳日:2021-09-13 13:36:35 公開日:2021-09-09
# タスク指向セマンティックパーシングのためのグラフベースデコーディング

Graph-Based Decoding for Task Oriented Semantic Parsing ( http://arxiv.org/abs/2109.04587v1 )

ライセンス: Link先を確認
Jeremy R. Cole, Nanjiang Jiang, Panupong Pasupat, Luheng He, Peter Shaw(参考訳) 近年のセマンティック解析の主要なパラダイムは、シーケンス対シーケンスタスクとして解析を定式化し、自動回帰シーケンスデコーダによる予測を生成することである。 本研究では,代替パラダイムについて検討する。 意味解析を係り受け解析タスクとして定式化し,構文解析用に開発されたグラフベースの復号手法を適用した。 事前学習されたトランスフォーマーエンコーダが最上位データセットに与えられた様々な復号技術を比較し、トレーニングデータが制限されたり、部分的に注釈された例のみを含むような設定を行う。 グラフベースのアプローチは、標準設定のシーケンスデコーダと競合することが分かり、部分的な注釈付きデータが利用可能なデータ効率と設定の大幅な改善が得られます。

The dominant paradigm for semantic parsing in recent years is to formulate parsing as a sequence-to-sequence task, generating predictions with auto-regressive sequence decoders. In this work, we explore an alternative paradigm. We formulate semantic parsing as a dependency parsing task, applying graph-based decoding techniques developed for syntactic parsing. We compare various decoding techniques given the same pre-trained Transformer encoder on the TOP dataset, including settings where training data is limited or contains only partially-annotated examples. We find that our graph-based approach is competitive with sequence decoders on the standard setting, and offers significant improvements in data efficiency and settings where partially-annotated data is available.
翻訳日:2021-09-13 13:36:19 公開日:2021-09-09
# バート? マクバート? それともビバート? ニューラルマシン翻訳のための文脈化埋め込みに関する研究

BERT, mBERT, or BiBERT? A Study on Contextualized Embeddings for Neural Machine Translation ( http://arxiv.org/abs/2109.04588v1 )

ライセンス: Link先を確認
Haoran Xu, Benjamin Van Durme, Kenton Murray(参考訳) BERTのようなマスク付き言語モデルを用いた双方向エンコーダが多くの自然言語処理タスクで成功し、これらの事前学習されたモデルをニューラルマシン翻訳(NMT)システムに組み込もうとしている。 しかし、事前学習モデルを統合するための提案手法は非自明であり、主にBERTに焦点を当てており、他の事前学習モデルが翻訳性能に与える影響を比較できない。 本稿では,NMTエンコーダの入力として,調整済みで適切なバイリンガル事前学習言語モデル(BiBERT)の出力(コンテキスト埋め込み)を用いることで,最先端の翻訳性能が得られることを示す。 さらに,確率的層選択手法と双方向翻訳モデルの概念を提案し,文脈的埋め込みの十分な利用を確実にする。 逆変換を使わない場合は、iwslt'14データセットでは30.45点、iwslt'14データセットでは38.61点、wmt'14データセットでは31.26点、wmt'14データセットでは34.94点のbleuスコアを達成する。

The success of bidirectional encoders using masked language models, such as BERT, on numerous natural language processing tasks has prompted researchers to attempt to incorporate these pre-trained models into neural machine translation (NMT) systems. However, proposed methods for incorporating pre-trained models are non-trivial and mainly focus on BERT, which lacks a comparison of the impact that other pre-trained models may have on translation performance. In this paper, we demonstrate that simply using the output (contextualized embeddings) of a tailored and suitable bilingual pre-trained language model (dubbed BiBERT) as the input of the NMT encoder achieves state-of-the-art translation performance. Moreover, we also propose a stochastic layer selection approach and a concept of dual-directional translation model to ensure the sufficient utilization of contextualized embeddings. In the case of without using back translation, our best models achieve BLEU scores of 30.45 for En->De and 38.61 for De->En on the IWSLT'14 dataset, and 31.26 for En->De and 34.94 for De->En on the WMT'14 dataset, which exceeds all published numbers.
翻訳日:2021-09-13 13:36:06 公開日:2021-09-09
# crowddriven: 屋外の視覚的ローカライゼーションのための新しい挑戦的データセット

CrowdDriven: A New Challenging Dataset for Outdoor Visual Localization ( http://arxiv.org/abs/2109.04527v1 )

ライセンス: Link先を確認
Ara Jafarzadeh, Manuel Lopez Antequera, Pau Gargallo, Yubin Kuang, Carl Toft, Fredrik Kahl, Torsten Sattler(参考訳) 視覚局在は、所定の画像(または画像のシーケンス)が既知のシーンで撮影される位置と向きを推定する問題である。 これは、自動運転車から拡張現実/仮想現実システムまで、幅広いコンピュータビジョンとロボティクスアプリケーションにおいて重要な部分である。 視覚定位技術は,季節,天候,照明,人工的な変化など,幅広い条件下で安定かつ堅牢に機能するべきである。 最近のベンチマークの取り組みでは、異なる条件下でイメージを提供することによって、これをモデル化している。 しかし、それらは限られた地理的領域に限定され、単一の装置で記録されることが多い。 本研究では, クラウドソースデータを用いて, 屋外シーンにおける視覚像定位のための新しいベンチマークを提案し, 現在のアルゴリズムの故障事例に着目した, 幅広い地理的領域とカメラ装置をカバーする。 最先端のローカライゼーションアプローチによる実験では、我々のデータセットは非常に困難であり、評価されたすべてのメソッドは最も難しい部分で失敗している。 データセットのリリースの一部として、我々はそれを生成するためのツールを提供し、効率的に効果的な2D対応アノテーションを提供し、参照ポーズを得る。

Visual localization is the problem of estimating the position and orientation from which a given image (or a sequence of images) is taken in a known scene. It is an important part of a wide range of computer vision and robotics applications, from self-driving cars to augmented/virtual reality systems. Visual localization techniques should work reliably and robustly under a wide range of conditions, including seasonal, weather, illumination and man-made changes. Recent benchmarking efforts model this by providing images under different conditions, and the community has made rapid progress on these datasets since their inception. However, they are limited to a few geographical regions and often recorded with a single device. We propose a new benchmark for visual localization in outdoor scenes, using crowd-sourced data to cover a wide range of geographical regions and camera devices with a focus on the failure cases of current algorithms. Experiments with state-of-the-art localization approaches show that our dataset is very challenging, with all evaluated methods failing on its hardest parts. As part of the dataset release, we provide the tooling used to generate it, enabling efficient and effective 2D correspondence annotation to obtain reference poses.
翻訳日:2021-09-13 13:29:49 公開日:2021-09-09
# FedCon:Federated Semi-Supervised Learningのためのコントラストフレームワーク

FedCon: A Contrastive Framework for Federated Semi-Supervised Learning ( http://arxiv.org/abs/2109.04533v1 )

ライセンス: Link先を確認
Zewei Long, Jiaqi Wang, Yaqing Wang, Houping Xiao, Fenglong Ma(参考訳) Federated Semi-Supervised Learning (FedSSL)は、独立してラベル付けされていないデータを持つ機械学習モデルの共同トレーニングの特徴から、学術と工業の両方の研究者から注目を集めている。 既存のfeedsslメソッドの多くは、従来のシナリオ、すなわちラベル付きデータとラベルなしデータはクライアント側に格納される。 しかし、現実世界のアプリケーションでは、クライアントユーザはインセンティブなしでラベルを提供できない。 したがって、サーバ側のラベルのシナリオはより実用的である。 ラベル付きデータとラベル付きデータは分離されているため、既存のFedSSLアプローチのほとんどはそのようなシナリオに対処できない可能性がある。 本稿では、この問題を解決するために、FedSSLに新たな学習パラダイム、すなわち契約学習を導入するFedConを提案する。 3つのデータセットの実験結果から、FedConは、IIDおよび非IID設定の最先端ベースラインと比較して、契約型フレームワークで最高のパフォーマンスを達成することが示された。 さらに、アブレーション研究は、提案したFedConフレームワークの特徴を示している。

Federated Semi-Supervised Learning (FedSSL) has gained rising attention from both academic and industrial researchers, due to its unique characteristics of co-training machine learning models with isolated yet unlabeled data. Most existing FedSSL methods focus on the classical scenario, i.e, the labeled and unlabeled data are stored at the client side. However, in real world applications, client users may not provide labels without any incentive. Thus, the scenario of labels at the server side is more practical. Since unlabeled data and labeled data are decoupled, most existing FedSSL approaches may fail to deal with such a scenario. To overcome this problem, in this paper, we propose FedCon, which introduces a new learning paradigm, i.e., contractive learning, to FedSSL. Experimental results on three datasets show that FedCon achieves the best performance with the contractive framework compared with state-of-the-art baselines under both IID and Non-IID settings. Besides, ablation studies demonstrate the characteristics of the proposed FedCon framework.
翻訳日:2021-09-13 13:25:27 公開日:2021-09-09
# SanitAIs: トロイの木馬ニューラルネットワークの衛生化のための教師なしデータ拡張

SanitAIs: Unsupervised Data Augmentation to Sanitize Trojaned Neural Networks ( http://arxiv.org/abs/2109.04566v1 )

ライセンス: Link先を確認
Kiran Karra, Chace Ashcraft(参考訳) 自己教師付き手法の適用により、未ラベルデータの大規模なコレクションを活用して、一般化された基盤構造を学ぶことにより、ニューラルネットワークのパフォーマンスが大幅に向上した。 本研究では,教師なしデータ拡張 (unsupervised data augmentation,uda) を用いて,ディープニューラルネットワークにおけるバックドアやトロイの木馬攻撃を軽減する。 UDAは,特徴空間と点トリガの両方に対する現在の最先端手法よりも,トリガの効果の除去に有効であることを示す。 これらの結果は、UDAがニューラルネットワークに対するバックドアの効果を緩和するための効果的かつ実用的なアプローチであることを示している。

The application of self-supervised methods has resulted in broad improvements to neural network performance by leveraging large, untapped collections of unlabeled data to learn generalized underlying structure. In this work, we harness unsupervised data augmentation (UDA) to mitigate backdoor or Trojan attacks on deep neural networks. We show that UDA is more effective at removing the effects of a trigger than current state-of-the-art methods for both feature space and point triggers. These results demonstrate that UDA is both an effective and practical approach to mitigating the effects of backdoors on neural networks.
翻訳日:2021-09-13 13:25:12 公開日:2021-09-09
# 近隣住民を信頼する--レコメンデーションシステムのための地区ベース手法の包括的調査

Trust your neighbors: A comprehensive survey of neighborhood-based methods for recommender systems ( http://arxiv.org/abs/2109.04584v1 )

ライセンス: Link先を確認
Athanasios N. Nikolakopoulos, Xia Ning, Christian Desrosiers, George Karypis(参考訳) 近隣住民による協調的なレコメンデーションアプローチは、その単純さ、効率、そして正確でパーソナライズされたレコメンデーションを生み出す能力のために、現在でも非常に人気がある。 本章では,項目推薦問題に対する周辺手法の包括的調査を行う。 提案手法の主な特徴と利点を提示し,近隣のレコメンデータシステムを実装する上で重要な設計選択を記述し,それらの選択方法に関する実践的な情報を提供する。 k-nearestの隣人のような従来のアルゴリズムや、行列分解、スパースコーディング、ランダムウォークに基づく高度なアプローチなど、幅広い方法がこの章でカバーされている。

Collaborative recommendation approaches based on nearest-neighbors are still highly popular today due to their simplicity, their efficiency, and their ability to produce accurate and personalized recommendations. This chapter offers a comprehensive survey of neighborhood-based methods for the item recommendation problem. It presents the main characteristics and benefits of such methods, describes key design choices for implementing a neighborhood-based recommender system, and gives practical information on how to make these choices. A broad range of methods is covered in the chapter, including traditional algorithms like k-nearest neighbors as well as advanced approaches based on matrix factorization, sparse coding and random walks.
翻訳日:2021-09-13 13:19:56 公開日:2021-09-09
# (参考訳) フィーチャーレス1D-CNNによるIoTデバイスの攻撃検出 [全文訳有]

Detecting Attacks on IoT Devices using Featureless 1D-CNN ( http://arxiv.org/abs/2109.03989v1 )

ライセンス: CC BY 4.0
Arshiya Khan, Chase Cotton(参考訳) ディープラーニングの一般化は,ネットワークセキュリティ領域におけるマルウェアの識別や異常検出といった課題に,これまでも取り組んできた。 しかし、効果的なメモリと処理能力の不足は、iot(internet of things)デバイスでこれらのタスクを実行するのを困難にしている。 この研究は、機械学習技術における機能工学とその後の処理の必要性を軽視することで、このボトルネックから抜け出す簡単な方法を見出す。 本研究では,異常検出を行う機能レス機械学習プロセスを提案する。 トレーニングデータとしてパケットの未処理バイトストリームを使用する。 機能レス機械学習は、ネットワークトラフィックの低コストかつ低メモリの時系列分析を可能にする。 課題の専門家への多大な投資と機能エンジニアリングに必要な時間を排除することで利益を得る。

The generalization of deep learning has helped us, in the past, address challenges such as malware identification and anomaly detection in the network security domain. However, as effective as it is, scarcity of memory and processing power makes it difficult to perform these tasks in Internet of Things (IoT) devices. This research finds an easy way out of this bottleneck by depreciating the need for feature engineering and subsequent processing in machine learning techniques. In this study, we introduce a Featureless machine learning process to perform anomaly detection. It uses unprocessed byte streams of packets as training data. Featureless machine learning enables a low cost and low memory time-series analysis of network traffic. It benefits from eliminating the significant investment in subject matter experts and the time required for feature engineering.
翻訳日:2021-09-11 08:09:20 公開日:2021-09-09
# (参考訳) 同期フェデレーショントレーニングにおけるシステム最適化 [全文訳有]

System Optimization in Synchronous Federated Training: A Survey ( http://arxiv.org/abs/2109.03999v1 )

ライセンス: CC BY 4.0
Zhifeng Jiang, Wei Wang(参考訳) プライバシー保護方式による協調機械学習に対する前例のない需要は、フェデレートラーニング(FL)と呼ばれる新しい機械学習パラダイムを生み出している。 十分なレベルのプライバシー保証が与えられた場合、FLシステムの実用性は主にトレーニングプロセス中の時間と精度のパフォーマンスに依存する。 FLは従来の分散トレーニングと多少似ているが、情報不足、コントラスト要因の結合、クライアントの不均一性、巨大な構成空間といった、より短い時間から正確性への最適化を複雑にする4つの異なる課題がある。 本稿では,関連研究の必要性に感銘を受けて,FL文学における高度に関連性の高い試みを調査し,関連する学習段階(選択,構成,報告)によって整理する。 また、fl開発者をフレンドリーにサポートするための測定研究やベンチマークツールを含む探索的作業についてもレビューする。 FLに関するいくつかの調査記事は存在するが、我々の研究は焦点、分類、意味という点ではそれらとは異なる。

The unprecedented demand for collaborative machine learning in a privacy-preserving manner gives rise to a novel machine learning paradigm called federated learning (FL). Given a sufficient level of privacy guarantees, the practicality of an FL system mainly depends on its time-to-accuracy performance during the training process. Despite bearing some resemblance with traditional distributed training, FL has four distinct challenges that complicate the optimization towards shorter time-to-accuracy: information deficiency, coupling for contrasting factors, client heterogeneity, and huge configuration space. Motivated by the need for inspiring related research, in this paper we survey highly relevant attempts in the FL literature and organize them by the related training phases in the standard workflow: selection, configuration, and reporting. We also review exploratory work including measurement studies and benchmarking tools to friendly support FL developers. Although a few survey articles on FL already exist, our work differs from them in terms of the focus, classification, and implications.
翻訳日:2021-09-11 07:59:25 公開日:2021-09-09
# (参考訳) 動的期待リスク対策下における等リスク価格とヘッジの深層強化学習 [全文訳有]

Deep Reinforcement Learning for Equal Risk Pricing and Hedging under Dynamic Expectile Risk Measures ( http://arxiv.org/abs/2109.04001v1 )

ライセンス: CC BY 4.0
Saeed Marzban, Erick Delage, Jonathan Yumeng Li(参考訳) 近年、公正デリバティブ価格の枠組みである等リスク価格が拡張され、動的リスク対策が検討された。 しかしながら、現在のすべての実装は、時間的一貫性に反する静的リスク尺度を採用するか、あるいは、多くの基盤となる(次元性の呪いによる)問題や不完全な資産的動的情報に対処できない、伝統的な動的プログラミングソリューションスキームに基づいている。 本稿では, 時間的一貫性のある再帰的期待的リスク尺度を用いてリスクをモデル化するリスク逆マルコフ決定過程を解決する問題に対して, 有名なオフ・ポリティクス決定論的アクター-批判的深層強化学習(acrl)アルゴリズムを初めて拡張する。 この新しいACRLアルゴリズムは、バスケットオプションのような、従来の方法では扱えないオプションや、基礎となる資産の歴史的軌跡しか利用できない状況において、高品質な時間一貫したヘッジポリシー(および同等のリスク価格)を特定できる。 Our numerical experiments, which involve both a simple vanilla option and a more exotic basket option, confirm that the new ACRL algorithm can produce 1) in simple environments, nearly optimal hedging policies, and highly accurate prices, simultaneously for a range of maturities 2) in complex environments, good quality policies and prices using reasonable amount of computing resources; and 3) overall, hedging strategies that actually outperform the strategies produced using static risk measures when the risk is evaluated at later points of time.

Recently equal risk pricing, a framework for fair derivative pricing, was extended to consider dynamic risk measures. However, all current implementations either employ a static risk measure that violates time consistency, or are based on traditional dynamic programming solution schemes that are impracticable in problems with a large number of underlying assets (due to the curse of dimensionality) or with incomplete asset dynamics information. In this paper, we extend for the first time a famous off-policy deterministic actor-critic deep reinforcement learning (ACRL) algorithm to the problem of solving a risk averse Markov decision process that models risk using a time consistent recursive expectile risk measure. This new ACRL algorithm allows us to identify high quality time consistent hedging policies (and equal risk prices) for options, such as basket options, that cannot be handled using traditional methods, or in context where only historical trajectories of the underlying assets are available. Our numerical experiments, which involve both a simple vanilla option and a more exotic basket option, confirm that the new ACRL algorithm can produce 1) in simple environments, nearly optimal hedging policies, and highly accurate prices, simultaneously for a range of maturities 2) in complex environments, good quality policies and prices using reasonable amount of computing resources; and 3) overall, hedging strategies that actually outperform the strategies produced using static risk measures when the risk is evaluated at later points of time.
翻訳日:2021-09-11 07:26:29 公開日:2021-09-09
# (参考訳) 分割と克服によるディープメトリック学習の改善 [全文訳有]

Improving Deep Metric Learning by Divide and Conquer ( http://arxiv.org/abs/2109.04003v1 )

ライセンス: CC0 1.0
Artsiom Sanakoyeu, Pingchuan Ma, Vadim Tschernezki, Bj\"orn Ommer(参考訳) ディープメトリック学習(dml)は、多くのコンピュータビジョンアプリケーションの基礎である。 これは入力ドメインから埋め込み空間へのマッピングを学習することを目的としている。 トレーニングデータのターゲットの類似性は、ユーザによる接地ラベルによって定義される。 しかし,埋め込み空間はトレーニングデータにユーザが提供する類似性を模倣することを学ぶ一方で,トレーニング中に見られない新しいカテゴリにも一般化する必要がある。 ユーザが提供する接地訓練ラベルの他に、多くの視覚的要素(視点の変化や形状の特異性など)が存在し、オブジェクト間の類似性の異なる概念を暗示し、トレーニング中の画像の一般化に影響を与える。 しかし、既存のアプローチは通常、利用可能なすべてのトレーニングデータに単一の埋め込みスペースを直接学習し、あらゆる種類の関係をエンコードするのに苦労し、うまく一般化しない。 埋め込み空間とデータを階層的により小さな部分に分割することで,より表現力のある表現を構築することを提案する。 トレーニングデータの小さなサブセットに注目し、分散を減らし、各データサブセットに対して異なる埋め込み部分空間を学習します。 さらに、サブスペースは、複雑なだけでなく、データの幅もカバーするように、共同で学習される。 その後のみ、征服段階における部分空間から最後の埋め込みを構築します。 提案アルゴリズムは、任意の既存のDMLメソッドに配置可能な透明なラッパーとして機能する。 提案手法は,CUB200-2011,CARS196 ,Stanford Online Products,In-shop Clothes,PKU VehicleIDデータセットを用いて評価した画像検索,クラスタリング,再識別タスクの最先端性を大幅に向上させる。

Deep metric learning (DML) is a cornerstone of many computer vision applications. It aims at learning a mapping from the input domain to an embedding space, where semantically similar objects are located nearby and dissimilar objects far from another. The target similarity on the training data is defined by user in form of ground-truth class labels. However, while the embedding space learns to mimic the user-provided similarity on the training data, it should also generalize to novel categories not seen during training. Besides user-provided groundtruth training labels, a lot of additional visual factors (such as viewpoint changes or shape peculiarities) exist and imply different notions of similarity between objects, affecting the generalization on the images unseen during training. However, existing approaches usually directly learn a single embedding space on all available training data, struggling to encode all different types of relationships, and do not generalize well. We propose to build a more expressive representation by jointly splitting the embedding space and the data hierarchically into smaller sub-parts. We successively focus on smaller subsets of the training data, reducing its variance and learning a different embedding subspace for each data subset. Moreover, the subspaces are learned jointly to cover not only the intricacies, but the breadth of the data as well. Only after that, we build the final embedding from the subspaces in the conquering stage. The proposed algorithm acts as a transparent wrapper that can be placed around arbitrary existing DML methods. Our approach significantly improves upon the state-of-the-art on image retrieval, clustering, and re-identification tasks evaluated using CUB200-2011, CARS196, Stanford Online Products, In-shop Clothes, and PKU VehicleID datasets.
翻訳日:2021-09-11 07:01:38 公開日:2021-09-09
# (参考訳) OpenClinicalAI:リアルな臨床環境でAIが病気の診断を可能にする

OpenClinicalAI: enabling AI to diagnose diseases in real-world clinical settings ( http://arxiv.org/abs/2109.04004v1 )

ライセンス: CC BY 4.0
Yunyou Huang, Nana Wang, Suqin Tang, Li Ma, Tianshu Hao, Zihan Jiang, Fan Zhang, Guoxin Kang, Xiuxia Miao, Xianglong Guan, Ruchang Zhang, Zhifei Zhang and Jianfeng Zhan(参考訳) 本稿では,すべての被験者が知っているような厳密な条件下でのみ,最先端かつ実践的なAIシステムが許容できる性能を達成することを定量的に明らかにする。 クローズドセッティングにおける診断タスクと比較すると,実際の臨床環境は深刻な課題を呈し,異なる治療をしなければならない。 我々は,臨床aiベンチマークである clinical aibench を構築し,実世界の臨床設定の設定を行い,研究を促進する。 我々はオープンでダイナミックな機械学習フレームワークを提案し、リアルな臨床環境で病気を診断するOpenClinicalAIと呼ばれるAIシステムを開発した。 AIBenchとOpenClinicalAIの最初のバージョンはアルツハイマー病をターゲットにしている。 実際の臨床環境では、OpenClinicalAIは最先端のAIシステムを大幅に上回っている。 さらに、OpenClinicalAIは、不要なテストを避けるためにパーソナライズされた診断戦略を開発し、臨床医とシームレスに協力する。 現在の医療システムに組み込んで医療サービスを改善することを約束している。

This paper quantitatively reveals the state-of-the-art and state-of-the-practic e AI systems only achieve acceptable performance on the stringent conditions that all categories of subjects are known, which we call closed clinical settings, but fail to work in real-world clinical settings. Compared to the diagnosis task in the closed setting, real-world clinical settings pose severe challenges, and we must treat them differently. We build a clinical AI benchmark named Clinical AIBench to set up real-world clinical settings to facilitate researches. We propose an open, dynamic machine learning framework and develop an AI system named OpenClinicalAI to diagnose diseases in real-world clinical settings. The first versions of Clinical AIBench and OpenClinicalAI target Alzheimer's disease. In the real-world clinical setting, OpenClinicalAI significantly outperforms the state-of-the-art AI system. In addition, OpenClinicalAI develops personalized diagnosis strategies to avoid unnecessary testing and seamlessly collaborates with clinicians. It is promising to be embedded in the current medical systems to improve medical services.
翻訳日:2021-09-11 06:20:01 公開日:2021-09-09
# (参考訳) 生成・拡張・アライメント:ソースフリードメイン適応のための擬似ソースドメインベース手法 [全文訳有]

Generation, augmentation, and alignment: A pseudo-source domain based method for source-free domain adaptation ( http://arxiv.org/abs/2109.04015v1 )

ライセンス: CC BY 4.0
Yuntao Du, Haiyang Yang, Mingcai Chen, Juan Jiang, Hongtao Luo, Chongjun Wang(参考訳) 従来のunsupervised domain adaptation(uda)メソッドは、ラベル付きソースサンプルとラベルなしターゲットサンプルの両方にアクセスして、モデルをトレーニングする必要がある。 一部のシナリオでは、ソースサンプルはデータプライバシと安全性のためにターゲットドメインでは利用できない。 この課題を克服するために、最近、ソースフリードメイン適応(sfda)が研究者の注目を集め、トレーニング済みのソースモデルとラベルなしのターゲットサンプルの両方が与えられた。 既存のsfdaメソッドは擬似ラベルベースの戦略を採用するか、より多くのサンプルを生成する。 しかし、これらの手法はドメイン間の分布シフトを明示的に減らすものではないので、良い適応の鍵となる。 ソースサンプルはありませんが、幸いなことに、いくつかのターゲットサンプルはソースドメインと非常に似ていて、ソースドメインの近似に使用できます。 この近似ドメインは擬似ソースドメインとして表される。 本稿では,この観察に触発されて,疑似ソースドメインに基づく新しい手法を提案する。 提案手法はまず,擬似音源領域の生成と拡張を行い,擬似ラベルに基づく戦略に基づく4つの新たな損失の分布アライメントを用いる。 このうち、擬似ソース領域と残りのターゲットドメインとの間にドメイン逆損失を導入し、分散シフトを低減する。 提案手法の有効性を実世界の3つのデータセットで検証した。

Conventional unsupervised domain adaptation (UDA) methods need to access both labeled source samples and unlabeled target samples simultaneously to train the model. While in some scenarios, the source samples are not available for the target domain due to data privacy and safety. To overcome this challenge, recently, source-free domain adaptation (SFDA) has attracted the attention of researchers, where both a trained source model and unlabeled target samples are given. Existing SFDA methods either adopt a pseudo-label based strategy or generate more samples. However, these methods do not explicitly reduce the distribution shift across domains, which is the key to a good adaptation. Although there are no source samples available, fortunately, we find that some target samples are very similar to the source domain and can be used to approximate the source domain. This approximated domain is denoted as the pseudo-source domain. In this paper, inspired by this observation, we propose a novel method based on the pseudo-source domain. The proposed method firstly generates and augments the pseudo-source domain, and then employs distribution alignment with four novel losses based on pseudo-label based strategy. Among them, a domain adversarial loss is introduced between the pseudo-source domain the remaining target domain to reduce the distribution shift. The results on three real-world datasets verify the effectiveness of the proposed method.
翻訳日:2021-09-11 06:16:47 公開日:2021-09-09
# (参考訳) 異常運転行動検出のための教師付きコントラスト学習の改良 [全文訳有]

Modified Supervised Contrastive Learning for Detecting Anomalous Driving Behaviours ( http://arxiv.org/abs/2109.04021v1 )

ライセンス: CC BY 4.0
Shehroz S. Khan, Ziting Shen, Haoying Sun, Ax Patel, and Ali Abedi(参考訳) 注意をそらす運転行動を検出することは、世界中で起こる何百万もの死傷者を減らすために重要である。 異常または異常な運転行動は、運転者に警告するために正しく識別する必要がある「正常」運転からの逸脱である。 しかし、これらの運転行動は1つの特定の運転スタイルで構成されておらず、その分布は分類器の訓練および試験段階において異なる可能性がある。 この問題を教師付きコントラスト学習手法として定式化し,視覚表現を学習し,正常,視認異常な運転行動を検出する。 標準のコントラスト損失関数を変更し、最適化を支援するために負のペアの類似度を調整した。 通常、(自己)教師付きコントラストフレームワークはエンコーダと、それに続くプロジェクションヘッドを含み、エンコーディング層が一般的な視覚的な代表情報を含むと見なされるため、テストフェーズ中に省略される。 しかし、プロジェクションヘッドを含む教師付きコントラスト学習タスクは有益である、と我々は主張する。 その結果,ドライバ異常検出データセットを用いて,トップカメラとフロントカメラ(深度と赤外の両方)から31名のドライバの運転行動の正常および異常な運転行動の783分間のビデオ記録を行った。 また、このデータセットのラベルを微調整する追加のステップも行いました。 9つのビデオモダリティの組み合わせのうち、修正されたコントラスト的アプローチは、ベースラインモデル(異なるモダリティに対して3.12%から8.91%)と比較して、ROC AUCを7で改善した。 比較モデルよりも改良が優れていることを示す統計的試験を行った。 その結果, 上部および前方からの深度と赤外モードの融合はAUC ROCが0.9738, AUC PRが0.9772であった。

Detecting distracted driving behaviours is important to reduce millions of deaths and injuries occurring worldwide. Distracted or anomalous driving behaviours are deviations from the 'normal' driving that need to be identified correctly to alert the driver. However, these driving behaviours do not comprise of one specific type of driving style and their distribution can be different during training and testing phases of a classifier. We formulate this problem as a supervised contrastive learning approach to learn a visual representation to detect normal, and seen and unseen anomalous driving behaviours. We made a change to the standard contrastive loss function to adjust the similarity of negative pairs to aid the optimization. Normally, the (self) supervised contrastive framework contains an encoder followed by a projection head, which is omitted during testing phase as the encoding layers are considered to contain general visual representative information. However, we assert that for supervised contrastive learning task, including projection head will be beneficial. We showed our results on a Driver Anomaly Detection dataset that contains 783 minutes of video recordings of normal and anomalous driving behaviours of 31 drivers from various from top and front cameras (both depth and infrared). We also performed an extra step of fine tuning the labels in this dataset. Out of 9 video modalities combinations, our modified contrastive approach improved the ROC AUC on 7 in comparison to the baseline models (from 3.12% to 8.91% for different modalities); the remaining two models also had manual labelling. We performed statistical tests that showed evidence that our modifications perform better than the baseline contrastive models. Finally, the results showed that the fusion of depth and infrared modalities from top and front view achieved the best AUC ROC of 0.9738 and AUC PR of 0.9772.
翻訳日:2021-09-11 06:00:09 公開日:2021-09-09
# (参考訳) モノのインターネットのための自動セキュリティ評価 [全文訳有]

Automated Security Assessment for the Internet of Things ( http://arxiv.org/abs/2109.04029v1 )

ライセンス: CC BY 4.0
Xuanyu Duan, Mengmeng Ge, Triet H. M. Le, Faheem Ullah, Shang Gao, Xuequan Lu, M. Ali Babar(参考訳) iot(internet of things, モノのインターネット)ベースのアプリケーションは、システム的な評価と対処を必要とする潜在的なセキュリティリスクに直面している。 専門家によるIoTセキュリティのマニュアル評価は、通常は非効率なアプローチである。 この問題に対処するために,IoTネットワークの自動セキュリティアセスメントフレームワークを提案する。 我々のフレームワークは、まず機械学習と自然言語処理を活用し、脆弱性メトリクスを予測するために脆弱性記述を分析する。 予測されたメトリクスは、上位層にアタックグラフを配置してネットワーク接続を提示し、下位層にネットワークの各ノードに対するアタックツリーを配置し、脆弱性情報を記述する2層グラフィカルセキュリティモデルに入力される。 このセキュリティモデルは、潜在的な攻撃経路をキャプチャすることで、IoTネットワークのセキュリティを自動的に評価する。 我々は,実際のiotデバイスと潜在的な脆弱性を含む概念実証型スマートビルディングシステムモデルを用いて,このアプローチの有効性を評価する。 提案フレームワークの評価では,新たな脆弱性の脆弱性メトリクスを平均90%以上の精度で自動予測し,IoTネットワーク内で最も脆弱な攻撃パスを特定することで,その効果を実証している。 生成されたアセスメント結果は、サイバーセキュリティの専門家がさらなる行動を取るためのガイドラインとなり、リスクをタイムリーに軽減することができる。

Internet of Things (IoT) based applications face an increasing number of potential security risks, which need to be systematically assessed and addressed. Expert-based manual assessment of IoT security is a predominant approach, which is usually inefficient. To address this problem, we propose an automated security assessment framework for IoT networks. Our framework first leverages machine learning and natural language processing to analyze vulnerability descriptions for predicting vulnerability metrics. The predicted metrics are then input into a two-layered graphical security model, which consists of an attack graph at the upper layer to present the network connectivity and an attack tree for each node in the network at the bottom layer to depict the vulnerability information. This security model automatically assesses the security of the IoT network by capturing potential attack paths. We evaluate the viability of our approach using a proof-of-concept smart building system model which contains a variety of real-world IoT devices and potential vulnerabilities. Our evaluation of the proposed framework demonstrates its effectiveness in terms of automatically predicting the vulnerability metrics of new vulnerabilities with more than 90% accuracy, on average, and identifying the most vulnerable attack paths within an IoT network. The produced assessment results can serve as a guideline for cybersecurity professionals to take further actions and mitigate risks in a timely manner.
翻訳日:2021-09-11 05:45:57 公開日:2021-09-09
# (参考訳) Trust-ya:小グループプロセス研究のためのマルチプレイヤーゲームの設計 [全文訳有]

Trust-ya: design of a multiplayer game for the study of small group processes ( http://arxiv.org/abs/2109.04037v1 )

ライセンス: CC BY 4.0
Jerry Huang, Joshua Jung, Neil Budnarain, Benn McGregor, Jesse Hoey(参考訳) 本稿では,人間集団における状態過程のいくつかの要素のモデルとして,協調型マルチプレイヤーベッティングゲームであるTrust-yaの設計を提案する。 このゲームは、社会的階層を観察し、影響を与える手段として、ステータス駆動のリーダーフォロー行動を引き出すように設計されている。 グループ内でのBach/Stravinskyゲームでは、各ターンの人が他のプレイヤーと投資したり、誰かが彼らと投資することを期待したりすることができる。 投資資金を受けたプレイヤーは、中央プールからの支払いをギャンブルして、投資した人たちと共有することができる(ただし、その一部は、そのすべてを含む)。 より大きなギャンブル(より多くの投資家を持つ人々)はより大きな報酬を得る。 このように、プレイヤーはギャンブルをする「リーダー」の周りの投資家として合体する傾向があるが、投資家を「続ける」ために勝利から十分にシェアしている。 しかし「リーダー」はできるだけ自らを守りたいと願っている。 ゲームは匿名でプレイされるが、ゲーム自体に価値を持たない一連の「統計シンボル」を購入することができるが、他のプレイヤーとの「チープトーク」通信装置として機能することができる。 本稿では,このゲームを紹介し,社会心理学のステータス理論に関連付けるとともに,ゲームが人間集団のステータスプロセスやダイナミクスを研究するためにどのように使用できるかを示す,シミュレーションと人間実験を紹介する。

This paper presents the design of a cooperative multi-player betting game, Trust-ya, as a model of some elements of status processes in human groups. The game is designed to elicit status-driven leader-follower behaviours as a means to observe and influence social hierarchy. It involves a Bach/Stravinsky game of deference in a group, in which people on each turn can either invest with another player or hope someone invests with them. Players who receive investment capital are able to gamble for payoffs from a central pool which then can be shared back with those who invested (but a portion of it may be kept, including all of it). The bigger gambles (people with more investors) get bigger payoffs. Thus, there is a natural tendency for players to coalesce as investors around a 'leader' who gambles, but who also shares sufficiently from their winnings to keep the investors 'hanging on'. The 'leader' will want to keep as much as possible for themselves, however. The game is played anonymously, but a set of 'status symbols' can be purchased which have no value in the game itself, but can serve as a 'cheap talk' communication device with other players. This paper introduces the game, relates it to status theory in social psychology, and shows some simple simulated and human experiments that demonstrate how the game can be used to study status processes and dynamics in human groups.
翻訳日:2021-09-11 05:29:15 公開日:2021-09-09
# (参考訳) 薄膜太陽電池モジュールのエレクトロルミネッセンス画像への特異スペクトル解析の適用 [全文訳有]

Application of the Singular Spectrum Analysis on electroluminescence images of thin-film photovoltaic modules ( http://arxiv.org/abs/2109.04048v1 )

ライセンス: CC BY 4.0
Evgenii Sovetkin and Bart E. Pieters(参考訳) 本稿では,薄膜太陽電池モジュールのel画像の文脈における特異スペクトル解析法(ssa)の適用について述べる。 本稿では,大域強度,セル,周期成分の3成分の合計としてEL画像分解を提案する。 抽出された信号のパラメトリックモデルを用いて、複数の画像処理タスクを実行する。 セル成分は、サブピクセル精度でPVセル間の相互接続線を識別し、EL画像の不正な縫合を補正するために用いられる。 さらに、太陽電池モジュールの抵抗に関連する物理パラメータである逆特性長を推定するためにセル成分信号の明示的な表現を用いる。

This paper discusses an application of the singular spectrum analysis method (SSA) in the context of electroluminescence (EL) images of thin-film photovoltaic (PV) modules. We propose an EL image decomposition as a sum of three components: global intensity, cell, and aperiodic components. A parametric model of the extracted signal is used to perform several image processing tasks. The cell component is used to identify interconnection lines between PV cells at sub-pixel accuracy, as well as to correct incorrect stitching of EL images. Furthermore, an explicit expression of the cell component signal is used to estimate the inverse characteristic length, a physical parameter related to the resistances in a PV module.
翻訳日:2021-09-11 05:21:57 公開日:2021-09-09
# (参考訳) Beam Transformer:マイクロホンアレイによる重畳音声検出 [全文訳有]

BeamTransformer: Microphone Array-based Overlapping Speech Detection ( http://arxiv.org/abs/2109.04049v1 )

ライセンス: CC BY 4.0
Siqi Zheng, Shiliang Zhang, Weilong Huang, Qian Chen, Hongbin Suo, Ming Lei, Jinwei Feng, Zhijie Yan(参考訳) 本研究では,空間フィルタリングにおけるbeamformerのエッジとコンテキストシーケンスモデリングにおけるtransformerの能力を活用する効率的なアーキテクチャであるbeamtransformerを提案する。 beamtransformerは、異なる空間方向からの信号間のシーケンシャルな関係のモデリングを最適化することを目指している。 重なり合う音声検出は、そのような最適化が好ましいタスクの1つである。 本稿では,重なりセグメントの検出にビームトランスフォーマを効果的に適用する。 単一チャネルアプローチと比較して、ビームトランスフォーマーは、異なるビームシーケンス間の関係を識別する学習を超越し、音響信号だけでなくソースの局所化からも予測を行うことができる。 その結果,マイクロホンアレイ信号の導入が成功すれば,顕著な利得が得られることがわかった。 さらにbeamtransformerはさらに一歩進んでおり、重複する話者からの音声は内部で異なるビームに分離されている。

We propose BeamTransformer, an efficient architecture to leverage beamformer's edge in spatial filtering and transformer's capability in context sequence modeling. BeamTransformer seeks to optimize modeling of sequential relationship among signals from different spatial direction. Overlapping speech detection is one of the tasks where such optimization is favorable. In this paper we effectively apply BeamTransformer to detect overlapping segments. Comparing to single-channel approach, BeamTransformer exceeds in learning to identify the relationship among different beam sequences and hence able to make predictions not only from the acoustic signals but also the localization of the source. The results indicate that a successful incorporation of microphone array signals can lead to remarkable gains. Moreover, BeamTransformer takes one step further, as speech from overlapped speakers have been internally separated into different beams.
翻訳日:2021-09-11 05:06:00 公開日:2021-09-09
# (参考訳) 長期視覚認識のための蒸留自己管理

Self Supervision to Distillation for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2109.04075v1 )

ライセンス: CC BY 4.0
Tianhao Li, Limin Wang, Gangshan Wu(参考訳) ディープラーニングは、大規模なバランスのとれたデータセットの視覚的認識において驚くべき進歩を遂げた。 従来手法では、バランスの取れない問題を効果的に軽減するために、クラス再バランスのトレーニング戦略が採用されていた。 近年のデカップリング法では,多段階のトレーニング手法を用いることで,過剰フィッティング問題を克服するが,機能学習段階ではテールクラス情報を捉えることができない。 本稿では,音声認識のための多段階学習手法にラベル相関を組み込むための,ソフトラベルが強力なソリューションであることを示す。 ソフトラベルによって具現化されたクラス間の本質的な関係は、頭から尾のクラスに知識を移すことで、ロングテール認識に有用であることが判明した。 具体的には、概念的にシンプルであるが、特に有効である多段階トレーニングスキームについて提案する。 このスキームは2つの部分で構成されている。 まず,ラベル関係を自動的にマイニングできるロングテール認識のための自己蒸留フレームワークを提案する。 第2に,自己監督型蒸留ラベル生成モジュールを提案する。 蒸留ラベルは、長期分布を効果的にモデル化できるラベルとデータドメインの両方の情報を統合する。 我々は広範な実験を行い,imagenet-lt,cifar10 0-lt,inaturalist 2018の3つの長文認識ベンチマークで最新の結果を得た。 我々のSSDは強力なLWSベースラインを2.7 %$から4.5 %$に上回ります。 コードはhttps://github.com/M CG-NJU/SSD-LTで公開されている。

Deep learning has achieved remarkable progress for visual recognition on large-scale balanced datasets but still performs poorly on real-world long-tailed data. Previous methods often adopt class re-balanced training strategies to effectively alleviate the imbalance issue, but might be a risk of over-fitting tail classes. The recent decoupling method overcomes over-fitting issues by using a multi-stage training scheme, yet, it is still incapable of capturing tail class information in the feature learning stage. In this paper, we show that soft label can serve as a powerful solution to incorporate label correlation into a multi-stage training scheme for long-tailed recognition. The intrinsic relation between classes embodied by soft labels turns out to be helpful for long-tailed recognition by transferring knowledge from head to tail classes. Specifically, we propose a conceptually simple yet particularly effective multi-stage training scheme, termed as Self Supervised to Distillation (SSD). This scheme is composed of two parts. First, we introduce a self-distillation framework for long-tailed recognition, which can mine the label relation automatically. Second, we present a new distillation label generation module guided by self-supervision. The distilled labels integrate information from both label and data domains that can model long-tailed distribution effectively. We conduct extensive experiments and our method achieves the state-of-the-art results on three long-tailed recognition benchmarks: ImageNet-LT, CIFAR100-LT and iNaturalist 2018. Our SSD outperforms the strong LWS baseline by from $2.7\%$ to $4.5\%$ on various datasets. The code is available at https://github.com/M CG-NJU/SSD-LT.
翻訳日:2021-09-11 04:36:28 公開日:2021-09-09
# (参考訳) 強化学習推薦システムにおけるユーザ改ざん [全文訳有]

User Tampering in Reinforcement Learning Recommender Systems ( http://arxiv.org/abs/2109.04083v1 )

ライセンス: CC BY 4.0
Charles Evans, Atoosa Kasirzadeh(参考訳) 本稿では,強化学習(rl)に基づくニュースとソーシャルメディアのレコメンデーションアルゴリズムにおける,特定の安全性に関する最初の形式化と実証的な実証を行う。 この安全上の懸念は、私たちが「ユーザー改ざん」と呼んでいるもので、RLベースのレコメンデーションシステムは、長期的なユーザーエンゲージメントを高める政策の一環として、メディアユーザーの意見や好み、信念をそのレコメンデーションを通じて操作できる現象である。 本稿では,政治内容の推薦に制約のあるメディア推薦問題のシミュレーション研究を行い,q-learningアルゴリズムが「ユーザ」を「ポーラライズ」する機会を常に活用し,その「ユーザ」を初期の推奨と結びつけることで,後続の推奨とより一貫した成功を両立させることを実証する。 最後に,RLをベースとしたレコメンデーションシステムの設計には,ユーザエンゲージメントの観測可能な信号とは無関係に,レコメンデーションの成功の基準を作る必要があり,従ってRLのみで構築されたメディアレコメンデーションシステムは必ずしも安全でないか,あるいはほぼ商業的に不可能である。

This paper provides the first formalisation and empirical demonstration of a particular safety concern in reinforcement learning (RL)-based news and social media recommendation algorithms. This safety concern is what we call "user tampering" -- a phenomenon whereby an RL-based recommender system may manipulate a media user's opinions, preferences and beliefs via its recommendations as part of a policy to increase long-term user engagement. We provide a simulation study of a media recommendation problem constrained to the recommendation of political content, and demonstrate that a Q-learning algorithm consistently learns to exploit its opportunities to 'polarise' simulated 'users' with its early recommendations in order to have more consistent success with later recommendations catering to that polarisation. Finally, we argue that given our findings, designing an RL-based recommender system which cannot learn to exploit user tampering requires making the metric for the recommender's success independent of observable signals of user engagement, and thus that a media recommendation system built solely with RL is necessarily either unsafe, or almost certainly commercially unviable.
翻訳日:2021-09-11 04:35:04 公開日:2021-09-09
# (参考訳) ソフトウェアテストにおける研究トピックのマッピング: 文献分析

Mapping Research Topics in Software Testing: A Bibliometric Analysis ( http://arxiv.org/abs/2109.04086v1 )

ライセンス: CC BY 4.0
Alireza Salahirad, Gregory Gay, Ehsan Mohammadi(参考訳) 本研究では,単語の共起に基づくテキストマイニング手法であるコワード分析を用いて,ソフトウェアテスト研究のトピックのトポロジーをマッピングし,現在および将来的な研究者に地図を提供し,ソフトウェアテスト分野の進化に関する観察を行うことを目的としている。 分析により,関連トピックのクラスタへのソフトウェアテスト研究のマッピングが可能となり,合計16のハイレベルな研究テーマと,さらに18のサブテーマが得られた。 このマップはまた、Webやモバイルアプリケーションや人工知能に関連するトピックなど、重要度が増しているトピックを示唆している。 著者と国に基づくコラボレーションパターンの探求は、コラボレーションに影響を与える暗黙的かつ明示的な要因に関する同様の洞察を提供し、将来の仕事のためのコラボレーションの新たな源を示唆する。 我々は、研究トピックと研究コラボレーションの基本的なマッピングである観察を利用可能にすることで、研究者がソフトウェアテスト分野のトポロジー、探索すべき新しい領域と接続に関するインスピレーション、そして彼らの視点を広げる協力者についてより深く理解できるようにします。

In this study, we apply co-word analysis - a text mining technique based on the co-occurrence of terms - to map the topology of software testing research topics, with the goal of providing current and prospective researchers with a map, and observations about the evolution, of the software testing field. Our analysis enables the mapping of software testing research into clusters of connected topics, from which emerge a total of 16 high-level research themes and a further 18 subthemes. This map also suggests topics that are growing in importance, including topics related to web and mobile applications and artificial intelligence. Exploration of author and country-based collaboration patterns offers similar insight into the implicit and explicit factors that influence collaboration and suggests emerging sources of collaboration for future work. We make our observations - and the underlying mapping of research topics and research collaborations - available so that researchers can gain a deeper understanding of the topology of the software testing field, inspiration regarding new areas and connections to explore, and collaborators who will broaden their perspectives.
翻訳日:2021-09-11 04:15:23 公開日:2021-09-09
# (参考訳) 自然言語理解におけるバイアス回避手法 [全文訳有]

Debiasing Methods in Natural Language Understanding Make Bias More Accessible ( http://arxiv.org/abs/2109.04095v1 )

ライセンス: CC BY 4.0
Michael Mendelson and Yonatan Belinkov(参考訳) バイアスに対するモデルロバスト性は、注意深く設計された分散データセットの一般化によってしばしば決定される。 自然言語理解(NLU)における近年のデバイアス化手法は,モデルを押して非バイアス予測を行うことにより,そのようなデータセットの性能を向上させる。 このような方法の背景にある前提は、モデルの内部表現においてより堅牢な特徴の発見につながるというものである。 本稿では,言語モデルにおけるバイアスのポストホックな解釈を可能にし,モデル表現から特定のバイアスの抽出可能性を測定するための情報理論的手法を提案する。 我々は、いくつかのNLUデータセットと既知のバイアスを実験し、反故意に、言語モデルがデバイアス状態にプッシュされるほど、よりバイアスが実際に内部表現にエンコードされることを示す。

Model robustness to bias is often determined by the generalization on carefully designed out-of-distribution datasets. Recent debiasing methods in natural language understanding (NLU) improve performance on such datasets by pressuring models into making unbiased predictions. An underlying assumption behind such methods is that this also leads to the discovery of more robust features in the model's inner representations. We propose a general probing-based framework that allows for post-hoc interpretation of biases in language models, and use an information-theoreti c approach to measure the extractability of certain biases from the model's representations. We experiment with several NLU datasets and known biases, and show that, counter-intuitively, the more a language model is pushed towards a debiased regime, the more bias is actually encoded in its inner representations.
翻訳日:2021-09-11 04:13:35 公開日:2021-09-09
# (参考訳) 低リソース知識接地対話生成のための3段階学習フレームワーク [全文訳有]

A Three-Stage Learning Framework for Low-Resource Knowledge-Grounded Dialogue Generation ( http://arxiv.org/abs/2109.04096v1 )

ライセンス: CC BY 4.0
Shilei Liu, Xiaofeng Zhao, Bochao Li, Feiliang Ren, Longhui Zhang, Shujuan Yin(参考訳) ニューラルな会話モデルは、外部の背景知識を導入することによって、流動的で情報的な応答を生み出す大きな可能性を示している。 それにもかかわらず、そのような知識に基づく対話を構築するのは手間がかかり、既存のモデルはトレーニングサンプルが限られた新しいドメインに移行する場合、通常、うまく機能しない。 したがって,低リソース環境下での知識接地対話システムの構築は依然として重要な課題である。 本稿では,大規模非接地対話と非構造化知識基盤の恩恵を受ける,弱い教師付き学習に基づく新しい3段階学習フレームワークを提案する。 このフレームワークにもっとよく協力するために、応答生成と知識の組み合せの解離学習を容易にする分離デコーダを用いたTransformerの変種を考案する。 2つのベンチマークによる評価結果から,我々のアプローチはトレーニングデータが少ない他の最先端メソッドよりも優れており,ゼロリソースシナリオにおいても優れた性能を保っていることがわかった。

Neural conversation models have shown great potentials towards generating fluent and informative responses by introducing external background knowledge. Nevertheless, it is laborious to construct such knowledge-grounded dialogues, and existing models usually perform poorly when transfer to new domains with limited training samples. Therefore, building a knowledge-grounded dialogue system under the low-resource setting is a still crucial issue. In this paper, we propose a novel three-stage learning framework based on weakly supervised learning which benefits from large scale ungrounded dialogues and unstructured knowledge base. To better cooperate with this framework, we devise a variant of Transformer with decoupled decoder which facilitates the disentangled learning of response generation and knowledge incorporation. Evaluation results on two benchmarks indicate that our approach can outperform other state-of-the-art methods with less training data, and even in zero-resource scenario, our approach still performs well.
翻訳日:2021-09-11 03:57:26 公開日:2021-09-09
# (参考訳) 模倣学習による露出バイアスの修正には強力なオラクルが必要だ [全文訳有]

Fixing exposure bias with imitation learning needs powerful oracles ( http://arxiv.org/abs/2109.04114v1 )

ライセンス: CC BY 4.0
Luca Hormann and Artem Sokolov(参考訳) 我々は,NMTの露出バイアス問題に誤り訂正オラクルを用いて対処するために模倣学習(IL)を適用し,制約のないオラクル翻訳タスクにおいて優れた性能を示したSMT格子ベースのオラクルの評価を行った。

We apply imitation learning (IL) to tackle the NMT exposure bias problem with error-correcting oracles, and evaluate an SMT lattice-based oracle which, despite its excellent performance in an unconstrained oracle translation task, turned out to be too pruned and idiosyncratic to serve as the oracle for IL.
翻訳日:2021-09-11 03:39:08 公開日:2021-09-09
# (参考訳) hsmd:ハイブリッドスパイクニューラルネットワークを用いた物体運動検出アルゴリズム [全文訳有]

HSMD: An object motion detection algorithm using a Hybrid Spiking Neural Network Architecture ( http://arxiv.org/abs/2109.04119v1 )

ライセンス: CC BY 4.0
Pedro Machado, Andreas Oikonomou, Joao Filipe Ferreira, T.M. McGinnity(参考訳) 動く物体の検出は脊椎動物の網膜によって行われる自明な作業だが、複雑なコンピュータビジョンタスクである。 object-motion-sensit ive ganglion cell(oms-gc)は、網膜において動く物体を感知する細胞である。 OMS-GCは入力された連続信号として、光神経を介して視覚皮質に伝達されるスパイクパターンを出力として生成する。 この研究で提案されたHybrid Sensitive Motion Detector (HSMD)アルゴリズムは、OMS-GCに似たスパイキング応答を出力する3層スパイキングニューラルネットワーク(SNN)をカスタマイズしたGSOC動的バックグラウンドサブトラクション(DBS)アルゴリズムを強化する。 このアルゴリズムは、2012年の変更検出(cdnet2012)と2014年変更検出(cdnet2014)ベンチマークデータセットを中心に、opencvライブラリで利用可能な既存のバックグラウンド減算(bs)アプローチと比較された。 その結果、HSMDは競合するアプローチの中では1位にランクされ、8つのテスト指標のうち4つのカテゴリにおいて他のアルゴリズムよりも優れていた。 さらに,本論文で提案するHSMDは,SNNを用いてアートDBS(GSOC)アルゴリズムの既存状態を向上し,実時間に近い性能を現実的なアプリケーションで実現することを示す。

The detection of moving objects is a trivial task performed by vertebrate retinas, yet a complex computer vision task. Object-motion-sensit ive ganglion cells (OMS-GC) are specialised cells in the retina that sense moving objects. OMS-GC take as input continuous signals and produce spike patterns as output, that are transmitted to the Visual Cortex via the optic nerve. The Hybrid Sensitive Motion Detector (HSMD) algorithm proposed in this work enhances the GSOC dynamic background subtraction (DBS) algorithm with a customised 3-layer spiking neural network (SNN) that outputs spiking responses akin to the OMS-GC. The algorithm was compared against existing background subtraction (BS) approaches, available on the OpenCV library, specifically on the 2012 change detection (CDnet2012) and the 2014 change detection (CDnet2014) benchmark datasets. The results show that the HSMD was ranked overall first among the competing approaches and has performed better than all the other algorithms on four of the categories across all the eight test metrics. Furthermore, the HSMD proposed in this paper is the first to use an SNN to enhance an existing state of the art DBS (GSOC) algorithm and the results demonstrate that the SNN provides near real-time performance in realistic applications.
翻訳日:2021-09-11 03:29:08 公開日:2021-09-09
# (参考訳) 会話エージェントにおけるタスク指向とオープンドメイン対話の融合 [全文訳有]

Fusing task-oriented and open-domain dialogues in conversational agents ( http://arxiv.org/abs/2109.04137v1 )

ライセンス: CC BY 4.0
Tom Young, Frank Xing, Vlad Pandelea, Jinjie Ni, Erik Cambria(参考訳) インテリジェントな対話システムを構築する目的は、ゴール指向機能を実行するタスク指向対話(tod)システムと、ゴール指向でないチットチャットにフォーカスしたオープンドメイン対話(odd)システムという2つのパラダイムの下で追求された \textit{separately} である。 2つの対話モードは、フレンドリーな人間のアシスタントが簡単に行うように、同じ会話でシームレスに結合できる可能性がある。 このような能力は会話エージェントにとって望ましいものであり、統合によってよりアクセスしやすく、便利になる。 本稿では,マルチターン対話におけるTODとODDの融合の問題に対処する。 一般的なTODデータセットMultiWOZに基づいて、既存のTODターンを書き換え、新しいODDターンを追加することで、新しいデータセットFusedChatを構築します。 この手順は、両方の対話モードからの交換を含む会話セッションを構築する。 モード間のコンテキスト依存性が特徴で、対話は2つのモードが互いに依存する状態から変わります。 co-reference や ellipsis などのリッチな依存性パターンは機能である。 新しいデータセットは、60kの新しい人書きODDターンと5kの書き直しTODターンで、対話モデルのモード間会話を実行する能力をテストするためのベンチマークを提供する。 モデルが適切な対話モードを決定し、モード間コンテキストに基づいて応答を生成する必要があるため、これはより困難なタスクである。 しかし、そのようなモデルは人間レベルの会話能力を模倣するのに役立つだろう。 このタスクのベースラインモデルとして,二段階モデル,二段階モデル,二段階モデルなどを評価した。 fusedchatとベースラインをリリースし、モード間対話システムhttps://github.com/t omyoung903/fusedchat の今後の作業を進めます。

The goal of building intelligent dialogue systems has largely been \textit{separately} pursued under two paradigms: task-oriented dialogue (TOD) systems, which perform goal-oriented functions, and open-domain dialogue (ODD) systems, which focus on non-goal-oriented chitchat. The two dialogue modes can potentially be intertwined together seamlessly in the same conversation, as easily done by a friendly human assistant. Such ability is desirable in conversational agents, as the integration makes them more accessible and useful. Our paper addresses this problem of fusing TODs and ODDs in multi-turn dialogues. Based on the popular TOD dataset MultiWOZ, we build a new dataset FusedChat, by rewriting the existing TOD turns and adding new ODD turns. This procedure constructs conversation sessions containing exchanges from both dialogue modes. It features inter-mode contextual dependency, i.e., the dialogue turns from the two modes depend on each other. Rich dependency patterns including co-reference and ellipsis are features. The new dataset, with 60k new human-written ODD turns and 5k re-written TOD turns, offers a benchmark to test a dialogue model's ability to perform inter-mode conversations. This is a more challenging task since the model has to determine the appropriate dialogue mode and generate the response based on the inter-mode context. But such models would better mimic human-level conversation capabilities. We evaluate baseline models on this task, including \textit{classification-based } two-stage models and \textit{two-in-one} fused models. We publicly release FusedChat and the baselines to propel future work on inter-mode dialogue systems https://github.com/t omyoung903/FusedChat .
翻訳日:2021-09-11 03:09:12 公開日:2021-09-09
# (参考訳) 多言語音声・視覚スマートフォンデータセットとその評価 [全文訳有]

Multilingual Audio-Visual Smartphone Dataset And Evaluation ( http://arxiv.org/abs/2109.04138v1 )

ライセンス: CC BY 4.0
Hareesh Mandalapu, Aravinda Reddy P N, Raghavendra Ramachandra, K Sreenivasa Rao, Pabitra Mitra, S R Mahadeva Prasanna, Christoph Busch(参考訳) スマートフォンは、高度に敏感なアプリケーションにセキュリティを提供するために、生体認証システムに採用されている。 オーディオ・ビジュアルバイオメトリックスはユーザビリティのために人気を集めており、マルチモーダルな性質のため、spoofが難しいだろう。 本研究では,近年の5つのスマートフォンで収集された音声・視覚スマートフォンのデータセットについて述べる。 この新しいデータセットには、3つの異なるセッションでキャプチャされた103のサブジェクトが含まれている。 このデータセットでは、話者認識システムの言語依存の問題を含むために、3つの異なる言語が取得される。 このデータセットのユニークな特徴は、新しい最先端のユニモーダルまたはオーディオ・ビジュアル・スピーカー認識システムの実装の道を開くだろう。 また,ベンチマーク付生体認証システムの性能について報告する。 バイオメトリックアルゴリズムのロバスト性は、信号ノイズ、デバイス、言語、プレゼンテーションアタック、リプレイや合成信号などの複数の依存性に対して広範な実験によって評価される。 その結果、スマートフォンにおける最先端バイオメトリックスの一般化特性について多くの懸念が持ち上がった。

Smartphones have been employed with biometric-based verification systems to provide security in highly sensitive applications. Audio-visual biometrics are getting popular due to the usability and also it will be challenging to spoof because of multi-modal nature. In this work, we present an audio-visual smartphone dataset captured in five different recent smartphones. This new dataset contains 103 subjects captured in three different sessions considering the different real-world scenarios. Three different languages are acquired in this dataset to include the problem of language dependency of the speaker recognition systems. These unique characteristics of this dataset will pave the way to implement novel state-of-the-art unimodal or audio-visual speaker recognition systems. We also report the performance of the bench-marked biometric verification systems on our dataset. The robustness of biometric algorithms is evaluated towards multiple dependencies like signal noise, device, language and presentation attacks like replay and synthesized signals with extensive experiments. The obtained results raised many concerns about the generalization properties of state-of-the-art biometrics methods in smartphones.
翻訳日:2021-09-11 02:56:08 公開日:2021-09-09
# (参考訳) Few-shot Prompt-based Finetuningにおける推論ヒューリスティックの回避 [全文訳有]

Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning ( http://arxiv.org/abs/2109.04144v1 )

ライセンス: CC BY 4.0
Prasetya Ajie Utama, Nafise Sadat Moosavi, Victor Sanh, Iryna Gurevych(参考訳) 近年のプロンプトベースアプローチでは、下流タスクを言語モデリング問題として再構成することで、事前訓練された言語モデルが、数ショットの微調整において強力なパフォーマンスを達成することができる。 本研究では, 文対分類タスクの微調整されたプロンプトベースモデルでは, 文対の重なり合いに基づく推論ヒューリスティックス(例えば, 文対が同じ単語集合であるとして誤って仮定されるモデル)が相変わらず, 共通の落とし穴に悩まされていることを実証する。 興味深いことに、この推論ヒューリスティックはプロンプトベースモデルのゼロショット評価にはほとんど存在せず、事前訓練中に学習した有用な知識に対して微調整がいかに破壊的かを示している。 そこで,プレトレーニングウェイトを保存する正規化を加えることで,この破壊的傾向を緩和できることを示す。 3つのデータセットに対する評価は、推論ヒューリスティックスを診断するために使用される3つの課題データセットに対する有望な改善を示す。

Recent prompt-based approaches allow pretrained language models to achieve strong performances on few-shot finetuning by reformulating downstream tasks as a language modeling problem. In this work, we demonstrate that, despite its advantages on low data regimes, finetuned prompt-based models for sentence pair classification tasks still suffer from a common pitfall of adopting inference heuristics based on lexical overlap, e.g., models incorrectly assuming a sentence pair is of the same meaning because they consist of the same set of words. Interestingly, we find that this particular inference heuristic is significantly less present in the zero-shot evaluation of the prompt-based model, indicating how finetuning can be destructive to useful knowledge learned during the pretraining. We then show that adding a regularization that preserves pretraining weights is effective in mitigating this destructive tendency of few-shot finetuning. Our evaluation on three datasets demonstrates promising improvements on the three corresponding challenge datasets used to diagnose the inference heuristics.
翻訳日:2021-09-11 02:35:48 公開日:2021-09-09
# (参考訳) 独立制御可能なサブゴールを用いた自己教師あり強化学習 [全文訳有]

Self-supervised Reinforcement Learning with Independently Controllable Subgoals ( http://arxiv.org/abs/2109.04150v1 )

ライセンス: CC BY 4.0
Andrii Zadaianchuk, Georg Martius, Fanny Yang(参考訳) 複雑な操作タスクにうまく取り組むためには、自律エージェントは多様なスキルセットとそれらを組み合わせる方法を学ぶ必要がある。 近年, 環境中の構造を活かし, 独自の抽象目標を設定した自己監督エージェントが, 様々なタスクにおいて良好に機能することが示されている。 特に, 合成多目的環境における基本的な操作スキルの習得に応用された。 しかし、これらの方法はオブジェクト間の依存関係を考慮せずにスキルを学習する。 したがって、実環境において学習スキルを組み合わせることは困難である。 本稿では,環境コンポーネント間の関係を推定し,環境状態の異なる部分を独立に制御する,新たな自己管理エージェントを提案する。 さらに、オブジェクト間の推定関係は、複雑な目標を互換性のあるサブゴールの列に分解するのに使うことができる。 このフレームワークを使用することで、エージェントはオブジェクト間の関係が異なるマルチオブジェクト環境での操作タスクを効率的かつ自動的に学習できることを示す。

To successfully tackle challenging manipulation tasks, autonomous agents must learn a diverse set of skills and how to combine them. Recently, self-supervised agents that set their own abstract goals by exploiting the discovered structure in the environment were shown to perform well on many different tasks. In particular, some of them were applied to learn basic manipulation skills in compositional multi-object environments. However, these methods learn skills without taking the dependencies between objects into account. Thus, the learned skills are difficult to combine in realistic environments. We propose a novel self-supervised agent that estimates relations between environment components and uses them to independently control different parts of the environment state. In addition, the estimated relations between objects can be used to decompose a complex goal into a compatible sequence of subgoals. We show that, by using this framework, an agent can efficiently and automatically learn manipulation tasks in multi-object environments with different relations between objects.
翻訳日:2021-09-11 02:18:36 公開日:2021-09-09
# (参考訳) 視覚トランスフォーマの移動可能な逆攻撃に向けて [全文訳有]

Towards Transferable Adversarial Attacks on Vision Transformers ( http://arxiv.org/abs/2109.04176v1 )

ライセンス: CC BY 4.0
Zhipeng Wei, Jingjing Chen, Micah Goldblum, Zuxuan Wu, Tom Goldstein, Yu-Gang Jiang(参考訳) 視覚トランスフォーマー(vits)は、一連のコンピュータビジョンタスクで印象的なパフォーマンスを示しているが、相反する例に苦しめられている。 本稿では,変換器に対する敵対的攻撃は,高い伝達性を達成するために,パッチと自己注意の両方を共同で考慮し,そのアーキテクチャに特化すべきであると仮定する。 より具体的には、pna(pay no attention)攻撃とパッチアウト攻撃を含むデュアルアタックフレームワークを導入し、異なるvit間での逆サンプルの転送性を改善する。 バックプロパゲーション中に注意の傾きをスキップすると、高い伝達性を持つ逆例が生成されることを示す。 さらに、各イテレーションでランダムにサンプリングされたパッチのサブセットを最適化して生じる敵対的摂動は、すべてのパッチを使った攻撃よりも高い攻撃成功率を達成する。 我々は、最先端のViT、CNN、堅牢に訓練されたCNNに対する攻撃の伝達可能性を評価する。 これらの実験の結果,提案するデュアルアタックによりvitsとvitsからcnnへの移動性が大幅に向上することが示された。 また,提案手法は既存の転送方式と容易に組み合わせて性能を向上させることができる。

Vision transformers (ViTs) have demonstrated impressive performance on a series of computer vision tasks, yet they still suffer from adversarial examples. In this paper, we posit that adversarial attacks on transformers should be specially tailored for their architecture, jointly considering both patches and self-attention, in order to achieve high transferability. More specifically, we introduce a dual attack framework, which contains a Pay No Attention (PNA) attack and a PatchOut attack, to improve the transferability of adversarial samples across different ViTs. We show that skipping the gradients of attention during backpropagation can generate adversarial examples with high transferability. In addition, adversarial perturbations generated by optimizing randomly sampled subsets of patches at each iteration achieve higher attack success rates than attacks using all patches. We evaluate the transferability of attacks on state-of-the-art ViTs, CNNs and robustly trained CNNs. The results of these experiments demonstrate that the proposed dual attack can greatly boost transferability between ViTs and from ViTs to CNNs. In addition, the proposed method can easily be combined with existing transfer methods to boost performance.
翻訳日:2021-09-11 02:00:18 公開日:2021-09-09
# (参考訳) グループ推薦のためのダブルスケール自己教師付きハイパーグラフ学習 [全文訳有]

Double-Scale Self-Supervised Hypergraph Learning for Group Recommendation ( http://arxiv.org/abs/2109.04200v1 )

ライセンス: CC BY 4.0
Junwei Zhang, Min Gao, Junliang Yu, Lei Guo, Jundong Li, Hongzhi Yin(参考訳) ソーシャルメディアの普及に伴い、最近、個々のモデリングからグループレコメンデーションへと焦点を移すレコメンデーションが急増している。 グループ選好は、グループメンバーからの様々な選好の混合であるため、グループ推薦の基本的な課題は、メンバー間の相関をモデル化することである。 既存の手法は主にヒューリスティックあるいは注意に基づく選好集約戦略を採用し、グループ選好を合成している。 しかし,これらのモデルは主にユーザ同士の相互接続に注目し,グループ内外の複雑な高次相互作用を無視する。 さらに、グループ推薦は、グループとイテムの相互作用が極めて少ないため、データスパシティーの問題に悩まされる。 本稿では,グループ推薦のための自己教師付きハイパーグラフ学習フレームワークを提案する。(1)ユーザ間のグループ間相互作用を捉えること,(2)生データ自体によるデータ空間の問題を軽減すること,である。 理論的には,(1)ユーザおよびグループレベルのハイパーグラフに基づく階層型ハイパーグラフ畳み込みネットワークを開発し,グループ内外のユーザ間の複雑なタプルワイズ相関をモデル化した。 2) では,2段階のノードドロップアウト方式を設計し,疎度問題に対して異なる粒度でユーザ表現を正規化できるセルフスーパービジョン信号を生成する。 複数のベンチマークデータセットの実験的解析により,提案モデルの優越性が示され,ハイパーグラフモデリングの合理性と二重スケールの自己スーパービジョンが解明された。

With the prevalence of social media, there has recently been a proliferation of recommenders that shift their focus from individual modeling to group recommendation. Since the group preference is a mixture of various predilections from group members, the fundamental challenge of group recommendation is to model the correlations among members. Existing methods mostly adopt heuristic or attention-based preference aggregation strategies to synthesize group preferences. However, these models mainly focus on the pairwise connections of users and ignore the complex high-order interactions within and beyond groups. Besides, group recommendation suffers seriously from the problem of data sparsity due to severely sparse group-item interactions. In this paper, we propose a self-supervised hypergraph learning framework for group recommendation to achieve two goals: (1) capturing the intra- and inter-group interactions among users; (2) alleviating the data sparsity issue with the raw data itself. Technically, for (1), a hierarchical hypergraph convolutional network based on the user- and group-level hypergraphs is developed to model the complex tuplewise correlations among users within and beyond groups. For (2), we design a double-scale node dropout strategy to create self-supervision signals that can regularize user representations with different granularities against the sparsity issue. The experimental analysis on multiple benchmark datasets demonstrates the superiority of the proposed model and also elucidates the rationality of the hypergraph modeling and the double-scale self-supervision.
翻訳日:2021-09-11 01:44:16 公開日:2021-09-09
# (参考訳) 未知の群衆にインセンティブを与える [全文訳有]

Incentivizing an Unknown Crowd ( http://arxiv.org/abs/2109.04226v1 )

ライセンス: CC BY 4.0
Jing Dong, Shuai Li, Baoxiang Wang(参考訳) クラウドソーシングにおける一般的な戦略活動に動機付けられ,不均一で未知の集団を持つ労働者に対して,検証なしの逐次情報抽出(EIWV)の問題について検討した。 本稿では,労働者間の不合理性や結束など幅広い設定に対して有効である強化学習に基づくアプローチを提案する。 コストのかかるオラクルと推論手法の助けを借りて,本手法はオラクルの呼び出しを動的に決定し,頻繁なコーラス活動の下でも堅牢性を得る。 広範な実験が我々のアプローチの利点を示している。 また,大規模実データ集合に対するeiwvの最初の包括的実験と,環境変数の影響に関する最初の徹底的な研究も行った。

Motivated by the common strategic activities in crowdsourcing labeling, we study the problem of sequential eliciting information without verification (EIWV) for workers with a heterogeneous and unknown crowd. We propose a reinforcement learning-based approach that is effective against a wide range of settings including potential irrationality and collusion among workers. With the aid of a costly oracle and the inference method, our approach dynamically decides the oracle calls and gains robustness even under the presence of frequent collusion activities. Extensive experiments show the advantage of our approach. Our results also present the first comprehensive experiments of EIWV on large-scale real datasets and the first thorough study of the effects of environmental variables.
翻訳日:2021-09-11 01:24:36 公開日:2021-09-09
# (参考訳) 直流最小化のための座標降下法 [全文訳有]

Coordinate Descent Methods for DC Minimization ( http://arxiv.org/abs/2109.04228v1 )

ライセンス: CC BY 4.0
Ganzhao Yuan(参考訳) 差分凸(DC)最小化は、2つの凸関数の差分を最小化する問題に言及し、統計学習において豊富な応用が見出され、数十年にわたって広く研究されてきた。 しかし、既存の方法は主に多段対流緩和に基づいており、臨界点の弱最適性をもたらすのみである。 本稿では,逐次非凸近似に基づく直流関数の最小化のための座標降下法を提案する。 本手法は,非凸一次元部分問題全体に対して反復的に解き,座標回りの定常点に収束することが保証される。 対象関数が弱凸である場合、この新しい最適条件は常に臨界点条件や方向点条件よりも強いことが証明される。 比較のために,逐次凸近似に基づく座標降下法のナイーブな変種を本研究に含める。 目的関数が \emph{sharpness} と呼ばれる追加の正則性条件を満たすとき、適切な初期化を持つ座標降下法は最適解集合に収束する。 また,多くの応用において,非凸な1次元サブプロブレムをブレークポイント探索法を用いて正確に効率的に計算できることが示されている。 本稿では,提案手法の議論と拡張について述べる。 最後に,いくつかの統計的学習タスクについて広範な実験を行い,本手法の優越性を示した。 キーワード:座標降下、dc最小化、dcプログラミング、差分凸プログラム、非凸最適化、スパース最適化、バイナリ最適化。

Difference-of-Convex (DC) minimization, referring to the problem of minimizing the difference of two convex functions, has been found rich applications in statistical learning and studied extensively for decades. However, existing methods are primarily based on multi-stage convex relaxation, only leading to weak optimality of critical points. This paper proposes a coordinate descent method for minimizing DC functions based on sequential nonconvex approximation. Our approach iteratively solves a nonconvex one-dimensional subproblem globally, and it is guaranteed to converge to a coordinate-wise stationary point. We prove that this new optimality condition is always stronger than the critical point condition and the directional point condition when the objective function is weakly convex. For comparisons, we also include a naive variant of coordinate descent methods based on sequential convex approximation in our study. When the objective function satisfies an additional regularity condition called \emph{sharpness}, coordinate descent methods with an appropriate initialization converge \emph{linearly} to the optimal solution set. Also, for many applications of interest, we show that the nonconvex one-dimensional subproblem can be computed exactly and efficiently using a breakpoint searching method. We present some discussions and extensions of our proposed method. Finally, we have conducted extensive experiments on several statistical learning tasks to show the superiority of our approach. Keywords: Coordinate Descent, DC Minimization, DC Programming, Difference-of-Convex Programs, Nonconvex Optimization, Sparse Optimization, Binary Optimization.
翻訳日:2021-09-11 01:10:14 公開日:2021-09-09
# (参考訳) EEGDnet:2次元変換器を用いた1次元脳波信号の非局所的・局所的自己相似性 [全文訳有]

EEGDnet: Fusing Non-Local and Local Self-Similarity for 1-D EEG Signal Denoising with 2-D Transformer ( http://arxiv.org/abs/2109.04235v1 )

ライセンス: CC BY 4.0
Peng Yi, Kecheng Chen, Zhaoqi Ma, Di Zhao, Xiaorong Pu and Yazhou Ren(参考訳) 脳波(EEG)は脳-コンピュータインターフェース(BCI)を作成する上で有用なアプローチである。 1次元(1次元)の脳波信号は、特定のアーティファクト(a.k.a.)によって妨害され易い。 ノイズ) 高時間分解能による。 したがって、受信した脳波信号のノイズを取り除くことが重要である。 近年,深層学習に基づく脳波信号デノゲーション手法は,従来のものと比べ,優れた性能を達成している。 データ(自然画像や時間領域信号など)の自己相似性(非局所的および局所的情報を含む)の特徴が広く活用されていることはよく知られている。 しかし、既存のディープラーニングベースの脳波信号分別法は、非局所的自己相似性(例えば1次元畳み込みニューラルネットワーク)または局所的相似性(例えば、完全連結ネットワークと再帰的ニューラルネットワーク)を無視している。 そこで本稿では,2次元トランスフォーマーを用いた1次元eeg信号デノージングネットワークであるeegdnetを提案する。 具体的には、トランスフォーマーモジュールによる脳波信号の非局所的および局所的自己相似性を総合的に考慮する。 フィードフォワードブロックにおける非局所的な自己相似性と局所的な自己相似性を融合することにより、ノイズやアウトリーチによる負の影響を著しく低減することができる。 大規模な実験では、他の最先端モデルと比較して、EEGDnetは定量化と定性的化の両方の観点から、はるかに優れたパフォーマンスを実現している。

Electroencephalogram (EEG) has shown a useful approach to produce a brain-computer interface (BCI). One-dimensional (1-D) EEG signal is yet easily disturbed by certain artifacts (a.k.a. noise) due to the high temporal resolution. Thus, it is crucial to remove the noise in received EEG signal. Recently, deep learning-based EEG signal denoising approaches have achieved impressive performance compared with traditional ones. It is well known that the characteristics of self-similarity (including non-local and local ones) of data (e.g., natural images and time-domain signals) are widely leveraged for denoising. However, existing deep learning-based EEG signal denoising methods ignore either the non-local self-similarity (e.g., 1-D convolutional neural network) or local one (e.g., fully connected network and recurrent neural network). To address this issue, we propose a novel 1-D EEG signal denoising network with 2-D transformer, namely EEGDnet. Specifically, we comprehensively take into account the non-local and local self-similarity of EEG signal through the transformer module. By fusing non-local self-similarity in self-attention blocks and local self-similarity in feed forward blocks, the negative impact caused by noises and outliers can be reduced significantly. Extensive experiments show that, compared with other state-of-the-art models, EEGDnet achieves much better performance in terms of both quantitative and qualitative metrics.
翻訳日:2021-09-10 23:28:02 公開日:2021-09-09
# (参考訳) GNisi:多変量二項化データからIsingモデルを再構成するグラフネットワーク [全文訳有]

GNisi: A graph network for reconstructing Ising models from multivariate binarized data ( http://arxiv.org/abs/2109.04257v1 )

ライセンス: CC BY 4.0
Emma Slade, Sonya Kiselgof, Lena Granovsky, Jeremy L. England(参考訳) イジングモデルは相互作用するバイナリ変数を記述するための単純な生成的アプローチである。 多くの生物学的な環境では、観察された多体相関を多くの直接的、対向的な統計相互作用の分離可能な結果として表現できるため有用であることが証明されている。 データからのイジングモデルの推論は計算上非常に困難であり、しばしば数値近似や限られた精度で満たさなければならない。 本稿では、未知のデータに対するパラメータを構築するために、既知のIsingモデルに基づいてトレーニングされたグラフニューラルネットワークを用いて、GNisiと呼ばれるデータからIsingパラメータを決定する新しい手法を提案する。 我々はGNisiが既存の技術ソフトウェアよりも正確であることを示し、GNisiを遺伝子発現データに適用することにより、その方法を説明する。

Ising models are a simple generative approach to describing interacting binary variables. They have proven useful in a number of biological settings because they enable one to represent observed many-body correlations as the separable consequence of many direct, pairwise statistical interactions. The inference of Ising models from data can be computationally very challenging and often one must be satisfied with numerical approximations or limited precision. In this paper we present a novel method for the determination of Ising parameters from data, called GNisi, which uses a Graph Neural network trained on known Ising models in order to construct the parameters for unseen data. We show that GNisi is more accurate than the existing state of the art software, and we illustrate our method by applying GNisi to gene expression data.
翻訳日:2021-09-10 23:12:35 公開日:2021-09-09
# (参考訳) online enhanced semantic hashing: towards effective and efficient retrieval for streaming multi-modal data [全文訳有]

Online Enhanced Semantic Hashing: Towards Effective and Efficient Retrieval for Streaming Multi-Modal Data ( http://arxiv.org/abs/2109.04260v1 )

ライセンス: CC BY 4.0
Xiao-Ming Wu, Xin Luo, Yu-Wei Zhan, Chen-Lu Ding, Zhen-Duo Chen, Xin-Shun Xu(参考訳) マルチメディア機器や応用の活発な開発により、大規模マルチモーダルデータの効率的な検索がトレンドとなっている。 それゆえ,ハッシュ処理は検索効率とストレージコストの低さから,一般的な選択となっている。 近年、マルチモーダルハッシュが注目されているが、まだいくつかの問題が残っている。 まず、既存のメソッドは主にバッチモードで設計されており、マルチモーダルデータのストリーミングを効率的に処理できない。 第2のポイントは、既存のオンラインマルチモーダルハッシュメソッドが、ストリーミングデータチャンクに連続して現れる、目に見えない新しいクラスを効果的に処理できないことだ。 本稿では,OASIS(Online enhAnced SemantIc hashing)と呼ばれる新しいモデルを提案する。 我々は、新しいクラスを扱えるような、新しいセマンティック強化されたデータ表現を設計し、拡張セマンティックな目的関数を構築する。 OASISでは効率よく効果的な離散オンライン最適化アルゴリズムが提案されている。 広範な実験により,本手法は最先端のモデルを超えることが判明した。 良好な再現性とコミュニティの利益のために、私たちのコードとデータは、すでに補足資料として利用可能であり、公開されます。

With the vigorous development of multimedia equipment and applications, efficient retrieval of large-scale multi-modal data has become a trendy research topic. Thereinto, hashing has become a prevalent choice due to its retrieval efficiency and low storage cost. Although multi-modal hashing has drawn lots of attention in recent years, there still remain some problems. The first point is that existing methods are mainly designed in batch mode and not able to efficiently handle streaming multi-modal data. The second point is that all existing online multi-modal hashing methods fail to effectively handle unseen new classes which come continuously with streaming data chunks. In this paper, we propose a new model, termed Online enhAnced SemantIc haShing (OASIS). We design novel semantic-enhanced representation for data, which could help handle the new coming classes, and thereby construct the enhanced semantic objective function. An efficient and effective discrete online optimization algorithm is further proposed for OASIS. Extensive experiments show that our method can exceed the state-of-the-art models. For good reproducibility and benefiting the community, our code and data are already available in supplementary material and will be made publicly available.
翻訳日:2021-09-10 22:55:55 公開日:2021-09-09
# (参考訳) 摂動と敵の夢を通してのメモリセマンティゼーション [全文訳有]

Memory semantization through perturbed and adversarial dreaming ( http://arxiv.org/abs/2109.04261v1 )

ライセンス: CC BY 4.0
Nicolas Deperrois, Mihai A. Petrovici, Walter Senn, and Jakob Jordan(参考訳) 記憶統合の古典的理論は、エピソード記憶から意味情報を抽出する際のリプレイの重要性を強調している。 しかし、夢の独特な創造性は、記憶のセマンティゼーションが単に以前の体験を再生するだけではないことを示唆している。 本稿では,エピソディックメモリをランダムに組み合わせ,新たな仮想感覚体験を創造することにより,効率的な記憶分離を実現するためにはrem(rapid-eye-moveme nt)ドリームが不可欠であることを示す。 我々は,階層的に組織化されたフィードフォワードとフィードバックの経路を用いて,gans(generative adversarial network)にインスパイアされた皮質アーキテクチャを実装することで,この仮説を支持する。 我々のモデルにおける学習は、覚醒状態、非REM睡眠(NREM)、REM睡眠を模倣し、異なるが相補的な目的関数を最適化する3つの異なる脳状態にまたがって構成される。 我々は、自然画像の標準データセット上で教師なしの方法でモデルを訓練し、学習した表現の品質を評価する。 以上の結果から,レム睡眠時の逆夢は記憶内容の抽出に不可欠であり,nrem睡眠時の摂動ドリームは雑音の知覚入力に対する潜在表現の頑健性を改善することが示唆された。 このモデルは、睡眠状態、記憶再生、夢に関する新しい計算的視点を提供し、GANの皮質的実装を提案する。

Classical theories of memory consolidation emphasize the importance of replay in extracting semantic information from episodic memories. However, the characteristic creative nature of dreams suggests that memory semantization may go beyond merely replaying previous experiences. We propose that rapid-eye-movement (REM) dreaming is essential for efficient memory semantization by randomly combining episodic memories to create new, virtual sensory experiences. We support this hypothesis by implementing a cortical architecture with hierarchically organized feedforward and feedback pathways, inspired by generative adversarial networks (GANs). Learning in our model is organized across three different global brain states mimicking wakefulness, non-REM (NREM) and REM sleep, optimizing different, but complementary objective functions. We train the model in an unsupervised fashion on standard datasets of natural images and evaluate the quality of the learned representations. Our results suggest that adversarial dreaming during REM sleep is essential for extracting memory contents, while perturbed dreaming during NREM sleep improves robustness of the latent representation to noisy sensory inputs. The model provides a new computational perspective on sleep states, memory replay and dreams and suggests a cortical implementation of GANs.
翻訳日:2021-09-10 22:24:18 公開日:2021-09-09
# (参考訳) 予測計算のための地盤真理のパースペクティビスト的転換に向けて [全文訳有]

Toward a Perspectivist Turn in Ground Truthing for Predictive Computing ( http://arxiv.org/abs/2109.04270v1 )

ライセンス: CC BY 4.0
Valerio Basile, Federico Cabitza, Andrea Campagner, Michael Fell(参考訳) ほとんどの人工知能アプリケーションは教師付き機械学習(ML)に基づいており、最終的には手動で注釈付けされたデータに基づいている。 アノテーションのプロセスは多数決で行われ、MLモデルの評価に関する最近の研究で強調されているように、しばしば問題となることが証明されている。 本稿では,MLプロセスの知識表現ステップに関わる人的対象の意見と視点を統合する手法の採用に向けて,従来の金標準データセットから遠ざかるデータパースペクティビズム(Data perspectivism)と呼ばれる,異なるパラダイムを記述し,提唱する。 提案にインスピレーションを与えた過去の著作を引用し、より主観的なタスク(例えば、)だけでなく、提案の可能性について述べる。 人間の言語に関連するもの)だけでなく、目的(例えば、)として一般的に理解されるタスクにも関係している。 医学的な意思決定)、そして、MLにおけるパースペクティビズム的スタンスを採用する主な利点と、可能なデメリット、そしてそのようなスタンスを実際に実施できる様々な方法を示す。 最後に、一連の勧告を共有し、MLにおけるパースペクティビズムのスタンスを進めるための研究課題を概説する。

Most Artificial Intelligence applications are based on supervised machine learning (ML), which ultimately grounds on manually annotated data. The annotation process is often performed in terms of a majority vote and this has been proved to be often problematic, as highlighted by recent studies on the evaluation of ML models. In this article we describe and advocate for a different paradigm, which we call data perspectivism, which moves away from traditional gold standard datasets, towards the adoption of methods that integrate the opinions and perspectives of the human subjects involved in the knowledge representation step of ML processes. Drawing on previous works which inspired our proposal we describe the potential of our proposal for not only the more subjective tasks (e.g. those related to human language) but also to tasks commonly understood as objective (e.g. medical decision making), and present the main advantages of adopting a perspectivist stance in ML, as well as possible disadvantages, and various ways in which such a stance can be implemented in practice. Finally, we share a set of recommendations and outline a research agenda to advance the perspectivist stance in ML.
翻訳日:2021-09-10 21:53:13 公開日:2021-09-09
# (参考訳) M5Product:E-commerci al Product Downstream Tasksのためのマルチモーダル事前トレーニングベンチマーク [全文訳有]

M5Product: A Multi-modal Pretraining Benchmark for E-commercial Product Downstream Tasks ( http://arxiv.org/abs/2109.04275v1 )

ライセンス: CC BY 4.0
Xiao Dong, Xunlin Zhan, Yangxin Wu, Yunchao Wei, Xiaoyong Wei, Minlong Lu, Xiaodan Liang(参考訳) 本稿では,eコマースにおけるマルチモーダル事前学習の研究を進め,600万以上のマルチモーダルペアで構成され,6,000以上のカテゴリと5,000の属性を対象とする大規模データセットm5productを提案する。 一般に、既存のマルチモーダルデータセットはスケールまたはモダリティの多様性に制限されている。 異なるのは、M5Productは以下の点から特徴付けられることです。 まず、m5productデータセットは、公開マルチモーダルデータセットの500倍の大きさで、同じモダリティ数で、最大のテキストイメージクロスモーダルデータセットに比べてほぼ2倍大きい。 第2に、データセットには、画像、テキスト、テーブル、ビデオ、オーディオを含む複数のモーダルの豊富な情報が含まれており、各モーダルは意味情報の異なるビュー(例えば、)をキャプチャすることができる。 カテゴリー、属性、アフォーアンス、ブランド、選好)は、もう一方を補完する。 第三に、M5Productのいくつかの部分は、現実世界のシナリオとよく一致した長い尾の分布を持ちながら、不完全なモダリティペアとノイズを含んでいる。 最後に,基本モデルであるM5-MMTを提案し,各モード構成を機能融合のための統一モデルに統合し,セマンティックアライメントの課題に対処する。 また,m5productデータセットのさまざまなモダリティの下でラベルなしデータから学習する能力のベンチマークを行うために,多モデル事前学習状態を評価する。 4つのダウンストリームタスクに関する広範な実験を行い,これらのモダリティに関する興味深い知見を提供する。 私たちのデータセットと関連するコードは、https://xiaodongsupe r.github.io/m5produc t_datasetで利用可能です。

In this paper, we aim to advance the research of multi-modal pre-training on E-commerce and subsequently contribute a large-scale dataset, named M5Product, which consists of over 6 million multimodal pairs, covering more than 6,000 categories and 5,000 attributes. Generally, existing multi-modal datasets are either limited in scale or modality diversity. Differently, our M5Product is featured from the following aspects. First, the M5Product dataset is 500 times larger than the public multimodal dataset with the same number of modalities and nearly twice larger compared with the largest available text-image cross-modal dataset. Second, the dataset contains rich information of multiple modalities including image, text, table, video and audio, in which each modality can capture different views of semantic information (e.g. category, attributes, affordance, brand, preference) and complements the other. Third, to better accommodate with real-world problems, a few portion of M5Product contains incomplete modality pairs and noises while having the long-tailed distribution, which aligns well with real-world scenarios. Finally, we provide a baseline model M5-MMT that makes the first attempt to integrate the different modality configuration into an unified model for feature fusion to address the great challenge for semantic alignment. We also evaluate various multi-model pre-training state-of-the-arts for benchmarking their capabilities in learning from unlabeled data under the different number of modalities on the M5Product dataset. We conduct extensive experiments on four downstream tasks and provide some interesting findings on these modalities. Our dataset and related code are available at https://xiaodongsupe r.github.io/M5Produc t_dataset.
翻訳日:2021-09-10 21:36:40 公開日:2021-09-09
# (参考訳) 金融のための量子機械学習 [全文訳有]

Quantum Machine Learning for Finance ( http://arxiv.org/abs/2109.04298v1 )

ライセンス: CC BY 4.0
Marco Pistoia, Syed Farhan Ahmad, Akshay Ajagekar, Alexander Buts, Shouvanik Chakrabarti, Dylan Herman, Shaohan Hu, Andrew Jena, Pierre Minssen, Pradeep Niroula, Arthur Rattew, Yue Sun, Romina Yalovetzky(参考訳) 量子コンピュータはこの10年間で古典的コンピュータの計算能力を超え、多くの業界、特に金融業界に破壊的な影響をもたらすと期待されている。 実際、金融は、中長期だけでなく、短期においても量子コンピューティングの恩恵を受ける最初の産業であると推定されている。 本稿では,金融分野における量子アルゴリズムの現状,特に機械学習によって解決できるユースケースについて述べる。

Quantum computers are expected to surpass the computational capabilities of classical computers during this decade, and achieve disruptive impact on numerous industry sectors, particularly finance. In fact, finance is estimated to be the first industry sector to benefit from Quantum Computing not only in the medium and long terms, but even in the short term. This review paper presents the state of the art of quantum algorithms for financial applications, with particular focus to those use cases that can be solved via Machine Learning.
翻訳日:2021-09-10 21:20:39 公開日:2021-09-09
# (参考訳) 分布データのトポロジカルクラスタリングにおけるwasserstein計量の利用について [全文訳有]

On the use of Wasserstein metric in topological clustering of distributional data ( http://arxiv.org/abs/2109.04301v1 )

ライセンス: CC BY 4.0
Gu\'ena\"el Cabanes, Youn\`es Bennani, Rosanna Verde and Antonio Irpino(参考訳) 本稿では,自己組織化マップ(som)学習に基づくヒストグラムデータのクラスタリングアルゴリズムについて述べる。 これはSOMによる次元減少と、縮小された空間におけるデータのクラスタリングを組み合わせたものである。 データの種類に関して、分布間の適切な相似性測度: $l_2$ wasserstein 距離。 さらに、クラスタの数は事前に固定されていないが、元の空間における局所データ密度推定に基づいて自動的に検出される。 合成および実データ集合の応用は提案した戦略を裏付ける。

This paper deals with a clustering algorithm for histogram data based on a Self-Organizing Map (SOM) learning. It combines a dimension reduction by SOM and the clustering of the data in a reduced space. Related to the kind of data, a suitable dissimilarity measure between distributions is introduced: the $L_2$ Wasserstein distance. Moreover, the number of clusters is not fixed in advance but it is automatically found according to a local data density estimation in the original space. Applications on synthetic and real data sets corroborate the proposed strategy.
翻訳日:2021-09-10 20:52:34 公開日:2021-09-09
# (参考訳) opirl: 分散マッチングによる効率的なオフポリシー逆強化学習 [全文訳有]

OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via Distribution Matching ( http://arxiv.org/abs/2109.04307v1 )

ライセンス: CC BY 4.0
Hana Hoshino, Kei Ota, Asako Kanezaki, Rio Yokota(参考訳) 逆強化学習(IRL)は、報酬工学が面倒なシナリオでは魅力的です。 しかし、以前のirlアルゴリズムは、安定した最適性能のために現在のポリシーから集中的なサンプリングを必要とするオンポリシー遷移を使用する。 これにより、環境相互作用が高価になる現実世界でのIRL応用が制限される。 そこで本研究では,(1)オンポリシーではなくオフポリシーデータ分布を採用し,環境とのインタラクション数を大幅に削減するオフポリシー逆強化学習(opirl)を提案し,(2)ダイナミックスの変化において高い一般化能力を持つ定常報酬関数を学習し,(3)モード被覆行動を利用してより高速な収束を実現する。 本手法は,より効率的にサンプルを採取し,実験により新しい環境に一般化できることを実証する。 本手法は,より少ない相互作用で,ポリシー性能ベースラインにおいて,よりよい結果または比較結果を得る。 さらに,回収した報酬関数が,先行技術が失敗し易いタスクに一般化することを示す。

Inverse Reinforcement Learning (IRL) is attractive in scenarios where reward engineering can be tedious. However, prior IRL algorithms use on-policy transitions, which require intensive sampling from the current policy for stable and optimal performance. This limits IRL applications in the real world, where environment interactions can become highly expensive. To tackle this problem, we present Off-Policy Inverse Reinforcement Learning (OPIRL), which (1) adopts off-policy data distribution instead of on-policy and enables significant reduction of the number of interactions with the environment, (2) learns a stationary reward function that is transferable with high generalization capabilities on changing dynamics, and (3) leverages mode-covering behavior for faster convergence. We demonstrate that our method is considerably more sample efficient and generalizes to novel environments through the experiments. Our method achieves better or comparable results on policy performance baselines with significantly fewer interactions. Furthermore, we empirically show that the recovered reward function generalizes to different tasks where prior arts are prone to fail.
翻訳日:2021-09-10 20:39:18 公開日:2021-09-09
# (参考訳) 強固なグローバル登録のためのディープハフ投票 [全文訳有]

Deep Hough Voting for Robust Global Registration ( http://arxiv.org/abs/2109.04310v1 )

ライセンス: CC BY-SA 4.0
Junha Lee, Seungwook Kim, Minsu Cho, Jaesik Park(参考訳) ポイントクラウド登録は、一対のポイントクラウドフラグメントを整列する厳密な変換を推定するタスクである。 6次元変換パラメータ空間におけるハフ投票を利用した実世界の3Dスキャンのペア登録のための効率的で堅牢なフレームワークを提案する。 まず、点雲対から深部幾何学的特徴を抽出し、仮定対応を計算する。 次に6次元ハフ空間上で投票を行うための対応の三重項の集合を構築し、スパーステンソルの変換パラメータを表す。 次に、騒々しい投票を洗練させるために完全な畳み込み改良モジュールを適用する。 最後に、最終的な変換パラメータを予測するために用いられるハフ空間からの対応間のコンセンサスを同定する。 提案手法は, 3DMatch と 3DLoMatch のベンチマークにおいて, KITTI odometry データセットで同等の性能を達成しつつ,最先端の手法よりも優れている。 我々はさらに、ICL-NUIMデータセット上に新しい最先端の状態を設定し、モジュールをマルチウェイ登録パイプラインに統合することで、このアプローチの一般化可能性を示す。

Point cloud registration is the task of estimating the rigid transformation that aligns a pair of point cloud fragments. We present an efficient and robust framework for pairwise registration of real-world 3D scans, leveraging Hough voting in the 6D transformation parameter space. First, deep geometric features are extracted from a point cloud pair to compute putative correspondences. We then construct a set of triplets of correspondences to cast votes on the 6D Hough space, representing the transformation parameters in sparse tensors. Next, a fully convolutional refinement module is applied to refine the noisy votes. Finally, we identify the consensus among the correspondences from the Hough space, which we use to predict our final transformation parameters. Our method outperforms state-of-the-art methods on 3DMatch and 3DLoMatch benchmarks while achieving comparable performance on KITTI odometry dataset. We further demonstrate the generalizability of our approach by setting a new state-of-the-art on ICL-NUIM dataset, where we integrate our module into a multi-way registration pipeline.
翻訳日:2021-09-10 20:16:19 公開日:2021-09-09
# (参考訳) 非パラメトリック階層型ニューラルネットワークによる音声感情認識のばらつきの計算 [全文訳有]

Accounting for Variations in Speech Emotion Recognition with Nonparametric Hierarchical Neural Network ( http://arxiv.org/abs/2109.04316v1 )

ライセンス: CC BY 4.0
Lance Ying, Amrit Romana, Emily Mower Provost(参考訳) 近年,ディープラーニングに基づく音声認識モデルは,従来の機械学習モデルよりも優れている。 これまで、マルチタスク学習のようなニューラルネットワークの設計は、人口動態や文脈要因による感情表現の変化を考慮してきた。 しかし、既存のモデルはいくつかの制約に直面している: 1) ドメインを明確に定義する(例えば)。 性別、騒音状態など 2) 感情表現がドメイン固有であるのに対して、ドメイン不変の特徴を学習しようとする場合が多い。 本研究では,ベイズ的非パラメトリッククラスタリングに基づく軽量階層型ニューラルネットワークモデルであるNonparametric Hierarchical Neural Network (NHNN)を提案する。 マルチタスク学習と比較して、提案するモデルはドメイン/タスクラベルを必要としない。 我々の実験では、NHNNモデルは、通常、企業内および企業間テストにおいて、同様のレベルの複雑さと最先端モデルでモデルより優れています。 クラスタリング分析を通じて,nhnnモデルがグループ固有の特徴を学習し,グループ間のパフォーマンスギャップを橋渡しできることを示す。

In recent years, deep-learning-based speech emotion recognition models have outperformed classical machine learning models. Previously, neural network designs, such as Multitask Learning, have accounted for variations in emotional expressions due to demographic and contextual factors. However, existing models face a few constraints: 1) they rely on a clear definition of domains (e.g. gender, noise condition, etc.) and the availability of domain labels; 2) they often attempt to learn domain-invariant features while emotion expressions can be domain-specific. In the present study, we propose the Nonparametric Hierarchical Neural Network (NHNN), a lightweight hierarchical neural network model based on Bayesian nonparametric clustering. In comparison to Multitask Learning approaches, the proposed model does not require domain/task labels. In our experiments, the NHNN models generally outperform the models with similar levels of complexity and state-of-the-art models in within-corpus and cross-corpus tests. Through clustering analysis, we show that the NHNN models are able to learn group-specific features and bridge the performance gap between groups.
翻訳日:2021-09-10 19:59:38 公開日:2021-09-09
# (参考訳) 地震フレギリティ曲線推定のための適応的重要度サンプリング

Adaptive importance sampling for seismic fragility curve estimation ( http://arxiv.org/abs/2109.04323v1 )

ライセンス: CC BY 4.0
Clement Gauchy, Cyril Feau, and Josselin Garnier(参考訳) 確率論的リスクアセスメント研究の一環として, 地震荷重を受ける際の機械・土木構造物の脆性について検討する必要がある。 このリスクは、地震強度測定に条件付きで構造物の故障の確率を表す脆弱な曲線で測定することができる。 フラギリティー曲線の推定は時間を要する数値シミュレーションに依存するため、少ないコード評価で構造物のフラギリティーの最大情報を得るためには、注意深く実験的な設計が必要となる。 本研究では,適応的重要度サンプリングに基づく能動的学習手法を提案し,学習損失の分散を低減する。 提案手法の偏差,標準偏差,予測区間被覆の効率を理論的・数値的に評価した。

As part of Probabilistic Risk Assessment studies, it is necessary to study the fragility of mechanical and civil engineered structures when subjected to seismic loads. This risk can be measured with fragility curves, which express the probability of failure of the structure conditionally to a seismic intensity measure. The estimation of fragility curves relies on time-consuming numerical simulations, so that careful experimental design is required in order to gain the maximum information on the structure's fragility with a limited number of code evaluations. We propose and implement an active learning methodology based on adaptive importance sampling in order to reduce the variance of the training loss. The efficiency of the proposed method in terms of bias, standard deviation and prediction interval coverage are theoretically and numerically characterized.
翻訳日:2021-09-10 19:47:32 公開日:2021-09-09
# (参考訳) インフォメーションレビューの選択による意見要約の学習 [全文訳有]

Learning Opinion Summarizers by Selecting Informative Reviews ( http://arxiv.org/abs/2109.04325v1 )

ライセンス: CC BY 4.0
Arthur Bra\v{z}inskas, Mirella Lapata, Ivan Titov(参考訳) 意見要約は伝統的に教師なし、弱教師付き、少数ショットの学習技術でアプローチされてきた。 本研究では,ユーザレビューと組み合わせた大規模な要約データセットを31,000以上の製品に対して収集し,教師付きトレーニングを可能にする。 しかし、製品毎のレビュー数(平均して320件)は大きいため、要約(特に要約者を訓練する)は現実的ではない。 また、人間による要約には多くのレビューの内容が反映されず、ランダムなレビューサブセットで訓練された要約者が幻覚する。 これら2つの課題に対処するために、我々はタスクを共同学習として定式化し、レビューの有益なサブセットを選択し、これらのサブセットで表現された意見を要約する。 レビューサブセットの選択は、小さくて単純なセレクタによって予測される潜在変数として扱われる。 その後、サブセットはより強力な要約器に供給される。 共同学習では,不定形変分推論法と政策勾配法を用いる。 本実験は,要約の質の向上と幻覚の低減につながる情報的レビューの選択の重要性を示すものである。

Opinion summarization has been traditionally approached with unsupervised, weakly-supervised and few-shot learning techniques. In this work, we collect a large dataset of summaries paired with user reviews for over 31,000 products, enabling supervised training. However, the number of reviews per product is large (320 on average), making summarization - and especially training a summarizer - impractical. Moreover, the content of many reviews is not reflected in the human-written summaries, and, thus, the summarizer trained on random review subsets hallucinates. In order to deal with both of these challenges, we formulate the task as jointly learning to select informative subsets of reviews and summarizing the opinions expressed in these subsets. The choice of the review subset is treated as a latent variable, predicted by a small and simple selector. The subset is then fed into a more powerful summarizer. For joint training, we use amortized variational inference and policy gradient methods. Our experiments demonstrate the importance of selecting informative reviews resulting in improved quality of summaries and reduced hallucinations.
翻訳日:2021-09-10 19:46:38 公開日:2021-09-09
# (参考訳) PPT: 初歩学習のための事前訓練型プロンプトチューニング [全文訳有]

PPT: Pre-trained Prompt Tuning for Few-shot Learning ( http://arxiv.org/abs/2109.04332v1 )

ライセンス: CC BY 4.0
Yuxian Gu, Xu Han, Zhiyuan Liu, Minlie Huang(参考訳) 事前学習された言語モデル(PLM)のプロンプトは、事前学習タスクと様々な下流タスクのギャップを埋めることで、顕著な性能を示している。 これらの手法のうち、PLMを凍結し、ソフトプロンプトのみをチューニングするプロンプトチューニングは、大規模PLMを下流タスクに適用するための効率的かつ効果的なソリューションを提供する。 しかし、プロンプトチューニングはまだ完全には検討されていない。 実験では,下流データで十分である場合,従来のフルモデルファインチューニングと相容れない性能が得られたが,数ショットの学習環境では処理が大幅に悪化し,実行時のプロンプトチューニングの応用が妨げられる可能性が示唆された。 この低い性能は、ソフトプロンプトを初期化する方法に起因する。 そこで本研究では,事前学習段階にソフトプロンプトを付加することにより,より優れた初期化を実現することを提案する。 トレーニング済みの Prompt Tuning フレームワーク "PPT" と名付けます。 PPTの一般化を確実にするために、類似の分類タスクを統一タスク形式に定式化し、この統一タスクに対する事前訓練ソフトプロンプトを作成する。 大規模な実験では、ダウンストリームタスクのための事前訓練されたプロンプトのチューニングが、フルデータと数ショット設定の両方でフルモデルの微調整に到達したり、性能を向上する可能性がある。 本手法は大規模PLMの実用化に有効かつ効果的である。

Prompts for pre-trained language models (PLMs) have shown remarkable performance by bridging the gap between pre-training tasks and various downstream tasks. Among these methods, prompt tuning, which freezes PLMs and only tunes soft prompts, provides an efficient and effective solution for adapting large-scale PLMs to downstream tasks. However, prompt tuning is yet to be fully explored. In our pilot experiments, we find that prompt tuning performs comparably with conventional full-model fine-tuning when downstream data are sufficient, whereas it performs much worse under few-shot learning settings, which may hinder the application of prompt tuning in practice. We attribute this low performance to the manner of initializing soft prompts. Therefore, in this work, we propose to pre-train prompts by adding soft prompts into the pre-training stage to obtain a better initialization. We name this Pre-trained Prompt Tuning framework "PPT". To ensure the generalization of PPT, we formulate similar classification tasks into a unified task form and pre-train soft prompts for this unified task. Extensive experiments show that tuning pre-trained prompts for downstream tasks can reach or even outperform full-model fine-tuning under both full-data and few-shot settings. Our approach is effective and efficient for using large-scale PLMs in practice.
翻訳日:2021-09-10 19:22:34 公開日:2021-09-09
# (参考訳) 繰り返しゲームにおける部分信号による情報抽出 [全文訳有]

Eliciting Information with Partial Signals in Repeated Games ( http://arxiv.org/abs/2109.04343v1 )

ライセンス: CC BY 4.0
Yutong Wu, Ali Khodabakhsh, Bo Li, Evdokia Nikolova, Emmanouil Pountourakis(参考訳) センターがエージェントにサービスの実際の使用を自己申告し、それに応じて支払いを請求する情報誘発ゲームについて検討する。 センタは、公的な分布からランダムに生成されるエージェントの真の消費の一部を表す部分的な信号のみを観測できる。 エージェントは、信号と矛盾しない限り、いかなる情報も報告することができ、センターは、報告された情報に基づいて支払いを発行する。 このような問題は、エージェントのサービスの実際の消費がセンターから隠蔽され、提出されたレポートの検証が実用的でない場合に、プロシューマー価格、納税申告等で適用される。 現在の問題と古典的な情報誘発問題の主な違いは、エージェントが全信号を観察して戦略的に行動するが、中央は部分的な信号しか見ることができないことである。 この一見不可能な問題に対して,繰り返しのゲームにおいて真に自己報告を行うペナルティ機構を提案する。 特に、エージェントに報告された価値を課金する以外に、このメカニズムは彼女の矛盾した報告に比例するペナルティを課す。 我々は,ゲームにおけるペナルティ率とゲームの長さの組み合わせが,エージェントに対して,ゲーム全体に対して真正さを動機付けること,すなわち「明日の検証」という現象を示す。 任意の分布に対する近似結果はベルヌーイ分布を解析することによって得られることを示す。 本機構をマルチエージェントコスト共有設定に拡張し,均衡結果を与える。

We consider an information elicitation game where the center needs the agent to self-report her actual usage of a service and charges her a payment accordingly. The center can only observe a partial signal, representing part of the agent's true consumption, that is generated randomly from a publicly known distribution. The agent can report any information, as long as it does not contradict the signal, and the center issues a payment based on the reported information. Such problems find application in prosumer pricing, tax filing, etc., when the agent's actual consumption of a service is masked from the center and verification of the submitted reports is impractical. The key difference between the current problem and classic information elicitation problems is that the agent gets to observe the full signal and act strategically, but the center can only see the partial signal. For this seemingly impossible problem, we propose a penalty mechanism that elicits truthful self-reports in a repeated game. In particular, besides charging the agent the reported value, the mechanism charges a penalty proportional to her inconsistent reports. We show how a combination of the penalty rate and the length of the game incentivizes the agent to be truthful for the entire game, a phenomenon we call "fear of tomorrow verification". We show how approximate results for arbitrary distributions can be obtained by analyzing Bernoulli distributions. We extend our mechanism to a multi-agent cost sharing setting and give equilibrium results.
翻訳日:2021-09-10 19:07:58 公開日:2021-09-09
# (参考訳) 新型コロナウイルス感染拡大に伴う金融ニュースの乱流追跡 [全文訳有]

Tracking Turbulence Through Financial News During COVID-19 ( http://arxiv.org/abs/2109.04369v1 )

ライセンス: CC BY 4.0
Philip Hossu and Natalie Parde(参考訳) 新型コロナウイルスのパンデミックは、金融市場でユニークな不安定な状況を生み出した。 本稿では、2020年のパンデミックによる米国の金融危機における金融出版物における感情関係を明らかにするとともに、その関連について論じる。 まず、アメリカの大手金融ニュース出版社の記事に対して、金融センチメントの専門的注釈のセットを紹介する。 探索的なデータ分析の後、我々はCNNベースのアーキテクチャを記述し、この異常で不安定な環境での金銭的感情を予測するタスクに対処する。 我々の最高の性能モデルでは、最大重み付きF1スコアが0.746に達し、強力な性能ベンチマークが確立される。 トップパフォーマンスモデルからの予測を用いて、実際の株式市場データとの統計的相関研究を行い、金融ニュースとs\&p500種株価指数、取引量、市場のボラティリティ、および異なる1要素etfの間の興味深い強い関係を見出した。

Grave human toll notwithstanding, the COVID-19 pandemic created uniquely unstable conditions in financial markets. In this work we uncover and discuss relationships involving sentiment in financial publications during the 2020 pandemic-motivated U.S. financial crash. First, we introduce a set of expert annotations of financial sentiment for articles from major American financial news publishers. After an exploratory data analysis, we then describe a CNN-based architecture to address the task of predicting financial sentiment in this anomalous, tumultuous setting. Our best performing model achieves a maximum weighted F1 score of 0.746, establishing a strong performance benchmark. Using predictions from our top performing model, we close by conducting a statistical correlation study with real stock market data, finding interesting and strong relationships between financial news and the S\&P 500 index, trading volume, market volatility, and different single-factor ETFs.
翻訳日:2021-09-10 18:33:38 公開日:2021-09-09
# (参考訳) 各種コンテキストの再構成による自己監督型医用画像モデルの改善 [全文訳有]

Preservational Learning Improves Self-supervised Medical Image Models by Reconstructing Diverse Contexts ( http://arxiv.org/abs/2109.04379v1 )

ライセンス: CC BY 4.0
Hong-Yu Zhou, Chixiang Lu, Sibei Yang, Xiaoguang Han, Yizhou Yu(参考訳) 最大情報を保存することは、自己教師あり学習方法論を設計する原則の1つである。 この目標を達成するために、コントラスト学習はイメージペアとは対照的な暗黙の方法を採用する。 しかし, コントラスト推定を保存に利用するのが完全に最適とは考えていない。 さらに、より多くの情報を保存するための明示的なソリューションを導入する必要がある。 この観点から,学習表現により多くの情報を保持するために,多様な画像コンテキストを再構築する保存学習を導入する。 対照的な損失を伴って,自己指導型医療表現学習のためのPCRL(Preservational Contrastive Representation Learning)を提案する。 PCRLは、事前学習ファインタニングプロトコルの下で非常に競争力のある結果をもたらし、5つの分類/分類タスクにおいて、自己監督的および監督的双方を上回っている。

Preserving maximal information is one of principles of designing self-supervised learning methodologies. To reach this goal, contrastive learning adopts an implicit way which is contrasting image pairs. However, we believe it is not fully optimal to simply use the contrastive estimation for preservation. Moreover, it is necessary and complemental to introduce an explicit solution to preserve more information. From this perspective, we introduce Preservational Learning to reconstruct diverse image contexts in order to preserve more information in learned representations. Together with the contrastive loss, we present Preservational Contrastive Representation Learning (PCRL) for learning self-supervised medical representations. PCRL provides very competitive results under the pretraining-finetuni ng protocol, outperforming both self-supervised and supervised counterparts in 5 classification/segme ntation tasks substantially.
翻訳日:2021-09-10 18:20:57 公開日:2021-09-09
# (参考訳) テキスト分類における人間と機械による単語レベル対応例の対比 [全文訳有]

Contrasting Human- and Machine-Generated Word-Level Adversarial Examples for Text Classification ( http://arxiv.org/abs/2109.04385v1 )

ライセンス: CC BY 4.0
Maximilian Mozes, Max Bartolo, Pontus Stenetorp, Bennett Kleinberg, Lewis D. Griffin(参考訳) 自然言語処理モデルは一般的に敵対的攻撃に対して脆弱であると考えられているが、最近の研究は、特定の基準(例えば意味論と文法性の保存)に対してこれらの敵対的入力を検証する問題に注意を向けている。 このような基準を守るための制約を課すと、攻撃は失敗し、有効な攻撃が実際に可能かどうかという疑問が提起される。 本研究では、人間の言語能力のレンズを通してこれを調査する。 本稿では,感情分類モデルに誤分類を生じさせることを目的として,入力テキスト中の単語を反復的に修正し,即時モデルフィードバックを受けながら人間にタスクを行うクラウドソーシング研究について報告する。 以上の結果から,人間は意味論的に保存された単語置換を用いて,相当量の逆例を生成できることが示唆された。 最近提案したTextFooler, Genetic, BAE, SememePSO 攻撃アルゴリズムと比較し, 自然性, 感情の保存, 文法性, 置換率について検討した。 以上の結果から,人間の生成した対向的な例は,より計算効率が高いにもかかわらず,自然に読み取るような感情を保存できる最善のアルゴリズムでは得られないことが示唆された。

Research shows that natural language processing models are generally considered to be vulnerable to adversarial attacks; but recent work has drawn attention to the issue of validating these adversarial inputs against certain criteria (e.g., the preservation of semantics and grammaticality). Enforcing constraints to uphold such criteria may render attacks unsuccessful, raising the question of whether valid attacks are actually feasible. In this work, we investigate this through the lens of human language ability. We report on crowdsourcing studies in which we task humans with iteratively modifying words in an input text, while receiving immediate model feedback, with the aim of causing a sentiment classification model to misclassify the example. Our findings suggest that humans are capable of generating a substantial amount of adversarial examples using semantics-preserving word substitutions. We analyze how human-generated adversarial examples compare to the recently proposed TextFooler, Genetic, BAE and SememePSO attack algorithms on the dimensions naturalness, preservation of sentiment, grammaticality and substitution rate. Our findings suggest that human-generated adversarial examples are not more able than the best algorithms to generate natural-reading, sentiment-preserving examples, though they do so by being much more computationally efficient.
翻訳日:2021-09-10 18:04:18 公開日:2021-09-09
# (参考訳) ErfAct:非単調スムーズなトレーニング可能なアクティベーション関数 [全文訳有]

ErfAct: Non-monotonic smooth trainable Activation Functions ( http://arxiv.org/abs/2109.04386v1 )

ライセンス: CC BY 4.0
Koushik Biswas, Sandeep Kumar, Shilpak Banerjee, Ashish Kumar Pandey(参考訳) アクティベーション関数は、ネットワーク内の非線形性を導入するニューラルネットワークの重要なコンポーネントである。 ニューラルネットワークの最先端のパフォーマンスは、アクティベーション関数の完全な選択に依存する。 本稿では,ErfAct-1とErfAct-2という2つの新しい非単調なスムーズなアクティベーション関数を提案する。 実験の結果,提案機能はReLUやSwish,Mishなど,広く使われているアクティベーションに比べてネットワーク性能が大幅に向上していることがわかった。 ErfAct-1とErfAct-2によるReLUの置き換えにより、CIFAR100データセットにおけるPreactResNet-34ネットワークにおけるトップ1精度の5.21%と5.04%の改善、CIFAR10データセットにおけるPreactResNet-34ネットワークにおけるトップ1精度の2.58%と2.76%の改善、Pascal VOCデータセットにおけるSSD300モデルにおける平均平均精度(mAP)の1.0%の改善が達成された。

An activation function is a crucial component of a neural network that introduces non-linearity in the network. The state-of-the-art performance of a neural network depends on the perfect choice of an activation function. We propose two novel non-monotonic smooth trainable activation functions, called ErfAct-1 and ErfAct-2. Experiments suggest that the proposed functions improve the network performance significantly compared to the widely used activations like ReLU, Swish, and Mish. Replacing ReLU by ErfAct-1 and ErfAct-2, we have 5.21% and 5.04% improvement for top-1 accuracy on PreactResNet-34 network in CIFAR100 dataset, 2.58% and 2.76% improvement for top-1 accuracy on PreactResNet-34 network in CIFAR10 dataset, 1.0%, and 1.0% improvement on mean average precision (mAP) on SSD300 model in Pascal VOC dataset.
翻訳日:2021-09-10 17:45:43 公開日:2021-09-09
# (参考訳) 医用画像におけるフェアコンフォメーション予測器 [全文訳有]

Fair Conformal Predictors for Applications in Medical Imaging ( http://arxiv.org/abs/2109.04392v1 )

ライセンス: CC BY 4.0
Charles Lu, Andreanne Lemay, Ken Chang, Katharina Hoebel, Jayashree Kalpathy-Cramer(参考訳) 深層学習は、医療画像解釈など、臨床ワークフローの多くのコンポーネントを増強する可能性がある。 しかし,これらのブラックボックスアルゴリズムの臨床的実践への翻訳は,従来の機械学習手法と比較して透明性の欠如に悩まされ,重要な医療的意思決定システムに対する臨床的信頼が損なわれている。 特に、一般的なディープラーニングアプローチは、さらなる人間のレビューを必要とするケースに関して不確実性を表現する直感的な方法を持っていない。 さらに, アルゴリズムバイアスの可能性は, 臨床現場で開発されたアルゴリズムの使用をためらう要因となっている。 そこで本研究では,モデル不確実性を表現するための(信頼度予測セットを用いて)臨床的に直感的な方法と,臨床ワークフローにおけるモデルの透明性の促進によって,コンフォーマル手法がディープラーニングモデルを補完する方法について検討する。 本稿では,コンフォメーション予測の活用事例を評価するため,臨床医とフィールド調査を行った。 次に,マンモグラフィー乳房密度と皮膚写真データセットを用いて,「ルールイン」および「ルールアウト」疾患シナリオにおけるコンフォメーション予測の有用性を実証する実験を行った。 さらに, コンフォメーション予測器は, 人種や肌の色調などの患者層に対して, カバー範囲の等化に有効であることを示す。 より深い学習アルゴリズムと臨床医との協調性を高めるために, 臨床ユーザビリティと透明性を高める可能性を持った, コンフォメーション予測が有望なフレームワークであることが確認された。

Deep learning has the potential to augment many components of the clinical workflow, such as medical image interpretation. However, the translation of these black box algorithms into clinical practice has been marred by the relative lack of transparency compared to conventional machine learning methods, hindering in clinician trust in the systems for critical medical decision-making. Specifically, common deep learning approaches do not have intuitive ways of expressing uncertainty with respect to cases that might require further human review. Furthermore, the possibility of algorithmic bias has caused hesitancy regarding the use of developed algorithms in clinical settings. To these ends, we explore how conformal methods can complement deep learning models by providing both clinically intuitive way (by means of confidence prediction sets) of expressing model uncertainty as well as facilitating model transparency in clinical workflows. In this paper, we conduct a field survey with clinicians to assess clinical use-cases of conformal predictions. Next, we conduct experiments with a mammographic breast density and dermatology photography datasets to demonstrate the utility of conformal predictions in "rule-in" and "rule-out" disease scenarios. Further, we show that conformal predictors can be used to equalize coverage with respect to patient demographics such as race and skin tone. We find that a conformal predictions to be a promising framework with potential to increase clinical usability and transparency for better collaboration between deep learning algorithms and clinicians.
翻訳日:2021-09-10 17:32:00 公開日:2021-09-09
# (参考訳) All Bark and No Bite: トランスフォーマー言語モデルにおけるローグ次元は表現品質を損なう [全文訳有]

All Bark and No Bite: Rogue Dimensions in Transformer Language Models Obscure Representational Quality ( http://arxiv.org/abs/2109.04404v1 )

ライセンス: CC BY 4.0
William Timkey, Marten van Schijndel(参考訳) 類似度の測定は、言語モデルの表現方法やプロセス言語を理解する上で重要なツールである。 コサイン相似性やユークリッド距離といった標準表現相似性尺度は、静的な単語埋め込みモデルにおいて、意味空間における単語のクラスターの理解に成功している。 近年,BERT や GPT-2 などの文脈モデルからの埋め込みにも適用されている。 本研究では,文脈型言語モデルに対するそのような尺度の有意性に疑問を呈する。 少数のローグ次元(しばしば 1-3 のみ)がこれらの測度を支配することが分かる。 さらに,類似度尺度を支配する次元と,モデルの挙動に重要な次元との間に,著しい不一致がみられた。 標準化のような単純な後処理技術はローグ次元を補正し、基礎となる表現品質を明らかにすることができることを示す。 我々は,文脈言語モデルの類似性に基づく分析には悪質な次元の計算が不可欠であると主張する。

Similarity measures are a vital tool for understanding how language models represent and process language. Standard representational similarity measures such as cosine similarity and Euclidean distance have been successfully used in static word embedding models to understand how words cluster in semantic space. Recently, these measures have been applied to embeddings from contextualized models such as BERT and GPT-2. In this work, we call into question the informativity of such measures for contextualized language models. We find that a small number of rogue dimensions, often just 1-3, dominate these measures. Moreover, we find a striking mismatch between the dimensions that dominate similarity measures and those which are important to the behavior of the model. We show that simple postprocessing techniques such as standardization are able to correct for rogue dimensions and reveal underlying representational quality. We argue that accounting for rogue dimensions is essential for any similarity-based analysis of contextual language models.
翻訳日:2021-09-10 17:10:31 公開日:2021-09-09
# (参考訳) 不均一なトレーニングデータから学ぶ - ラベルなし,シングルラベル,複数ラベル [全文訳有]

Learning from Uneven Training Data: Unlabeled, Single Label, and Multiple Labels ( http://arxiv.org/abs/2109.04408v1 )

ライセンス: CC BY 4.0
Shujian Zhang, Chengyue Gong, Eunsol Choi(参考訳) NLPシステムのトレーニングは通常、例ごとに単一の人間ラベルを持つ注釈付きデータへのアクセスを前提としている。 アノテータからの不完全なラベル付けと言語固有のあいまいさを考えると、単一ラベルは言語解釈のスペクトルを学ぶのに十分ではないと仮定する。 トレーニング例の小さなサブセットに対して,サンプル毎に複数のラベルを割り当てて,新たなラベルアノテーション分散スキームを探索する。 このような複数ラベルのサンプルを、より少ない例に注釈付けするコストで導入すると、自然言語推論タスクやエンティティタイピングタスクにおいて明らかな利益が得られます。 MixUpのデータ拡張フレームワークを拡張し,不均一なトレーニング例(ゼロ,1,複数ラベル)から学習可能な学習アルゴリズムを提案する。 このアルゴリズムは、不均一なトレーニングデータからの信号を効率よく組み合わせ、低アノテーション予算とクロスドメイン設定でさらなる利得をもたらす。 本手法は,2つのタスクにおいて,精度とラベル分布の指標の両立を両立させ,不均一なトレーニングデータを用いたトレーニングが多くのnlpタスクに有益であることを示す。

Training NLP systems typically assumes access to annotated data that has a single human label per example. Given imperfect labeling from annotators and inherent ambiguity of language, we hypothesize that single label is not sufficient to learn the spectrum of language interpretation. We explore new label annotation distribution schemes, assigning multiple labels per example for a small subset of training examples. Introducing such multi label examples at the cost of annotating fewer examples brings clear gains on natural language inference task and entity typing task, even when we simply first train with a single label data and then fine tune with multi label examples. Extending a MixUp data augmentation framework, we propose a learning algorithm that can learn from uneven training examples (with zero, one, or multiple labels). This algorithm efficiently combines signals from uneven training data and brings additional gains in low annotation budget and cross domain settings. Together, our method achieves consistent gains in both accuracy and label distribution metrics in two tasks, suggesting training with uneven training data can be beneficial for many NLP tasks.
翻訳日:2021-09-10 16:52:59 公開日:2021-09-09
# (参考訳) AStitchInLanguageMod els:事前学習言語モデルにおける慣用性探索のためのデータセットと方法

AStitchInLanguageMod els: Dataset and Methods for the Exploration of Idiomaticity in Pre-Trained Language Models ( http://arxiv.org/abs/2109.04413v1 )

ライセンス: CC BY 4.0
Harish Tayyar Madabushi, Edward Gow-Smith, Carolina Scarton, Aline Villavicencio(参考訳) 様々なNLPタスクの成功にもかかわらず、事前訓練された言語モデルは、構成性に大きく依存しているため、マルチワード表現(MWE)、特にイディオムの意味を効果的に捉えられなかった。 したがって、MWEの表現を改善するためのデータセットや方法が緊急に必要である。 既存のデータセットは、リテラルとともに表現の慣用性を提供する程度と、mwesの(単一の)非リテラル解釈に制限されている。 本研究は、MWEを含む自然発生文のデータセットを、英語とポルトガル語にまたがる詳細な意味の集合に手作業で分類する。 我々は,このデータセットを,idiomを含む文の表現生成における言語モデルの有効性と,idiomを用いた言語モデルの有効性を検証するために,2つのタスクで使用する。 我々の実験では,慣用的使用量を検出するタスクにおいて,これらのモデルが単発および少数発のシナリオでは合理的に機能するが,ゼロショットのシナリオでは大きな改善の余地があることを実証した。 慣用性を表現するタスクでは、事前学習が必ずしも効果的であるとは限らないが、微調整は、MWEを含む文の表現を効率的に学習するためのサンプル方法を提供する。

Despite their success in a variety of NLP tasks, pre-trained language models, due to their heavy reliance on compositionality, fail in effectively capturing the meanings of multiword expressions (MWEs), especially idioms. Therefore, datasets and methods to improve the representation of MWEs are urgently needed. Existing datasets are limited to providing the degree of idiomaticity of expressions along with the literal and, where applicable, (a single) non-literal interpretation of MWEs. This work presents a novel dataset of naturally occurring sentences containing MWEs manually classified into a fine-grained set of meanings, spanning both English and Portuguese. We use this dataset in two tasks designed to test i) a language model's ability to detect idiom usage, and ii) the effectiveness of a language model in generating representations of sentences containing idioms. Our experiments demonstrate that, on the task of detecting idiomatic usage, these models perform reasonably well in the one-shot and few-shot scenarios, but that there is significant scope for improvement in the zero-shot scenario. On the task of representing idiomaticity, we find that pre-training is not always effective, while fine-tuning could provide a sample efficient method of learning representations of sentences containing MWEs.
翻訳日:2021-09-10 16:36:49 公開日:2021-09-09
# (参考訳) ロバスト統計を用いた極端バンディット [全文訳有]

Extreme Bandits using Robust Statistics ( http://arxiv.org/abs/2109.04433v1 )

ライセンス: CC BY 4.0
Sujay Bhatt, Ping Li, Gennady Samorodnitsky(参考訳) 我々は,古典的バンディット設定における期待値とは対照的に,極端な値のみが関心を持つ状況に動機づけられたマルチアームバンディット問題を考える。 本研究では,ロバストな統計量を用いた分布自由アルゴリズムを提案する。 提案アルゴリズムは,既存のアルゴリズムよりも弱い条件下での極端後悔を解消する。 数値実験による有限サンプル設定において,アルゴリズムの性能を示す。 その結果,提案アルゴリズムはよく知られたアルゴリズムと比較して優れた性能を示した。

We consider a multi-armed bandit problem motivated by situations where only the extreme values, as opposed to expected values in the classical bandit setting, are of interest. We propose distribution free algorithms using robust statistics and characterize the statistical properties. We show that the provided algorithms achieve vanishing extremal regret under weaker conditions than existing algorithms. Performance of the algorithms is demonstrated for the finite-sample setting using numerical experiments. The results show superior performance of the proposed algorithms compared to the well known algorithms.
翻訳日:2021-09-10 16:35:48 公開日:2021-09-09
# (参考訳) fGOT:フィルタと最適輸送に基づくグラフ距離 [全文訳有]

fGOT: Graph Distances based on Filters and Optimal Transport ( http://arxiv.org/abs/2109.04442v1 )

ライセンス: CC BY 4.0
Hermina Petric Maretic, Mireille El Gheche, Giovanni Chierchia, Pascal Frossard(参考訳) グラフ比較は、グラフ間の類似点と相違点の識別を扱う。 主な障害は、未知のグラフのアライメントと、正確で安価な比較指標の欠如である。 本稿では,フィルタグラフ距離について述べる。 フィルタされたグラフ信号の確率分布を通してグラフ比較を駆動する最適輸送ベース距離である。 これは非常にフレキシブルな距離を生み出し、観測されたグラフで異なるスペクトル情報を優先し、比較計量に対して幅広い選択肢を提供する。 グラフ比較問題を暗黙的に解く新しいフィルタ距離を最小化するグラフ置換を計算することで,グラフアライメントの問題に取り組む。 次に,グラフ比較に固有の多くの計算困難を回避し,性能を犠牲にすることなく鏡面勾配降下などの高速アルゴリズムを活用できる新しい近似コスト関数を提案する。 最終的に、アライメント問題の非凸性に対応し、性能精度と速度の良好なトレードオフを提供するミラー勾配降下の確率バージョンから導出した新しいアルゴリズムを提案する。 グラフアライメントと分類実験により,フィルタグラフ距離で得られる柔軟性は性能に大きな影響を与えるが,近似コストによる速度の差は実用的な設定で適用できることを示した。

Graph comparison deals with identifying similarities and dissimilarities between graphs. A major obstacle is the unknown alignment of graphs, as well as the lack of accurate and inexpensive comparison metrics. In this work we introduce the filter graph distance. It is an optimal transport based distance which drives graph comparison through the probability distribution of filtered graph signals. This creates a highly flexible distance, capable of prioritising different spectral information in observed graphs, offering a wide range of choices for a comparison metric. We tackle the problem of graph alignment by computing graph permutations that minimise our new filter distances, which implicitly solves the graph comparison problem. We then propose a new approximate cost function that circumvents many computational difficulties inherent to graph comparison and permits the exploitation of fast algorithms such as mirror gradient descent, without grossly sacrificing the performance. We finally propose a novel algorithm derived from a stochastic version of mirror gradient descent, which accommodates the non-convexity of the alignment problem, offering a good trade-off between performance accuracy and speed. The experiments on graph alignment and classification show that the flexibility gained through filter graph distances can have a significant impact on performance, while the difference in speed offered by the approximation cost makes the framework applicable in practical settings.
翻訳日:2021-09-10 16:12:11 公開日:2021-09-09
# (参考訳) hintedbt: 品質と翻訳ヒントによるバックトランスレーションの強化 [全文訳有]

HintedBT: Augmenting Back-Translation with Quality and Transliteration Hints ( http://arxiv.org/abs/2109.04443v1 )

ライセンス: CC BY 4.0
Sahana Ramnath, Melvin Johnson, Abhirut Gupta, Aravindan Raghuveer(参考訳) ターゲットモノリンガルコーパスのバックトランスレーション(BT)はニューラルマシン翻訳(NMT)、特に低リソース言語対に広く用いられているデータ拡張戦略である。 利用可能なBTデータの有効性を改善するために、エンコーダとデコーダにヒント(タグを通して)を提供するテクニックのファミリーであるHintedBTを紹介する。 まず、各ソース・ターゲットペアの品質に関するモデルにヒント(エンコーダのソースタグとして)を提供することにより、高品質BTデータと低品質BTデータの両方を使用する新しい手法を提案する。 低品質なデータをフィルタリングするのではなく、これらのヒントによってノイズの多いデータから効果的に学習できることを示します。 第2に,対象言語への翻訳や翻訳が必要か,あるいは対象語間の翻訳タスクに共通しているかを予測する問題(つまり,対象語と対象語がスクリプトを共有していない場合)に対処する。 このような場合、ソース(翻訳または翻訳と翻訳の両方)に必要な操作に関する情報を提供する追加のヒント(デコーダのターゲットタグとして)でモデルをトレーニングすることを提案する。 我々は、標準WMTベンチマークの実験と詳細な分析を行い、3つのクロススクリプトの低/低/低リソース言語対である {Hindi,Gujarati,Tamil }-to- English について述べる。 提案手法は,5つの強い,確立されたベースラインと比較した。 これらのヒントを別々に使用することで翻訳品質が大幅に向上し、対応するバイリンガル設定における3つの言語ペアの最先端性能が向上することを示す。

Back-translation (BT) of target monolingual corpora is a widely used data augmentation strategy for neural machine translation (NMT), especially for low-resource language pairs. To improve effectiveness of the available BT data, we introduce HintedBT -- a family of techniques which provides hints (through tags) to the encoder and decoder. First, we propose a novel method of using both high and low quality BT data by providing hints (as source tags on the encoder) to the model about the quality of each source-target pair. We don't filter out low quality data but instead show that these hints enable the model to learn effectively from noisy data. Second, we address the problem of predicting whether a source token needs to be translated or transliterated to the target language, which is common in cross-script translation tasks (i.e., where source and target do not share the written script). For such cases, we propose training the model with additional hints (as target tags on the decoder) that provide information about the operation required on the source (translation or both translation and transliteration). We conduct experiments and detailed analyses on standard WMT benchmarks for three cross-script low/medium-resource language pairs: {Hindi,Gujarati,Tamil }-to-English. Our methods compare favorably with five strong and well established baselines. We show that using these hints, both separately and together, significantly improves translation quality and leads to state-of-the-art performance in all three language pairs in corresponding bilingual settings.
翻訳日:2021-09-10 15:55:20 公開日:2021-09-09
# (参考訳) アドレス埋め込みによる関心のマイニングポイント:教師なしアプローチ [全文訳有]

Mining Points of Interest via Address Embeddings: An Unsupervised Approach ( http://arxiv.org/abs/2109.04467v1 )

ライセンス: CC BY 4.0
Abhinav Ganesan, Anubhav Gupta, and Jose Mathew(参考訳) デジタル地図は、ユーザーが興味を持つ場所を探索するために世界中で一般的に使われ、一般的にはpoint of interest (poi)と呼ばれる。 オンライン食品配達プラットフォームでは、poisは、病院、住宅、オフィスコンプレックス、教育機関、ホステルなど、顧客が注文できるあらゆる主要な民間化合物を表現できる。 本研究では,PoI(PoI polygons)のポリゴン表現をアドレス位置とアドレステキストから取得する,エンドツーエンドの教師なしシステム設計を提案する。 アドレステキストを局所性名を用いて前処理し、深層学習アーキテクチャであるviz を用いてアドレステキストの埋め込みを生成する。 ロベルタ 社内のアドレスデータセットで 訓練されてる PoI候補は、匿名化された顧客電話GPSロケーション(アドレスオンボーディング中に保持される)とアドレステキストの埋め込みを共同でクラスタリングすることによって特定される。 The final list of PoI polygons are obtained from these PoI candidate using novel post-processing steps。 このアルゴリズムは、我々の内部データセット上で動作するmummidi-krummベースラインアルゴリズムで得られたものよりも74.8パーセントのpoisを同定した。 提案手法は,中央値領域の精度98 %,中央値領域のリコール8 %,中央値のf-score 0.15を達成する。 アルゴリズムポリゴンのリコールを改善するために,OpenStreetMap (OSM)データベースから構築したフットプリントポリゴンを用いて後処理を行う。 ポストプロセッシングアルゴリズムは、osmデータベースから交差するポリゴンと閉鎖された私道を用いてアルゴリズム的ポリゴンを再構成し、osmデータベース上の公道との交差点を会計する。 中央値領域のリコール率は70%、中央値領域の精度は69%、中央値のfスコアは0.69である。

Digital maps are commonly used across the globe for exploring places that users are interested in, commonly referred to as points of interest (PoI). In online food delivery platforms, PoIs could represent any major private compounds where customers could order from such as hospitals, residential complexes, office complexes, educational institutes and hostels. In this work, we propose an end-to-end unsupervised system design for obtaining polygon representations of PoIs (PoI polygons) from address locations and address texts. We preprocess the address texts using locality names and generate embeddings for the address texts using a deep learning-based architecture, viz. RoBERTa, trained on our internal address dataset. The PoI candidates are identified by jointly clustering the anonymised customer phone GPS locations (obtained during address onboarding) and the embeddings of the address texts. The final list of PoI polygons is obtained from these PoI candidates using novel post-processing steps. This algorithm identified 74.8 % more PoIs than those obtained using the Mummidi-Krumm baseline algorithm run on our internal dataset. The proposed algorithm achieves a median area precision of 98 %, a median area recall of 8 %, and a median F-score of 0.15. In order to improve the recall of the algorithmic polygons, we post-process them using building footprint polygons from the OpenStreetMap (OSM) database. The post-processing algorithm involves reshaping the algorithmic polygon using intersecting polygons and closed private roads from the OSM database, and accounting for intersection with public roads on the OSM database. We achieve a median area recall of 70 %, a median area precision of 69 %, and a median F-score of 0.69 on these post-processed polygons.
翻訳日:2021-09-10 15:32:29 公開日:2021-09-09
# (参考訳) 教師付き線型次元還元法:レビュー,拡張,比較 [全文訳有]

Supervised Linear Dimension-Reduction Methods: Review, Extensions, and Comparisons ( http://arxiv.org/abs/2109.04244v1 )

ライセンス: CC BY 4.0
Shaojie Xu, Joel Vaughan, Jie Chen, Agus Sudjianto, Vijayan Nair(参考訳) 主成分分析(PCA)は、データ解析やモデリングに広く用いられている、よく知られた線形次元還元法である。 最大変動量を含む入力変数に対して適切な線形部分空間を識別し、できるだけ多くの情報を保存できる教師なし学習手法である。 PCAはまた、回帰分析を行う前に、元の高次元の予測器の空間がより小さく、より管理しやすく設定される予測モデルにも使用されている。 しかし, この手法では, 次元還元段階の応答に情報を組み込まないため, 予測性能が劣る可能性がある。 この懸念に対処するため、いくつかの教師付き線形次元還元手法が文献に提案されている。 本稿では,選択した手法をレビューし,その一部を拡張し,シミュレーションによる性能比較を行う。 これらの2つの手法のうち、部分最小二乗法(PLS)と最小二乗法(LSPCA)は、この研究で他よりも一貫して優れている。

Principal component analysis (PCA) is a well-known linear dimension-reduction method that has been widely used in data analysis and modeling. It is an unsupervised learning technique that identifies a suitable linear subspace for the input variable that contains maximal variation and preserves as much information as possible. PCA has also been used in prediction models where the original, high-dimensional space of predictors is reduced to a smaller, more manageable, set before conducting regression analysis. However, this approach does not incorporate information in the response during the dimension-reduction stage and hence can have poor predictive performance. To address this concern, several supervised linear dimension-reduction techniques have been proposed in the literature. This paper reviews selected techniques, extends some of them, and compares their performance through simulations. Two of these techniques, partial least squares (PLS) and least-squares PCA (LSPCA), consistently outperform the others in this study.
翻訳日:2021-09-10 15:09:08 公開日:2021-09-09
# 分散ロバスト多言語機械翻訳

Distributionally Robust Multilingual Machine Translation ( http://arxiv.org/abs/2109.04020v1 )

ライセンス: Link先を確認
Chunting Zhou, Daniel Levy, Xian Li, Marjan Ghazvininejad and Graham Neubig(参考訳) MNMT(Multilingual Neural Machine Translation)は、単一のモデルで複数の言語ペアを翻訳することを学び、デプロイされたモデルの正確性とメモリ効率の両方を改善する可能性がある。 しかし、言語間の重いデータ不均衡は、モデルが言語ペア間で均一に実行するのを妨げる。 本稿では,分散的ロバストな最適化に基づくMNMTの新しい学習目標を提案する。 さらに,この目的を大規模翻訳コーパスに対して効果的かつ必然的に計算コストを増大させる反復的ベスト応答スキームを用いて効果的に最適化する方法を,標準実証的リスク最小化と比較して示す。 2つのデータセットから3つの言語を広範囲に実験した結果,1対1の翻訳と1対1の翻訳条件において,本手法は,平均および言語毎のパフォーマンスにおいて,強固なベースラインメソッドを一貫して上回っていることがわかった。

Multilingual neural machine translation (MNMT) learns to translate multiple language pairs with a single model, potentially improving both the accuracy and the memory-efficiency of deployed models. However, the heavy data imbalance between languages hinders the model from performing uniformly across language pairs. In this paper, we propose a new learning objective for MNMT based on distributionally robust optimization, which minimizes the worst-case expected loss over the set of language pairs. We further show how to practically optimize this objective for large translation corpora using an iterated best response scheme, which is both effective and incurs negligible additional computational cost compared to standard empirical risk minimization. We perform extensive experiments on three sets of languages from two datasets and show that our method consistently outperforms strong baseline methods in terms of average and per-language performance under both many-to-one and one-to-many translation settings.
翻訳日:2021-09-10 14:38:24 公開日:2021-09-09
# サリエンス学習を用いたテーブルベースファクト検証

Table-based Fact Verification with Salience-aware Learning ( http://arxiv.org/abs/2109.04053v1 )

ライセンス: Link先を確認
Fei Wang, Kexuan Sun, Jay Pujara, Pedro Szekely, Muhao Chen(参考訳) テーブルは、テキストステートメントの検証に使用できる貴重な知識を提供する。 多くの著作がテーブルベースの事実検証を検討しているが、表データとテキスト文のトークンの直接アライメントはめったに利用できない。 さらに、一般化された事実検証モデルのトレーニングには、豊富なラベル付きトレーニングデータが必要である。 本稿では,これらの問題に対処する新しいシステムを提案する。 反事実因果関係に着想を得た本システムは,提案文中のトークンレベルのサリエンスを探索に基づくサリエンス推定で識別する。 サリエンス推定は、2つの視点から事実検証の強化学習を可能にする。 一視点から,本システムは表と文間のアライメントと推論のモデルを強化するために,マスク付き有意なトークン予測を行う。 他方から,本システムは,より多様なトレーニングインスタンスを生成するために,非サラリエンス項を置き換えることで,サラリエンス対応データ拡張を行う。 TabFactの実験結果から,提案手法が有効であることを示すとともに,ベンチマーク上でのSOTA性能が向上した。 私たちのコードはhttps://github.com/l uka-group/Salience-a ware-Learning で公開されています。

Tables provide valuable knowledge that can be used to verify textual statements. While a number of works have considered table-based fact verification, direct alignments of tabular data with tokens in textual statements are rarely available. Moreover, training a generalized fact verification model requires abundant labeled training data. In this paper, we propose a novel system to address these problems. Inspired by counterfactual causality, our system identifies token-level salience in the statement with probing-based salience estimation. Salience estimation allows enhanced learning of fact verification from two perspectives. From one perspective, our system conducts masked salient token prediction to enhance the model for alignment and reasoning between the table and the statement. From the other perspective, our system applies salience-aware data augmentation to generate a more diverse set of training instances by replacing non-salient terms. Experimental results on TabFact show the effective improvement by the proposed salience-aware learning techniques, leading to the new SOTA performance on the benchmark. Our code is publicly available at https://github.com/l uka-group/Salience-a ware-Learning .
翻訳日:2021-09-10 14:38:07 公開日:2021-09-09
# timetraveler:時間知識グラフ予測のための強化学習

TimeTraveler: Reinforcement Learning for Temporal Knowledge Graph Forecasting ( http://arxiv.org/abs/2109.04101v1 )

ライセンス: Link先を確認
Haohai Sun, Jialun Zhong, Yunpu Ma, Zhen Han and Kun He(参考訳) 時間知識グラフ(TKG)推論は近年研究の関心が高まっている重要な課題である。 既存の手法のほとんどは、過去のタイムスタンプで欠落した事実を推論することに焦点を当てており、将来の事実を予測するために既知のtkgを推論する作業はごくわずかである。 完了タスクと比較すると,予測タスクは,(1)タイムスタンプを処理するための時間情報を効果的にモデル化する方法という,2つの大きな課題に直面するほど困難である。 2) 時間とともに現れる既知のエンティティを扱うために、どのように帰納的推論を行うか? これらの課題に対処するために,予測のための最初の強化学習手法を提案する。 具体的には、エージェントが過去の知識グラフのスナップショットを旅して、回答を検索する。 本手法では,タイムスパン情報を取り込む相対時間符号化関数を定義し,ディリクレ分布に基づく新しい時間形報酬をデザインし,モデル学習の指導を行う。 さらに,モデルの帰納的推論能力を向上させるために,未知のエンティティの表現手法を提案する。 我々は,このリンク予測タスクを将来のタイムスタンプで評価する。 4つのベンチマークデータセットに対する大規模な実験では、既存の最先端手法と比較して、説明可能性の向上、計算の削減、パラメータの削減など、大幅なパフォーマンス向上が示されている。

Temporal knowledge graph (TKG) reasoning is a crucial task that has gained increasing research interest in recent years. Most existing methods focus on reasoning at past timestamps to complete the missing facts, and there are only a few works of reasoning on known TKGs to forecast future facts. Compared with the completion task, the forecasting task is more difficult that faces two main challenges: (1) how to effectively model the time information to handle future timestamps? (2) how to make inductive inference to handle previously unseen entities that emerge over time? To address these challenges, we propose the first reinforcement learning method for forecasting. Specifically, the agent travels on historical knowledge graph snapshots to search for the answer. Our method defines a relative time encoding function to capture the timespan information, and we design a novel time-shaped reward based on Dirichlet distribution to guide the model learning. Furthermore, we propose a novel representation method for unseen entities to improve the inductive inference ability of the model. We evaluate our method for this link prediction task at future timestamps. Extensive experiments on four benchmark datasets demonstrate substantial performance improvement meanwhile with higher explainability, less calculation, and fewer parameters when compared with existing state-of-the-art methods.
翻訳日:2021-09-10 14:37:48 公開日:2021-09-09
# MATE: テーブルトランス効率のためのマルチビューアテンション

MATE: Multi-view Attention for Table Transformer Efficiency ( http://arxiv.org/abs/2109.04312v1 )

ライセンス: Link先を確認
Julian Martin Eisenschlos, Maharshi Gor, Thomas M\"uller, William W. Cohen(参考訳) 本研究では,大きなテーブルを含む文書をモデル化するスパースアテンショントランスフォーマーアーキテクチャを提案する。 テーブルはウェブ上でユビキタスであり、情報に富んでいる。 しかし、Web上のリレーショナルテーブルの20%以上が20行以上の行を持つ(Cafarella et al., 2008)。 本稿では,Webテーブルの構造をモデル化する新しいトランスフォーマーアーキテクチャであるMATEを提案する。 MATEは、テーブル内の行または列に効率的に対応できるように、スパースアテンションを使用する。 このアーキテクチャは速度とメモリに関して線形にスケールし、8000以上のトークンを含むドキュメントを現在のアクセラレータで処理することができる。 mateはまた、表データに対するより適切な帰納的バイアスを持ち、3つの表推論データセットのための新しい最先端を設定する。 テーブルを含む大きなドキュメントを含むデータセットであるHybridQA(Chen et al., 2020b)では、最優先の結果を19ポイント改善する。

This work presents a sparse-attention Transformer architecture for modeling documents that contain large tables. Tables are ubiquitous on the web, and are rich in information. However, more than 20% of relational tables on the web have 20 or more rows (Cafarella et al., 2008), and these large tables present a challenge for current Transformer models, which are typically limited to 512 tokens. Here we propose MATE, a novel Transformer architecture designed to model the structure of web tables. MATE uses sparse attention in a way that allows heads to efficiently attend to either rows or columns in a table. This architecture scales linearly with respect to speed and memory, and can handle documents containing more than 8000 tokens with current accelerators. MATE also has a more appropriate inductive bias for tabular data, and sets a new state-of-the-art for three table reasoning datasets. For HybridQA (Chen et al., 2020b), a dataset that involves large documents containing tables, we improve the best prior result by 19 points.
翻訳日:2021-09-10 14:37:28 公開日:2021-09-09
# Translate & Fill: 合成データによるゼロショット多言語意味解析の改善

Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with Synthetic Data ( http://arxiv.org/abs/2109.04319v1 )

ライセンス: Link先を確認
Massimo Nicosia, Zhongdi Qu and Yasemin Altun(参考訳) 単一言語で微調整された多言語事前学習言語モデル(LM)は、言語間タスク転送能力がかなり高いが、ターゲット言語を監督できる場合、セマンティック解析タスクにおいて、依然として大きなパフォーマンス差がある。 本稿では,多言語意味解析のためのシルバートレーニングデータを生成するための新しいtaf(translate-and-fi ll)手法を提案する。 本手法は,TAP(Translate-Align -Project)パイプラインを単純化し,発話に条件付き全文パースと同一のパースビューを構築するシーケンス・ツー・シーケンス・フィラーモデルからなる。 我々のフィラーは英語のデータのみに基づいて訓練されているが、他の言語(英語の訓練発話の翻訳など)のインスタンスをゼロショットで正確に完了することができる。 3つの多言語意味解析データセットの実験結果から、従来のアライメント技術に依存する類似システムと競合するTaFによるデータ拡張が達成された。

While multilingual pretrained language models (LMs) fine-tuned on a single language have shown substantial cross-lingual task transfer capabilities, there is still a wide performance gap in semantic parsing tasks when target language supervision is available. In this paper, we propose a novel Translate-and-Fill (TaF) method to produce silver training data for a multilingual semantic parser. This method simplifies the popular Translate-Align-Proj ect (TAP) pipeline and consists of a sequence-to-sequence filler model that constructs a full parse conditioned on an utterance and a view of the same parse. Our filler is trained on English data only but can accurately complete instances in other languages (i.e., translations of the English training utterances), in a zero-shot fashion. Experimental results on three multilingual semantic parsing datasets show that data augmentation with TaF reaches accuracies competitive with similar systems which rely on traditional alignment techniques.
翻訳日:2021-09-10 14:37:10 公開日:2021-09-09
# 辞書に基づくヘテロジニアスグラフを用いたテキスト分類のための言語間変換

Cross-lingual Transfer for Text Classification with Dictionary-based Heterogeneous Graph ( http://arxiv.org/abs/2109.04400v1 )

ライセンス: Link先を確認
Nuttapong Chairatanakul, Noppayut Sriwatanasakdi, Nontawat Charoenphakdee, Xin Liu, Tsuyoshi Murata(参考訳) クロスリンガルテキスト分類では、高リソースのソース言語におけるタスク固有のトレーニングデータが利用可能であり、タスクは低リソースのターゲット言語と同じである。 しかし、ラベル付けコスト、タスク特性、プライバシー上の懸念から、そのようなトレーニングデータの収集は不可能である。 本稿では,高リソース言語とバイリンガル辞書のタスクに依存しない単語埋め込みのみを用いた代替ソリューションを提案する。 まず、二言語辞書から辞書に基づくヘテロジニアスグラフ(DHG)を構築する。 これにより、言語間転送にグラフニューラルネットワークを使用する可能性が開ける。 残る課題は、複数の言語が考慮されているため、DHGの不均一性である。 この課題に対処するために、単語レベルと言語レベルの集約である2段階の集約によってDHGの不均一性を効果的に処理する辞書ベースのヘテロジニアスグラフニューラルネットワーク(DHGNet)を提案する。 実験の結果,本手法は大型コーパスにアクセスできなくても,事前学習モデルよりも優れていた。 さらに、辞書には不正確な翻訳が多数含まれていてもうまく機能する。 その堅牢性によって、自動化された辞書やクラウドソースされた辞書など、より広い範囲の辞書の使用が可能になる。

In cross-lingual text classification, it is required that task-specific training data in high-resource source languages are available, where the task is identical to that of a low-resource target language. However, collecting such training data can be infeasible because of the labeling cost, task characteristics, and privacy concerns. This paper proposes an alternative solution that uses only task-independent word embeddings of high-resource languages and bilingual dictionaries. First, we construct a dictionary-based heterogeneous graph (DHG) from bilingual dictionaries. This opens the possibility to use graph neural networks for cross-lingual transfer. The remaining challenge is the heterogeneity of DHG because multiple languages are considered. To address this challenge, we propose dictionary-based heterogeneous graph neural network (DHGNet) that effectively handles the heterogeneity of DHG by two-step aggregations, which are word-level and language-level aggregations. Experimental results demonstrate that our method outperforms pretrained models even though it does not access to large corpora. Furthermore, it can perform well even though dictionaries contain many incorrect translations. Its robustness allows the usage of a wider range of dictionaries such as an automatically constructed dictionary and crowdsourced dictionary, which are convenient for real-world applications.
翻訳日:2021-09-10 14:36:52 公開日:2021-09-09
# NTS-NOTEARS:時系列データと事前知識による非パラメトリック時間DBGの学習

NTS-NOTEARS: Learning Nonparametric Temporal DAGs With Time-Series Data and Prior Knowledge ( http://arxiv.org/abs/2109.04286v1 )

ライセンス: Link先を確認
Xiangyu Sun, Guiliang Liu, Pascal Poupart, Oliver Schulte(参考訳) 本稿では,グラフ全体の非周期性を確保しつつ,変数間の線形・非線形・ラグ・瞬時関係を捉える時系列データに対するスコアベースDAG構造学習法を提案する。 提案手法は,非パラメトリック瞬時dag学習のための最近の連続最適化手法であるnonparametric notearsを拡張する。 提案手法は非線形条件独立試験を用いた制約に基づく手法よりも高速である。 また,事前知識を構造学習プロセスに組み込むための最適化制約の利用も促進する。 シミュレーションデータを用いた幅広い実験により,提案手法が最近の比較手法よりも優れたDAG構造を見出すことを示す。 また,NHLアイスホッケーゲームから連続変数と離散変数の混合を含む複雑な実世界のデータについても検討した。 コードはhttps://github.com/x iangyu-sun-789/NTS-N OTEARS/で公開されている。

We propose a score-based DAG structure learning method for time-series data that captures linear, nonlinear, lagged and instantaneous relations among variables while ensuring acyclicity throughout the entire graph. The proposed method extends nonparametric NOTEARS, a recent continuous optimization approach for learning nonparametric instantaneous DAGs. The proposed method is faster than constraint-based methods using nonlinear conditional independence tests. We also promote the use of optimization constraints to incorporate prior knowledge into the structure learning process. A broad set of experiments with simulated data demonstrates that the proposed method discovers better DAG structures than several recent comparison methods. We also evaluate the proposed method on complex real-world data acquired from NHL ice hockey games containing a mixture of continuous and discrete variables. The code is available at https://github.com/x iangyu-sun-789/NTS-N OTEARS/.
翻訳日:2021-09-10 14:36:32 公開日:2021-09-09
# 触覚センシングによる物体間相互作用の動的モデリング

Dynamic Modeling of Hand-Object Interactions via Tactile Sensing ( http://arxiv.org/abs/2109.04378v1 )

ライセンス: Link先を確認
Qiang Zhang, Yunzhu Li, Yiyue Luo, Wan Shou, Michael Foshey, Junchi Yan, Joshua B. Tenenbaum, Wojciech Matusik, Antonio Torralba(参考訳) 触覚センシングは、人間が日常的なタスクを実行するために重要である。 視覚から物体をつかむことで大きな進歩があったが、触覚を使って手-物体相互作用のダイナミクスを推論しモデル化する方法は、まだ不明である。 本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。 私たちは、クロスモーダルな学習フレームワーク上にモデルを構築し、ビジュアル処理パイプラインを使用してラベルを生成して、触覚モデルを監視します。 触覚モデルは、予測モデルと対照的学習モジュールを組み合わせることにより、手と物体の3次元位置をタッチデータから純粋に予測することを目的としている。 このフレームワークは触覚データからのインタラクションパターンを推論し、環境の変化を暗示し、予測の不確実性を推定し、見えないオブジェクトに一般化することができる。 また、異なるシステム設計に関する詳細なアブレーション研究や、予測された軌道の可視化も提供する。 この研究は、高密度触覚センシングによる手動物体相互作用のダイナミックスモデリングの一歩を踏み出し、活動学習、人間とコンピュータの相互作用、ロボット工学の模倣学習における将来の応用への扉を開く。

Tactile sensing is critical for humans to perform everyday tasks. While significant progress has been made in analyzing object grasping from vision, it remains unclear how we can utilize tactile sensing to reason about and model the dynamics of hand-object interactions. In this work, we employ a high-resolution tactile glove to perform four different interactive activities on a diversified set of objects. We build our model on a cross-modal learning framework and generate the labels using a visual processing pipeline to supervise the tactile model, which can then be used on its own during the test time. The tactile model aims to predict the 3d locations of both the hand and the object purely from the touch data by combining a predictive model and a contrastive learning module. This framework can reason about the interaction patterns from the tactile data, hallucinate the changes in the environment, estimate the uncertainty of the prediction, and generalize to unseen objects. We also provide detailed ablation studies regarding different system designs as well as visualizations of the predicted trajectories. This work takes a step on dynamics modeling in hand-object interactions from dense tactile sensing, which opens the door for future applications in activity learning, human-computer interactions, and imitation learning for robotics.
翻訳日:2021-09-10 14:36:19 公開日:2021-09-09
# NEAT: エンドツーエンド自動運転のためのニューラルアテンションフィールド

NEAT: Neural Attention Fields for End-to-End Autonomous Driving ( http://arxiv.org/abs/2109.04456v1 )

ライセンス: Link先を確認
Kashyap Chitta, Aditya Prakash, Andreas Geiger(参考訳) シーンの意味的、空間的、時間的構造に関する効率的な推論は、自動運転にとって重要な前提条件である。 本稿では、エンドツーエンドの模倣学習モデルの推論を可能にする新しい表現であるNEAT(NEural Attention Field)を提案する。 neatは、鳥の視線(bev)シーンの座標の位置をウェイポイントやセマンティクスにマッピングする連続関数であり、中間の注意マップを使用して、高次元の2d画像の特徴を反復的に圧縮し、コンパクトな表現に変換する。 これにより,BEV表現と画像を効果的に関連付けることにより,運転タスクに関係のない情報を無視しながら,入力内の関連領域に選択的に参加することが可能となる。 有害な環境条件や挑戦的なシナリオを含む新たな評価設定において、NEATは、いくつかの強力なベースラインを上回り、トレーニングデータを生成するために使用される特権付きCARLA専門家と同等の運転スコアを達成する。 さらに,NEAT中間表現を用いたモデルに対するアテンションマップの可視化により,解釈性が向上した。

Efficient reasoning about the semantic, spatial, and temporal structure of a scene is a crucial prerequisite for autonomous driving. We present NEural ATtention fields (NEAT), a novel representation that enables such reasoning for end-to-end imitation learning models. NEAT is a continuous function which maps locations in Bird's Eye View (BEV) scene coordinates to waypoints and semantics, using intermediate attention maps to iteratively compress high-dimensional 2D image features into a compact representation. This allows our model to selectively attend to relevant regions in the input while ignoring information irrelevant to the driving task, effectively associating the images with the BEV representation. In a new evaluation setting involving adverse environmental conditions and challenging scenarios, NEAT outperforms several strong baselines and achieves driving scores on par with the privileged CARLA expert used to generate its training data. Furthermore, visualizing the attention maps for models with NEAT intermediate representations provides improved interpretability.
翻訳日:2021-09-10 14:35:58 公開日:2021-09-09
# 画像間翻訳のためのローカルドメインの活用

Leveraging Local Domains for Image-to-Image Translation ( http://arxiv.org/abs/2109.04468v1 )

ライセンス: Link先を確認
Anthony Dell'Eva, Fabio Pizzati, Massimo Bertozzi, Raoul de Charette(参考訳) image-to-image (i2i)ネットワークは、グローバルなシーン構造に影響しないため、ローカルな変更を捉えるのに苦労している。 例えば、高速道路のシーンからオフロードへの翻訳では、i2iネットワークはグローバルカラー機能に容易に焦点を当てるが、車線マークがないなど、人間の明らかな特徴は無視する。 本稿では,「地域ドメイン」と呼ぶ空間領域特性に関する人間知識を活用し,画像から画像への変換に有用性を示す。 単純な幾何学的ガイダンスに頼ることで、パッチベースのganを少数のソースデータでトレーニングし、その後、ターゲットへの転送学習を容易化する、新たなunseenドメインを指導します。 非構造環境から悪天候まで,3つの課題について実験を行った。 我々の総合的な評価設定は、最小限の事前で現実的な翻訳を生成でき、少数の画像でのみ訓練できることを示している。 さらに、翻訳画像のトレーニングでは、テスト対象のドメインをトレーニング時に見ることなく、すべてのプロキシタスクが大幅に改善されていることを示す。

Image-to-image (i2i) networks struggle to capture local changes because they do not affect the global scene structure. For example, translating from highway scenes to offroad, i2i networks easily focus on global color features but ignore obvious traits for humans like the absence of lane markings. In this paper, we leverage human knowledge about spatial domain characteristics which we refer to as 'local domains' and demonstrate its benefit for image-to-image translation. Relying on a simple geometrical guidance, we train a patch-based GAN on few source data and hallucinate a new unseen domain which subsequently eases transfer learning to target. We experiment on three tasks ranging from unstructured environments to adverse weather. Our comprehensive evaluation setting shows we are able to generate realistic translations, with minimal priors, and training only on a few images. Furthermore, when trained on our translations images we show that all tested proxy tasks are significantly improved, without ever seeing target domain at training.
翻訳日:2021-09-10 14:35:40 公開日:2021-09-09
# mapre: 低リソース関係抽出のための効果的な意味マッピングアプローチ

MapRE: An Effective Semantic Mapping Approach for Low-resource Relation Extraction ( http://arxiv.org/abs/2109.04108v1 )

ライセンス: Link先を確認
Manqing Dong, Chunguang Pan, and Zhipeng Luo(参考訳) 近年, ニューラルリレーショナル抽出モデルにより有望な結果が得られたが, モデル性能は劇的に低下し, 少数のトレーニングサンプルしか得られなかった。 近年の研究では,ラベルに依存しないモデルを用いて,組込み空間における文脈文間の意味的類似性を直接比較する手法が提案されている。 しかし、ラベル認識情報(すなわち、関係自体の意味知識を含む関係ラベル)は、しばしば予測のために無視される。 本研究では,低リソース関係抽出のためのラベル非依存とラベル対応セマンティックマッピング情報の両方を考慮したフレームワークを提案する。 以上の2種類のマッピング情報を事前学習と微調整の両方に組み込むことで,低リソース関係抽出タスクにおけるモデル性能が著しく向上することを示す。

Neural relation extraction models have shown promising results in recent years; however, the model performance drops dramatically given only a few training samples. Recent works try leveraging the advance in few-shot learning to solve the low resource problem, where they train label-agnostic models to directly compare the semantic similarities among context sentences in the embedding space. However, the label-aware information, i.e., the relation label that contains the semantic knowledge of the relation itself, is often neglected for prediction. In this work, we propose a framework considering both label-agnostic and label-aware semantic mapping information for low resource relation extraction. We show that incorporating the above two types of mapping information in both pretraining and fine-tuning can significantly improve the model performance on low-resource relation extraction tasks.
翻訳日:2021-09-10 14:35:00 公開日:2021-09-09
# スペイン語詩の語彙的・感情的モデリング--半教師付き学習アプローチ

Lexico-semantic and affective modelling of Spanish poetry: A semi-supervised learning approach ( http://arxiv.org/abs/2109.04152v1 )

ライセンス: Link先を確認
Alberto Barbado, Mar\'ia Dolores Gonz\'alez, D\'ebora Carrera(参考訳) テキスト分類タスクは、トランスフォーマーの使用により、ここ数年で大幅に改善されている。 しかし、ほとんどの研究は散文に焦点をあてており、特にスペイン語に対する詩の注目は少なかった。 本稿では,4572ソネットのコーパスによって誘発される21の心理的カテゴリと10の感情的・レキシコ・セマンティックなマルチクラスを推定する半教師付き学習手法を提案する。 評価の訓練に用いられる詩のサブセットは、270ソネットを含む。 アプローチでは,心理学的カテゴリーの76%に対して0.7以上,マルチクラスでは0.65以上,AUCを60%以上とした。 ソネットは、外部レキシコンを用いて得られるレクシコ・セマンティクスと情緒的特徴とともに、文埋め込みを通じてトランスフォーマーを用いてモデル化される。 その結果,この手法は変圧器のみを使用するのではなく,AUCの最大0.12の増加をもたらすことがわかった。

Text classification tasks have improved substantially during the last years by the usage of transformers. However, the majority of researches focus on prose texts, with poetry receiving less attention, specially for Spanish language. In this paper, we propose a semi-supervised learning approach for inferring 21 psychological categories evoked by a corpus of 4572 sonnets, along with 10 affective and lexico-semantic multiclass ones. The subset of poems used for training an evaluation includes 270 sonnets. With our approach, we achieve an AUC beyond 0.7 for 76% of the psychological categories, and an AUC over 0.65 for 60% on the multiclass ones. The sonnets are modelled using transformers, through sentence embeddings, along with lexico-semantic and affective features, obtained by using external lexicons. Consequently, we see that this approach provides an AUC increase of up to 0.12, as opposed to using transformers alone.
翻訳日:2021-09-10 14:34:46 公開日:2021-09-09
# KELM:階層関係グラフ上のメッセージパッシングによる事前学習言語表現の知識強化

KELM: Knowledge Enhanced Pre-Trained Language Representations with Message Passing on Hierarchical Relational Graphs ( http://arxiv.org/abs/2109.04223v1 )

ライセンス: Link先を確認
Yinquan Lu, Haonan Lu, Guirong Fu, Qun Liu(参考訳) BERTのような事前学習言語モデル(PLM)に事実知識を組み込むことは、最近のNLP研究において新たなトレンドとなっている。 しかし、既存の手法のほとんどは、外部知識統合モジュールと修正事前学習損失を結合し、大規模コーパスで事前学習プロセスを再実装している。 これらのモデルの再トレーニングは通常リソース消費であり、異なる知識グラフ(kg)を持つ別のドメインへの適応が困難である。 さらに、これらの作品は、テキストの文脈に応じて動的に知識のコンテキストを埋め込むことができないか、知識の曖昧さの問題に苦しむ。 本稿では,KGから抽出したテキストとマルチリレーショナルサブグラフの両方を含む統一的な知識強調テキストグラフをPLMに装備する,微調整プロセスに基づく新しい知識認識言語モデルフレームワークを提案する。 階層的なリレーショナルグラフに基づくメッセージパッシング機構を設計し、インジェクションされたkgとテキストの表現を相互に更新し、同じテキストを共有するあいまいなエンティティを動的に選択できる。 実験結果から,本モデルは既存の言語モデルにkgsから世界知識を効率的に組み込むことができ,他の知識強化モデルと比較して機械読解(mrc)タスクの大幅な改善が得られた。

Incorporating factual knowledge into pre-trained language models (PLM) such as BERT is an emerging trend in recent NLP studies. However, most of the existing methods combine the external knowledge integration module with a modified pre-training loss and re-implement the pre-training process on the large-scale corpus. Re-pretraining these models is usually resource-consuming, and difficult to adapt to another domain with a different knowledge graph (KG). Besides, those works either cannot embed knowledge context dynamically according to textual context or struggle with the knowledge ambiguity issue. In this paper, we propose a novel knowledge-aware language model framework based on fine-tuning process, which equips PLM with a unified knowledge-enhanced text graph that contains both text and multi-relational sub-graphs extracted from KG. We design a hierarchical relational-graph-bas ed message passing mechanism, which can allow the representations of injected KG and text to mutually update each other and can dynamically select ambiguous mentioned entities that share the same text. Our empirical results show that our model can efficiently incorporate world knowledge from KGs into existing language models such as BERT, and achieve significant improvement on the machine reading comprehension (MRC) task compared with other knowledge-enhanced models.
翻訳日:2021-09-10 14:34:28 公開日:2021-09-09
# 教師なし文埋め込みのための平滑化コントラスト学習

Smoothed Contrastive Learning for Unsupervised Sentence Embedding ( http://arxiv.org/abs/2109.04321v1 )

ライセンス: Link先を確認
Xing Wu, Chaochen Gao, Liangjun Zang, Jizhong Han, Zhongyuan Wang, Songlin Hu(参考訳) コントラスト学習は、高品質な教師なし文の埋め込み学習に徐々に応用されてきた。 従来の教師なし手法の中で、最新の最先端手法は、我々が知る限り、教師なしSimCSE(unsup-SimCSE) である。 Unsup-SimCSEは、意味論的に類似した文をまとめて非類似文を分割することで、トレーニング段階でInfoNCE1loss関数を使用する。 しかし、バッチサイズの増加は必ずしも改善につながるわけではなく、バッチサイズがしきい値を超えるとパフォーマンスが低下する。 統計観測により,これはバッチサイズを増大させた後の低信頼負対の導入によるものと考えられる。 この問題を軽減するために、我々は、Gaussian Smoothing InfoNCE (GS-InfoNCE)と呼ばれるInfoNCE損失関数に基づく単純な平滑化戦略を導入する。特に、負のサンプル空間の平滑化としてランダムなガウス雑音ベクトルを負のサンプルとして追加する。 GS-InfoNCEon を標準意味テキスト類似度 (STS) として評価する。 GS-InfoNCEは、それぞれBERT-base、BERT-large、RoBERTa-base、RoBERTa-largeのベースで平均1.38%、0.72%、1.17%、0.28%のスピアマン相関によって、最先端のUnsup-SimCSEよりも優れている。

Contrastive learning has been gradually applied to learn high-quality unsupervised sentence embedding. Among the previous un-supervised methods, the latest state-of-the-art method, as far as we know, is unsupervised SimCSE (unsup-SimCSE). Unsup-SimCSE uses the InfoNCE1loss function in the training stage by pulling semantically similar sentences together and pushing apart dis-similar ones.Theoretically, we expect to use larger batches in unsup-SimCSE to get more adequate comparisons among samples and avoid overfitting. However, increasing the batch size does not always lead to improvements, but instead even lead to performance degradation when the batch size exceeds a threshold. Through statistical observation, we find that this is probably due to the introduction of low-confidence negative pairs after in-creasing the batch size. To alleviate this problem, we introduce a simple smoothing strategy upon the InfoNCE loss function, termedGaussian Smoothing InfoNCE (GS-InfoNCE).Specifi cally, we add random Gaussian noise vectors as negative samples, which act asa smoothing of the negative sample space.Though being simple, the proposed smooth-ing strategy brings substantial improvements to unsup-SimCSE. We evaluate GS-InfoNCEon the standard semantic text similarity (STS)task. GS-InfoNCE outperforms the state-of-the-art unsup-SimCSE by an average Spear-man correlation of 1.38%, 0.72%, 1.17% and0.28% on the base of BERT-base, BERT-large,RoBERTa-b ase and RoBERTa-large, respectively.
翻訳日:2021-09-10 14:34:03 公開日:2021-09-09
# ESimCSE:教師なし文埋め込みのコントラスト学習のための拡張サンプル構築法

ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding ( http://arxiv.org/abs/2109.04380v1 )

ライセンス: Link先を確認
Xing Wu, Chaochen Gao, Liangjun Zang, Jizhong Han, Zhongyuan Wang, Songlin Hu(参考訳) 対照的な学習は教師なしの文埋め込みを学ぶことに多くの注目を集めている。 現在の最先端のunsupervisedメソッドはunsupervised SimCSE (unsup-SimCSE)である。 unsup-simcseは最小データ拡張法としてdropoutを取得し、同じ入力文を事前学習されたトランスフォーマエンコーダ(ドロップアウトオン)に2回渡し、対応する2つの埋め込みを取得して正のペアを構築する。 文の長さ情報は、Transformerにおける位置埋め込みの使用により、通常、文の埋め込みにエンコードされるので、unsup-SimCSEの各正対は同じ長さ情報を含んでいる。 したがって、これらの正のペアで訓練されたunsup-simcseはおそらく偏りがあり、同じまたは類似の長さの文の方が意味論においてより類似していると考える傾向がある。 統計観測により、Unsup-SimCSEにはそのような問題があることがわかった。 そこで我々は,入力文の修正に簡単な繰り返し操作を適用し,事前学習したTransformerエンコーダにそれぞれ入力文と修正文を渡して正のペアを得る。 さらに,コンピュータビジョンのコミュニティからインスピレーションを得て運動量コントラストを導入し,追加の計算をすることなく負のペア数を拡大する。 提案した2つの修正は、正と負のペアを別々に適用し、拡張Unsup-SimCSE(ESimCSE )と呼ばれる新しい文埋め込み法を構築する。 提案したESimCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。 実験の結果,ESimCSE は BERT-base 上でのスピアマン相関平均2.02% で最先端の unsup-SimCSE より優れていた。

Contrastive learning has been attracting much attention for learning unsupervised sentence embeddings. The current state-of-the-art unsupervised method is the unsupervised SimCSE (unsup-SimCSE). Unsup-SimCSE takes dropout as a minimal data augmentation method, and passes the same input sentence to a pre-trained Transformer encoder (with dropout turned on) twice to obtain the two corresponding embeddings to build a positive pair. As the length information of a sentence will generally be encoded into the sentence embeddings due to the usage of position embedding in Transformer, each positive pair in unsup-SimCSE actually contains the same length information. And thus unsup-SimCSE trained with these positive pairs is probably biased, which would tend to consider that sentences of the same or similar length are more similar in semantics. Through statistical observations, we find that unsup-SimCSE does have such a problem. To alleviate it, we apply a simple repetition operation to modify the input sentence, and then pass the input sentence and its modified counterpart to the pre-trained Transformer encoder, respectively, to get the positive pair. Additionally, we draw inspiration from the community of computer vision and introduce a momentum contrast, enlarging the number of negative pairs without additional calculations. The proposed two modifications are applied on positive and negative pairs separately, and build a new sentence embedding method, termed Enhanced Unsup-SimCSE (ESimCSE). We evaluate the proposed ESimCSE on several benchmark datasets w.r.t the semantic text similarity (STS) task. Experimental results show that ESimCSE outperforms the state-of-the-art unsup-SimCSE by an average Spearman correlation of 2.02% on BERT-base.
翻訳日:2021-09-10 14:33:28 公開日:2021-09-09
# TxT: トランスフォーマーによるクロスモーダルエンドツーエンド学習

TxT: Crossmodal End-to-End Learning with Transformers ( http://arxiv.org/abs/2109.04422v1 )

ライセンス: Link先を確認
Jan-Martin O. Steitz, Jonas Pfeiffer, Iryna Gurevych, Stefan Roth(参考訳) 複数のモダリティに対する推論(例) Visual Question Answering (VQA)では、ドメイン間のセマンティック概念のアライメントが必要となる。 エンドツーエンド学習の広範な成功にもかかわらず、今日のマルチモーダルパイプラインは、視覚世界の表現として、オブジェクト検出器(通常より高速なr-cnn)から抽出された固定された機能を、大きく活用している。 明らかな欠点は、視覚表現が目の前のマルチモーダルタスクに特別に調整されていないことである。 同時に、トランスフォーマーベースの物体検出器が人気を集めているが、今日のマルチモーダルパイプラインでは採用されていない。 トランスフォーマーベースのクロスモーダルパイプラインであるTxTでは,下流タスク上の言語と視覚の両方を,完全なエンドツーエンドで微調整することが可能です。 我々は,グローバルコンテキストの統合と拡張性に関するマルチモーダル推論のためのトランスフォーマタの既存の制限を克服する。 トランスフォーマティブベースのマルチモーダルモデルは、マルチモーダル質問応答に対するエンドツーエンド学習からかなりの利益を得る。

Reasoning over multiple modalities, e.g. in Visual Question Answering (VQA), requires an alignment of semantic concepts across domains. Despite the widespread success of end-to-end learning, today's multimodal pipelines by and large leverage pre-extracted, fixed features from object detectors, typically Faster R-CNN, as representations of the visual world. The obvious downside is that the visual representation is not specifically tuned to the multimodal task at hand. At the same time, while transformer-based object detectors have gained popularity, they have not been employed in today's multimodal pipelines. We address both shortcomings with TxT, a transformer-based crossmodal pipeline that enables fine-tuning both language and visual components on the downstream task in a fully end-to-end manner. We overcome existing limitations of transformer-based detectors for multimodal reasoning regarding the integration of global context and their scalability. Our transformer-based multimodal model achieves considerable gains from end-to-end learning for multimodal question answering.
翻訳日:2021-09-10 14:32:57 公開日:2021-09-09
# ビジョン・アンド・ランゲージ? マルチモーダル変圧器のクロスモーダル影響について

Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in Multimodal Transformers ( http://arxiv.org/abs/2109.04448v1 )

ライセンス: Link先を確認
Stella Frank, Emanuele Bugliarello, Desmond Elliott(参考訳) 事前訓練された視覚と言語 BERT は、両方のモダリティから情報を組み合わせた表現を学習することを目的としている。 本稿では,これらのモデルが実際にクロスモーダル情報を統合する程度を評価するために,クロスモーダル入力アブレーションに基づく診断法を提案する。 この方法は、1つのモードから入力を全てまたは選択的にクロスモーダルなグラウンドアライメントに基づいて出力し、他のモードでモデル予測性能を評価する。 モデルパフォーマンスは、モデルの事前学習目標(例えば、)を反映するモダリティ固有のタスクによって測定される。 テキストのためのマスク付き言語モデリング) 両モダリティを用いたクロスモーダル表現の構築を学習したモデルは、モダリティから入力が欠落している場合にさらに悪化することが期待される。 その結果,最近提案されたモデルでは,視覚情報がアブレーションされた場合のテキストの予測が,テキストがアブレーションされた場合のビジュアルオブジェクトのカテゴリの予測に比べてはるかに困難であることが分かり,これらのモデルが対称的なクロスモーダルではないことが示された。

Pretrained vision-and-language BERTs aim to learn representations that combine information from both modalities. We propose a diagnostic method based on cross-modal input ablation to assess the extent to which these models actually integrate cross-modal information. This method involves ablating inputs from one modality, either entirely or selectively based on cross-modal grounding alignments, and evaluating the model prediction performance on the other modality. Model performance is measured by modality-specific tasks that mirror the model pretraining objectives (e.g. masked language modelling for text). Models that have learned to construct cross-modal representations using both modalities are expected to perform worse when inputs are missing from a modality. We find that recently proposed models have much greater relative difficulty predicting text when visual information is ablated, compared to predicting visual object categories when text is ablated, indicating that these models are not symmetrically cross-modal.
翻訳日:2021-09-10 14:32:40 公開日:2021-09-09
# acp++:ヒューマン・オブジェクト間インタラクション検出のためのアクション共起優先

ACP++: Action Co-occurrence Priors for Human-Object Interaction Detection ( http://arxiv.org/abs/2109.04047v1 )

ライセンス: Link先を確認
Dong-Jin Kim, Xiao Sun, Jinsoo Choi, Stephen Lin, In So Kweon(参考訳) 人-物間相互作用(HOI)検出のタスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たず、長い尾の分布を持つトレーニングセットとなることである。 正のラベルの欠如は、これらのクラスの分類精度を低下させる可能性がある。 この問題に対処するために,人間と対象の相互作用には自然相関と反相関が存在することを観察する。 本稿では,これらの相関を行動共起行列としてモデル化し,これらを学習し,より効果的なトレーニング,特にレアクラスにおいて活用する手法を提案する。 提案手法の有効性を実験的に検証し,2つの主要なHOI検出ベンチマークデータセットであるHICO-DetとV-COCOのどちらも,最先端の手法よりも一貫して改善した。

A common problem in the task of human-object interaction (HOI) detection is that numerous HOI classes have only a small number of labeled examples, resulting in training sets with a long-tailed distribution. The lack of positive labels can lead to low classification accuracy for these classes. Towards addressing this issue, we observe that there exist natural correlations and anti-correlations among human-object interactions. In this paper, we model the correlations as action co-occurrence matrices and present techniques to learn these priors and leverage them for more effective training, especially on rare classes. The efficacy of our approach is demonstrated experimentally, where the performance of our approach consistently improves over the state-of-the-art methods on both of the two leading HOI detection benchmark datasets, HICO-Det and V-COCO.
翻訳日:2021-09-10 14:32:21 公開日:2021-09-09
# プレゼンテーションアタック検出のための自己教師付き学習:画像内デフォールディングと画像外デミックス

Taming Self-Supervised Learning for Presentation Attack Detection: In-Image De-Folding and Out-of-Image De-Mixing ( http://arxiv.org/abs/2109.04100v1 )

ライセンス: Link先を確認
Haozhe Liu, Zhe Kong, Raghavendra Ramachandra, Feng Liu, Linlin Shen, Christoph Busch(参考訳) バイオメトリックシステムは、様々なプレゼンテーションアタック機器(PAI)を使用して実行されるプレゼンテーションアタック(PA)に対して脆弱である。 深層学習と手作り両方の特徴に基づく提示攻撃検出(PAD)技術は数多く存在するが、未知のPAIに対するPADの一般化は依然として難しい問題である。 既存の深層学習に基づくPAD手法の一般的な問題は、局所最適化に苦慮し、異なるPAに対して弱い一般化をもたらすことである。 In this work, we propose to use self-supervised learning to find a reasonable initialization against local trap, so as to improve the generalization ability in detecting PAs on the biometric system.The proposed method, denoted as IF-OM, is based on a global-local view coupled with De-Folding and De-Mixing to derive the task-specific representation for PAD.During De-Folding, the proposed technique will learn region-specific features to represent samples in a local pattern by explicitly maximizing cycle consistency. 一方、デミキシングは検出器を駆動し、トポロジカル一貫性を最大化することで、より包括的な表現のためにグローバル情報を持つインスタンス固有の特徴を得る。 広範な実験結果から,提案手法は,より複雑でハイブリッドなデータセットにおいて,最先端の手法と比較して,顔と指紋パッドの両方において有意な改善が得られた。 具体的には、CASIA-FASDとIdiap Replay-Attackのトレーニングでは、OULU-NPUとMSU-MFSDで18.60%の誤差率(EER)を達成でき、ベースライン性能を9.54%上回る。 コードは公開される予定だ。

Biometric systems are vulnerable to the Presentation Attacks (PA) performed using various Presentation Attack Instruments (PAIs). Even though there are numerous Presentation Attack Detection (PAD) techniques based on both deep learning and hand-crafted features, the generalization of PAD for unknown PAI is still a challenging problem. The common problem with existing deep learning-based PAD techniques is that they may struggle with local optima, resulting in weak generalization against different PAs. In this work, we propose to use self-supervised learning to find a reasonable initialization against local trap, so as to improve the generalization ability in detecting PAs on the biometric system.The proposed method, denoted as IF-OM, is based on a global-local view coupled with De-Folding and De-Mixing to derive the task-specific representation for PAD.During De-Folding, the proposed technique will learn region-specific features to represent samples in a local pattern by explicitly maximizing cycle consistency. While, De-Mixing drives detectors to obtain the instance-specific features with global information for more comprehensive representation by maximizing topological consistency. Extensive experimental results show that the proposed method can achieve significant improvements in terms of both face and fingerprint PAD in more complicated and hybrid datasets, when compared with the state-of-the-art methods. Specifically, when training in CASIA-FASD and Idiap Replay-Attack, the proposed method can achieve 18.60% Equal Error Rate (EER) in OULU-NPU and MSU-MFSD, exceeding baseline performance by 9.54%. Code will be made publicly available.
翻訳日:2021-09-10 14:32:04 公開日:2021-09-09
# MetaXT: 異なるラベル空間間のメタクロスタスク転送

MetaXT: Meta Cross-Task Transfer between Disparate Label Spaces ( http://arxiv.org/abs/2109.04240v1 )

ライセンス: Link先を確認
Srinagesh Sharma, Guoqing Zheng and Ahmed Hassan Awadallah(参考訳) 事前訓練された言語モデルの普遍的な表現力に加えて、特定のNLPタスクに適用するには、かなりの量のラベル付きデータが必要である。 効果的なタスクの微調整は、タスクにラベル付きの例しか存在しない場合の課題を満たす。 本稿では,関連性はあるが異なるラベル空間を持つ異なるタスクを活用,移動させることにより,ショットタスク学習の課題に対処することを目的とする。 具体的には、ラベル転送ネットワーク(LTN)を考案し、ラベルをソースタスクからトレーニング対象タスクに変換する。 LTNとタスク予測モデルの両方は、メタXTと呼ばれる双方向最適化フレームワークを用いて学習される。 metaxtは、ソースタスクから知識を転送することによって、事前訓練された言語モデルをターゲットタスクに最善に適応させる原則付きソリューションを提供する。 ラベル空間の異なる2種類の異なる4つのNLPタスクに対するクロスタスク転送設定に関する実証的な評価は、特に対象タスクにおけるラベル付きデータが制限された場合、MetaXTの有効性を示す。

Albeit the universal representational power of pre-trained language models, adapting them onto a specific NLP task still requires a considerably large amount of labeled data. Effective task fine-tuning meets challenges when only a few labeled examples are present for the task. In this paper, we aim to the address of the problem of few shot task learning by exploiting and transferring from a different task which admits a related but disparate label space. Specifically, we devise a label transfer network (LTN) to transform the labels from source task to the target task of interest for training. Both the LTN and the model for task prediction are learned via a bi-level optimization framework, which we term as MetaXT. MetaXT offers a principled solution to best adapt a pre-trained language model to the target task by transferring knowledge from the source task. Empirical evaluations on cross-task transfer settings for four NLP tasks, from two different types of label space disparities, demonstrate the effectiveness of MetaXT, especially when the labeled data in the target task is limited.
翻訳日:2021-09-10 14:31:20 公開日:2021-09-09
# 地図学のアクティブラーニング

Cartography Active Learning ( http://arxiv.org/abs/2109.04282v1 )

ライセンス: Link先を確認
Mike Zhang, Barbara Plank(参考訳) そこで本研究では,学習中の個々のインスタンスに対するモデルの振る舞いを,最も有益なラベリングインスタンスを見つけるためのプロキシとして活用する,新しいアクティブラーニング(al)アルゴリズムであるcartoography active learning (cal)を提案する。 CALはデータセットの品質に関する洞察を導き出すために最近提案されたデータマップにインスパイアされている(Swayamdipta et al., 2020)。 我々は,一般的なテキスト分類タスクにおいて,学習後の行動に依存するAL戦略と比較した。 我々は、CALが他の一般的なAL手法と競合していることを示し、小さなシードデータから派生したトレーニングダイナミクスをALでうまく利用できることを示した。 データマップを用いてバッチレベルの統計解析を行い,新しいal法について考察する。 さらに,calはデータ効率のよい学習戦略を実現し,より少ないトレーニングデータで同等以上の結果を得ることができた。

We propose Cartography Active Learning (CAL), a novel Active Learning (AL) algorithm that exploits the behavior of the model on individual instances during training as a proxy to find the most informative instances for labeling. CAL is inspired by data maps, which were recently proposed to derive insights into dataset quality (Swayamdipta et al., 2020). We compare our method on popular text classification tasks to commonly used AL strategies, which instead rely on post-training behavior. We demonstrate that CAL is competitive to other common AL methods, showing that training dynamics derived from small seed data can be successfully used for AL. We provide insights into our new AL method by analyzing batch-level statistics utilizing the data maps. Our results further show that CAL results in a more data-efficient learning strategy, achieving comparable or better results with considerably less training data.
翻訳日:2021-09-10 14:31:02 公開日:2021-09-09
# ECQ$^{\text{x}}$:低ビットDNNとスパースDNNのための説明可能性駆動量子化

ECQ$^{\text{x}}$: Explainability-Drive n Quantization for Low-Bit and Sparse DNNs ( http://arxiv.org/abs/2109.04236v1 )

ライセンス: Link先を確認
Daniel Becking, Maximilian Dreyer, Wojciech Samek, Karsten M\"uller, Sebastian Lapuschkin(参考訳) 様々なアプリケーションにおけるディープニューラルネットワーク(DNN)の顕著な成功は、ネットワークパラメータと算術演算の大幅な増加を伴う。 このようなメモリと計算能力の増大は、モバイルデバイスのようなリソースに制約のあるハードウェアプラットフォームではディープラーニングを禁止する。 最近の取り組みは、モデル性能を可能な限り保ちながら、これらのオーバーヘッドを削減し、パラメータ削減技術、パラメータ量子化、ロスレス圧縮技術を含むことを目的としている。 本章では,DNNの新たな量子化パラダイムの開発と解説を行う: 説明可能なAI(XAI)の概念と情報理論の活用: 距離に基づいて重み値を量子化クラスタに割り当てる代わりに,代入関数は,レイヤワイド・レバレンス・プロパゲーション(LRP)とクラスタの情報内容(エントロピー最適化)から得られる重み関連性も考慮する。 究極の目標は、最も重要な情報コンテンツの量子化クラスタにおいて、最も関連する重みを保持することである。 実験結果から,この新しいエントロピー制約およびXAI調整量子化(ECQ$^{\text{x}}$)法は,モデル性能の維持や改善を図りながら,超低精度(2-5ビット)で同時にスパースニューラルネットワークを生成することがわかった。 パラメータの精度が低下し、ゼロ要素数が多いため、レンダリングされたネットワークはファイルサイズで圧縮可能であり、全精度の非量子化dnnモデルと比較して最大103\times$である。 提案手法は,Google Speech Commands や CIFAR-10 など,さまざまなモデルやデータセットを用いて評価し,過去の研究と比較した。

The remarkable success of deep neural networks (DNNs) in various applications is accompanied by a significant increase in network parameters and arithmetic operations. Such increases in memory and computational demands make deep learning prohibitive for resource-constrained hardware platforms such as mobile devices. Recent efforts aim to reduce these overheads, while preserving model performance as much as possible, and include parameter reduction techniques, parameter quantization, and lossless compression techniques. In this chapter, we develop and describe a novel quantization paradigm for DNNs: Our method leverages concepts of explainable AI (XAI) and concepts of information theory: Instead of assigning weight values based on their distances to the quantization clusters, the assignment function additionally considers weight relevances obtained from Layer-wise Relevance Propagation (LRP) and the information content of the clusters (entropy optimization). The ultimate goal is to preserve the most relevant weights in quantization clusters of highest information content. Experimental results show that this novel Entropy-Constrained and XAI-adjusted Quantization (ECQ$^{\text{x}}$) method generates ultra low-precision (2-5 bit) and simultaneously sparse neural networks while maintaining or even improving model performance. Due to reduced parameter precision and high number of zero-elements, the rendered networks are highly compressible in terms of file size, up to $103\times$ compared to the full-precision unquantized DNN model. Our approach was evaluated on different types of models and datasets (including Google Speech Commands and CIFAR-10) and compared with previous work.
翻訳日:2021-09-10 14:30:35 公開日:2021-09-09
# Popularity Adjusted Block Models are Generalized Random Dot Product Graphs

Popularity Adjusted Block Models are Generalized Random Dot Product Graphs ( http://arxiv.org/abs/2109.04010v1 )

ライセンス: Link先を確認
John Koo, Minh Tang, Michael W. Trosset(参考訳) 我々は,pabm が grdpg の特別な場合であり,コミュニティが潜在ベクトルの相互直交部分空間に対応していることを示すことにより,人気調整ブロックモデル (pabm) と一般化ランダムドット積グラフ (grdpg) の2つのランダムグラフモデルを接続する。 この洞察により、pabmのコミュニティ検出とパラメータ推定のための新しいアルゴリズムを構築し、スパース部分空間クラスタリングに依存する既存のアルゴリズムを改善することができます。 GRDPGのための隣接スペクトル埋め込みの確立された漸近特性を用いて,これらのアルゴリズムの漸近特性を導出する。 特に,グラフ頂点数が無限になるにつれて,コミュニティ検出誤差の絶対数がゼロになる傾向が示されている。 シミュレーション実験はこれらの特性を例証する。

We connect two random graph models, the Popularity Adjusted Block Model (PABM) and the Generalized Random Dot Product Graph (GRDPG), by demonstrating that the PABM is a special case of the GRDPG in which communities correspond to mutually orthogonal subspaces of latent vectors. This insight allows us to construct new algorithms for community detection and parameter estimation for the PABM, as well as improve an existing algorithm that relies on Sparse Subspace Clustering. Using established asymptotic properties of Adjacency Spectral Embedding for the GRDPG, we derive asymptotic properties of these algorithms. In particular, we demonstrate that the absolute number of community detection errors tends to zero as the number of graph vertices tends to infinity. Simulation experiments illustrate these properties.
翻訳日:2021-09-10 14:29:31 公開日:2021-09-09
# グラフニューラルネットワークと構造因果モデルの関係

Relating Graph Neural Networks to Structural Causal Models ( http://arxiv.org/abs/2109.04173v1 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c, Devendra Singh Dhami, Petar Veli\v{c}kovi\'c, Kristian Kersting(参考訳) 因果関係は、興味のある変数とその力学関係に関する情報を伝達する構造因果モデル(SCM)によって記述することができる。 ほとんどのプロセスにおいて、基礎となるSCMは部分的にしか観測できないため、因果推論は露見した情報を活用しようとする。 構造化入力に対する普遍的近似器としてのグラフニューラルネットワーク(GNN)は因果学習の候補となり、SCMとの緊密な統合が示唆される。 そこで本研究では,gnn と scm の新たな接続を確立させる第一原理からの理論解析を行い,一般のニューラルコーサルモデルに対する拡張ビューを提供する。 次に, 因果効果同定に必要かつ十分なgnnに基づく因果推論のための新しいモデルクラスを構築した。 シミュレーションと標準ベンチマークに関する実証図は、我々の理論的証明を検証する。

Causality can be described in terms of a structural causal model (SCM) that carries information on the variables of interest and their mechanistic relations. For most processes of interest the underlying SCM will only be partially observable, thus causal inference tries to leverage any exposed information. Graph neural networks (GNN) as universal approximators on structured input pose a viable candidate for causal learning, suggesting a tighter integration with SCM. To this effect we present a theoretical analysis from first principles that establishes a novel connection between GNN and SCM while providing an extended view on general neural-causal models. We then establish a new model class for GNN-based causal inference that is necessary and sufficient for causal effect identification. Our empirical illustration on simulations and standard benchmarks validate our theoretical proofs.
翻訳日:2021-09-10 14:29:15 公開日:2021-09-09
# 機械学習による企業温室効果ガス排出量の推定

Estimation of Corporate Greenhouse Gas Emissions via Machine Learning ( http://arxiv.org/abs/2109.04318v1 )

ライセンス: Link先を確認
You Han, Achintya Gopal, Liwen Ouyang, Aaron Key(参考訳) 2050年までにパリ協定を履行し、ネットゼロ排出を達成するための重要なステップとして、欧州委員会は2021年4月に持続可能な活動に向けた資本フローを改善するための最も野心的な気候変動対策パッケージを採択した。 こうした国際的措置が成功するためには、信頼できるデータが重要だ。 世界中の企業のカーボンフットプリントを見る能力は、投資家にとってこの措置に従うことが重要だ。 しかし、温室効果ガス(GHG)排出の開示を志願している企業はごく少数であり、投資家が投資戦略を同調することはほぼ不可能である。 公表されたGHG排出量に関する機械学習モデルをトレーニングすることにより、排出を公表していない他の企業の排出量を世界規模で推定することができる。 本稿では,企業におけるGHG排出量の正確な推計を投資家に提供し,投資を規制措置と整合させ,純ゼロの目標を達成できることを示す。

As an important step to fulfill the Paris Agreement and achieve net-zero emissions by 2050, the European Commission adopted the most ambitious package of climate impact measures in April 2021 to improve the flow of capital towards sustainable activities. For these and other international measures to be successful, reliable data is key. The ability to see the carbon footprint of companies around the world will be critical for investors to comply with the measures. However, with only a small portion of companies volunteering to disclose their greenhouse gas (GHG) emissions, it is nearly impossible for investors to align their investment strategies with the measures. By training a machine learning model on disclosed GHG emissions, we are able to estimate the emissions of other companies globally who do not disclose their emissions. In this paper, we show that our model provides accurate estimates of corporate GHG emissions to investors such that they are able to align their investments with the regulatory measures and achieve net-zero goals.
翻訳日:2021-09-10 14:29:01 公開日:2021-09-09
# COLUMBUS:知識破壊によるドメイン一般化のための新しいマルチレベル機能の自動発見

COLUMBUS: Automated Discovery of New Multi-Level Features for Domain Generalization via Knowledge Corruption ( http://arxiv.org/abs/2109.04320v1 )

ライセンス: Link先を確認
Ahmed Frikha, Denis Krompa{\ss}, Volker Tresp(参考訳) 強いドメインシフトを含む現実のシナリオに適用する場合、目に見えないドメインに一般化できる機械学習モデルは不可欠である。 我々は、ソースドメインの集合で訓練されたモデルが、データに触れることなく、目に見えないドメインでうまく一般化されることを期待する、挑戦的なドメイン一般化(DG)問題に対処する。 DGの主な課題は、ソースドメインから学んだ機能は、必ずしも目に見えないターゲットドメインに存在せず、パフォーマンスが劣化することです。 よりリッチな機能の集合を学ぶことは、未知のドメインのより広いセットへの移行を改善するために重要であると仮定する。 そこで本稿では,最も関連する入力とマルチレベル表現をターゲットとした破壊により,新機能の発見を強制する手法であるcolumbusを提案する。 我々は,DomainBedフレームワークの複数のDGベンチマークデータセット上で18のDGアルゴリズムを上回り,新しい最先端結果を実現する手法の有効性を示す実験的な評価を行った。

Machine learning models that can generalize to unseen domains are essential when applied in real-world scenarios involving strong domain shifts. We address the challenging domain generalization (DG) problem, where a model trained on a set of source domains is expected to generalize well in unseen domains without any exposure to their data. The main challenge of DG is that the features learned from the source domains are not necessarily present in the unseen target domains, leading to performance deterioration. We assume that learning a richer set of features is crucial to improve the transfer to a wider set of unknown domains. For this reason, we propose COLUMBUS, a method that enforces new feature discovery via a targeted corruption of the most relevant input and multi-level representations of the data. We conduct an extensive empirical evaluation to demonstrate the effectiveness of the proposed approach which achieves new state-of-the-art results by outperforming 18 DG algorithms on multiple DG benchmark datasets in the DomainBed framework.
翻訳日:2021-09-10 14:28:45 公開日:2021-09-09
# 共役ベイズ線形回帰フレームワークを用いた大規模空間データセットのモデル化

Modeling Massive Spatial Datasets Using a Conjugate Bayesian Linear Regression Framework ( http://arxiv.org/abs/2109.04447v1 )

ライセンス: Link先を確認
Sudipto Banerjee(参考訳) 地理情報システム(GIS)とその関連技術は,大規模空間データセット解析のためのスケーラブルな手法に関して,統計学者の間で大きな関心を集めている。 ベイズ推論を実行するために階層的モデリングフレームワークに組み込むことができる、様々なスケーラブルな空間的プロセスモデルが提案されている。 統計的研究の焦点は、主に革新的でより複雑なモデル開発に向けられているが、実践科学者や空間分析者のために容易に実装可能なスケーラブルな階層モデルへのアプローチに比較的限定された注意が向けられている。 本稿では,空間過程の推論を迅速に行うことができる共役ベイズ線形回帰モデルとして,点参照空間過程モデルをどうキャストするかを論じる。 このアプローチにより、回帰パラメータ、潜在過程、予測確率変数の合同後続分布から直接(マルコフ連鎖モンテカルロのような反復アルゴリズムを回避)正確なサンプリングが可能となり、R のような統計的プログラミング環境で容易に実装できる。

Geographic Information Systems (GIS) and related technologies have generated substantial interest among statisticians with regard to scalable methodologies for analyzing large spatial datasets. A variety of scalable spatial process models have been proposed that can be easily embedded within a hierarchical modeling framework to carry out Bayesian inference. While the focus of statistical research has mostly been directed toward innovative and more complex model development, relatively limited attention has been accorded to approaches for easily implementable scalable hierarchical models for the practicing scientist or spatial analyst. This article discusses how point-referenced spatial process models can be cast as a conjugate Bayesian linear regression that can rapidly deliver inference on spatial processes. The approach allows exact sampling directly (avoids iterative algorithms such as Markov chain Monte Carlo) from the joint posterior distribution of regression parameters, the latent process and the predictive random variables, and can be easily implemented on statistical programming environments such as R.
翻訳日:2021-09-10 14:28:28 公開日:2021-09-09
# 原始グラフネットワークを用いた単一画像3次元オブジェクト推定

Single Image 3D Object Estimation with Primitive Graph Networks ( http://arxiv.org/abs/2109.04153v1 )

ライセンス: Link先を確認
Qian He, Desen Zhou, Bo Wan, Xuming He(参考訳) 単一の画像(RGBまたは深さ)から3Dオブジェクトを再構成することは、視覚的なシーン理解の根本的な問題であり、現実のシーンでは不適切な性質と複雑さのため、依然として困難である。 これらの課題に対処するために,我々は3dオブジェクトのプリミティブベース表現を採用し,逐次提案モジュールとグラフ推論モジュールからなる,プリミティブベースの3dオブジェクト推定のための2段階グラフネットワークを提案する。 2次元画像が与えられたとき、提案モジュールはまず、局所的な特徴に注意を向けた入力画像から3次元プリミティブのシーケンスを生成する。 そして、グラフ推論モジュールはプリミティブグラフ上で共同推論を行い、プリミティブごとのグローバルな形状コンテキストをキャプチャする。 このようなフレームワークは、3D構造回復中にリッチな幾何学的制約や意味的制約を考慮に入れ、困難な観察条件下でもより一貫性のある3Dオブジェクトを生成することができる。 ステージワイズ戦略でグラフニューラルネットワーク全体をトレーニングし、Pix3D、ModelNet、NYU Depth V2の3つのベンチマークで評価する。 広範な実験によって、我々のアプローチは前回の最先端の芸術をかなり上回っています。

Reconstructing 3D object from a single image (RGB or depth) is a fundamental problem in visual scene understanding and yet remains challenging due to its ill-posed nature and complexity in real-world scenes. To address those challenges, we adopt a primitive-based representation for 3D object, and propose a two-stage graph network for primitive-based 3D object estimation, which consists of a sequential proposal module and a graph reasoning module. Given a 2D image, our proposal module first generates a sequence of 3D primitives from input image with local feature attention. Then the graph reasoning module performs joint reasoning on a primitive graph to capture the global shape context for each primitive. Such a framework is capable of taking into account rich geometry and semantic constraints during 3D structure recovery, producing 3D objects with more coherent structure even under challenging viewing conditions. We train the entire graph neural network in a stage-wise strategy and evaluate it on three benchmarks: Pix3D, ModelNet and NYU Depth V2. Extensive experiments show that our approach outperforms the previous state of the arts with a considerable margin.
翻訳日:2021-09-10 14:28:12 公開日:2021-09-09
# エネルギー攻撃 : 敵の移動事例について

Energy Attack: On Transferring Adversarial Examples ( http://arxiv.org/abs/2109.04300v1 )

ライセンス: Link先を確認
Ruoxi Shi, Borui Yang, Yangzhou Jiang, Chenglong Zhao, Bingbing Ni(参考訳) 本研究では、転送ベースのブラックボックスである$L_\infty$-adversari al attackを提案する。 攻撃はパラメータフリーであり、勾配近似を必要としない。 特に,まずサロゲートモデルのホワイトボックス逆摂動を取得し,これらの摂動を小さなパッチに分割する。 次に,これらのパッチの単位成分ベクトルと固有値を主成分分析(PCA)を用いて抽出する。 固有値に基づいて、逆摂動のエネルギー分布をモデル化することができる。 次に,摂動パッチからエネルギー分布に応じてサンプリングしてブラックボックス攻撃を行い,サンプルパッチをタイリングしてフルサイズの対向摂動を形成する。 これは、被害者のモデルにアクセスできなくてもできる。 広範な実験により、提案されたエネルギー攻撃は、様々なモデルといくつかのデータセットに対するブラックボックス攻撃において最先端のパフォーマンスを達成することをよく示している。 さらに、抽出した分布は異なるモデルアーキテクチャと異なるデータセット間で転送可能であるため、視覚アーキテクチャに固有のものである。

In this work we propose Energy Attack, a transfer-based black-box $L_\infty$-adversari al attack. The attack is parameter-free and does not require gradient approximation. In particular, we first obtain white-box adversarial perturbations of a surrogate model and divide these perturbations into small patches. Then we extract the unit component vectors and eigenvalues of these patches with principal component analysis (PCA). Base on the eigenvalues, we can model the energy distribution of adversarial perturbations. We then perform black-box attacks by sampling from the perturbation patches according to their energy distribution, and tiling the sampled patches to form a full-size adversarial perturbation. This can be done without the available access to victim models. Extensive experiments well demonstrate that the proposed Energy Attack achieves state-of-the-art performance in black-box attacks on various models and several datasets. Moreover, the extracted distribution is able to transfer among different model architectures and different datasets, and is therefore intrinsic to vision architectures.
翻訳日:2021-09-10 14:27:52 公開日:2021-09-09
# ニューラルIMLS:無向点雲の表面再構成のための最小二乗学習

Neural-IMLS: Learning Implicit Moving Least-Squares for Surface Reconstruction from Unoriented Point clouds ( http://arxiv.org/abs/2109.04398v1 )

ライセンス: Link先を確認
Zixiong Wang, Pengfei Wang, Qiujie Dong, Junjie Gao, Shuangmin Chen, Shiqing Xin, Changhe Tu(参考訳) ノイズ、非均一、無指向の点雲による表面再構成は、コンピュータビジョンとコンピュータグラフィックスにおいて興味深いが難しい問題である。 本稿では,雑音耐性符号距離関数(SDF)を学習する新しい手法であるNeural-IMLSを提案する。 提案手法は, 接頭辞符号付き距離値で事前学習を行う代わりに, 暗黙的移動最小二乗関数 (imls) とネットワークによって得られる2つのsdf間の損失を最小化することにより, 生点雲から直接自己教師あり方式でsdfを学習する。 最後に、マーチングキューブを走行することにより、水密で滑らかな2次元三角形メッシュが得られる。 我々は,ニューラル・IMLSの性能,特にノイズのある点雲について,様々なベンチマークで広範な実験を行った。

Surface reconstruction from noisy, non-uniformly, and unoriented point clouds is a fascinating yet difficult problem in computer vision and computer graphics. In this paper, we propose Neural-IMLS, a novel approach that learning noise-resistant signed distance function (SDF) for reconstruction. Instead of explicitly learning priors with the ground-truth signed distance values, our method learns the SDF from raw point clouds directly in a self-supervised fashion by minimizing the loss between the couple of SDFs, one obtained by the implicit moving least-square function (IMLS) and the other by our network. Finally, a watertight and smooth 2-manifold triangle mesh is yielded by running Marching Cubes. We conduct extensive experiments on various benchmarks to demonstrate the performance of Neural-IMLS, especially for point clouds with noise.
翻訳日:2021-09-10 14:27:39 公開日:2021-09-09
# 行動クローニングを用いた多面体性テクストアタック

Multi-granularity Textual Adversarial Attack with Behavior Cloning ( http://arxiv.org/abs/2109.04367v1 )

ライセンス: Link先を確認
Yangyi Chen, Jin Su, Wei Wei(参考訳) 近年,NLPモデルのロバスト性を推定することに成功したため,テキストの敵対攻撃モデルの人気が高まっている。 しかし、既存の作品には明らかな欠陥がある。 1)通常、修正戦略の1つの粒度のみを考える(例えば、)。 単語レベル(文レベル)は、生成のための全体論的なテキスト空間を探索するには不十分である。(2)攻撃を成功させるためには、数百回も被害者モデルに問い合わせる必要があるが、実際は非効率である。 このような問題に対処するため,本論文では,被害者モデルに対するクエリの少ない,高品質な対数サンプルを効果的に生成するMAYAを提案する。 さらに,MAYAアルゴリズムの知識を活かした行動クローニングにより,多粒度攻撃エージェントを訓練する強化学習手法を提案し,クエリ時間をさらに短縮する。 さらに,信頼スコアのないラベルのみを出力するブラックボックスモデルに対して,エージェントを適応させる。 2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。 実験結果から,本モデルでは攻撃性能が全般的に向上し,ベースラインモデルと比較して,より流動的で文法的な対数サンプルが得られた。 さらに,敵攻撃エージェントは,双方の攻撃設定におけるクエリ時間を大幅に短縮する。 私たちのコードはhttps://github.com/Y angyi-Chen/MAYA.comで公開されています。

Recently, the textual adversarial attack models become increasingly popular due to their successful in estimating the robustness of NLP models. However, existing works have obvious deficiencies. (1) They usually consider only a single granularity of modification strategies (e.g. word-level or sentence-level), which is insufficient to explore the holistic textual space for generation; (2) They need to query victim models hundreds of times to make a successful attack, which is highly inefficient in practice. To address such problems, in this paper we propose MAYA, a Multi-grAnularitY Attack model to effectively generate high-quality adversarial samples with fewer queries to victim models. Furthermore, we propose a reinforcement-learni ng based method to train a multi-granularity attack agent through behavior cloning with the expert knowledge from our MAYA algorithm to further reduce the query times. Additionally, we also adapt the agent to attack black-box models that only output labels without confidence scores. We conduct comprehensive experiments to evaluate our attack models by attacking BiLSTM, BERT and RoBERTa in two different black-box attack settings and three benchmark datasets. Experimental results show that our models achieve overall better attacking performance and produce more fluent and grammatical adversarial samples compared to baseline models. Besides, our adversarial attack agent significantly reduces the query times in both attack settings. Our codes are released at https://github.com/Y angyi-Chen/MAYA.
翻訳日:2021-09-10 14:27:24 公開日:2021-09-09
# 平均場制御(MFC)を用いた協調的異種マルチエージェント強化学習(MARL)の近似について

On the Approximation of Cooperative Heterogeneous Multi-Agent Reinforcement Learning (MARL) using Mean Field Control (MFC) ( http://arxiv.org/abs/2109.04024v1 )

ライセンス: Link先を確認
Washim Uddin Mondal, Mridul Agarwal, Vaneet Aggarwal, and Satish V. Ukkusuri(参考訳) 平均場制御(MFC)は、協調型マルチエージェント強化学習(MARL)問題の次元性の呪いを軽減する効果的な方法である。 この研究は、$k$-thクラスが$n_k$ 等質エージェントを含むような$k$クラスに分離できる$n_{\mathrm{pop}}$ヘテロジニアスエージェントの集合を考える。 この不均一系に対するMARL問題の近似保証を対応するMFC問題によって証明することを目指している。 すべてのエージェントの報酬とトランジションダイナミクスがそれぞれ、すべてのクラスにおける$(1)$合同状態とアクション分布、各クラスの$(2)$個別分布、および$(3)$全人口のマージン分布の関数として取られる3つのシナリオを検討した。 We show that, in these cases, the $K$-class MARL problem can be approximated by MFC with errors given as $e_1=\mathcal{O}(\frac{\sqrt{|\mathcal{X}||\mathcal{U}|}}{N_{\mathrm{pop}}}\sum_{k}\sqrt{N_k})$, $e_2=\mathcal{O}(\sqrt{|\mathcal{X}||\mathcal{U}|}\sum_{k}\frac{1}{\sqrt{N_k}})$ and $e_3=\mathcal{O}\left(\sqrt{|\mathcal{X}||\mathcal{U}|}\left[\frac{A}{N_{\mathrm{pop}}}\sum_{k\in[K]}\sqrt{N_k}+\frac{B}{\sqrt{N_{\mathrm{pop}}}}\right]\right)$, respectively, where $A, B$ are some constants and $|\mathcal{X}|,|\mathcal{U}|$ are the sizes of state and action spaces of each agent. 最後に、上記の3つのケースにおいて、それぞれ$\mathcal{O}(e_j)$エラーと$\mathcal{O}(e_j^{-3})$,$j\in\{1,2,3\}$のサンプル複雑性で最適なMARLポリシーに収束できる自然ポリシー勾配(NPG)ベースのアルゴリズムを設計する。

Mean field control (MFC) is an effective way to mitigate the curse of dimensionality of cooperative multi-agent reinforcement learning (MARL) problems. This work considers a collection of $N_{\mathrm{pop}}$ heterogeneous agents that can be segregated into $K$ classes such that the $k$-th class contains $N_k$ homogeneous agents. We aim to prove approximation guarantees of the MARL problem for this heterogeneous system by its corresponding MFC problem. We consider three scenarios where the reward and transition dynamics of all agents are respectively taken to be functions of $(1)$ joint state and action distributions across all classes, $(2)$ individual distributions of each class, and $(3)$ marginal distributions of the entire population. We show that, in these cases, the $K$-class MARL problem can be approximated by MFC with errors given as $e_1=\mathcal{O}(\frac{\sqrt{|\mathcal{X}||\mathcal{U}|}}{N_{\mathrm{pop}}}\sum_{k}\sqrt{N_k})$, $e_2=\mathcal{O}(\sqrt{|\mathcal{X}||\mathcal{U}|}\sum_{k}\frac{1}{\sqrt{N_k}})$ and $e_3=\mathcal{O}\left(\sqrt{|\mathcal{X}||\mathcal{U}|}\left[\frac{A}{N_{\mathrm{pop}}}\sum_{k\in[K]}\sqrt{N_k}+\frac{B}{\sqrt{N_{\mathrm{pop}}}}\right]\right)$, respectively, where $A, B$ are some constants and $|\mathcal{X}|,|\mathcal{U}|$ are the sizes of state and action spaces of each agent. Finally, we design a Natural Policy Gradient (NPG) based algorithm that, in the three cases stated above, can converge to an optimal MARL policy within $\mathcal{O}(e_j)$ error with a sample complexity of $\mathcal{O}(e_j^{-3})$, $j\in\{1,2,3\}$, respectively.
翻訳日:2021-09-10 14:26:59 公開日:2021-09-09
# DROP:最適な配車車両配置のためのDeep relocating option Policy

DROP: Deep relocating option policy for optimal ride-hailing vehicle repositioning ( http://arxiv.org/abs/2109.04149v1 )

ライセンス: Link先を確認
Xinwu Qian, Shuocheng Guo, Vaneet Aggarwal(参考訳) 配車システムにおいて、空席車両の最適移動は、車両のアイドリング時間を著しく短縮し、供給需要分布のバランスを保ち、システム効率を向上し、運転者の満足と維持を促進することができる。 モデルフリー深部強化学習(DRL)は,大規模配車システムにおける本質的なダイナミクスと積極的に相互作用することで,移動政策を動的に学習する。 しかし、十分な報酬信号と不均衡な需要と供給分布の問題は、効果的なDRLモデルの開発において重要な障壁となっている。 従来の探査戦略(例えば$\epsilon$-greedy)は、高リターンな地域から離れた低需要の地域でのダイザリングのため、そのような環境下ではほとんど機能しない。 本研究は,過供給地域から脱出する車両エージェントを監督し,潜在的に保全されていない地域へ効果的に移動させる,深層移動オプションポリシー(DROP)を提案する。 本稿では,システム転位ポリシーの近似表現として,時間拡張再配置グラフのラプラシアン埋め込みを学習することを提案する。 埋め込みは、タスク依存信号と組み合わせて、DROPを生成する擬逆関数を構成するタスク非依存信号を生成する。 本稿では,ハイレベル転位ポリシと低レベルDROPのセットをトレーニングする階層型学習フレームワークを提案する。 本手法の有効性を実世界旅行記録データを用いたカスタム構築高忠実度シミュレータを用いて実証した。 我々は,DROPが時間収益15.7%のベースラインモデルを大幅に改善し,低需要地域でのディザリング問題を効果的に解決できることを報告した。

In a ride-hailing system, an optimal relocation of vacant vehicles can significantly reduce fleet idling time and balance the supply-demand distribution, enhancing system efficiency and promoting driver satisfaction and retention. Model-free deep reinforcement learning (DRL) has been shown to dynamically learn the relocating policy by actively interacting with the intrinsic dynamics in large-scale ride-hailing systems. However, the issues of sparse reward signals and unbalanced demand and supply distribution place critical barriers in developing effective DRL models. Conventional exploration strategy (e.g., the $\epsilon$-greedy) may barely work under such an environment because of dithering in low-demand regions distant from high-revenue regions. This study proposes the deep relocating option policy (DROP) that supervises vehicle agents to escape from oversupply areas and effectively relocate to potentially underserved areas. We propose to learn the Laplacian embedding of a time-expanded relocation graph, as an approximation representation of the system relocation policy. The embedding generates task-agnostic signals, which in combination with task-dependent signals, constitute the pseudo-reward function for generating DROPs. We present a hierarchical learning framework that trains a high-level relocation policy and a set of low-level DROPs. The effectiveness of our approach is demonstrated using a custom-built high-fidelity simulator with real-world trip record data. We report that DROP significantly improves baseline models with 15.7% more hourly revenue and can effectively resolve the dithering issue in low-demand areas.
翻訳日:2021-09-10 14:25:53 公開日:2021-09-09
# モデル非依存不確実性学習によるテスト時の障害リスクの検出と軽減

Detecting and Mitigating Test-time Failure Risks via Model-agnostic Uncertainty Learning ( http://arxiv.org/abs/2109.04432v1 )

ライセンス: Link先を確認
Preethi Lahoti, Krishna P. Gummadi, and Gerhard Weikum(参考訳) プロダクションデータでデプロイされたマシンラーニング(ML)システムの潜在的な障害リスクを確実に予測することは、信頼できるAIの重要な側面である。 本稿では,すでにトレーニング済みのブラックボックス分類モデルの障害リスクと予測の不確実性を推定する,新しいポストホックメタリーナーであるリスクアドバイザを紹介する。 リスクスコアの提供に加えて、リスクアドバイザリは不確実性推定をアレエータ的および認識的不確実性要素に分解し、失敗を誘発する不確実性の原因に関する有益な洞察を与える。 その結果、リスクアドバイザは、データ変数、データシフト、モデル制限による障害を区別し、緩和アクション(例えば、データシフトに対応するためにより多くのデータを集める)をアドバイスすることができる。 ブラックボックス分類モデルや、一般的なML障害シナリオをカバーする実世界および合成データセットのさまざまなファミリーに関する大規模な実験は、リスクアドバイザーがすべてのシナリオにおけるデプロイメント時の障害リスクを確実に予測し、強力なベースラインを上回っていることを示している。

Reliably predicting potential failure risks of machine learning (ML) systems when deployed with production data is a crucial aspect of trustworthy AI. This paper introduces Risk Advisor, a novel post-hoc meta-learner for estimating failure risks and predictive uncertainties of any already-trained black-box classification model. In addition to providing a risk score, the Risk Advisor decomposes the uncertainty estimates into aleatoric and epistemic uncertainty components, thus giving informative insights into the sources of uncertainty inducing the failures. Consequently, Risk Advisor can distinguish between failures caused by data variability, data shifts and model limitations and advise on mitigation actions (e.g., collecting more data to counter data shift). Extensive experiments on various families of black-box classification models and on real-world and synthetic datasets covering common ML failure scenarios show that the Risk Advisor reliably predicts deployment-time failure risks in all the scenarios, and outperforms strong baselines.
翻訳日:2021-09-10 14:25:27 公開日:2021-09-09
# ディープラーニングフレームワークを活用したラット心臓MRIの完全自動分割に向けて

Towards Fully Automated Segmentation of Rat Cardiac MRI by Leveraging Deep Learning Frameworks ( http://arxiv.org/abs/2109.04188v1 )

ライセンス: Link先を確認
Daniel Fernandez-Llaneza, Andrea Gondova, Harris Vince, Arijit Patra, Magdalena Zurek, Peter Konings, Patrik Kagelid, Leif Hultin(参考訳) ヒト心筋磁気共鳴データセットの自動分割は近年着実に改善されている。 しかし、これらの手法は、限られたデータセットと低い画像解像度のため、前臨床の文脈では直接適用されない。 心機能評価において重要な役割を担っているが,ラットの心機能評価における深部構造の適用は,まだ報告されていない。 我々は,標準的なU-Netアーキテクチャ上に拡張したセグメンテーションモデルを開発し,シストールとダイアストールの相と2MSA,1MSAの全タイムポイントに対して1モデルの評価を行った。 さらに,位相選択を改善するために,ガウス過程(gp)に基づくモデル出力のキャリブレーションを行った。 その結果,1MSAおよび2MSA設定の左室セグメンテーション品質と吐出率(EF)の推定値(S{\o}rensen-Dice score 0.91 +/- 0.072 および 0.93 +/- 0.032 )で人体性能にアプローチした。 2MSA は 3.5 +/-2.5 %, 1MSA は 4.1 +/-3.0 % の平均絶対差を達成した。 ガウス過程を1MSAに適用することで、シストールとジアストールの選択を自動化できる。 本研究は,新しい心相選択戦略と組み合わせて,ラット心分析における完全自動分節パイプラインに向けた重要な第一歩を提示する。

Automated segmentation of human cardiac magnetic resonance datasets has been steadily improving during recent years. However, these methods are not directly applicable in preclinical context due to limited datasets and lower image resolution. Successful application of deep architectures for rat cardiac segmentation, although of critical importance for preclinical evaluation of cardiac function, has to our knowledge not yet been reported. We developed segmentation models that expand on the standard U-Net architecture and evaluated separate models for systole and diastole phases, 2MSA, and one model for all timepoints, 1MSA. Furthermore, we calibrated model outputs using a Gaussian Process (GP)-based prior to improve phase selection. Resulting models approach human performance in terms of left ventricular segmentation quality and ejection fraction (EF) estimation in both 1MSA and 2MSA settings (S{\o}rensen-Dice score 0.91 +/- 0.072 and 0.93 +/- 0.032, respectively). 2MSA achieved a mean absolute difference between estimated and reference EF of 3.5 +/- 2.5 %, while 1MSA resulted in 4.1 +/- 3.0 %. Applying Gaussian Processes to 1MSA allows to automate the selection of systole and diastole phases. Combined with a novel cardiac phase selection strategy, our work presents an important first step towards a fully automated segmentation pipeline in the context of rat cardiac analysis.
翻訳日:2021-09-10 14:24:54 公開日:2021-09-09
# 教師なしノイズ除去によるロバストなクロスドメイン画像理解

Towards Robust Cross-domain Image Understanding with Unsupervised Noise Removal ( http://arxiv.org/abs/2109.04284v1 )

ライセンス: Link先を確認
Lei Zhu, Zhaojing Luo, Wei Wang, Meihui Zhang, Gang Chen and Kaiping Zheng(参考訳) ディープラーニングモデルは通常、十分なパフォーマンスを達成するために大量のラベル付きデータを必要とする。 マルチメディア分析において、ドメイン適応は、ラベルリッチソースドメインからラベル不足ターゲットドメインへのクロスドメイン知識転送の問題を研究するため、ディープラーニングモデルのアノテーション要件を緩和する可能性がある。 しかし, クロスドメイン画像理解のための現代ドメイン適応手法は, ソースドメインがノイズである場合, 不十分であることがわかった。 Weakly Supervised Domain Adaptation (WSDA)は、ソースデータがうるさいシナリオ下で、ドメイン適応の問題を研究する。 WSDAの以前の方法はノイズの多いソースデータを取り除き、埋め込み空間における細粒度のセマンティック構造を考慮せずにドメイン間の限界分布を調整していた。 本稿では,wsdaに対して,ノイズ耐性ドメイン適応と呼ばれる新しい手法を提案する。 具体的には,クラスタ仮定を採用し,組込み空間におけるクラスプロトタイプと判別的にクラスタを学習する。 本稿では,埋め込み空間におけるデータポイントの位置情報を活用し,ガウス混合モデルを用いて位置情報をモデル化し,ノイズのある音源データを特定することを提案する。 次に、教師なしノイズ除去のためのサブモジュールとしてガウス混合雑音モデルを組み込んだネットワークを設計し、未ラベルのターゲットデータと、ドメイン間のセマンティック構造をマッピングするよりノイズの少ないプロトタイプとを整列するクラスタレベルの逆適応手法を提案する。 新型コロナウイルスおよび電子商取引データセットの一般画像と医用画像の両面において,本手法の有効性を評価するための広範な実験を行った。 その結果,本手法は最先端のWSDA手法よりも優れていた。

Deep learning models usually require a large amount of labeled data to achieve satisfactory performance. In multimedia analysis, domain adaptation studies the problem of cross-domain knowledge transfer from a label rich source domain to a label scarce target domain, thus potentially alleviates the annotation requirement for deep learning models. However, we find that contemporary domain adaptation methods for cross-domain image understanding perform poorly when source domain is noisy. Weakly Supervised Domain Adaptation (WSDA) studies the domain adaptation problem under the scenario where source data can be noisy. Prior methods on WSDA remove noisy source data and align the marginal distribution across domains without considering the fine-grained semantic structure in the embedding space, which have the problem of class misalignment, e.g., features of cats in the target domain might be mapped near features of dogs in the source domain. In this paper, we propose a novel method, termed Noise Tolerant Domain Adaptation, for WSDA. Specifically, we adopt the cluster assumption and learn cluster discriminatively with class prototypes in the embedding space. We propose to leverage the location information of the data points in the embedding space and model the location information with a Gaussian mixture model to identify noisy source data. We then design a network which incorporates the Gaussian mixture noise model as a sub-module for unsupervised noise removal and propose a novel cluster-level adversarial adaptation method which aligns unlabeled target data with the less noisy class prototypes for mapping the semantic structure across domains. We conduct extensive experiments to evaluate the effectiveness of our method on both general images and medical images from COVID-19 and e-commerce datasets. The results show that our method significantly outperforms state-of-the-art WSDA methods.
翻訳日:2021-09-10 14:24:28 公開日:2021-09-09
# UCTransNet:トランスフォーマーを用いたチャネルワイド視点からU-Netのスキップ接続を再考する

UCTransNet: Rethinking the Skip Connections in U-Net from a Channel-wise Perspective with Transformer ( http://arxiv.org/abs/2109.04335v1 )

ライセンス: Link先を確認
Haonan Wang, Peng Cao, Jiaqi Wang, Osmar R.Zaiane(参考訳) 最近のセマンティックセグメンテーション手法は、エンコーダ-デコーダアーキテクチャを持つU-Netフレームワークを採用している。 1) 各スキップ接続設定は、エンコーダとデコーダステージの互換性のない機能セットの問題により有効であるわけではなく、いくつかのスキップ接続でさえもセグメント化性能に悪影響を及ぼす。 そこで本研究では,チャネルの観点から,uctransnet(u-netで提案されたctransモジュール)と呼ばれる新しいセグメンテーションフレームワークを提案する。 具体的には、CTransモジュールはU-Netスキップ接続の代替であり、Transformer(CCT)とのマルチスケールチャネルクロスフュージョンを実行するサブモジュールと、CCA(Channel-wise Cross-Attention)と呼ばれるサブモジュールで、融合したマルチスケールチャネルワイド情報を誘導し、曖昧さを取り除くためにデコーダ機能に効果的に接続する。 これにより、CCTとCCAからなる提案された接続は、元のスキップ接続を置き換え、正確な自動医用画像分割のためのセマンティックギャップを解決することができる。 実験結果から,我々のUCTransNetはより高精度なセグメンテーション性能を実現し,さまざまなデータセットやトランスフォーマーやU字型フレームワークを含む従来のアーキテクチャにおけるセグメンテーションの最先端性よりも一貫した改善を実現することが示唆された。 コード:https://github.com/ McGregorWwww/UCTrans Net

Most recent semantic segmentation methods adopt a U-Net framework with an encoder-decoder architecture. It is still challenging for U-Net with a simple skip connection scheme to model the global multi-scale context: 1) Not each skip connection setting is effective due to the issue of incompatible feature sets of encoder and decoder stage, even some skip connection negatively influence the segmentation performance; 2) The original U-Net is worse than the one without any skip connection on some datasets. Based on our findings, we propose a new segmentation framework, named UCTransNet (with a proposed CTrans module in U-Net), from the channel perspective with attention mechanism. Specifically, the CTrans module is an alternate of the U-Net skip connections, which consists of a sub-module to conduct the multi-scale Channel Cross fusion with Transformer (named CCT) and a sub-module Channel-wise Cross-Attention (named CCA) to guide the fused multi-scale channel-wise information to effectively connect to the decoder features for eliminating the ambiguity. Hence, the proposed connection consisting of the CCT and CCA is able to replace the original skip connection to solve the semantic gaps for an accurate automatic medical image segmentation. The experimental results suggest that our UCTransNet produces more precise segmentation performance and achieves consistent improvements over the state-of-the-art for semantic segmentation across different datasets and conventional architectures involving transformer or U-shaped framework. Code: https://github.com/M cGregorWwww/UCTransN et.
翻訳日:2021-09-10 14:24:00 公開日:2021-09-09
# PhysGNN:画像ガイド下神経外科における軟部組織の変形予測のための物理駆動型グラフニューラルネットワークモデル

PhysGNN: A Physics-Driven Graph Neural Network Based Model for Predicting Soft Tissue Deformation in Image-Guided Neurosurgery ( http://arxiv.org/abs/2109.04352v1 )

ライセンス: Link先を確認
Yasmin Salehi, Dennis Giannacopoulos(参考訳) 画像誘導下神経外科手術における術中脳シフトを正しく捉えることは,術前データを術中形状と整合させ,外科的ナビゲーションと最適な手術精度を確保するための重要な課題である。 有限要素法 (FEM) は生体力学的定式化による軟組織変形を効果的に近似する手法として証明されているが, その成功度は, 精度と速度のトレードオフに繋がる。 この問題を解決するために、この分野の最新研究は、さまざまな機械学習アルゴリズムをトレーニングしたデータ駆動モデルを活用することを提案している。 予測により組織変形近似を高速化する有限要素解析(fea)の結果,ランダムフォレスト,人工ニューラルネットワーク(anns)が得られた。 しかしながら、これらの方法は、ノード接続性に関する情報を提供するトレーニング中の有限要素(FE)メッシュの構造と、それらの間の距離を考慮せず、メッシュノードの他の部分との力負荷点の近接に基づく組織変形の近似に役立つ。 そこで本研究では,メッシュ構造情報を計算できるグラフニューラルネットワーク(gnns)と,非構造グリッドと複雑なトポロジ構造上での帰納学習を活用し,feaの解を近似するデータ駆動モデルであるphysgnnを提案する。 実験的に,提案アーキテクチャであるPhysGNNは,神経外科的設定に適した計算可能でありながら,正確かつ高速な軟部組織変形近似を約束することを示した。

Correctly capturing intraoperative brain shift in image-guided neurosurgical procedures is a critical task for aligning preoperative data with intraoperative geometry, ensuring effective surgical navigation and optimal surgical precision. While the finite element method (FEM) is a proven technique to effectively approximate soft tissue deformation through biomechanical formulations, their degree of success boils down to a trade-off between accuracy and speed. To circumvent this problem, the most recent works in this domain have proposed leveraging data-driven models obtained by training various machine learning algorithms, e.g. random forests, artificial neural networks (ANNs), with the results of finite element analysis (FEA) to speed up tissue deformation approximations by prediction. These methods, however, do not account for the structure of the finite element (FE) mesh during training that provides information on node connectivities as well as the distance between them, which can aid with approximating tissue deformation based on the proximity of force load points with the rest of the mesh nodes. Therefore, this work proposes a novel framework, PhysGNN, a data-driven model that approximates the solution of FEA by leveraging graph neural networks (GNNs), which are capable of accounting for the mesh structural information and inductive learning over unstructured grids and complex topological structures. Empirically, we demonstrate that the proposed architecture, PhysGNN, promises accurate and fast soft tissue deformation approximations while remaining computationally feasible, suitable for neurosurgical settings.
翻訳日:2021-09-10 14:23:29 公開日:2021-09-09
# 多言語機械翻訳のための能力に基づくカリキュラム学習

Competence-based Curriculum Learning for Multilingual Machine Translation ( http://arxiv.org/abs/2109.04002v1 )

ライセンス: Link先を確認
Mingliang Zhang, Fandong Meng, Yunhai Tong and Jie Zhou(参考訳) 現在、低リソース言語(LRL)のパフォーマンスが向上し、より多くのスペースが節約されるため、多言語機械翻訳はますます注目を集めている。 しかし、既存の多言語機械翻訳モデルは深刻な課題に直面している。 その結果、多言語翻訳モデルにおける異なる言語の翻訳性能は、かなり異なる。 この不均衡問題は、異なる言語の異なる学習能力に由来すると主張する。 そこで本研究では,異なる言語の学習能力のバランスに着目し,多言語機械翻訳のための能力に基づくカリキュラム学習を提案する。 具体的には、まず、ハイリソース言語(HRL)と低リソース言語(HRL)をスケジュールする2つの能力を定義する。1) 自己評価能力、言語自体の学習能力の評価、2) HRLの自己評価能力に基づいてLRLが学習できるかどうかを評価する。 上記の能力に基づいて,提案するccl-mアルゴリズムを用いて,カリキュラム学習方式の学習セットに徐々に新しい言語を付加する。 さらに,多言語訓練における訓練サンプルの選択性を向上させるための,新しい能力評価動的バランスサンプリング戦略を提案する。 実験結果から,本手法はTEDトークデータセットにおける従来の最先端手法と比較して,安定した性能向上を実現していることがわかった。

Currently, multilingual machine translation is receiving more and more attention since it brings better performance for low resource languages (LRLs) and saves more space. However, existing multilingual machine translation models face a severe challenge: imbalance. As a result, the translation performance of different languages in multilingual translation models are quite different. We argue that this imbalance problem stems from the different learning competencies of different languages. Therefore, we focus on balancing the learning competencies of different languages and propose Competence-based Curriculum Learning for Multilingual Machine Translation, named CCL-M. Specifically, we firstly define two competencies to help schedule the high resource languages (HRLs) and the low resource languages: 1) Self-evaluated Competence, evaluating how well the language itself has been learned; and 2) HRLs-evaluated Competence, evaluating whether an LRL is ready to be learned according to HRLs' Self-evaluated Competence. Based on the above competencies, we utilize the proposed CCL-M algorithm to gradually add new languages into the training set in a curriculum learning manner. Furthermore, we propose a novel competenceaware dynamic balancing sampling strategy for better selecting training samples in multilingual training. Experimental results show that our approach has achieved a steady and significant performance gain compared to the previous state-of-the-art approach on the TED talks dataset.
翻訳日:2021-09-10 14:21:09 公開日:2021-09-09
# 対話におけるターンの文脈表現を用いたグラフベースネットワーク

Graph Based Network with Contextualized Representations of Turns in Dialogue ( http://arxiv.org/abs/2109.04008v1 )

ライセンス: Link先を確認
Bongseok Lee and Yong Suk Choi(参考訳) 対話に基づく関係抽出(RE)は、対話に現れる2つの引数間の関係を抽出することを目的としている。 対話は人称代名詞の出現頻度が高く情報密度が低い特徴を持ち、対話中の関係性事実はいかなる文にも支持されないため、対話に基づく関係抽出は対話の包括的理解を必要とする。 本稿では,対話の理解方法に着目したTUCORE-GCN(TUrn Context aware Graph Convolutional Network)を提案する。 さらに,会話における感情認識(erc)のタスクを対話型reとして扱う新しいアプローチを提案する。 対話型リデータセットと3つのercデータセットを用いた実験により,対話型自然言語理解タスクにおいて,本モデルが非常に有効であることを示す。 これらの実験では、TUCORE-GCNは、ほとんどのベンチマークデータセットにおける最先端モデルよりも優れています。 私たちのコードはhttps://github.com/b lacknoodle/tucore-gc nで利用可能です。

Dialogue-based relation extraction (RE) aims to extract relation(s) between two arguments that appear in a dialogue. Because dialogues have the characteristics of high personal pronoun occurrences and low information density, and since most relational facts in dialogues are not supported by any single sentence, dialogue-based relation extraction requires a comprehensive understanding of dialogue. In this paper, we propose the TUrn COntext awaRE Graph Convolutional Network (TUCORE-GCN) modeled by paying attention to the way people understand dialogues. In addition, we propose a novel approach which treats the task of emotion recognition in conversations (ERC) as a dialogue-based RE. Experiments on a dialogue-based RE dataset and three ERC datasets demonstrate that our model is very effective in various dialogue-based natural language understanding tasks. In these experiments, TUCORE-GCN outperforms the state-of-the-art models on most of the benchmark datasets. Our code is available at https://github.com/B lackNoodle/TUCORE-GC N.
翻訳日:2021-09-10 14:20:48 公開日:2021-09-09
# 知識ベース質問応答のための弱教師付きビジュアルレトリエリーダ

Weakly-Supervised Visual-Retriever-Rea der for Knowledge-based Question Answering ( http://arxiv.org/abs/2109.04014v1 )

ライセンス: Link先を確認
Man Luo, Yankai Zeng, Pratyay Banerjee, Chitta Baral(参考訳) 知識に基づく視覚的質問応答(VQA)は、画像の内容に加えて、外部知識で質問に答える必要がある。 知識に基づくVQAの評価に主に使用されるデータセットはOK-VQAであるが、検索のための金の標準知識コーパスがない。 既存の作業は異なる知識基盤(ConceptNetやWikipediaなど)を活用して外部知識を得る。 知識ベースが異なるため、モデルのパフォーマンスを公平に比較することは困難である。 この問題に対処するため、我々は任意のvqaシステムで使用できる自然言語知識ベースを収集します。 さらに,知識に基づくVQAにアプローチするためのVisual Retriever-Readerパイプラインを提案する。 視覚的検索者は関連する知識を検索することを目的としており、視覚的読者は与えられた知識に基づいて回答を予測する。 テキストと画像を用いて知識を抽出する方法と、分類と抽出の2つのスタイルを紹介する。 レトリバーとリーダーの両方が弱い監督の下で訓練される。 実験の結果,ok-vqa課題において,優れたレトリバーが読者のパフォーマンスを大幅に向上できることがわかった。 コードとコーパスはhttps://github.com/l uomancs/retriever\_r eader\_for\_okvqa.gi tで提供される。

Knowledge-based visual question answering (VQA) requires answering questions with external knowledge in addition to the content of images. One dataset that is mostly used in evaluating knowledge-based VQA is OK-VQA, but it lacks a gold standard knowledge corpus for retrieval. Existing work leverage different knowledge bases (e.g., ConceptNet and Wikipedia) to obtain external knowledge. Because of varying knowledge bases, it is hard to fairly compare models' performance. To address this issue, we collect a natural language knowledge base that can be used for any VQA system. Moreover, we propose a Visual Retriever-Reader pipeline to approach knowledge-based VQA. The visual retriever aims to retrieve relevant knowledge, and the visual reader seeks to predict answers based on given knowledge. We introduce various ways to retrieve knowledge using text and images and two reader styles: classification and extraction. Both the retriever and reader are trained with weak supervision. Our experimental results show that a good retriever can significantly improve the reader's performance on the OK-VQA challenge. The code and corpus are provided in https://github.com/l uomancs/retriever\_r eader\_for\_okvqa.gi t
翻訳日:2021-09-10 14:20:33 公開日:2021-09-09
# Graphine: グラフ対応用語定義生成のためのデータセット

Graphine: A Dataset for Graph-aware Terminology Definition Generation ( http://arxiv.org/abs/2109.04018v1 )

ライセンス: Link先を確認
Zequn Liu, Shukai Wang, Yiyang Gu, Ruiyi Zhang, Ming Zhang, Sheng Wang(参考訳) 用語を正確に定義することは、科学的なコミュニケーションの第一段階である。 定義生成のためのニューラルテキスト生成モデルの開発は、労働力の増大を回避し、科学的発見をさらに加速することができる。 残念ながら、大規模な用語定義データセットの欠如は、定義生成のプロセスを妨げる。 本稿では,227の生物医学分野にまたがる2,010,648の用語定義ペアをカバーする大規模用語定義データセットGraphineを提案する。 各学区の用語はさらに有向非巡回グラフを形成し、グラフ対応テキスト生成モデルを開発するための新しい道を開く。 そこで我々は、トランスフォーマーとグラフニューラルネットワークを統合するグラフ認識定義生成モデルGraphexを提案する。 本モデルは、用語のグラフ構造を利用して既存のテキスト生成モデルを上回る。 さらに,事前学習された言語モデルの評価,グラフ表現学習法の比較,文粒度予測にgraphineが利用できることを示した。 バイオメディシンにおける定義生成および他の多くのNLPタスクのためのユニークなリソースとして、Graphineを想定する。

Precisely defining the terminology is the first step in scientific communication. Developing neural text generation models for definition generation can circumvent the labor-intensity curation, further accelerating scientific discovery. Unfortunately, the lack of large-scale terminology definition dataset hinders the process toward definition generation. In this paper, we present a large-scale terminology definition dataset Graphine covering 2,010,648 terminology definition pairs, spanning 227 biomedical subdisciplines. Terminologies in each subdiscipline further form a directed acyclic graph, opening up new avenues for developing graph-aware text generation models. We then proposed a novel graph-aware definition generation model Graphex that integrates transformer with graph neural network. Our model outperforms existing text generation models by exploiting the graph structure of terminologies. We further demonstrated how Graphine can be used to evaluate pretrained language models, compare graph representation learning methods and predict sentence granularity. We envision Graphine to be a unique resource for definition generation and many other NLP tasks in biomedicine.
翻訳日:2021-09-10 14:20:16 公開日:2021-09-09
# 話者対応多人数マルチターン対話理解の強化

Enhanced Speaker-aware Multi-party Multi-turn Dialogue Comprehension ( http://arxiv.org/abs/2109.04066v1 )

ライセンス: Link先を確認
Xinbei Ma, Zhuosheng Zhang, Hai Zhao(参考訳) 多人数のマルチターン対話理解は、複数の話者の複雑なシナリオを扱うという前例のない課題をもたらす。 既存のほとんどの方法は、会話の文脈をプレーンテキストとして扱い、重要な話者認識の手がかりに十分な注意を払う。 本研究では,マスキング注意とヘテロジニアスグラフネットワークを用いた拡張型話者認識モデルを提案し,話者特性と話者認識の関係の両面から会話の手がかりを包括的に捉えた。 このような包括的話者認識モデリングにより、我々の話者認識モデルはベンチマークデータセットMolweniにおける最先端のパフォーマンスを達成することができることを示す実験結果が得られた。 事例分析により,我々のモデルは発話と話者間のつながりを高め,対話モデルにとって重要な話者と話者の会話関係を捉える。

Multi-party multi-turn dialogue comprehension brings unprecedented challenges on handling the complicated scenarios from multiple speakers and criss-crossed discourse relationship among speaker-aware utterances. Most existing methods deal with dialogue contexts as plain texts and pay insufficient attention to the crucial speaker-aware clues. In this work, we propose an enhanced speaker-aware model with masking attention and heterogeneous graph networks to comprehensively capture discourse clues from both sides of speaker property and speaker-aware relationships. With such comprehensive speaker-aware modeling, experimental results show that our speaker-aware model helps achieves state-of-the-art performance on the benchmark dataset Molweni. Case analysis shows that our model enhances the connections between utterances and their own speakers and captures the speaker-aware discourse relations, which are critical for dialogue modeling.
翻訳日:2021-09-10 14:20:02 公開日:2021-09-09
# ドメインに依存しないマルチソースプリトレーニングによる低リソース対話要約

Low-Resource Dialogue Summarization with Domain-Agnostic Multi-Source Pretraining ( http://arxiv.org/abs/2109.04080v1 )

ライセンス: Link先を確認
Yicheng Zou, Bolin Zhu, Xingwu Hu, Tao Gui, Qi Zhang(参考訳) 日常生活における対話データの量の増加に伴い,対話要約の需要が高まっている。 残念ながら、注釈付き要約による対話データが不十分であるため、大規模な要約モデルのトレーニングは一般的に不可能である。 既存の作品の多くは、ニュースドメインなど他のドメインのモデルを直接事前学習するが、一般的には対話と従来の記事との大きな違いを無視する。 本研究では,ドメイン外の事前学習とドメイン内微調整のギャップを埋めるために,外部要約データをよりよく活用するためのマルチソース事前学習パラダイムを提案する。 具体的には,対話エンコーダとサマリデコーダを分離してプリトレーニングするために,大規模領域内非サマリーデータを利用する。 組み合わせエンコーダ・デコーダモデルは、ドメインに依存しない要約を促進するために、敵の批評家を用いてドメイン外の要約データに基づいて事前訓練される。 2つの公開データセットによる実験結果から,限られたトレーニングデータのみを用いて,本手法は競争性能を達成し,異なる対話シナリオにおいて良好に一般化することを示す。

With the rapid increase in the volume of dialogue data from daily life, there is a growing demand for dialogue summarization. Unfortunately, training a large summarization model is generally infeasible due to the inadequacy of dialogue data with annotated summaries. Most existing works for low-resource dialogue summarization directly pretrain models in other domains, e.g., the news domain, but they generally neglect the huge difference between dialogues and conventional articles. To bridge the gap between out-of-domain pretraining and in-domain fine-tuning, in this work, we propose a multi-source pretraining paradigm to better leverage the external summary data. Specifically, we exploit large-scale in-domain non-summary data to separately pretrain the dialogue encoder and the summary decoder. The combined encoder-decoder model is then pretrained on the out-of-domain summary data using adversarial critics, aiming to facilitate domain-agnostic summarization. The experimental results on two public datasets show that with only limited training data, our approach achieves competitive performance and generalizes well in different dialogue scenarios.
翻訳日:2021-09-10 14:19:49 公開日:2021-09-09
# オープンドメイン対話システムのための概念誘導型非自己回帰生成

Thinking Clearly, Talking Fast: Concept-Guided Non-Autoregressive Generation for Open-Domain Dialogue Systems ( http://arxiv.org/abs/2109.04084v1 )

ライセンス: Link先を確認
Yicheng Zou, Zhihua Liu, Xingwu Hu, Qi Zhang(参考訳) 人間の対話は進化する概念を含み、話者は自然に複数の概念を関連付けて応答を構成する。 しかし、現在のSeq2seqフレームワークによる対話モデルは、概念遷移を効果的に管理する能力がなく、逐次デコード方式で応答に複数の概念を導入することはほとんどできない。 制御可能で一貫性のある対話を容易にするため,オープンドメイン対話生成のための概念誘導非自己回帰モデル(CG-nAR)を考案した。 提案モデルは、概念グラフから複数の関連する概念を識別するマルチコンセプト計画モジュールと、概念誘導非自己回帰生成を実行して応答を完遂するカスタマイズされた挿入変換器とから構成される。 2つの公開データセットによる実験結果から、CG-nARは多種多様な一貫性のある応答を生成でき、推論速度が大幅に高速な自動評価と人的評価の両方において、最先端のベースラインを上回っていることが示された。

Human dialogue contains evolving concepts, and speakers naturally associate multiple concepts to compose a response. However, current dialogue models with the seq2seq framework lack the ability to effectively manage concept transitions and can hardly introduce multiple concepts to responses in a sequential decoding manner. To facilitate a controllable and coherent dialogue, in this work, we devise a concept-guided non-autoregressive model (CG-nAR) for open-domain dialogue generation. The proposed model comprises a multi-concept planning module that learns to identify multiple associated concepts from a concept graph and a customized Insertion Transformer that performs concept-guided non-autoregressive generation to complete a response. The experimental results on two public datasets show that CG-nAR can produce diverse and coherent responses, outperforming state-of-the-art baselines in both automatic and human evaluations with substantially faster inference speed.
翻訳日:2021-09-10 14:19:28 公開日:2021-09-09
# ARMAN:ペルシャ抽象要約のための文のセマンティック選択と並べ替えによる事前学習

ARMAN: Pre-training with Semantically Selecting and Reordering of Sentences for Persian Abstractive Summarization ( http://arxiv.org/abs/2109.04098v1 )

ライセンス: Link先を確認
Alireza Salemi, Emad Kebriaei, Ghazal Neisi Minaei, Azadeh Shakery(参考訳) 抽象テキスト要約は、事前訓練された言語モデルの出現に影響された分野の1つである。 抽象要約における現在の事前学習は、主文と共通する単語の多い要約により多くのポイントを与え、生成文と原文間の意味的類似性にはあまり注意を払わない。 本稿では,トランスフォーマーをベースとしたエンコーダデコーダモデルARMANを提案する。 ARMANでは、修正されたセマンティックスコアに基づいて文書からの有能な文が選択され、擬似要約を形成する。 人間の文章パターンをより正確に要約するために,修正文の並べ替えを適用した。 我々は,ペルシャ下流の6つの要約タスクについて提案モデルを評価した。 実験結果から,ROUGE とBERTScore が計測した6つの要約タスクに対して,提案モデルの有効性が示された。 私たちのモデルは、テキストのエンテーメント、質問のパラフレーズ、複数の選択の質問応答において、先行研究よりも優れています。 最後に,人間による評価を行い,意味スコアを用いることで要約結果が大幅に向上することを示す。

Abstractive text summarization is one of the areas influenced by the emergence of pre-trained language models. Current pre-training works in abstractive summarization give more points to the summaries with more words in common with the main text and pay less attention to the semantic similarity between generated sentences and the original document. We propose ARMAN, a Transformer-based encoder-decoder model pre-trained with three novel objectives to address this issue. In ARMAN, salient sentences from a document are selected according to a modified semantic score to be masked and form a pseudo summary. To summarize more accurately and similar to human writing patterns, we applied modified sentence reordering. We evaluated our proposed models on six downstream Persian summarization tasks. Experimental results show that our proposed model achieves state-of-the-art performance on all six summarization tasks measured by ROUGE and BERTScore. Our models also outperform prior works in textual entailment, question paraphrasing, and multiple choice question answering. Finally, we established a human evaluation and show that using the semantic score significantly improves summarization results.
翻訳日:2021-09-10 14:19:10 公開日:2021-09-09
# 単語レベル参照分解能

Word-Level Coreference Resolution ( http://arxiv.org/abs/2109.04127v1 )

ライセンス: Link先を確認
Vladimir Dobrovolskii(参考訳) 最近のコリファレンス解決モデルは、単語スパン間のコリファレンスリンクを見つけるためにスパン表現に大きく依存している。 スパンの数はテキストの長さで$o(n^2)$であり、潜在的なリンク数は$o(n^4)$であるので、このアプローチを計算可能にするためには様々なプルーニング技術が必要である。 そこで我々は,単語スパンよりも個々の単語間のコア参照リンクを考察し,単語スパンを再構築する。 これにより、コリファレンスモデルの複雑さが$o(n^2)$に減少し、すべての潜在的な言及を、どれも取り除かずに考慮できる。 また、これらの変更により、コア参照解決のためのSpanBERTはRoBERTaによって大幅に性能が向上することを示した。 OntoNotesベンチマークでは,高効率ながら,最近のコア参照解決システムと競合する性能を示した。

Recent coreference resolution models rely heavily on span representations to find coreference links between word spans. As the number of spans is $O(n^2)$ in the length of text and the number of potential links is $O(n^4)$, various pruning techniques are necessary to make this approach computationally feasible. We propose instead to consider coreference links between individual words rather than word spans and then reconstruct the word spans. This reduces the complexity of the coreference model to $O(n^2)$ and allows it to consider all potential mentions without pruning any of them out. We also demonstrate that, with these changes, SpanBERT for coreference resolution will be significantly outperformed by RoBERTa. While being highly efficient, our model performs competitively with recent coreference resolution systems on the OntoNotes benchmark.
翻訳日:2021-09-10 14:18:53 公開日:2021-09-09
# 効率的な近距離言語モデル

Efficient Nearest Neighbor Language Models ( http://arxiv.org/abs/2109.04212v1 )

ライセンス: Link先を確認
Junxian He, Graham Neubig, Taylor Berg-Kirkpatrick(参考訳) 非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを使用してテキストの予測分布を学習し、トレーニングデータポイントを明示的に記憶することで学習する。 有効ではあるが、これらのモデルはテスト時に大規模なデータストアからの検索を必要とし、推論オーバーヘッドを大幅に増加させ、実用的なアプリケーションにおける非パラメトリックNLMの展開を制限する。 本稿では,最近提案された$k$-nearest neighbors言語モデル (khandelwal et al., 2019) を例として,様々な次元における効率向上のための手法を検討する。 標準wikitext-103ベンチマークとドメイン適応データセットによる実験では、我々のメソッドは、同等のパフォーマンスを維持しながら、推論速度を最大6倍のスピードアップを達成できることが示されています。 本研究は,より効率的な非パラメトリックNLMの開発と展開を目指す今後の研究のガイドラインを提供する。

Non-parametric neural language models (NLMs) learn predictive distributions of text utilizing an external datastore, which allows them to learn through explicitly memorizing the training datapoints. While effective, these models often require retrieval from a large datastore at test time, significantly increasing the inference overhead and thus limiting the deployment of non-parametric NLMs in practical applications. In this paper, we take the recently proposed $k$-nearest neighbors language model (Khandelwal et al., 2019) as an example, exploring methods to improve its efficiency along various dimensions. Experiments on the standard WikiText-103 benchmark and domain-adaptation datasets show that our methods are able to achieve up to a 6x speed-up in inference speed while retaining comparable performance. The empirical analysis we present may provide guidelines for future research seeking to develop or deploy more efficient non-parametric NLMs.
翻訳日:2021-09-10 14:18:40 公開日:2021-09-09
# 言語間データ選択によるニューラルネットワーク翻訳の一般教師なしドメイン適応

Generalised Unsupervised Domain Adaptation of Neural Machine Translation with Cross-Lingual Data Selection ( http://arxiv.org/abs/2109.04292v1 )

ライセンス: Link先を確認
Thuy-Trang Vu, Xuanli He, Dinh Phung and Gholamreza Haffari(参考訳) 本稿では,ニューラルネットワーク翻訳(NMT)における教師なし領域適応問題について考察する。 そこで本研究では,大規模な一言語コーパスから欠落言語側で文を抽出する言語間データ選択手法を提案する。 提案手法は,多言語BERT上の適応層を比較学習により学習し,ソースとターゲット言語間の表現を整合させる。 これにより、ゼロショット方式で言語間のドメイン分類器の転送が可能となる。 ドメイン内データが分類器によって検出されると、NMTモデルは翻訳タスクとドメイン識別タスクを併用して新しいドメインに適合する。 3つの言語ペアの異なる5つのドメインにまたがるnmtの言語間データ選択手法と,covid-19の現実世界の翻訳シナリオを評価した。 その結果,提案手法は,+1.5 BLEUスコアまでの他の選択基準よりも優れていた。

This paper considers the unsupervised domain adaptation problem for neural machine translation (NMT), where we assume the access to only monolingual text in either the source or target language in the new domain. We propose a cross-lingual data selection method to extract in-domain sentences in the missing language side from a large generic monolingual corpus. Our proposed method trains an adaptive layer on top of multilingual BERT by contrastive learning to align the representation between the source and target language. This then enables the transferability of the domain classifier between the languages in a zero-shot manner. Once the in-domain data is detected by the classifier, the NMT model is then adapted to the new domain by jointly learning translation and domain discrimination tasks. We evaluate our cross-lingual data selection method on NMT across five diverse domains in three language pairs, as well as a real-world scenario of translation for COVID-19. The results show that our proposed method outperforms other selection baselines up to +1.5 BLEU score.
翻訳日:2021-09-10 14:18:25 公開日:2021-09-09
# 半教師付きタスク指向対話システムにおける変分潜時GPT

Variational Latent-State GPT for Semi-supervised Task-Oriented Dialog Systems ( http://arxiv.org/abs/2109.04314v1 )

ライセンス: Link先を確認
Hong Liu, Yucheng Cai, Zhenru Lin, Zhijian Ou, Yi Huang, Junlan Feng(参考訳) 近年,大規模訓練済み言語モデルと変分学習という2つのアプローチが,半教師付きタスク指向対話(TOD)システムにおいて,それぞれ大きな関心を集めている。 本稿では,2つのアプローチの強みを最初に組み合わせた変分潜在状態GPTモデル(VLS-GPT)を提案する。 本稿では,ラベル付きとラベルなしのダイアログデータを半教師付きで混合して学習できるgpt-2に基づく自己回帰型言語モデルとして,エンドツーエンドtodシステムの変動学習のための生成モデルと推論モデルを提案する。 我々は, GPTを変分学習に用いて学習を高速化するというメモリ爆発問題を克服し, サンプリング・then-forward-computa tionの戦略を開発した。 半教師付きTOD実験は、MultiWOZ2.1とCrossWOZの2つのベンチマークマルチドメインデータセットで実施される。 VLS-GPTは、教師のみのベースラインと半教師付きベースラインの両方で著しく優れていた。

Recently, two approaches, fine-tuning large pre-trained language models and variational training, have attracted significant interests, separately, for semi-supervised end-to-end task-oriented dialog (TOD) systems. In this paper, we propose Variational Latent-State GPT model (VLS-GPT), which is the first to combine the strengths of the two approaches. Among many options of models, we propose the generative model and the inference model for variational learning of the end-to-end TOD system, both as auto-regressive language models based on GPT-2, which can be further trained over a mix of labeled and unlabeled dialog data in a semi-supervised manner. We develop the strategy of sampling-then-forwar d-computation, which successfully overcomes the memory explosion issue of using GPT in variational learning and speeds up training. Semi-supervised TOD experiments are conducted on two benchmark multi-domain datasets of different languages - MultiWOZ2.1 and CrossWOZ. VLS-GPT is shown to significantly outperform both supervised-only and semi-supervised baselines.
翻訳日:2021-09-10 14:18:09 公開日:2021-09-09
# ニューラル信条追跡における不確実性対策と対話政策性能への影響

Uncertainty Measures in Neural Belief Tracking and the Effects on Dialogue Policy Performance ( http://arxiv.org/abs/2109.04349v1 )

ライセンス: Link先を確認
Carel van Niekerk, Andrey Malinin, Christian Geishauser, Michael Heck, Hsien-chin Lin, Nurul Lubis, Shutong Feng, Milica Ga\v{s}i\'c(参考訳) 不確実性を特定し解決する能力は対話システムの堅牢性に不可欠である。 実際、これはバイーシアンアプローチを利用した対話的信念追跡システムで実証的に確認されている。 しかし、これらのシステムは信頼度のみを考慮し、より複雑な設定へのスケーリングが困難である。 一方,ニューラル対話システムは,不確実性を考慮したものはほとんどない。 したがって、彼らは決定を過信しており、堅牢ではない。 さらに、下流政策最適化への影響を考慮せずに、追跡タスクの性能を独立して評価することが多い。 本稿では,神経信念追跡における異なる不確実性尺度の使用を提案する。 これらの措置が政策最適化の下流課題に与える影響を、ユーザシミュレータとのインタラクションを通じて、方針の特徴空間に不確実性尺度を付加して評価する。 ヒトとシミュレートされたユーザの結果は、これらの指標を取り入れることで、下流の対話ポリシーの性能と堅牢性の両方が改善されることを示している。 これは不確実性を考慮したニューラル対話信念追跡器の開発の重要性を強調している。

The ability to identify and resolve uncertainty is crucial for the robustness of a dialogue system. Indeed, this has been confirmed empirically on systems that utilise Bayesian approaches to dialogue belief tracking. However, such systems consider only confidence estimates and have difficulty scaling to more complex settings. Neural dialogue systems, on the other hand, rarely take uncertainties into account. They are therefore overconfident in their decisions and less robust. Moreover, the performance of the tracking task is often evaluated in isolation, without consideration of its effect on the downstream policy optimisation. We propose the use of different uncertainty measures in neural belief tracking. The effects of these measures on the downstream task of policy optimisation are evaluated by adding selected measures of uncertainty to the feature space of the policy and training policies through interaction with a user simulator. Both human and simulated user results show that incorporating these measures leads to improvements both of the performance and of the robustness of the downstream dialogue policy. This highlights the importance of developing neural dialogue belief trackers that take uncertainty into account.
翻訳日:2021-09-10 14:17:50 公開日:2021-09-09
# 協調指導における言語変化の分析

Analysis of Language Change in Collaborative Instruction Following ( http://arxiv.org/abs/2109.04452v1 )

ライセンス: Link先を確認
Anna Effenberger, Eva Yan, Rhia Singh, Alane Suhr, Yoav Artzi(参考訳) 我々は,目的指向の協調的な指導課題において,時間とともに言語の変化を分析する。 先行研究は、主に参照ゲームの文脈でこのようなシナリオを研究し、慣習が形成されるにつれて、発話長などの複数の次元に沿って言語複雑性が減少することを示した。 対照的に、教師は、教師の効用を高める能力を考えると、これらの研究された次元に沿って言語複雑性を増大させ、より熟練した指導従者とよりよく協力できることが分かる。

We analyze language change over time in a collaborative, goal-oriented instructional task, where utility-maximizing participants form conventions and increase their expertise. Prior work studied such scenarios mostly in the context of reference games, and consistently found that language complexity is reduced along multiple dimensions, such as utterance length, as conventions are formed. In contrast, we find that, given the ability to increase instruction utility, instructors increase language complexity along these previously studied dimensions to better collaborate with increasingly skilled instruction followers.
翻訳日:2021-09-10 14:17:37 公開日:2021-09-09
# 継続学習とフェデレート学習を統合した蒸留方式による普及型サービス

A distillation-based approach integrating continual learning and federated learning for pervasive services ( http://arxiv.org/abs/2109.04197v1 )

ライセンス: Link先を確認
Anastasiia Usmanova (INPG), Fran\c{c}ois Portet (GETALP), Philippe Lalanda (M-PSI), German Vega (M-PSI)(参考訳) エッジデバイスの使用を促進する新しい機械学習パラダイムであるFederated Learningは、スマートサービスの開発を支援するために、広く普及しているコミュニティで注目を集めている。 それでも、このアプローチは広く普及するドメインの特異性に適応する必要がある。 特に、継続的な学習に関連する問題に対処する必要がある。 本稿では,フェデレート学習シナリオにおける破滅的忘れを取り扱う蒸留方式を提案する。 具体的には、人間活動認識タスクがデモドメインとして使用される。

Federated Learning, a new machine learning paradigm enhancing the use of edge devices, is receiving a lot of attention in the pervasive community to support the development of smart services. Nevertheless, this approach still needs to be adapted to the specificity of the pervasive domain. In particular, issues related to continual learning need to be addressed. In this paper, we present a distillation-based approach dealing with catastrophic forgetting in federated learning scenario. Specifically, Human Activity Recognition tasks are used as a demonstration domain.
翻訳日:2021-09-10 14:17:12 公開日:2021-09-09
# 高次テンソル完了のためのマルチテンソルネットワーク表現

Multi-Tensor Network Representation for High-Order Tensor Completion ( http://arxiv.org/abs/2109.04022v1 )

ライセンス: Link先を確認
Chang Nie, Huan Wang, Zhihui Lai(参考訳) この研究は、部分的に観察されたサンプリングから高次元データ(テンソルを参照)の完備化の問題を研究する。 テンソルは複数の低ランク成分の重ね合わせであると考える。 特に、各成分はいくつかの潜在因子上の多重線型接続として表現され、自然に特定のテンソルネットワーク(tn)トポロジーにマッピングされる。 本稿では,マルチテンソルネットワーク表現 (mtnr) を,candecomp/parafac (cp) 分解,tensor train (tt) およびtensor ring (tr) などのtdモデルの線形結合と見なすことができる基本テンソル分解 (td) フレームワークを提案する。 具体的には、MTNRは高次テンソルを複数のTNモデルの付加として表現し、各TNの位相は手動で事前設計する代わりに自動的に生成される。 最適化フェーズでは、ランクインクリメンタル戦略と投影誤差測定戦略に基づいて各tnの潜在因子を得るための適応トポロジー学習(atl)アルゴリズムを提案する。 さらに、TN表現を持つテンソルの基本的な多重線型演算を理論的に確立し、単一のTNへのMTNRの構造変換を明らかにする。 最後に、MTNRを典型的なタスク、テンソル補完に適用し、ALS(Alternating Least Squares)スキームとADMM(Alternating Direction Method of Multiplier)フレームワークに基づく不完全データの正確な回復のための2つの有効なアルゴリズムを提案する。 人工データと実世界のデータセットに関する大規模な数値実験により,MTNRの有効性が実証された。

This work studies the problem of high-dimensional data (referred to tensors) completion from partially observed samplings. We consider that a tensor is a superposition of multiple low-rank components. In particular, each component can be represented as multilinear connections over several latent factors and naturally mapped to a specific tensor network (TN) topology. In this paper, we propose a fundamental tensor decomposition (TD) framework: Multi-Tensor Network Representation (MTNR), which can be regarded as a linear combination of a range of TD models, e.g., CANDECOMP/PARAFAC (CP) decomposition, Tensor Train (TT), and Tensor Ring (TR). Specifically, MTNR represents a high-order tensor as the addition of multiple TN models, and the topology of each TN is automatically generated instead of manually pre-designed. For the optimization phase, an adaptive topology learning (ATL) algorithm is presented to obtain latent factors of each TN based on a rank incremental strategy and a projection error measurement strategy. In addition, we theoretically establish the fundamental multilinear operations for the tensors with TN representation, and reveal the structural transformation of MTNR to a single TN. Finally, MTNR is applied to a typical task, tensor completion, and two effective algorithms are proposed for the exact recovery of incomplete data based on the Alternating Least Squares (ALS) scheme and Alternating Direction Method of Multiplier (ADMM) framework. Extensive numerical experiments on synthetic data and real-world datasets demonstrate the effectiveness of MTNR compared with the start-of-the-art methods.
翻訳日:2021-09-10 14:15:55 公開日:2021-09-09
# 文書分析のための特徴点記述のためのTiny CNN:アプローチとデータセット

Tiny CNN for feature point description for document analysis: approach and dataset ( http://arxiv.org/abs/2109.04134v1 )

ライセンス: Link先を確認
A. Sheshkus, A. Chirvonaya, V.L. Arlazarov(参考訳) 本稿では,文書分析とテンプレートマッチングの文脈における特徴点記述の問題について検討する。 本研究は、特に計算資源の少ないデバイスで使用可能な軽量ニューラルネットワークを訓練する場合に、タスクに特定のトレーニングデータが必要であることを示す。 本稿では,パッチ検索の訓練方法を用いたデータセットの構築と提供を行う。 このデータの有効性を,軽量ニューラルネットワークのトレーニングにより証明し,文書と一般パッチのマッチングにおいてどのように機能するかを示す。 トレーニングは、提供されるデータセットとHPatchesトレーニングデータセットを比較して実施された。テストには、HPatchesテストフレームワークと、複雑な背景にさまざまなドキュメントが描かれた2つの公開データセット(MIDV-500とMIDV-2019)を使用します。

In this paper, we study the problem of feature points description in the context of document analysis and template matching. Our study shows that the specific training data is required for the task especially if we are to train a lightweight neural network that will be usable on devices with limited computational resources. In this paper, we construct and provide a dataset with a method of training patches retrieval. We prove the effectiveness of this data by training a lightweight neural network and show how it performs in both documents and general patches matching. The training was done on the provided dataset in comparison with HPatches training dataset and for the testing we use HPatches testing framework and two publicly available datasets with various documents pictured on complex backgrounds: MIDV-500 and MIDV-2019.
翻訳日:2021-09-10 14:15:27 公開日:2021-09-09
# PIMNet:シーンテキスト認識のための並列・反復・マイマイキングネットワーク

PIMNet: A Parallel, Iterative and Mimicking Network for Scene Text Recognition ( http://arxiv.org/abs/2109.04145v1 )

ライセンス: Link先を確認
Zhi Qiao, Yu Zhou, Jin Wei, Wei Wang, Yuan Zhang, Ning Jiang, Hongbin Wang, Weiping Wang(参考訳) 近年,様々な用途でシーンテキスト認識が注目されている。 ほとんどの最先端手法では、注意機構を備えたエンコーダ・デコーダフレームワークを採用しており、テキストを左右に自己回帰的に生成する。 説得力のある性能にもかかわらず、1対1のデコード戦略のため速度は限られている。 自己回帰モデルとは対照的に、非自己回帰モデルは予測結果をはるかに短い推論時間で並列に予測するが、精度は自己回帰モデルよりもかなり遅れる。 本稿では、精度と効率のバランスをとるために、並列的かつ反復的かつ模倣的なネットワーク(pimnet)を提案する。 具体的には、テキストを高速に予測するための並列注意機構と、予測をより正確にするための反復生成機構を採用する。 各イテレーションで、コンテキスト情報は完全に探究される。 隠蔽層の学習を改善するために,追加の自己回帰復号器が採用され,並列復号器が隠蔽層の出力に適合した自己回帰復号器を模倣する訓練段階の模倣学習を利用する。 2つのデコーダ間の共有バックボーンにより、提案されたPIMNetは、事前トレーニングなしでエンドツーエンドでトレーニングすることができる。 推論中、オートレグレッシブデコーダの分岐はより高速に削除される。 公開ベンチマークに関する大規模な実験は、PIMNetの有効性と効率を実証している。 私たちのコードはhttps://github.com/p ay20y/pimnetで利用可能です。

Nowadays, scene text recognition has attracted more and more attention due to its various applications. Most state-of-the-art methods adopt an encoder-decoder framework with attention mechanism, which generates text autoregressively from left to right. Despite the convincing performance, the speed is limited because of the one-by-one decoding strategy. As opposed to autoregressive models, non-autoregressive models predict the results in parallel with a much shorter inference time, but the accuracy falls behind the autoregressive counterpart considerably. In this paper, we propose a Parallel, Iterative and Mimicking Network (PIMNet) to balance accuracy and efficiency. Specifically, PIMNet adopts a parallel attention mechanism to predict the text faster and an iterative generation mechanism to make the predictions more accurate. In each iteration, the context information is fully explored. To improve learning of the hidden layer, we exploit the mimicking learning in the training phase, where an additional autoregressive decoder is adopted and the parallel decoder mimics the autoregressive decoder with fitting outputs of the hidden layer. With the shared backbone between the two decoders, the proposed PIMNet can be trained end-to-end without pre-training. During inference, the branch of the autoregressive decoder is removed for a faster speed. Extensive experiments on public benchmarks demonstrate the effectiveness and efficiency of PIMNet. Our code will be available at https://github.com/P ay20Y/PIMNet.
翻訳日:2021-09-10 14:15:13 公開日:2021-09-09
# 後処理量子化のための微細データ分散アライメント

Fine-grained Data Distribution Alignment for Post-Training Quantization ( http://arxiv.org/abs/2109.04186v1 )

ライセンス: Link先を確認
Yunshan Zhong, Mingbao Lin, Mengzhao Chen, Ke Li, Yunhang Shen, Fei Chao, Yongjian Wu, Feiyue Huang, Rongrong Ji(参考訳) トレーニング後の量子化は、オリジナルの完全なトレーニングデータセットにアクセスする際の回避が主な原因で人気を得ているが、パフォーマンスの低さもこの制限に起因する。 そこで本稿では,ゼロショット量子化によって導入された合成データとキャリブレーションデータセットを併用し,学習後量子化の性能を高めるための微細データ分散アライメント(FDDA)手法を提案する。 本手法は,訓練ネットワークの深層層,すなわちクラス間分離とクラス内粘着の2つの重要な特性を基礎として,バッチ正規化統計学(BNS)を用いて検討した。 1) 各クラスのBNS中心としてキャリブレーションデータセットのクラスごとのBNSを算出し、BNS集中型損失を提案し、異なるクラスの合成データ分布をそれぞれの中心に近づけるよう強制する。 2) この不整合を模倣するために, ガウス雑音を中心に付加し, 同一クラスの合成データ分布を歪んだ中心に近づけるために, bns歪み損失を提案する。 これら2つの微細な損失を導入することで、特に第1層と第最後の層が低ビットに量子化されている場合、ImageNetの最先端性能を示す。 私たちのプロジェクトはhttps://github.com/v iperit/fddaで利用可能です。

While post-training quantization receives popularity mostly due to its evasion in accessing the original complete training dataset, its poor performance also stems from this limitation. To alleviate this limitation, in this paper, we leverage the synthetic data introduced by zero-shot quantization with calibration dataset and we propose a fine-grained data distribution alignment (FDDA) method to boost the performance of post-training quantization. The method is based on two important properties of batch normalization statistics (BNS) we observed in deep layers of the trained network, i.e., inter-class separation and intra-class incohesion. To preserve this fine-grained distribution information: 1) We calculate the per-class BNS of the calibration dataset as the BNS centers of each class and propose a BNS-centralized loss to force the synthetic data distributions of different classes to be close to their own centers. 2) We add Gaussian noise into the centers to imitate the incohesion and propose a BNS-distorted loss to force the synthetic data distribution of the same class to be close to the distorted centers. By introducing these two fine-grained losses, our method shows the state-of-the-art performance on ImageNet, especially when the first and last layers are quantized to low-bit as well. Our project is available at https://github.com/v iperit/FDDA.
翻訳日:2021-09-10 14:14:53 公開日:2021-09-09
# IICNet: 可逆画像変換のためのジェネリックフレームワーク

IICNet: A Generic Framework for Reversible Image Conversion ( http://arxiv.org/abs/2109.04242v1 )

ライセンス: Link先を確認
Ka Leong Cheng and Yueqi Xie and Qifeng Chen(参考訳) 可逆画像変換(RIC)は、特定の視覚コンテンツ(例えば、ショートビデオ)と埋め込み画像の間の可逆変換を構築することを目的としており、必要に応じて元のコンテンツを埋め込みから復元することができる。 Invertible Image Conversion Net (IICNet) は、強力な容量とタスクに依存しない設計のため、様々なRICタスクに対する汎用的なソリューションである。 従来のエンコーダ-デコーダベースの方法とは異なり、iicnetはインバータブルニューラルネットワーク(inn)に基づいた高度に可逆的な構造を維持し、変換中に情報を保存する。 INNの非線形性を改善するために,関係モジュールとチャネルスレッシャー層を用いて,相互関係とネットワークの柔軟性を抽出する。 実験の結果, IICNet は既存の RIC タスクで特別に設計された手法よりも優れており, 新たに探索されたタスクによく対応できることがわかった。 汎用的なiicnetでは、急速に発生するビジュアルコンテンツのためにタスク固有の埋め込みネットワークを手作業で設計する必要がなくなりました。 ソースコードはhttps://github.com/f elixcheng97/iicnet。

Reversible image conversion (RIC) aims to build a reversible transformation between specific visual content (e.g., short videos) and an embedding image, where the original content can be restored from the embedding when necessary. This work develops Invertible Image Conversion Net (IICNet) as a generic solution to various RIC tasks due to its strong capacity and task-independent design. Unlike previous encoder-decoder based methods, IICNet maintains a highly invertible structure based on invertible neural networks (INNs) to better preserve the information during conversion. We use a relation module and a channel squeeze layer to improve the INN nonlinearity to extract cross-image relations and the network flexibility, respectively. Experimental results demonstrate that IICNet outperforms the specifically-designe d methods on existing RIC tasks and can generalize well to various newly-explored tasks. With our generic IICNet, we no longer need to hand-engineer task-specific embedding networks for rapidly occurring visual content. Our source codes are available at: https://github.com/f elixcheng97/IICNet.
翻訳日:2021-09-10 14:14:30 公開日:2021-09-09
# マルチストリームコーパスアライメントとデュアルソフトマックスロスによるビデオテキスト検索の改善

Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss ( http://arxiv.org/abs/2109.04290v1 )

ライセンス: Link先を確認
Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen(参考訳) 大規模な事前学習モデルCLIPを用いてビデオテキスト検索タスク(VTR)を実行することが,従来のVTR手法を上回る新たなトレンドとなっている。 しかし,映像とテキスト間の構造や内容の多様性から,従来のクリップベースモデルではトレーニング段階で過度に適合する傾向にあり,検索性能が比較的低かった。 本稿では,2つの不均一性を解決するために,単一ゲート混合専門家 (camoe) と新しいデュアルソフトマックス損失 (dsl) を持つマルチストリームコーパスアライメントネットワークを提案する。 CAMoEはMixture-of-Experts (MoE)を使用して、アクション、エンティティ、シーンなどを含む多視点のビデオ表現を抽出し、テキストの対応する部分と整列する。 この段階では,特徴抽出モジュールと特徴アライメントモジュールに対して大規模な探索を行う。 従来のコントラスト法で発生する一方向最適マッチングを回避するためにDSLを提案する。 それぞれのペアの本質的な事前をバッチで導入すると、DSLは類似性マトリクスを修正するリバイザとして機能し、双対最適マッチングを達成する。 DSLは1行のコードだけで簡単に実装できますが、大幅に改善されます。 その結果,提案したCAMoE と DSL は高い効率性を示し,それぞれが MSR-VTT,MSVD,LSMDC などの様々なベンチマークで State-of-The-Art (SOTA) を個別に達成可能であることがわかった。 さらに、両者とも、MSR-VTTにおいて従来のSOTA法を約4.6\% R@1で上回り、大幅な性能向上を実現している。

Employing large-scale pre-trained model CLIP to conduct video-text retrieval task (VTR) has become a new trend, which exceeds previous VTR methods. Though, due to the heterogeneity of structures and contents between video and text, previous CLIP-based models are prone to overfitting in the training phase, resulting in relatively poor retrieval performance. In this paper, we propose a multi-stream Corpus Alignment network with single gate Mixture-of-Experts (CAMoE) and a novel Dual Softmax Loss (DSL) to solve the two heterogeneity. The CAMoE employs Mixture-of-Experts (MoE) to extract multi-perspective video representations, including action, entity, scene, etc., then align them with the corresponding part of the text. In this stage, we conduct massive explorations towards the feature extraction module and feature alignment module. DSL is proposed to avoid the one-way optimum-match which occurs in previous contrastive methods. Introducing the intrinsic prior of each pair in a batch, DSL serves as a reviser to correct the similarity matrix and achieves the dual optimal match. DSL is easy to implement with only one-line code but improves significantly. The results show that the proposed CAMoE and DSL are of strong efficiency, and each of them is capable of achieving State-of-The-Art (SOTA) individually on various benchmarks such as MSR-VTT, MSVD, and LSMDC. Further, with both of them, the performance is advanced to a big extend, surpassing the previous SOTA methods for around 4.6\% R@1 in MSR-VTT.
翻訳日:2021-09-10 14:14:10 公開日:2021-09-09
# 閉形速度初期化のための連続イベントライン制約

Continuous Event-Line Constraint for Closed-Form Velocity Initialization ( http://arxiv.org/abs/2109.04313v1 )

ライセンス: Link先を確認
Peng Xin, Xu Wangting, Yang Jiaqi, Kneip Laurent(参考訳) イベントカメラは、対数輝度の十分な変化に応じて、非同期かつ独立にイベントをトリガーする。 ニューロモルフィックセンサーは、低遅延、動きのぼかしの欠如、高ダイナミックレンジなどの標準カメラに対していくつかの利点がある。 イベントカメラは特にアジャイルのシナリオで動きのダイナミクスを感知するのに適しています。 本稿では,イベントクラスタが与える直線観測と一階カメラのダイナミクスの関係を表現するために,定速度運動仮定と三焦点テンソル幾何に依存する連続的なイベントライン制約を提案する。 中心となる結果は, 角速度の既知の線形カメラ速度のためのクローズドフォームソルバである。 非線形最適化はアルゴリズムの性能を向上させるために用いられる。 本手法の有効性はシミュレーションデータと実データの両方について注意深く分析することで実証された。

Event cameras trigger events asynchronously and independently upon a sufficient change of the logarithmic brightness level. The neuromorphic sensor has several advantages over standard cameras including low latency, absence of motion blur, and high dynamic range. Event cameras are particularly well suited to sense motion dynamics in agile scenarios. We propose the continuous event-line constraint, which relies on a constant-velocity motion assumption as well as trifocal tensor geometry in order to express a relationship between line observations given by event clusters as well as first-order camera dynamics. Our core result is a closed-form solver for up-to-scale linear camera velocity {with known angular velocity}. Nonlinear optimization is adopted to improve the performance of the algorithm. The feasibility of the approach is demonstrated through a careful analysis on both simulated and real data.
翻訳日:2021-09-10 14:13:40 公開日:2021-09-09
# IFBiD:推論不要バイアス検出

IFBiD: Inference-Free Bias Detection ( http://arxiv.org/abs/2109.04374v1 )

ライセンス: Link先を確認
Ignacio Serna and Aythami Morales and Julian Fierrez and Javier Ortega-Garcia(参考訳) 本論文は、重みを単純に見れば、深層畳み込みニューラルネットワークのバイアスを自動的に検出する方法を初めて探求するものである。 さらに、ニューラルネットワークとその動作方法を理解するためのステップでもある。 モデルが単に重みを見るだけで偏りがあるかどうかを、特定の入力に対するモデル推論なしで知ることは実際に可能であることを示す。 我々は、Colored MNISTデータベースを用いて、ディープネットワークの重みに偏りがどのように符号化されているかを分析し、また、最先端の手法と実験資源を用いて、顔画像からの性別検出における現実的なケーススタディを提供する。 そのために、36Kと48Kのバイアスモデルを持つ2つのデータベースを生成しました。 mnistモデルでは,99%以上の精度で強いバイアスあるいは低いバイアスを示したかの検出が可能で,70%以上の精度で4段階のバイアスを分類することができた。 顔モデルでは、アジア、黒人、コーカサス民族に偏ったモデルの区別において90%の精度を達成した。

This paper is the first to explore an automatic way to detect bias in deep convolutional neural networks by simply looking at their weights. Furthermore, it is also a step towards understanding neural networks and how they work. We show that it is indeed possible to know if a model is biased or not simply by looking at its weights, without the model inference for an specific input. We analyze how bias is encoded in the weights of deep networks through a toy example using the Colored MNIST database and we also provide a realistic case study in gender detection from face images using state-of-the-art methods and experimental resources. To do so, we generated two databases with 36K and 48K biased models each. In the MNIST models we were able to detect whether they presented a strong or low bias with more than 99% accuracy, and we were also able to classify between four levels of bias with more than 70% accuracy. For the face models, we achieved 90% accuracy in distinguishing between models biased towards Asian, Black, or Caucasian ethnicity.
翻訳日:2021-09-10 14:13:28 公開日:2021-09-09
# 回転する円状領域被覆に基づくコピーモーブ画像偽造検出

Copy-Move Image Forgery Detection Based on Evolving Circular Domains Coverage ( http://arxiv.org/abs/2109.04381v1 )

ライセンス: Link先を確認
Shilin Lu, Xinghong Hu, Chengyou Wang, Lu Chen, Shulu Han, and Yuejia Han(参考訳) 本研究の目的は,画像鑑定におけるコピー・モーブ偽造検出(CMFD)の精度を向上させることにある。 提案手法はブロックベースとキーポイントベースの偽造検出手法の両方を統合する。 まず、対数極空間におけるスピードアップロバスト特徴記述子(SURF)とスケール不変特徴変換(SIFT)記述子を鍛造画像全体から抽出する。 第2に、一般化された2つの隣人(g2NN)が巨大なマッチングペアを得るために使用される。 次に、ランダムサンプルコンセンサス(ransac)アルゴリズムを用いてミスマッチペアをフィルタリングし、偽造領域の粗い位置決めを可能にする。 これらの偽造領域をより正確に提示するために,より効率的で正確なアルゴリズム,ecdc(circle domains coverage)を提案する。 本アルゴリズムは,一致したペアを中心に発展する円領域からブロック特徴を抽出することにより,良好なしきい値領域を求めることを目的とする。 最後に,検出された偽造領域を精製するために形態学的操作を施した。 実験結果から, CMFD方式は, 他の最先端CMFD方式と比較して, 種々の攻撃による検出性能が向上することが示唆された。

The aim of this paper is to improve the accuracy of copy-move forgery detection (CMFD) in image forensics by proposing a novel scheme. The proposed scheme integrates both block-based and keypoint-based forgery detection methods. Firstly, speed-up robust feature (SURF) descriptor in log-polar space and scale invariant feature transform (SIFT) descriptor are extracted from an entire forged image. Secondly, generalized 2 nearest neighbor (g2NN) is employed to get massive matched pairs. Then, random sample consensus (RANSAC) algorithm is employed to filter out mismatched pairs, thus allowing rough localization of the counterfeit areas. To present more accurately these forgery areas more accurately, we propose an efficient and accurate algorithm, evolving circular domains coverage (ECDC), to cover present them. This algorithm aims to find satisfactory threshold areas by extracting block features from jointly evolving circular domains, which are centered on the matched pairs. Finally, morphological operation is applied to refine the detected forgery areas. The experimental results indicate that the proposed CMFD scheme can achieve better detection performance under various attacks compared with other state-of-the-art CMFD schemes.
翻訳日:2021-09-10 14:13:11 公開日:2021-09-09
# ナレーション映像の3次元再構成とグラウンド化

Reconstructing and grounding narrated instructional videos in 3D ( http://arxiv.org/abs/2109.04409v1 )

ライセンス: Link先を確認
Dimitri Zhukov, Ignacio Rocco, Ivan Laptev, Josef Sivic, Johannes L. Schnberger, Bugra Tekin, Marc Pollefeys(参考訳) ナレーション付き指導ビデオは、車やラップトップの特定のモデルを修理するなど、類似したオブジェクトの操作をしばしば表示し記述する。 本研究では,そのようなオブジェクトを再構築し,関連するナレーションを3Dでローカライズすることを目的とする。 すべてのビューに同一のオブジェクトやシーンが存在するインスタンスレベルの3D再構成の標準的なシナリオとは対照的に、異なるインストラクショナルビデオ内のオブジェクトは、同じ製品のさまざまな条件とバージョンに応じて大きな外観変化を持つ可能性がある。 ナレーションは自然言語の表現にも大きなバリエーションがある。 我々はこれらの課題を3つの貢献で解決する。 まず,学習した局所的特徴と高密度流れを組み合わせた対応推定手法を提案する。 第2に、個々のビデオの初期3次元再構成を3次元アライメントグラフに組み合わせた2段階分割・復号化手法を設計する。 最後に,得られた3次元再構成における基盤自然言語に対する教師なしアプローチを提案する。 自動車メンテナンス分野におけるアプローチの有効性を実証する。 本手法は, 生の指導ビデオと手動による監督を伴わず, 異なる車両モデルのエンジンを再構築し, テキスト記述を3次元のオブジェクトに関連付ける。

Narrated instructional videos often show and describe manipulations of similar objects, e.g., repairing a particular model of a car or laptop. In this work we aim to reconstruct such objects and to localize associated narrations in 3D. Contrary to the standard scenario of instance-level 3D reconstruction, where identical objects or scenes are present in all views, objects in different instructional videos may have large appearance variations given varying conditions and versions of the same product. Narrations may also have large variation in natural language expressions. We address these challenges by three contributions. First, we propose an approach for correspondence estimation combining learnt local features and dense flow. Second, we design a two-step divide and conquer reconstruction approach where the initial 3D reconstructions of individual videos are combined into a 3D alignment graph. Finally, we propose an unsupervised approach to ground natural language in obtained 3D reconstructions. We demonstrate the effectiveness of our approach for the domain of car maintenance. Given raw instructional videos and no manual supervision, our method successfully reconstructs engines of different car models and associates textual descriptions with corresponding objects in 3D.
翻訳日:2021-09-10 14:12:53 公開日:2021-09-09
# Talk-to-Edit: ダイアログによるきめ細かい顔編集

Talk-to-Edit: Fine-Grained Facial Editing via Dialog ( http://arxiv.org/abs/2109.04425v1 )

ライセンス: Link先を確認
Yuming Jiang, Ziqi Huang, Xingang Pan, Chen Change Loy, Ziwei Liu(参考訳) 顔の編集は多くのアプリケーションで視覚とグラフィックスにおいて重要なタスクである。 しかし、既存の作品では、ユーザーとの自然な対話で、連続的かつきめ細かな編集モード(例えば、少し笑う顔を大笑いに編集するなど)を提供できない。 本研究では,ユーザとシステム間の対話を通じて詳細な属性操作を行う対話型顔編集フレームワークtalk-to-editを提案する。 我々の重要な洞察は、GANラテント空間における連続的な「セマンティック場」をモデル化することである。 1) 潜在空間で直線を横切るような従来の作品とは異なり, 細粒度編集は, 意味分野における細粒度属性の景観を尊重する曲がりくねった軌跡を求めるものとして定式化されている。 2)各ステップの曲率は,入力画像とユーザの言語要求によって位置特定され,決定される。 3)ユーザを有意義なダイアログに関連付けるために,システムでは,ユーザ要求と意味領域の状況の両方を考慮して,言語フィードバックを生成する。 CelebA-Dialogは、大規模な研究を容易にするために、視覚言語による顔編集データセットである。 特に、各画像は、自然言語におけるテンプレートベースのテキスト記述と同様に、手作業で細かな属性アノテーションを注釈している。 1) 細粒度編集の滑らかさ, 2) 同一性/属性保存, 3) 視覚的フォトリアリズムと対話的流動性の観点から, 広範な定量的・質的実験を行った。 特に、ユーザスタディは、私たちのシステム全体が参加者の約80%によって一貫して好まれていることを検証する。 プロジェクトページはhttps://www.mmlab-nt u.com/project/talked it/です。

Facial editing is an important task in vision and graphics with numerous applications. However, existing works are incapable to deliver a continuous and fine-grained editing mode (e.g., editing a slightly smiling face to a big laughing one) with natural interactions with users. In this work, we propose Talk-to-Edit, an interactive facial editing framework that performs fine-grained attribute manipulation through dialog between the user and the system. Our key insight is to model a continual "semantic field" in the GAN latent space. 1) Unlike previous works that regard the editing as traversing straight lines in the latent space, here the fine-grained editing is formulated as finding a curving trajectory that respects fine-grained attribute landscape on the semantic field. 2) The curvature at each step is location-specific and determined by the input image as well as the users' language requests. 3) To engage the users in a meaningful dialog, our system generates language feedback by considering both the user request and the current state of the semantic field. We also contribute CelebA-Dialog, a visual-language facial editing dataset to facilitate large-scale study. Specifically, each image has manually annotated fine-grained attribute annotations as well as template-based textual descriptions in natural language. Extensive quantitative and qualitative experiments demonstrate the superiority of our framework in terms of 1) the smoothness of fine-grained editing, 2) the identity/attribute preservation, and 3) the visual photorealism and dialog fluency. Notably, user study validates that our overall system is consistently favored by around 80% of the participants. Our project page is https://www.mmlab-nt u.com/project/talked it/.
翻訳日:2021-09-10 14:12:34 公開日:2021-09-09
# ConvMLP: ビジョンのための階層的畳み込み型MLP

ConvMLP: Hierarchical Convolutional MLPs for Vision ( http://arxiv.org/abs/2109.04454v1 )

ライセンス: Link先を確認
Jiachen Li, Ali Hassani, Steven Walton and Humphrey Shi(参考訳) 連続する多層パーセプトロンブロックからなるmlpベースのアーキテクチャは、畳み込みおよびトランスフォーマーベースの手法に匹敵する結果に達することが最近発見されている。 しかし、ほとんどの場合、固定次元入力を取る空間的MLPを採用しており、オブジェクト検出やセマンティックセグメンテーションといった下流タスクに適用することは困難である。 さらに、単段設計は他のコンピュータビジョンタスクの性能をさらに制限し、完全に接続された層は重い計算量を持つ。 このような問題に対処するために,我々は,畳み込み層とMDPの軽量でステージワイドな共同設計である視覚認識のための階層型畳み込み型MLPであるConvMLPを提案する。 特に、ConvMLP-Sは9Mパラメータと2.4GMAC(それぞれMLP-Mixer-B/16の15%と19%)を持つImageNet-1kで76.8%のトップ1精度を達成した。 オブジェクト検出とセマンティクスセグメンテーションの実験は、さらにconvmlpによって学習された視覚的表現をシームレスに転送でき、パラメータの少ない競合結果が得られることを示した。 私たちのコードと事前トレーニングされたモデルは、https://github.com/S HI-Labs/Convolutiona l-MLPsで公開されています。

MLP-based architectures, which consist of a sequence of consecutive multi-layer perceptron blocks, have recently been found to reach comparable results to convolutional and transformer-based methods. However, most adopt spatial MLPs which take fixed dimension inputs, therefore making it difficult to apply them to downstream tasks, such as object detection and semantic segmentation. Moreover, single-stage designs further limit performance in other computer vision tasks and fully connected layers bear heavy computation. To tackle these problems, we propose ConvMLP: a hierarchical Convolutional MLP for visual recognition, which is a light-weight, stage-wise, co-design of convolution layers, and MLPs. In particular, ConvMLP-S achieves 76.8% top-1 accuracy on ImageNet-1k with 9M parameters and 2.4G MACs (15% and 19% of MLP-Mixer-B/16, respectively). Experiments on object detection and semantic segmentation further show that visual representation learned by ConvMLP can be seamlessly transferred and achieve competitive results with fewer parameters. Our code and pre-trained models are publicly available at https://github.com/S HI-Labs/Convolutiona l-MLPs.
翻訳日:2021-09-10 14:12:05 公開日:2021-09-09
# 変圧器効率最適化のためのトリックの袋

Bag of Tricks for Optimizing Transformer Efficiency ( http://arxiv.org/abs/2109.04030v1 )

ライセンス: Link先を確認
Ye Lin, Yanyang Li, Tong Xiao, Jingbo Zhu(参考訳) 近年、変圧器の効率向上が注目されている。 プルーニング、量子化、新しいアーキテクチャなど、幅広い手法が提案されている。 しかし、これらの手法は実装が洗練されているか、ハードウェアに依存している。 本稿では,超パラメータのチューニング,設計選択の改善,トレーニング戦略など,シンプルでハードウェアに依存しない手法を組み合わせることで,Transformerの効率を向上できることを示す。 WMTニュース翻訳タスクでは、強力なトランスフォーマーシステムの推論効率をCPUでは3.80倍、GPUでは2.52倍改善する。 コードはhttps://github.com/l ollipop321/mini-deco der-networkで公開されている。

Improving Transformer efficiency has become increasingly attractive recently. A wide range of methods has been proposed, e.g., pruning, quantization, new architectures and etc. But these methods are either sophisticated in implementation or dependent on hardware. In this paper, we show that the efficiency of Transformer can be improved by combining some simple and hardware-agnostic methods, including tuning hyper-parameters, better design choices and training strategies. On the WMT news translation tasks, we improve the inference efficiency of a strong Transformer system by 3.80X on CPU and 2.52X on GPU. The code is publicly available at https://github.com/L ollipop321/mini-deco der-network.
翻訳日:2021-09-10 14:09:42 公開日:2021-09-09
# 段階的時間差学習のバージョン

Versions of Gradient Temporal Difference Learning ( http://arxiv.org/abs/2109.04033v1 )

ライセンス: Link先を確認
Donghwan Lee, Han-Dong Lim, Jihoon Park, and Okyong Choi(参考訳) Sutton, Szepesv\'{a}ri, Maei両氏は、線形関数近似と非政治トレーニングの両方に適合する最初の勾配時間差学習アルゴリズムを導入した。 本論文の目的は,(a)GTDの広範な比較分析と,(b)GTDの新たな理論的分析フレームワークを構築することにある。 これらの変種は、全GTDを単一のフレームワークに効果的に統一するGTDの凸凹サドルポイント解釈に基づいており、原始双対勾配力学の最近の結果に基づく単純な安定性解析を提供する。 最後に、これらのアプローチを評価するために数値比較分析を行う。

Sutton, Szepesv\'{a}ri and Maei introduced the first gradient temporal-difference (GTD) learning algorithms compatible with both linear function approximation and off-policy training. The goal of this paper is (a) to propose some variants of GTDs with extensive comparative analysis and (b) to establish new theoretical analysis frameworks for the GTDs. These variants are based on convex-concave saddle-point interpretations of GTDs, which effectively unify all the GTDs into a single framework, and provide simple stability analysis based on recent results on primal-dual gradient dynamics. Finally, numerical comparative analysis is given to evaluate these approaches.
翻訳日:2021-09-10 14:09:33 公開日:2021-09-09
# フェデレーション学習におけるクラス不均衡に関する実験的研究

An Experimental Study of Class Imbalance in Federated Learning ( http://arxiv.org/abs/2109.04094v1 )

ライセンス: Link先を確認
C. Xiao, S. Wang(参考訳) フェデレートラーニング(Federated Learning)は、クライアントのローカルモデルに基づいて予測のためのグローバルモデルをトレーニングし、ローカルデータのプライバシを保存する分散機械学習パラダイムである。 クラス不均衡は、グローバルモデルのパフォーマンスを低下させる要因の1つと考えられている。 しかし、クラス不均衡が世界的なパフォーマンスに与える影響についてはほとんど研究されていない。 フェデレーション学習におけるクラス不均衡は、ローカルクライアントでのクラス不均衡の状況が異なるため、従来の非分散機械学習よりもずっと複雑である。 クラス不均衡は分散学習環境で再定義する必要がある。 本稿では,まず,グローバルクラス不均衡度 (mid) とクライアント間のクラス不均衡の局所差 (wcs) という,クラス不均衡を定義するための2つの新しい指標を提案する。 そこで我々は,クラス不均衡が様々なシナリオにおけるグローバルパフォーマンスに与える影響を,定義に基づいて分析する。 その結果,MIDが向上し,WCSが大きくなると,グローバルモデルの性能が低下することがわかった。 さらに、WCSは最適化を間違えることで、グローバルモデルの収束を遅くすることを示した。

Federated learning is a distributed machine learning paradigm that trains a global model for prediction based on a number of local models at clients while local data privacy is preserved. Class imbalance is believed to be one of the factors that degrades the global model performance. However, there has been very little research on if and how class imbalance can affect the global performance. class imbalance in federated learning is much more complex than that in traditional non-distributed machine learning, due to different class imbalance situations at local clients. Class imbalance needs to be re-defined in distributed learning environments. In this paper, first, we propose two new metrics to define class imbalance -- the global class imbalance degree (MID) and the local difference of class imbalance among clients (WCS). Then, we conduct extensive experiments to analyze the impact of class imbalance on the global performance in various scenarios based on our definition. Our results show that a higher MID and a larger WCS degrade more the performance of the global model. Besides, WCS is shown to slow down the convergence of the global model by misdirecting the optimization.
翻訳日:2021-09-10 14:09:19 公開日:2021-09-09
# AutoSmart: 時間関係データのための効率的かつ自動機械学習フレームワーク

AutoSmart: An Efficient and Automatic Machine Learning framework for Temporal Relational Data ( http://arxiv.org/abs/2109.04115v1 )

ライセンス: Link先を確認
Zhipeng Luo, Zhixing He, Jin Wang, Manqing Dong, Jianqiang Huang, Mingjian Chen, Bohang Zheng(参考訳) 時間的リレーショナルデータは、おそらく産業機械学習アプリケーションで最もよく使われるデータ型であり、正確なモデル予測を与えるために、労働集約的な特徴工学とデータ分析が必要である。 自動機械学習フレームワークは、モデルを微調整するための手作業を容易にするために必要であり、専門家は問題定義やデプロイメント、ビジネスサービスなど、人間のエンゲージメントが本当に必要な他の問題にもっと焦点を合わせることができる。 しかし、時間関係データの自動解法を構築するには、3つの大きな課題がある: 1)複数のテーブルとそれらの関係から有用な情報を効果的かつ自動的にマイニングする方法? 2)一定の予算内で時間とメモリ消費を制御するために、自己調整可能な方法。 3) 幅広いタスクに対して汎用的なソリューションを提供するには? そこで本研究では,この課題をエンドツーエンドで自動的に解決する手法を提案する。 提案されたフレームワークであるAutoSmartは、これまでで最大のAutoMLコンペティション(約4,955の応募を含む860のチーム)のひとつであるAutoML TrackのKDD Cup 2019の優勝ソリューションである。 このフレームワークには、自動データ処理、テーブルマージ、機能エンジニアリング、モデルチューニングが含まれ、モデルを効率的にかつ自動的に定式化するタイムメモリコントローラが含まれている。 提案するフレームワークは,さまざまなドメインの複数のデータセット上で,ベースラインソリューションを著しく上回る。

Temporal relational data, perhaps the most commonly used data type in industrial machine learning applications, needs labor-intensive feature engineering and data analyzing for giving precise model predictions. An automatic machine learning framework is needed to ease the manual efforts in fine-tuning the models so that the experts can focus more on other problems that really need humans' engagement such as problem definition, deployment, and business services. However, there are three main challenges for building automatic solutions for temporal relational data: 1) how to effectively and automatically mining useful information from the multiple tables and the relations from them? 2) how to be self-adjustable to control the time and memory consumption within a certain budget? and 3) how to give generic solutions to a wide range of tasks? In this work, we propose our solution that successfully addresses the above issues in an end-to-end automatic way. The proposed framework, AutoSmart, is the winning solution to the KDD Cup 2019 of the AutoML Track, which is one of the largest AutoML competition to date (860 teams with around 4,955 submissions). The framework includes automatic data processing, table merging, feature engineering, and model tuning, with a time\&memory controller for efficiently and automatically formulating the models. The proposed framework outperforms the baseline solution significantly on several datasets in various domains.
翻訳日:2021-09-10 14:09:01 公開日:2021-09-09
# 組成親和性伝播:クラスターが組成構造を持つとき

Compositional Affinity Propagation: When Clusters Have Compositional Structure ( http://arxiv.org/abs/2109.04160v1 )

ライセンス: Link先を確認
Jacob Whitehill and Zeqian Li(参考訳) クラスタ同士が独立していなくてもよい,むしろ他のクラスタとの合成関係を持つ(例えば,矩形,円,長方形,円の組み合わせからなるイメージ集合)ような,新たな種類のクラスタリング問題を考える。 この課題は、例えば個々のラベルだけでなく、ラベル集合を識別するために埋め込み空間を構成する合成埋め込みモデルに関する最近の研究によって動機づけられている。 このクラスタリング問題に対処するために,コンポジション親和性伝播(CAP)と呼ばれる新しいアルゴリズムを提案する。 標準的な親和性伝播や、マルチビューや階層クラスタリングのアルゴリズムとは対照的に、CAPはクラスタ間の構成性を自動的に推論することができる。 既存のクラスタリングアルゴリズムと比較して,MultiMNIST,OmniGlot ,LibriSpeechの各データセットで有望な結果を示す。 本研究は,複数話者からの同時音声によるマルチオブジェクト画像認識と話者ダイアリゼーションに適用する。

We consider a new kind of clustering problem in which clusters need not be independent of each other, but rather can have compositional relationships with other clusters (e.g., an image set consists of rectangles, circles, as well as combinations of rectangles and circles). This task is motivated by recent work in few-shot learning on compositional embedding models that structure the embedding space to distinguish the label sets, not just the individual labels, assigned to the examples. To tackle this clustering problem, we propose a new algorithm called Compositional Affinity Propagation (CAP). In contrast to standard Affinity Propagation as well as other algorithms for multi-view and hierarchical clustering, CAP can deduce compositionality among clusters automatically. We show promising results, compared to several existing clustering algorithms, on the MultiMNIST, OmniGlot, and LibriSpeech datasets. Our work has applications to multi-object image recognition and speaker diarization with simultaneous speech from multiple speakers.
翻訳日:2021-09-10 14:08:40 公開日:2021-09-09
# DAE-PINN:微分代数方程式をシミュレーションする物理インフォームニューラルネットワークモデルと電力ネットワークへの応用

DAE-PINN: A Physics-Informed Neural Network Model for Simulating Differential-Algebra ic Equations with Application to Power Networks ( http://arxiv.org/abs/2109.04304v1 )

ライセンス: Link先を確認
Christian Moya and Guang Lin(参考訳) 深層学習に基づくサーロゲートモデリングは、動的システムの学習とシミュレーションに有望なアプローチになりつつある。 しかし、ディープラーニングの方法は非常に難しい学習の強固なダイナミクスを見つける。 本稿では,非線形微分代数方程式(dae)の解路を学習しシミュレートする最初の効果的なディープラーニングフレームワークであるdae-pinnを開発した。 我々のDAE-PINNは、暗黙のRunge-Kuttaタイムステッピングスキーム(DAEを解くために特別に設計された)と物理情報ニューラルネットワーク(PINN)(根底にある問題のダイナミクスを満たすためにトレーニングされたディープニューラルネットワーク)の相乗効果に基づく。 さらに,筆者らのフレームワークは,ペナルティベースの手法を用いて,DAEを(近似的に)厳しい制約として満たすためにニューラルネットワークを強制し,(ii)長期間の地平線に対するDAEのシミュレーションを可能にする。 DAE-PINNの有効性と精度を3バス電力ネットワークの解軌跡を学習・シミュレーションすることで示す。

Deep learning-based surrogate modeling is becoming a promising approach for learning and simulating dynamical systems. Deep-learning methods, however, find very challenging learning stiff dynamics. In this paper, we develop DAE-PINN, the first effective deep-learning framework for learning and simulating the solution trajectories of nonlinear differential-algebra ic equations (DAE), which present a form of infinite stiffness and describe, for example, the dynamics of power networks. Our DAE-PINN bases its effectiveness on the synergy between implicit Runge-Kutta time-stepping schemes (designed specifically for solving DAEs) and physics-informed neural networks (PINN) (deep neural networks that we train to satisfy the dynamics of the underlying problem). Furthermore, our framework (i) enforces the neural network to satisfy the DAEs as (approximate) hard constraints using a penalty-based method and (ii) enables simulating DAEs for long-time horizons. We showcase the effectiveness and accuracy of DAE-PINN by learning and simulating the solution trajectories of a three-bus power network.
翻訳日:2021-09-10 14:08:23 公開日:2021-09-09
# NeuralFMU: ニューラルネットワークへのFMUの構造統合を目指して

NeuralFMU: Towards Structural Integration of FMUs into Neural Networks ( http://arxiv.org/abs/2109.04351v1 )

ライセンス: Link先を確認
Tobias Thummerer, Josef Kircher, Lars Mikelsons(参考訳) まず、FMIをJuliaプログラミング環境に統合するためのFMI.jlという新しいオープンソースライブラリのプレゼンテーションを行い、FMUのロード、パラメータ化、シミュレーションを行う。 さらに、FMIFlux.jlと呼ばれるこのライブラリの拡張が導入され、FMUをニューラルネットワークトポロジーに統合してNeuralFMUを得ることができる。 この業界典型的なブラックボックスモデルとデータ駆動機械学習モデルの構造的組み合わせは、単一の開発環境における両方のモデリングアプローチの異なる利点を組み合わせる。 これにより、第一原理に基づくモデリングが難しい物理効果のための高度なデータ駆動モデリング技術が利用できる。

This paper covers two major subjects: First, the presentation of a new open-source library called FMI.jl for integrating FMI into the Julia programming environment by providing the possibility to load, parameterize and simulate FMUs. Further, an extension to this library called FMIFlux.jl is introduced, that allows the integration of FMUs into a neural network topology to obtain a NeuralFMU. This structural combination of an industry typical black-box model and a data-driven machine learning model combines the different advantages of both modeling approaches in one single development environment. This allows for the usage of advanced data driven modeling techniques for physical effects that are difficult to model based on first principles.
翻訳日:2021-09-10 14:08:00 公開日:2021-09-09
# Cross DQN: フィードにおける広告アロケーションのためのクロスディープQネットワーク

Cross DQN: Cross Deep Q Network for Ads Allocation in Feed ( http://arxiv.org/abs/2109.04353v1 )

ライセンス: Link先を確認
Guogang Liao, Ze Wang, Xiaoxu Wu, Xiaowen Shi, Chuheng Zhang, Yongkang Wang, Xingxing Wang, Dong Wang(参考訳) 電子商取引プラットフォームは通常、広告とオーガニックアイテムの混合リストをフィードに表示する。 重要な問題のひとつは、フィードの制限されたスロットを割り当てて全体の収益を最大化し、ユーザーエクスペリエンスを向上させることだ。 個々のアイテムがユーザ行動に与える影響をモデル化する代わりに、アレンジ信号はアイテムのアレンジの影響をモデル化し、アロケーション戦略を改善することができる。 しかし、以前の戦略のほとんどはそのような信号のモデル化に失敗し、結果として準最適性能をもたらす。 この目的のために、異なるアイテムの埋め込みを渡り、フィード内のクロスシーケンスを処理することで、アレンジメント信号を抽出するクロスディープQネットワーク(Cross DQN)を提案する。 我々のモデルは、オフライン実験において最先端のベースラインよりも高い収益とユーザーエクスペリエンスをもたらす。 さらに,本モデルは,オンラインa/bテストの大幅な改善を示し,3億人以上の顧客にサービスを提供するためにmeituanフィードに完全にデプロイされている。

E-commerce platforms usually display a mixed list of ads and organic items in feed. One key problem is to allocate the limited slots in the feed to maximize the overall revenue as well as improve user experience, which requires a good model for user preference. Instead of modeling the influence of individual items on user behaviors, the arrangement signal models the influence of the arrangement of items and may lead to a better allocation strategy. However, most of previous strategies fail to model such a signal and therefore result in suboptimal performance. To this end, we propose Cross Deep Q Network (Cross DQN) to extract the arrangement signal by crossing the embeddings of different items and processing the crossed sequence in the feed. Our model results in higher revenue and better user experience than state-of-the-art baselines in offline experiments. Moreover, our model demonstrates a significant improvement in the online A/B test and has been fully deployed on Meituan feed to serve more than 300 millions of customers.
翻訳日:2021-09-10 14:07:48 公開日:2021-09-09
# 公正基準の漸進的(In)適合性

Gradual (In)Compatibility of Fairness Criteria ( http://arxiv.org/abs/2109.04399v1 )

ライセンス: Link先を確認
Corinna Hertweck and Tim R\"az(参考訳) 不合理性の結果は、重要な公正度(独立性、分離性、十分性)を合理的な仮定の下で同時に満たすことができないことを示している。 本稿では,これらの公平性尺度をある程度同時に満たせるか,あるいは改善できるかを検討する。 公正度尺度の情報理論的定式化を導入し,これらの定式化に基づいて公平度を定義する。 情報理論的な定式化は、3つのフェアネス測度の間の未検討の理論関係を示唆する。 実験では、情報理論式を正規化器として、3つの標準データセットのフェアネス正規化予測器を得る。 実験により,a)公平性正規化は,既存の作業と合致して,直接的にフェアネス測度を増加させ,b)公平性正規化は間接的に他のフェアネス測度を増加させることが示された。 これは、ある公正度尺度が同時に満たされる程度を増大させることが可能であることを証明している。

Impossibility results show that important fairness measures (independence, separation, sufficiency) cannot be satisfied at the same time under reasonable assumptions. This paper explores whether we can satisfy and/or improve these fairness measures simultaneously to a certain degree. We introduce information-theoreti c formulations of the fairness measures and define degrees of fairness based on these formulations. The information-theoreti c formulations suggest unexplored theoretical relations between the three fairness measures. In the experimental part, we use the information-theoreti c expressions as regularizers to obtain fairness-regularized predictors for three standard datasets. Our experiments show that a) fairness regularization directly increases fairness measures, in line with existing work, and b) some fairness regularizations indirectly increase other fairness measures, as suggested by our theoretical findings. This establishes that it is possible to increase the degree to which some fairness measures are satisfied at the same time -- some fairness measures are gradually compatible.
翻訳日:2021-09-10 14:07:33 公開日:2021-09-09
# LiDARを用いた予測処理によるロボット位置推定とナビゲーション

Robot Localization and Navigation through Predictive Processing using LiDAR ( http://arxiv.org/abs/2109.04139v1 )

ライセンス: Link先を確認
Daniel Burghardt, Pablo Lanillos(参考訳) ロボットの位置を知ることは、ナビゲーションにとって重要である。 現在、kalmanやparticle-basedといったベイズフィルタは、モバイルロボティクスにおける標準的なアプローチである。 近年,エンド・ツー・エンド学習により,高次元入力へのスケールアップと一般化が実現されている。 しかし、信頼できるレーザーナビゲーションを提供するには、まだ制限がある。 ここでは,レーザーセンサを用いた位置認識やナビゲーションに応用される知覚に対する予測処理を,オドメトリーを必要とせずに概念実証する。 我々は自己教師付き学習を通じてレーザ生成モデルを学び、変動自由エネルギー境界上の確率勾配降下を通してオンライン状態推定とナビゲーションを行う。 このアルゴリズムをガゼボの移動ロボット(TIAGo Base)にレーザーセンサ(SICK)を用いて評価した。 その結果,オドメトリーの欠如による粒子フィルタとの比較では,状態推定性能が向上した。 さらに,標準的なベイズ推定手法に対して,予測誤差を最小化する動作を推論することにより,目標目標を提示する際のナビゲートを可能にする。

Knowing the position of the robot in the world is crucial for navigation. Nowadays, Bayesian filters, such as Kalman and particle-based, are standard approaches in mobile robotics. Recently, end-to-end learning has allowed for scaling-up to high-dimensional inputs and improved generalization. However, there are still limitations to providing reliable laser navigation. Here we show a proof-of-concept of the predictive processing-inspired approach to perception applied for localization and navigation using laser sensors, without the need for odometry. We learn the generative model of the laser through self-supervised learning and perform both online state-estimation and navigation through stochastic gradient descent on the variational free-energy bound. We evaluated the algorithm on a mobile robot (TIAGo Base) with a laser sensor (SICK) in Gazebo. Results showed improved state-estimation performance when comparing to a state-of-the-art particle filter in the absence of odometry. Furthermore, conversely to standard Bayesian estimation approaches our method also enables the robot to navigate when providing the desired goal by inferring the actions that minimize the prediction error.
翻訳日:2021-09-10 14:07:16 公開日:2021-09-09
# ピクセルベース離散制御のための深部アクティブ推論:カーレース問題の評価

Deep Active Inference for Pixel-Based Discrete Control: Evaluation on the Car Racing Problem ( http://arxiv.org/abs/2109.04155v1 )

ライセンス: Link先を確認
Niels van Hoeffelen, Pablo Lanillos(参考訳) 視覚的制御のための能動的推論の可能性にもかかわらず、環境と相互作用しながらモデルと好み(優先順位)を学習することは困難である。 本稿では,OpenAIのカーレースベンチマークにおいて,自動車の状態にアクセスできないディープアクティブ推論(dAIF)エージェントの性能について検討する。 エージェントは、教師なし表現学習を通じて、高次元入力から世界の状態を符号化する。 状態推論と制御は、期待される自由エネルギーを最適化することでエンドツーエンドで学習される。 その結果,本モデルはQ-Learningに匹敵する性能を示した。 しかしながら、Vanilla dAIFは、他の世界モデルアプローチと比べて最先端のパフォーマンスには達していない。 そこで我々は,現状のモデル実装の限界と克服する潜在的なアーキテクチャについて論じる。

Despite the potential of active inference for visual-based control, learning the model and the preferences (priors) while interacting with the environment is challenging. Here, we study the performance of a deep active inference (dAIF) agent on OpenAI's car racing benchmark, where there is no access to the car's state. The agent learns to encode the world's state from high-dimensional input through unsupervised representation learning. State inference and control are learned end-to-end by optimizing the expected free energy. Results show that our model achieves comparable performance to deep Q-learning. However, vanilla dAIF does not reach state-of-the-art performance compared to other world model approaches. Hence, we discuss the current model implementation's limitations and potential architectures to overcome them.
翻訳日:2021-09-10 14:07:02 公開日:2021-09-09
# 哲学からインターフェイスへ:アチンシュタインの説明理論に触発された説明的方法と道具

From Philosophy to Interfaces: an Explanatory Method and a Tool Inspired by Achinstein's Theory of Explanation ( http://arxiv.org/abs/2109.04171v1 )

ライセンス: Link先を確認
Francesco Sovrano and Fabio Vitali(参考訳) 本稿では,人工知能(AI)における説明のための新しい手法と,ユーザインタフェース内で表現力をテストするツールを提案する。 哲学とヒューマン・コンピュータ・インタフェースのギャップを埋めるために、自然言語文書を知識グラフに構造化し、効果的かつ満足できる質問に答える、高度なaiアルゴリズムのパイプラインに基づく対話的説明の生成のための新しいアプローチを示す。 説明論の主流となる哲学的理論の中で、我々の見解では、ユーザー中心のツールの実用的なモデルとして、より容易に適用できるものを見つけ出した。 この研究により、アチンシュタインが提案した理論が実際に具体的なソフトウェアアプリケーションに実装され、疑問に答える対話的プロセスとして適用できることを証明することを目指している。 この目的のために私たちは、説明過程を明示的な質問に対する答えとしてではなく、予備的な概要として暗黙的に特徴づける一般的な(階層的な)質問を扱う方法を見つけました。 このアプローチの表現力を示すために,我々は,質問応答のための既存のインターフェースやプレゼンテーションロジックレイヤではなく,説明のこの側面に注目し,概要の形で対話的説明を生成するためのAIアルゴリズムのパイプラインを設計,実装した。 我々は,IBM によるよく知られた XAI による信用承認システムにおいて,ポストホックな説明のための静的説明ツール CEM と,モデルに基づく対話型説明を追加するエクステンションを比較検討した。 その結果,100名以上の被験者を対象とするユーザスタディの結果,提案手法はベースライン上での有効性(U=931.0,p=0.036)を統計的に向上させることができた。

We propose a new method for explanations in Artificial Intelligence (AI) and a tool to test its expressive power within a user interface. In order to bridge the gap between philosophy and human-computer interfaces, we show a new approach for the generation of interactive explanations based on a sophisticated pipeline of AI algorithms for structuring natural language documents into knowledge graphs, answering questions effectively and satisfactorily. Among the mainstream philosophical theories of explanation we identified one that in our view is more easily applicable as a practical model for user-centric tools: Achinstein's Theory of Explanation. With this work we aim to prove that the theory proposed by Achinstein can be actually adapted for being implemented into a concrete software application, as an interactive process answering questions. To this end we found a way to handle the generic (archetypal) questions that implicitly characterise an explanatory processes as preliminary overviews rather than as answers to explicit questions, as commonly understood. To show the expressive power of this approach we designed and implemented a pipeline of AI algorithms for the generation of interactive explanations under the form of overviews, focusing on this aspect of explanations rather than on existing interfaces and presentation logic layers for question answering. We tested our hypothesis on a well-known XAI-powered credit approval system by IBM, comparing CEM, a static explanatory tool for post-hoc explanations, with an extension we developed adding interactive explanations based on our model. The results of the user study, involving more than 100 participants, showed that our proposed solution produced a statistically relevant improvement on effectiveness (U=931.0, p=0.036) over the baseline, thus giving evidence in favour of our theory.
翻訳日:2021-09-10 14:06:52 公開日:2021-09-09
# evilmodel 2.0:ニューラルネットワークモデル内にマルウェアを隠す

EvilModel 2.0: Hiding Malware Inside of Neural Network Models ( http://arxiv.org/abs/2109.04344v1 )

ライセンス: Link先を確認
Zhi Wang, Chaoge Liu, Xiang Cui, Jie Yin(参考訳) 人工知能(AI)は様々な分野で広く応用されているが、悪意ある用途でも使われている。 事前にAIによる攻撃を阻止するためには、研究と予測が必要である。 ニューラルネットワークモデルをステゴマルウェアに変えることは、ニューラルネットワークモデルの特徴を利用して、モデルのパフォーマンスを維持しながらマルウェアを隠すAIの悪意ある使用である。 しかし,既存手法はマルウェアの埋め込み率が低く,モデルの性能に高い影響を与えるため,実用的ではない。 そこで本研究では,ニューラルネットワークモデルの構成を分析して,高容量でサービス品質の劣化のないモデルにマルウェアを埋め込む方法を提案する。 19のマルウェアサンプルと10のメインストリームモデルを用いて,550のマルウェア組込みモデルを構築し,imagenetデータセットにおけるモデルの性能解析を行った。 埋込率, モデル性能への影響, 埋込工数を組み合わせた新しい評価法を提案し, 既存手法の評価を行った。 本稿ではトリガーも設計し,悪モデルとwannacryを組み合わせたアタックタスクにおけるアプリケーションシナリオを提案する。 本稿では,ニューラルネットワークモデルの埋め込み容量とモデル構造,層,サイズとの関係についてさらに検討する。 人工知能の広範な応用により、ニューラルネットワークを攻撃に活用する傾向が強まっている。 この研究が、ニューラルネットワークによる攻撃の防御のためのリファレンスシナリオを提供できることを願っています。

While artificial intelligence (AI) is widely applied in various areas, it is also being used maliciously. It is necessary to study and predict AI-powered attacks to prevent them in advance. Turning neural network models into stegomalware is a malicious use of AI, which utilizes the features of neural network models to hide malware while maintaining the performance of the models. However, the existing methods have a low malware embedding rate and a high impact on the model performance, making it not practical. Therefore, by analyzing the composition of the neural network models, this paper proposes new methods to embed malware in models with high capacity and no service quality degradation. We used 19 malware samples and 10 mainstream models to build 550 malware-embedded models and analyzed the models' performance on ImageNet dataset. A new evaluation method that combines the embedding rate, the model performance impact and the embedding effort is proposed to evaluate the existing methods. This paper also designs a trigger and proposes an application scenario in attack tasks combining EvilModel with WannaCry. This paper further studies the relationship between neural network models' embedding capacity and the model structure, layer and size. With the widespread application of artificial intelligence, utilizing neural networks for attacks is becoming a forwarding trend. We hope this work can provide a reference scenario for the defense of neural network-assisted attacks.
翻訳日:2021-09-10 14:06:23 公開日:2021-09-09
# 並列自己回帰法による非自己回帰的エンドツーエンド音声翻訳

Non-autoregressive End-to-end Speech Translation with Parallel Autoregressive Rescoring ( http://arxiv.org/abs/2109.04411v1 )

ライセンス: Link先を確認
Hirofumi Inaguma, Yosuke Higuchi, Kevin Duh, Tatsuya Kawahara, Shinji Watanabe(参考訳) 本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。 エンドツーエンドの音声翻訳モデルは、推論遅延の低減など、従来のカスケードシステムに対していくつかの利点がある。 しかし、従来のar復号法は、各トークンが漸進的に生成されるため、十分に高速ではない。 しかし、NARモデルはトークンワイド条件独立仮定に基づいて複数のトークンを並列に生成することでデコード速度を加速することができる。 我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。 補助浅層ARデコーダは、NARデコーダから生成された複数の候補を並列(並列ARデコーダ)に再描画することで、最良の仮説を選択する。 我々は,Orthros-CMLM と Orthros-CTC と呼ばれる Orthros の NAR デコーダとして,条件付きマスク言語モデル (CMLM) と接続時分類モデル (CTC) を採用している。 また,CMLMデコーダの強化のための2つのトレーニング手法を提案する。 6つの言語方向を持つ3つのベンチマークデータセットの実験的評価により、OrthrosはベースラインのNARモデルと比較して非常に小さなオーバーヘッドで翻訳品質を大幅に改善した。 さらに、コンフォーマエンコーダアーキテクチャは、特にctcベースのモデルにおいて、大きな品質改善を可能にした。 Conformerエンコーダを搭載したOrthros-CTCは、ARモデルに匹敵する翻訳品質を持つCPUのデコード速度を3.63倍に向上させた。

This article describes an efficient end-to-end speech translation (E2E-ST) framework based on non-autoregressive (NAR) models. End-to-end speech translation models have several advantages over traditional cascade systems such as inference latency reduction. However, conventional AR decoding methods are not fast enough because each token is generated incrementally. NAR models, however, can accelerate the decoding speed by generating multiple tokens in parallel on the basis of the token-wise conditional independence assumption. We propose a unified NAR E2E-ST framework called Orthros, which has an NAR decoder and an auxiliary shallow AR decoder on top of the shared encoder. The auxiliary shallow AR decoder selects the best hypothesis by rescoring multiple candidates generated from the NAR decoder in parallel (parallel AR rescoring). We adopt conditional masked language model (CMLM) and a connectionist temporal classification (CTC)-based model as NAR decoders for Orthros, referred to as Orthros-CMLM and Orthros-CTC, respectively. We also propose two training methods to enhance the CMLM decoder. Experimental evaluations on three benchmark datasets with six language directions demonstrated that Orthros achieved large improvements in translation quality with a very small overhead compared with the baseline NAR model. Moreover, the Conformer encoder architecture enabled large quality improvements, especially for CTC-based models. Orthros-CTC with the Conformer encoder increased decoding speed by 3.63x on CPU with translation quality comparable to that of an AR model.
翻訳日:2021-09-10 14:05:46 公開日:2021-09-09
# リアルタイム画像ジオローカライズのためのクロススケール視覚表現の学習

Learning Cross-Scale Visual Representations for Real-Time Image Geo-Localization ( http://arxiv.org/abs/2109.04087v1 )

ライセンス: Link先を確認
Tianyi Zhang and Matthew Johnson-Roberson(参考訳) GPSが否定された環境では、ロボットのローカライゼーションは依然として難しい課題だ。 局所センサに基づく状態推定手法(例) カメラまたはIMUは、エラーが蓄積されるにつれて長距離ミッションのためにドリフトする傾向にある。 本研究では,2次元マルチモーダル地理空間マップにおける画像観察の局所化により,この問題に対処しようとする。 クロススケールなデータセットと、クロスモダリティソースから追加データを生成する手法を紹介する。 我々は、監督なしでクロススケールな視覚的表現を学ぶフレームワークを提案する。 実験は水中と空中の2つの異なる領域のデータに基づいて行われる。 クロスビュー画像のジオローカライズに関する既存の研究とは対照的に,a)小規模のマルチモーダルマップにおいて,a)リアルタイムアプリケーションでは計算効率が高く,c)状態推定パイプラインと直接協調して機能することができる。

Robot localization remains a challenging task in GPS denied environments. State estimation approaches based on local sensors, e.g. cameras or IMUs, are drifting-prone for long-range missions as error accumulates. In this study, we aim to address this problem by localizing image observations in a 2D multi-modal geospatial map. We introduce the cross-scale dataset and a methodology to produce additional data from cross-modality sources. We propose a framework that learns cross-scale visual representations without supervision. Experiments are conducted on data from two different domains, underwater and aerial. In contrast to existing studies in cross-view image geo-localization, our approach a) performs better on smaller-scale multi-modal maps; b) is more computationally efficient for real-time applications; c) can serve directly in concert with state estimation pipelines.
翻訳日:2021-09-10 14:05:22 公開日:2021-09-09
# DAN:MinMaxのマルチトラベリングセールスマン問題を解決する分散型アテンションベースニューラルネットワーク

DAN: Decentralized Attention-based Neural Network to Solve the MinMax Multiple Traveling Salesman Problem ( http://arxiv.org/abs/2109.04205v1 )

ライセンス: Link先を確認
Yuhong Cao and Zhanhong Sun and Guillaume Sartoretti(参考訳) マルチトラベルセールスマン問題(mTSP)は、多くの現実世界の応用においてよく知られたNPハード問題である。 特に、この研究はMinMax mTSPに対処し、すべてのエージェント間の最大ツアー距離(ユークリッド距離の仮定)を最小化することを目的としている。 mTSPは通常、組合せ最適化問題と見なされるが、その計算複雑性のため、都市数が増加するにつれて、検索に基づく正確かつヒューリスティックなアルゴリズムは非効率になる。 近年の深層強化学習(dRL)の発展により、この研究はmTSPを協調作業とみなし、DANと呼ばれるMinMax mTSPを解決するために、分散された注意に基づくニューラルネットワーク手法を導入している。 DANでは、エージェントは、他のエージェントの将来の決定を予測することによって、ツアーを共同で構築するための完全に分散されたポリシーを学ぶ。 我々のモデルはTransformerアーキテクチャに依存し、パラメータ共有を備えたマルチエージェントRLを用いて訓練されており、エージェントや都市の数に自然なスケーラビリティを提供する。 我々は50から1000の都市、5から20のエージェントを含む小規模から大規模mTSPインスタンスで実験を行い、最先端のベースラインと比較した。 小規模の問題(100都市未満)では、DANは同じ計算時間予算を与えられた最高の解法(またはメタヒューリスティック解法)の性能と密に一致させることができる。 大規模インスタンスでは、DANは計算時間を低く保ちながら従来の解法とdRLベースの解法より優れており、エージェント間のコラボレーションが強化されている。

The multiple traveling salesman problem (mTSP) is a well-known NP-hard problem with numerous real-world applications. In particular, this work addresses MinMax mTSP, where the objective is to minimize the max tour length (sum of Euclidean distances) among all agents. The mTSP is normally considered as a combinatorial optimization problem, but due to its computational complexity, search-based exact and heuristic algorithms become inefficient as the number of cities increases. Encouraged by the recent developments in deep reinforcement learning (dRL), this work considers the mTSP as a cooperative task and introduces a decentralized attention-based neural network method to solve the MinMax mTSP, named DAN. In DAN, agents learn fully decentralized policies to collaboratively construct a tour, by predicting the future decisions of other agents. Our model relies on the Transformer architecture, and is trained using multi-agent RL with parameter sharing, which provides natural scalability to the numbers of agents and cities. We experimentally demonstrate our model on small- to large-scale mTSP instances, which involve 50 to 1000 cities and 5 to 20 agents, and compare against state-of-the-art baselines. For small-scale problems (fewer than 100 cities), DAN is able to closely match the performance of the best solver available (OR Tools, a meta-heuristic solver) given the same computation time budget. In larger-scale instances, DAN outperforms both conventional and dRL-based solvers, while keeping computation times low, and exhibits enhanced collaboration among agents.
翻訳日:2021-09-10 14:04:13 公開日:2021-09-09
# 不確実性下におけるリスク逆決定

Risk-Averse Decision Making Under Uncertainty ( http://arxiv.org/abs/2109.04082v1 )

ライセンス: Link先を確認
Mohamadreza Ahmadi, Ugo Rosolia, Michel D. Ingham, Richard M. Murray, and Aaron D. Ames(参考訳) 不確実性問題に対する大規模な意思決定は、マルコフ決定プロセス(mdps)または部分的に観測可能なmdps(pomdps)を通じて記述することができ、人工知能や運用研究などに応用できる。 従来の政策合成技術では、総費用や報酬の最小化や最大化を図っている。 しかし, 総コスト感覚の最適性は, 多数のランニングにおけるシステム行動が関心を持つ場合にのみ妥当であり, 実際のミッションクリティカルなシナリオではそのようなポリシーの使用が制限され, 期待される行動からの大きな逸脱がミッション失敗につながる可能性がある。 本稿では,mdp と pomdp のポリシー設計の問題点を,動的コヒーレント・リスク対策の観点から,目的と制約を考慮し,制約付きリスク回避問題として考察する。 MDPでは,この問題をラグランジアンフレームワークを介して不完全な問題に再構成し,マルコフポリシーを最適化する手法を提案する。 MDPに対して、定式化された最適化問題は差分凸プログラム(DCP)の形式であり、規律付き凸凸プログラミング(DCCP)フレームワークで解決可能であることを実証する。 これらの結果は,制約付きmdpの線形プログラムを,期待コストと制約の合計値で一般化することを示す。 POMDPに対して、コヒーレントリスク尺度をマルコフリスク遷移写像として定義できるならば、マルコフの信念に基づくポリシーの設計に無限次元の最適化を用いることができることを示す。 確率有限状態コントローラ (FSC) に対して、後者の最適化は(有限次元) DCP に単純化され、DCCP フレームワークで解けることを示す。 我々はこれらのDCPをポリシー反復アルゴリズムに組み込んで、PMDPのリスク逆FSCを設計する。

A large class of decision making under uncertainty problems can be described via Markov decision processes (MDPs) or partially observable MDPs (POMDPs), with application to artificial intelligence and operations research, among others. Traditionally, policy synthesis techniques are proposed such that a total expected cost or reward is minimized or maximized. However, optimality in the total expected cost sense is only reasonable if system behavior in the large number of runs is of interest, which has limited the use of such policies in practical mission-critical scenarios, wherein large deviations from the expected behavior may lead to mission failure. In this paper, we consider the problem of designing policies for MDPs and POMDPs with objectives and constraints in terms of dynamic coherent risk measures, which we refer to as the constrained risk-averse problem. For MDPs, we reformulate the problem into a infsup problem via the Lagrangian framework and propose an optimization-based method to synthesize Markovian policies. For MDPs, we demonstrate that the formulated optimization problems are in the form of difference convex programs (DCPs) and can be solved by the disciplined convex-concave programming (DCCP) framework. We show that these results generalize linear programs for constrained MDPs with total discounted expected costs and constraints. For POMDPs, we show that, if the coherent risk measures can be defined as a Markov risk transition mapping, an infinite-dimensional optimization can be used to design Markovian belief-based policies. For stochastic finite-state controllers (FSCs), we show that the latter optimization simplifies to a (finite-dimensional) DCP and can be solved by the DCCP framework. We incorporate these DCPs in a policy iteration algorithm to design risk-averse FSCs for POMDPs.
翻訳日:2021-09-10 14:03:45 公開日:2021-09-09
# 再現可能なmlの課題 : バグの影響に関する実証的研究

The challenge of reproducible ML: an empirical study on the impact of bugs ( http://arxiv.org/abs/2109.03991v1 )

ライセンス: Link先を確認
Emilio Rivera-Landos, Foutse Khomh, Amin Nikanjam(参考訳) 再現性は科学研究において重要な要件である。 研究や科学論文の結果が再現が困難あるいは不可能であると判明すると、再現可能性危機と呼ばれる課題に直面する。 機械学習(ml)の再現性に対する要求は文献で認められているが、主な障壁はmlトレーニングと推論において固有の非決定性である。 本稿では,MLシステムにおける非決定性の原因となる基本因子について述べる。 次にReproduceMLというフレームワークを導入し,実環境におけるML実験の決定論的評価を行う。 ReproduceMLは、研究者がMLトレーニングと推論に対するソフトウェア構成の影響を調べることを可能にする。 ReproduceMLを使用したケーススタディ:MLライブラリ内のバグがML実験のパフォーマンスに与える影響を調べる。 本研究では、人気のあるMLフレームワークであるPyTorchにおけるバグ発生が、トレーニングされたモデルの性能に与える影響を定量化する。 そのため、MLライブラリのバグの多いバージョンを収集し、ReproduceMLを使用して決定論的ML実験を実行するための包括的な方法論が提案されている。 私たちの最初の発見は、PyTorchで発生したバグがトレーニングされたモデルのパフォーマンスに影響することを示す限られたデータセットに基づく証拠がないということです。 提案手法とReproduceMLは非決定性およびバグのさらなる研究に利用できる。

Reproducibility is a crucial requirement in scientific research. When results of research studies and scientific papers have been found difficult or impossible to reproduce, we face a challenge which is called reproducibility crisis. Although the demand for reproducibility in Machine Learning (ML) is acknowledged in the literature, a main barrier is inherent non-determinism in ML training and inference. In this paper, we establish the fundamental factors that cause non-determinism in ML systems. A framework, ReproduceML, is then introduced for deterministic evaluation of ML experiments in a real, controlled environment. ReproduceML allows researchers to investigate software configuration effects on ML training and inference. Using ReproduceML, we run a case study: investigation of the impact of bugs inside ML libraries on performance of ML experiments. This study attempts to quantify the impact that the occurrence of bugs in a popular ML framework, PyTorch, has on the performance of trained models. To do so, a comprehensive methodology is proposed to collect buggy versions of ML libraries and run deterministic ML experiments using ReproduceML. Our initial finding is that there is no evidence based on our limited dataset to show that bugs which occurred in PyTorch do affect the performance of trained models. The proposed methodology as well as ReproduceML can be employed for further research on non-determinism and bugs.
翻訳日:2021-09-10 14:01:13 公開日:2021-09-09
# MaterialsAtlas.org: 材料発見と現状調査のためのマテリアルインフォマティクスWebアプリプラットフォーム

MaterialsAtlas.org: A Materials Informatics Web App Platform for Materials Discovery and Survey of State-of-the-Art ( http://arxiv.org/abs/2109.04007v1 )

ライセンス: Link先を確認
Jianjun Hu, Stanislav Stefanov, Yuqi Song, Sadman Sadeed Omee, Steph-Yves Louis, Edirisuriya M. D. Siriwardane, Yong Zhao(参考訳) 大規模実験および計算材料データの可用性と容易なアクセスにより、材料特性予測、構造予測、および材料生成設計のためのアルゴリズムおよびモデルの開発が加速された。 しかし、ユーザフレンドリーな資料の欠如 ウェブサーバは、材料スクリーニング、ティンカー、材料科学者によるデザイン空間探索の日々の実践において、そのようなツールの採用を厳しく制限している。 ここではまず,現在の資料情報学 web アプリを調査し,次に materialsatlas.org を提案・開発する。材料発見のための web ベースの資料情報学ツールボックスで,材料構成や構造チェックなど,探索的材料発見に必要なツールが多数含まれている。 中立性、電気陰性度バランス、動的安定性、ポーリング規則)、材料特性予測(例) バンドギャップ、弾性モジュラー、硬度、熱伝導度)、および仮説的な物質を探索する。 これらのユーザーフレンドリーなツールは \url{www.materialsatlas.o rg} で自由にアクセスできる。 このようなインフォマティクスアプリは、素材発見プロセスをスピードアップするために、コミュニティによって広く開発されるべきである。

The availability and easy access of large scale experimental and computational materials data have enabled the emergence of accelerated development of algorithms and models for materials property prediction, structure prediction, and generative design of materials. However, lack of user-friendly materials informatics web servers has severely constrained the wide adoption of such tools in the daily practice of materials screening, tinkering, and design space exploration by materials scientists. Herein we first survey current materials informatics web apps and then propose and develop MaterialsAtlas.org, a web based materials informatics toolbox for materials discovery, which includes a variety of routinely needed tools for exploratory materials discovery, including materials composition and structure check (e.g. for neutrality, electronegativity balance, dynamic stability, Pauling rules), materials property prediction (e.g. band gap, elastic moduli, hardness, thermal conductivity), and search for hypothetical materials. These user-friendly tools can be freely accessed at \url{www.materialsatlas.o rg}. We argue that such materials informatics apps should be widely developed by the community to speed up the materials discovery processes.
翻訳日:2021-09-10 14:00:54 公開日:2021-09-09
# 自動意思決定における集団公平性の体系的アプローチ

A Systematic Approach to Group Fairness in Automated Decision Making ( http://arxiv.org/abs/2109.04230v1 )

ライセンス: Link先を確認
Corinna Hertweck and Christoph Heitz(参考訳) アルゴリズム的公平性は、機械学習モデルの公平性を計測し改善するための多くの方法をもたらしてきたが、これらの発見はまだ広くは使われていない。 この理由の1つは、アルゴリズム的公平さの分野が多くの公平性の定義を思いついたためであり、それはナビゲートが困難である。 本稿の目的は,データサイエンティストにグループフェアネス指標の紹介を提供し,これらの指標をケアする哲学的理由について考察することである。 我々は、公正な言明をするために、社会デコグラフィグループをどの感覚で比較するかを検討する。

While the field of algorithmic fairness has brought forth many ways to measure and improve the fairness of machine learning models, these findings are still not widely used in practice. We suspect that one reason for this is that the field of algorithmic fairness came up with a lot of definitions of fairness, which are difficult to navigate. The goal of this paper is to provide data scientists with an accessible introduction to group fairness metrics and to give some insight into the philosophical reasoning for caring about these metrics. We will do this by considering in which sense socio-demographic groups are compared for making a statement on fairness.
翻訳日:2021-09-10 14:00:35 公開日:2021-09-09
# 階層クラスタリングの順序保存のための目的関数

An objective function for order preserving hierarchical clustering ( http://arxiv.org/abs/2109.04266v1 )

ライセンス: Link先を確認
Daniel Bakkelund(参考訳) もし$x \leq y$と$[x]$と$[y]$がそれぞれ$x$と$y$のクラスタであるなら、$[x] \leq' |y]$となるクラスタに$\leq'$という順序関係があるという意味で、部分順序を保存する部分順序データの類似性に基づく階層的クラスタリング関数を示す。 このモデルは、順序関係と類似性が組み合わさって両者を満足しようとする最適な階層的クラスタリングを求め、順序関係が$[0,1]$の範囲でペアワイズな比較可能性レベルを備えるという、順序データのクラスタリングのための既存の方法とモデルとを区別する。 特に、類似性と順序関係が一致していない場合、順序保存はクラスタリングに有利である必要がある。 最適解を求めることはnpハードであるため、有向スパルセストカットの逐次応用に基づいて、相対性能保証が$o(\log^{3/2}n)$の多項式時間近似アルゴリズムを提供する。 このモデルは分割階層クラスタリングのためのdasguptaコスト関数の拡張である。

We present an objective function for similarity based hierarchical clustering of partially ordered data that preserves the partial order in the sense that if $x \leq y$, and if $[x]$ and $[y]$ are the respective clusters of $x$ and $y$, then there is an order relation $\leq'$ on the clusters for which $[x] \leq' |y]$. The model distinguishes itself from existing methods and models for clustering of ordered data in that the order relation and the similarity are combined to obtain an optimal hierarchical clustering seeking to satisfy both, and that the order relation is equipped with a pairwise level of comparability in the range $[0,1]$. In particular, if the similarity and the order relation are not aligned, then order preservation may have to yield in favor of clustering. Finding an optimal solution is NP-hard, so we provide a polynomial time approximation algorithm, with a relative performance guarantee of $O(\log^{3/2}n)$, based on successive applications of directed sparsest cut. The model is an extension of the Dasgupta cost function for divisive hierarchical clustering.
翻訳日:2021-09-10 14:00:23 公開日:2021-09-09
# IoTサイバー脅威のためのソーシャルメディアモニタリング

Social Media Monitoring for IoT Cyber-Threats ( http://arxiv.org/abs/2109.04306v1 )

ライセンス: Link先を確認
Sofia Alevizopoulou, Paris Koloveas, Christos Tryfonopoulos, Paraskevi Raftopoulou(参考訳) IoTアプリケーションの急速な開発と日常のさまざまな分野での利用により、さまざまなサイバー脅威がエスカレートされ、IoTデバイスを保護する必要性が高まっている。 サイバー脅威インテリジェンス(ゼロデイ脆弱性やトレンドエクスプロイトなど)をさまざまなオンラインソースから収集し、それを積極的にセキュアなIoTシステムや緩和シナリオの準備に活用することは、有望な方向であることが証明された。 本研究では,ソーシャルメディアの監視とTwitterストリームからのリアルタイムサイバー脅威インテリジェンス検出に焦点をあてる。 まず,脆弱性記述でトレーニングされた6種類の機械学習に基づく分類方法を比較し,評価し,twitterストリームからの実世界データを用いてテストした。 このシステムでは,iotデバイス上で最近発生している脆弱性やエクスプロイトを識別することができる。 最後に、この分野の研究を支援し、結果の再現性をサポートするために、このプロセスで作成されたすべての注釈付きデータセットを公開します。

The rapid development of IoT applications and their use in various fields of everyday life has resulted in an escalated number of different possible cyber-threats, and has consequently raised the need of securing IoT devices. Collecting Cyber-Threat Intelligence (e.g., zero-day vulnerabilities or trending exploits) from various online sources and utilizing it to proactively secure IoT systems or prepare mitigation scenarios has proven to be a promising direction. In this work, we focus on social media monitoring and investigate real-time Cyber-Threat Intelligence detection from the Twitter stream. Initially, we compare and extensively evaluate six different machine-learning based classification alternatives trained with vulnerability descriptions and tested with real-world data from the Twitter stream to identify the best-fitting solution. Subsequently, based on our findings, we propose a novel social media monitoring system tailored to the IoT domain; the system allows users to identify recent/trending vulnerabilities and exploits on IoT devices. Finally, to aid research on the field and support the reproducibility of our results we publicly release all annotated datasets created during this process.
翻訳日:2021-09-10 13:59:59 公開日:2021-09-09
# タンパク質折り畳みニューラルネットワークはロバストではない

Protein Folding Neural Networks Are Not Robust ( http://arxiv.org/abs/2109.04460v1 )

ライセンス: Link先を確認
Sumit Kumar Jha, Arvind Ramanathan, Rickard Ewetz, Alvaro Velasquez, Susmit Jha(参考訳) AlphaFoldやRosTTAFoldのようなディープニューラルネットワークは、他のアルゴリズムのアプローチと比較して、タンパク質の極めて正確な構造を予測する。 生物学的に小さなタンパク質配列の摂動は、タンパク質構造に劇的な変化をもたらすことが知られている。 本稿では,RoseTTAFoldの精度は高く,いくつかの入力配列に対する生物学的に小さな摂動は,大きく異なるタンパク質構造をもたらすことを示した。 これにより、予測されたタンパク質構造が信頼できないときの検出が困難になる。 本研究では,タンパク質配列の予測構造を,予測構造における根平均2乗距離(RMSD)の逆数であり,その逆摂動配列の構造であることを示す。 逆攻撃法を用いて逆タンパク質配列を作成し, 予測されたタンパク質構造のrmsdがブロム62距離で20単位に制限された場合, 0.119\r{a} から34.162\r{a} まで変化することを示した。 これは予測された構造のロバスト性測度の非常に高い分散を示す。 その結果,我々のロバスト性尺度と予測構造と基底真理とのrmsdとの相関の大きさ(0.917)は高いこと,すなわち,ロバスト性尺度の低い予測は信頼できないことがわかった。 これはRoseTTAFoldの敵攻撃に対する感受性を示す最初の論文である。

Deep neural networks such as AlphaFold and RoseTTAFold predict remarkably accurate structures of proteins compared to other algorithmic approaches. It is known that biologically small perturbations in the protein sequence do not lead to drastic changes in the protein structure. In this paper, we demonstrate that RoseTTAFold does not exhibit such a robustness despite its high accuracy, and biologically small perturbations for some input sequences result in radically different predicted protein structures. This raises the challenge of detecting when these predicted protein structures cannot be trusted. We define the robustness measure for the predicted structure of a protein sequence to be the inverse of the root-mean-square distance (RMSD) in the predicted structure and the structure of its adversarially perturbed sequence. We use adversarial attack methods to create adversarial protein sequences, and show that the RMSD in the predicted protein structure ranges from 0.119\r{A} to 34.162\r{A} when the adversarial perturbations are bounded by 20 units in the BLOSUM62 distance. This demonstrates very high variance in the robustness measure of the predicted structures. We show that the magnitude of the correlation (0.917) between our robustness measure and the RMSD between the predicted structure and the ground truth is high, that is, the predictions with low robustness measure cannot be trusted. This is the first paper demonstrating the susceptibility of RoseTTAFold to adversarial attacks.
翻訳日:2021-09-10 13:59:12 公開日:2021-09-09
# Neural Latents Benchmark '21: Evaluating Latent variable model of Neural population activity

Neural Latents Benchmark '21: Evaluating latent variable models of neural population activity ( http://arxiv.org/abs/2109.04463v1 )

ライセンス: Link先を確認
Felix Pei, Joel Ye, David Zoltowski, Anqi Wu, Raeed H. Chowdhury, Hansem Sohn, Joseph E. O'Doherty, Krishna V. Shenoy, Matthew T. Kaufman, Mark Churchland, Mehrdad Jazayeri, Lee E. Miller, Jonathan Pillow, Il Memming Park, Eva L. Dyer, Chethan Pandarinath(参考訳) 神経記録の進歩は、前例のない詳細で神経活動を研究する機会を増やしている。 潜在変数モデル(LVM)は、アクティビティと外部実験変数の間の既知の関係に依存しないため、さまざまなニューラルネットワークや振る舞いにわたってこのリッチなアクティビティを分析するための有望なツールである。 しかし、潜在変数モデリングの進歩は、現在標準化の欠如によって妨げられ、結果としてメソッドはアドホックな方法で開発され比較される。 これらのモデリングの取り組みを調整するために,ニューラル集団活動の潜在変数モデリングのためのベンチマークスイートを導入する。 認知、感覚、運動領域から神経スパイキング活動の4つのデータセットを収集し、これらの領域で見られる様々な活動に適用可能なモデルを促進した。 我々は、教師なし評価をデータセット間のモデル評価の共通フレームワークとして特定し、ベンチマークの多様性を示すいくつかのベースラインを適用した。 EvalAIを通じてこのベンチマークをリリースします。 http://neurallatents .github.io

Advances in neural recording present increasing opportunities to study neural activity in unprecedented detail. Latent variable models (LVMs) are promising tools for analyzing this rich activity across diverse neural systems and behaviors, as LVMs do not depend on known relationships between the activity and external experimental variables. However, progress in latent variable modeling is currently impeded by a lack of standardization, resulting in methods being developed and compared in an ad hoc manner. To coordinate these modeling efforts, we introduce a benchmark suite for latent variable modeling of neural population activity. We curate four datasets of neural spiking activity from cognitive, sensory, and motor areas to promote models that apply to the wide variety of activity seen across these areas. We identify unsupervised evaluation as a common framework for evaluating models across datasets, and apply several baselines that demonstrate benchmark diversity. We release this benchmark through EvalAI. http://neurallatents .github.io
翻訳日:2021-09-10 13:58:46 公開日:2021-09-09
# 深層学習によるit\^o拡散の定常密度推定

Stationary Density Estimation of It\^o Diffusions Using Deep Learning ( http://arxiv.org/abs/2109.03992v1 )

ライセンス: Link先を確認
Yiqi Gu, John Harlim, Senwei Liang, Haizhao Yang(参考訳) 本稿では,確率微分方程式の解を近似する離散時間列からのエルゴード It\^o 拡散の定常測度に関連する密度推定問題を考察する。 パラボリック型Fokker-Planck PDEの定常解による密度関数のキャラクタリゼーションの利点を生かし、以下のように進める。 まず、深層ニューラルネットワークを用いてSDEのドリフトと拡散の項を近似し、適切な教師付き学習タスクを解く。 次に,推定ドリフト係数と拡散係数に関連する定常フォッカー・プランク方程式をニューラルネットワークに基づく最小二乗法で解く。 本研究では, ドリフト係数と拡散係数の回帰による一般化誤差を考慮し, 適切な数学的仮定の下で提案手法の収束を確立する。 この理論研究は、ドリフト項の推定誤差に対する密度推定の線形依存性を示すマルコフ連鎖結果の最近の摂動理論と、非パラメトリック回帰とニューラルネットワークモデルで得られたpde回帰解の一般化誤差結果に依存している。 本手法の有効性は,2次元学生のt分布と20次元ランジュバンダイナミクスの数値シミュレーションによって反映される。

In this paper, we consider the density estimation problem associated with the stationary measure of ergodic It\^o diffusions from a discrete-time series that approximate the solutions of the stochastic differential equations. To take an advantage of the characterization of density function through the stationary solution of a parabolic-type Fokker-Planck PDE, we proceed as follows. First, we employ deep neural networks to approximate the drift and diffusion terms of the SDE by solving appropriate supervised learning tasks. Subsequently, we solve a steady-state Fokker-Plank equation associated with the estimated drift and diffusion coefficients with a neural-network-based least-squares method. We establish the convergence of the proposed scheme under appropriate mathematical assumptions, accounting for the generalization errors induced by regressing the drift and diffusion coefficients, and the PDE solvers. This theoretical study relies on a recent perturbation theory of Markov chain result that shows a linear dependence of the density estimation to the error in estimating the drift term, and generalization error results of nonparametric regression and of PDE regression solution obtained with neural-network models. The effectiveness of this method is reflected by numerical simulations of a two-dimensional Student's t distribution and a 20-dimensional Langevin dynamics.
翻訳日:2021-09-10 13:57:16 公開日:2021-09-09
# DeepEMO: 音声認識のためのディープラーニング

DeepEMO: Deep Learning for Speech Emotion Recognition ( http://arxiv.org/abs/2109.04081v1 )

ライセンス: Link先を確認
Enkhtogtokh Togootogtokh, Christian Klasen(参考訳) 音声感情認識タスクにおける産業レベルの深層学習手法を提案する。 産業において、慎重に提案された深層移動学習技術は、トレーニングデータの可用性の低さ、機械学習コスト、専用のAIタスクに関する専門的な学習のために、実際の結果を示す。 deepemoと呼ばれる音声認識フレームワークは、効率的な主機能を抽出する前処理と、トレーニングと認識のためのディープトランスファー学習モデルという2つの主要なパイプラインで構成されている。 ソースコードはhttps://github.com/e nkhtogtokh/deepemoリポジトリにある。

We proposed the industry level deep learning approach for speech emotion recognition task. In industry, carefully proposed deep transfer learning technology shows real results due to mostly low amount of training data availability, machine training cost, and specialized learning on dedicated AI tasks. The proposed speech recognition framework, called DeepEMO, consists of two main pipelines such that preprocessing to extract efficient main features and deep transfer learning model to train and recognize. Main source code is in https://github.com/e nkhtogtokh/deepemo repository
翻訳日:2021-09-10 13:56:56 公開日:2021-09-09
# QUINT:ネットワークハッシュを用いたノード埋め込み

QUINT: Node embedding using network hashing ( http://arxiv.org/abs/2109.04206v1 )

ライセンス: Link先を確認
Debajyoti Bera, Rameshwar Pratap, Bhisham Dev Verma, Biswadeep Sen, and Tanmoy Chakraborty(参考訳) ネットワーク埋め込みを用いた表現学習は,ダウンストリームタスクの解法としての有効性から,大きな注目を集めている。 一般的な埋め込みメソッド(deepwalk、node2vec、lineなど)は、ニューラルネットワークに基づいており、時間と空間の両方で大規模ネットワークにスケールできない。 近年,バイナリベクトルを2進ベクトルに圧縮するスケッチ技術であるBinSketchを提案する。 本稿では,binsketchを拡張し,ネットワークハッシュに利用する方法について述べる。 QUINTという提案はBinSketch上に構築されており、単純な双方向操作を用いてスパースネットワークのノードを低次元空間に埋め込む。 quintは、ダウンストリームタスクの精度を損なうことなく、スピードと空間使用率の面で大きな利益をもたらす、この種の最初の製品である。 2つのエンドタスク - リンク予測とノード分類 - に対して,quintと最先端の7つのネットワーク埋め込み手法を比較するために,広範な実験を行った。 我々は、ノード埋め込みを得るためのビット単位の性質から、quintの高速化(最大7000倍)と空間節約(最大800倍)の観点から大きな性能向上を観測する。 さらにQUINTは、すべてのデータセットのベースライン間の両方のタスクに対して、一貫したトップパフォーマンスを提供する。 我々の経験的観察はQUINTの有効性を正当化する厳密な理論的分析によって裏付けられている。 特に、QUINTは、高信頼なネットワークの多くの位相特性を近似するためにさらに使用できる十分な構造情報を保持することを証明している。

Representation learning using network embedding has received tremendous attention due to its efficacy to solve downstream tasks. Popular embedding methods (such as deepwalk, node2vec, LINE) are based on a neural architecture, thus unable to scale on large networks both in terms of time and space usage. Recently, we proposed BinSketch, a sketching technique for compressing binary vectors to binary vectors. In this paper, we show how to extend BinSketch and use it for network hashing. Our proposal named QUINT is built upon BinSketch, and it embeds nodes of a sparse network onto a low-dimensional space using simple bi-wise operations. QUINT is the first of its kind that provides tremendous gain in terms of speed and space usage without compromising much on the accuracy of the downstream tasks. Extensive experiments are conducted to compare QUINT with seven state-of-the-art network embedding methods for two end tasks - link prediction and node classification. We observe huge performance gain for QUINT in terms of speedup (up to 7000x) and space saving (up to 800x) due to its bit-wise nature to obtain node embedding. Moreover, QUINT is a consistent top-performer for both the tasks among the baselines across all the datasets. Our empirical observations are backed by rigorous theoretical analysis to justify the effectiveness of QUINT. In particular, we prove that QUINT retains enough structural information which can be used further to approximate many topological properties of networks with high confidence.
翻訳日:2021-09-10 13:56:48 公開日:2021-09-09
# SONIC: エネルギー効率の良いディープラーニングのためのシリコンフォトニクスを用いたスパースニューラルネットワーク推論加速器

SONIC: A Sparse Neural Network Inference Accelerator with Silicon Photonics for Energy-Efficient Deep Learning ( http://arxiv.org/abs/2109.04459v1 )

ライセンス: Link先を確認
Febin Sunny, Mahdi Nikdast, Sudeep Pasricha(参考訳) スパースニューラルネットワークは、推論精度を維持しながら、コンパクトなモデルサイズを提供するため、リソース制約付きプラットフォームへのニューラルネットワークの展開を大いに促進することができる。 パラメータ行列のばらつきのため、スパースニューラルネットワークは原則として、加速器アーキテクチャにおいてエネルギー効率と遅延を改善するために利用することができる。 しかし,これらの改良を実際に実現するためには,余分なハードウェア・ソフトウェア共同設計を検討する必要がある。 本稿では,SONICと呼ばれるシリコンフォトニクスを用いたスパースニューラルネットワーク推論アクセラレータを提案する。 実験により、SONICは、最先端のスパース電子ニューラルネットワークアクセラレータよりも5.8倍、ビット当たりエネルギー8.4倍、そして、最もよく知られたフォトニックニューラルネットワークアクセラレータよりも最大13.8倍、そして27.6倍の低エネルギーを実現できることが示された。

Sparse neural networks can greatly facilitate the deployment of neural networks on resource-constrained platforms as they offer compact model sizes while retaining inference accuracy. Because of the sparsity in parameter matrices, sparse neural networks can, in principle, be exploited in accelerator architectures for improved energy-efficiency and latency. However, to realize these improvements in practice, there is a need to explore sparsity-aware hardware-software co-design. In this paper, we propose a novel silicon photonics-based sparse neural network inference accelerator called SONIC. Our experimental analysis shows that SONIC can achieve up to 5.8x better performance-per-watt and 8.4x lower energy-per-bit than state-of-the-art sparse electronic neural network accelerators; and up to 13.8x better performance-per-watt and 27.6x lower energy-per-bit than the best known photonic neural network accelerators.
翻訳日:2021-09-10 13:56:10 公開日:2021-09-09
# (参考訳) nnformer:ボリュームセグメンテーション用インターリーブトランス [全文訳有]

nnFormer: Interleaved Transformer for Volumetric Segmentation ( http://arxiv.org/abs/2109.03201v3 )

ライセンス: CC BY 4.0
Hong-Yu Zhou, Jiansen Guo, Yinghao Zhang, Lequan Yu, Liansheng Wang, Yizhou Yu(参考訳) 自然言語処理におけるデフォルトのモデルであるトランスフォーマーは、医療画像コミュニティからほとんど注目を集めていない。 長期的な依存関係を利用する能力を考えると、トランスフォーマーは非定型畳み込みニューラルネットワーク(convnets)が空間誘導バイアスの固有の欠点を克服するのに役立つことを約束している。 しかし、最近提案されたトランスフォーマーベースのセグメンテーションアプローチのほとんどは、トランスフォーマーを単純なモジュールとして扱い、グローバルコンテキストを畳み込み表現に符号化するのに役立つ。 この問題に対処するために,本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormer(Not-aNother TransFormer)を紹介する。 実際、nnformerは3dローカルボリュームからボリューム表現を学ぶ。 ナイーブなvoxelレベルの自己アテンション実装と比較して、このようなボリュームベースの操作は、synapseとadcdcデータセットの計算複雑性を98%、99.5%削減するのに役立ちます。 以前のネットワーク構成と比較すると、nnformerはsynapseとadcという2つの一般的なデータセットで、以前のトランスフォーマティブベースの方法よりも大幅に改善されている。 例えば、nnFormerはSynapseでSwin-UNetを7%以上上回っている。 現在最高の完全畳み込み医療セグメンテーションネットワークであるnnUNetと比較しても、nnFormerはSynapseとACDCで若干パフォーマンスが向上している。

Transformers, the default model of choices in natural language processing, have drawn scant attention from the medical imaging community. Given the ability to exploit long-term dependencies, transformers are promising to help atypical convolutional neural networks (convnets) to overcome its inherent shortcomings of spatial inductive bias. However, most of recently proposed transformer-based segmentation approaches simply treated transformers as assisted modules to help encode global context into convolutional representations without investigating how to optimally combine self-attention (i.e., the core of transformers) with convolution. To address this issue, in this paper, we introduce nnFormer (i.e., Not-aNother transFormer), a powerful segmentation model with an interleaved architecture based on empirical combination of self-attention and convolution. In practice, nnFormer learns volumetric representations from 3D local volumes. Compared to the naive voxel-level self-attention implementation, such volume-based operations help to reduce the computational complexity by approximate 98% and 99.5% on Synapse and ACDC datasets, respectively. In comparison to prior-art network configurations, nnFormer achieves tremendous improvements over previous transformer-based methods on two commonly used datasets Synapse and ACDC. For instance, nnFormer outperforms Swin-UNet by over 7 percents on Synapse. Even when compared to nnUNet, currently the best performing fully-convolutional medical segmentation network, nnFormer still provides slightly better performance on Synapse and ACDC.
翻訳日:2021-09-10 11:29:19 公開日:2021-09-09
# (参考訳) RoadAtlas: 自動道路欠陥検出とアセット管理のためのインテリジェントプラットフォーム [全文訳有]

RoadAtlas: Intelligent Platform for Automated Road Defect Detection and Asset Management ( http://arxiv.org/abs/2109.03385v2 )

ライセンス: CC BY 4.0
Zhuoxiao Chen, Yiyun Zhang, Yadan Luo, Zijian Wang, Jinjiang Zhong, Anthony Southon(参考訳) ディープラーニングに基づくインテリジェント検出アルゴリズムの急速な開発により、道路欠陥の自動認識と道路マーキング解析に多くの進歩がもたらされている。 これは、プロの検査官が手動で道路をレビューする費用と時間を要する問題に効果的に対処することができる。 この目的に向けて,1)道路欠陥検出,2)道路マーキング解析,3)ユーザによるデータの提示と入力を行うwebベースのダッシュボード,4)構造化データベースと開発apiを備えたバックエンドをサポートする,新しいエンドツーエンド統合システムroadatlasを提案する。

With the rapid development of intelligent detection algorithms based on deep learning, much progress has been made in automatic road defect recognition and road marking parsing. This can effectively address the issue of an expensive and time-consuming process for professional inspectors to review the street manually. Towards this goal, we present RoadAtlas, a novel end-to-end integrated system that can support 1) road defect detection, 2) road marking parsing, 3) a web-based dashboard for presenting and inputting data by users, and 4) a backend containing a well-structured database and developed APIs.
翻訳日:2021-09-10 11:10:35 公開日:2021-09-09
# (参考訳) ArchivalQA: アーカイブニュースコレクションに対するオープンドメイン質問回答のための大規模ベンチマークデータセット [全文訳有]

ArchivalQA: A Large-scale Benchmark Dataset for Open Domain Question Answering over Archival News Collections ( http://arxiv.org/abs/2109.03438v2 )

ライセンス: CC BY 4.0
Jiexin Wang, Adam Jatowt, Masatoshi Yoshikawa(参考訳) 近年,ディープラーニング技術の発展と大規模QAデータセットの利用により,オープンドメイン質問応答(ODQA)が急速に進歩している。 しかし、現在のデータセットは基本的に同期文書コレクション(ウィキペディアなど)用に設計されている。 数十年にわたる長期ニュースアーカイブなどの時限ニュースコレクションは,我々の社会にとって非常に価値があるにもかかわらず,モデルのトレーニングにはほとんど使われていない。 このような歴史的コレクションに関するODQAの研究を促進するために,時事ニュースQA用に設計された1,067,056組の質問応答データセットであるArchivealQAを提案する。 さらに,課題の難易度と時間表現の包含に基づいて,データセットの4つの部分を作成し,異なる強度と能力で特徴付けられるODQAシステムのトレーニングやテストに有用であると考えている。 私たちが導入した新しいQAデータセット構築フレームワークは、他の種類のコレクション上でデータセットを作成するためにも適用できます。

In the last few years, open-domain question answering (ODQA) has advanced rapidly due to the development of deep learning techniques and the availability of large-scale QA datasets. However, the current datasets are essentially designed for synchronic document collections (e.g., Wikipedia). Temporal news collections such as long-term news archives spanning several decades, are rarely used in training the models despite they are quite valuable for our society. In order to foster the research in the field of ODQA on such historical collections, we present ArchivalQA, a large question answering dataset consisting of 1,067,056 question-answer pairs which is designed for temporal news QA. In addition, we create four subparts of our dataset based on the question difficulty levels and the containment of temporal expressions, which we believe could be useful for training or testing ODQA systems characterized by different strengths and abilities. The novel QA dataset-constructing framework that we introduce can be also applied to create datasets over other types of collections.
翻訳日:2021-09-10 11:06:57 公開日:2021-09-09
# (参考訳) ポインケアボールの高度にスケーラブルで確実に正確な分類 [全文訳有]

Highly Scalable and Provably Accurate Classification in Poincare Balls ( http://arxiv.org/abs/2109.03781v2 )

ライセンス: CC BY 4.0
Eli Chien, Chao Pan, Puoya Tabaghi, Olgica Milenkovic(参考訳) 実用関連性の高次元および大体積データセットの多くは、木、グラフ、時系列によって誘導される階層構造を持つ。 そのようなデータセットはユークリッド空間では処理が困難であり、必要となる学習タスクを実行するために、しばしば他の空間に低次元の埋め込みを求める。 階層データの場合、選択空間は双曲空間であり、木のような構造に対する低歪埋め込みが保証される。 残念ながら、双曲空間の幾何学はユークリッド空間にはない性質を持ち、アルゴリズム解を厳密に解析しようとすると問題となる。 ここでは,証明可能な性能保証を備えたスケーラブルで単純な双曲型線形分類器を学習するための統一的なフレームワークを初めて確立する。 提案手法の要点は,ポアンカーの球モデルに着目し,接空間形式を用いた分類問題を定式化することである。 提案手法は,新しい双曲型および二階型パーセプトロンアルゴリズムと,双曲型サポートベクトルマシン分類器の効率的かつ高精度な凸最適化設定を含む。 すべてのアルゴリズムは証明的に収束し、ユークリッドのアルゴリズムに匹敵する複雑さを持つため、非常にスケーラブルである。 数百万の点からなる合成データセットと、シングルセルRNA-seq式測定、CIFAR10、Fashion-MNIST、mini-ImageNetのような複雑な実世界のデータセットの性能評価を行う。

Many high-dimensional and large-volume data sets of practical relevance have hierarchical structures induced by trees, graphs or time series. Such data sets are hard to process in Euclidean spaces and one often seeks low-dimensional embeddings in other space forms to perform required learning tasks. For hierarchical data, the space of choice is a hyperbolic space since it guarantees low-distortion embeddings for tree-like structures. Unfortunately, the geometry of hyperbolic spaces has properties not encountered in Euclidean spaces that pose challenges when trying to rigorously analyze algorithmic solutions. Here, for the first time, we establish a unified framework for learning scalable and simple hyperbolic linear classifiers with provable performance guarantees. The gist of our approach is to focus on Poincar\'e ball models and formulate the classification problems using tangent space formalisms. Our results include a new hyperbolic and second-order perceptron algorithm as well as an efficient and highly accurate convex optimization setup for hyperbolic support vector machine classifiers. All algorithms provably converge and are highly scalable as they have complexities comparable to those of their Euclidean counterparts. Their performance accuracies on synthetic data sets comprising millions of points, as well as on complex real-world data sets such as single-cell RNA-seq expression measurements, CIFAR10, Fashion-MNIST and mini-ImageNet.
翻訳日:2021-09-10 10:54:05 公開日:2021-09-09
# 人間に質問するAIのターン:FairytaleQAデータセットにおける子どものストーリーブックに対する質問と答え

It is AI's Turn to Ask Human a Question: Question and Answer Pair Generation for Children Storybooks in FairytaleQA Dataset ( http://arxiv.org/abs/2109.03423v2 )

ライセンス: Link先を確認
Bingsheng Yao, Dakuo Wang, Tongshuang Wu, Tran Hoang, Branda Sun, Toby Jia-Jun Li, Mo Yu, Ying Xu(参考訳) 既存の質問応答(QA)データセットは、主に人間の質問に答えられるようにAIを応用するために作成されている。 しかし、教育アプリケーションでは、教師や親は、言語学習の結果を最大化できる子供にどんな質問をするべきかを知らないことがある。 幼少期の読者向けに46冊のfairytaleストーリーブックをラベル付けした本QAデータセット(FairytaleQA)を新たにリリースし,本アプリケーション用の自動QA生成モデルアーキテクチャを開発した。 本モデルでは,(1) 対象のストーリーブックからの候補回答を,教育的枠組みに基づいて慎重に設計したヒューリスティックスを通じて抽出し,(2) 言語モデルを用いて抽出された各回答に対応する適切な質問を生成し,(3) 上位QAペアのランク付けに別のQAモデルを使用する。 自動評価と人間評価は、我々のモデルがベースラインを上回ることを示している。 また,児童書QAデータセットの不足問題に対して,200冊の未ラベルストーリーブックをデータ拡張することで,本手法が有効であることを示す。

Existing question answering (QA) datasets are created mainly for the application of having AI to be able to answer questions asked by humans. But in educational applications, teachers and parents sometimes may not know what questions they should ask a child that can maximize their language learning results. With a newly released book QA dataset (FairytaleQA), which educational experts labeled on 46 fairytale storybooks for early childhood readers, we developed an automated QA generation model architecture for this novel application. Our model (1) extracts candidate answers from a given storybook passage through carefully designed heuristics based on a pedagogical framework; (2) generates appropriate questions corresponding to each extracted answer using a language model; and, (3) uses another QA model to rank top QA-pairs. Automatic and human evaluations show that our model outperforms baselines. We also demonstrate that our method can help with the scarcity issue of the children's book QA dataset via data augmentation on 200 unlabeled storybooks.
翻訳日:2021-09-10 10:27:03 公開日:2021-09-09
# whyact: ライフスタイルvlogにおける行動理由の特定

WhyAct: Identifying Action Reasons in Lifestyle Vlogs ( http://arxiv.org/abs/2109.02747v2 )

ライセンス: Link先を確認
Oana Ignat, Santiago Castro, Hanwen Miao, Weiji Li, Rada Mihalcea(参考訳) オンラインビデオで人間の行動の理由を自動的に特定することを目指している。 我々は、人々が言葉で記述しながら行動するライフスタイルのvlogの幅広いジャンルに焦点を当てる。 その理由を手動でアノテートした1,077の視覚アクションからなるWhyActデータセットを導入し、公開する。 ビデオに提示されたアクションに対応する理由を自動的に推測するために,視覚情報とテキスト情報を活用するマルチモーダルモデルについて述べる。

We aim to automatically identify human action reasons in online videos. We focus on the widespread genre of lifestyle vlogs, in which people perform actions while verbally describing them. We introduce and make publicly available the WhyAct dataset, consisting of 1,077 visual actions manually annotated with their reasons. We describe a multimodal model that leverages visual and textual information to automatically infer the reasons corresponding to an action presented in the video.
翻訳日:2021-09-10 10:26:43 公開日:2021-09-09
# 提示攻撃検出のためのシャッフルパッチワイズスーパービジョン

Shuffled Patch-Wise Supervision for Presentation Attack Detection ( http://arxiv.org/abs/2109.03484v2 )

ライセンス: Link先を確認
Alperen Kantarc{\i}, Hasan Dertli, Haz{\i}m Kemal Ekenel(参考訳) 顔の偽造防止は、写真、ビデオ、マスク、または認証された人の顔の別の代替品を使用することによって、偽の顔認証を防止するために不可欠である。 最先端のプレゼンテーションアタック検出(pad)システムの多くは、単一のデータセットでほぼ完璧なスコアを得られるが、より現実的なデータを持つ別のデータセットではフェールするオーバーフィッティングに悩まされている。 この問題により、研究者は現実世界の条件下でうまく機能するモデルを開発することができる。 これは、畳み込みニューラルネットワーク(CNN)を使用するフレームベースのプレゼンテーション攻撃検知システムにおいて特に難しい問題である。 そこで我々は,画素単位のバイナリ管理とパッチベースのCNNを組み合わせた新しいPAD手法を提案する。 CNNを顔パッチでトレーニングすることで、背景やデータセット固有のトレースを学習することなく、スプーフを識別できると考えています。 提案手法は標準ベンチマークデータセット(Replay-Mobile, OULU-NPU)と実世界のデータセットの両方で検証した。 提案手法は,挑戦的な実験装置において優位性を示す。 すなわち,OULU-NPUプロトコル3,4およびデータセット間実世界の実験において高い性能を達成する。

Face anti-spoofing is essential to prevent false facial verification by using a photo, video, mask, or a different substitute for an authorized person's face. Most of the state-of-the-art presentation attack detection (PAD) systems suffer from overfitting, where they achieve near-perfect scores on a single dataset but fail on a different dataset with more realistic data. This problem drives researchers to develop models that perform well under real-world conditions. This is an especially challenging problem for frame-based presentation attack detection systems that use convolutional neural networks (CNN). To this end, we propose a new PAD approach, which combines pixel-wise binary supervision with patch-based CNN. We believe that training a CNN with face patches allows the model to distinguish spoofs without learning background or dataset-specific traces. We tested the proposed method both on the standard benchmark datasets -- Replay-Mobile, OULU-NPU -- and on a real-world dataset. The proposed approach shows its superiority on challenging experimental setups. Namely, it achieves higher performance on OULU-NPU protocol 3, 4 and on inter-dataset real-world experiments.
翻訳日:2021-09-10 10:26:37 公開日:2021-09-09
# 言語モデルが構文を学ぶために必要な事前学習データ量はどのくらいか?

How much pretraining data do language models need to learn syntax? ( http://arxiv.org/abs/2109.03160v2 )

ライセンス: Link先を確認
Laura P\'erez-Mayos, Miguel Ballesteros, Leo Wanner(参考訳) トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。 しかし、事前学習は非常に便利であるが、時間と資源の面では高価である。 これにより、モデルの知識に対する事前トレーニングデータサイズの影響についての研究が求められる。 原文データのインクリメンタルサイズに基づいて学習したモデルを用いて,RoBERTaの構文的機能に与える影響について検討する。 まず,より多くのデータに事前トレーニングされたモデルが高い構文情報をエンコードするかどうかを,構文構造プローブを用いて判定する。 第2に,事前学習データサイズがモデルの構文一般化性能に与える影響を解析するために,目標構文評価を行う。 第3に、音声タグ付け、依存性解析、パラフレーズ識別という、3つの下流アプリケーションにおける異なるモデルの性能を比較した。 我々は、このようなモデルのトレーニングのコスト対効果のトレードオフを分析して研究を補完する。 私たちの実験では、より多くのデータに事前トレーニングされたモデルは、より多くの構文知識をエンコードし、下流のアプリケーションでより良く機能するが、それらは必ずしも異なる構文現象にまたがって優れたパフォーマンスを提供し、高い財務コストと環境コストをもたらすとは限らない。

Transformers-based pretrained language models achieve outstanding results in many well-known NLU benchmarks. However, while pretraining methods are very convenient, they are expensive in terms of time and resources. This calls for a study of the impact of pretraining data size on the knowledge of the models. We explore this impact on the syntactic capabilities of RoBERTa, using models trained on incremental sizes of raw text data. First, we use syntactic structural probes to determine whether models pretrained on more data encode a higher amount of syntactic information. Second, we perform a targeted syntactic evaluation to analyze the impact of pretraining data size on the syntactic generalization performance of the models. Third, we compare the performance of the different models on three downstream applications: part-of-speech tagging, dependency parsing and paraphrase identification. We complement our study with an analysis of the cost-benefit trade-off of training such models. Our experiments show that while models pretrained on more data encode more syntactic knowledge and perform better on downstream applications, they do not always offer a better performance across the different syntactic phenomena and come at a higher financial and environmental cost.
翻訳日:2021-09-10 10:26:17 公開日:2021-09-09
# オブジェクトナビゲーションのための階層型オブジェクトツーゾーングラフ

Hierarchical Object-to-Zone Graph for Object Navigation ( http://arxiv.org/abs/2109.02066v2 )

ライセンス: Link先を確認
Sixian Zhang, Xinhang Song, Yubing Bai, Weijie Li, Yakui Chu, Shuqiang Jiang(参考訳) オブジェクトナビゲーションの目標は、目に見えない環境の視覚情報に従って、期待されるオブジェクトに到達することである。 従来の作業は通常、エージェントを訓練してリアルタイムでアクションを予測するディープモデルを実装する。 しかし、目に見えない環境では、対象のオブジェクトが自我中心の視点にない場合、エージェントはガイダンスの欠如により賢明な判断を下せない可能性がある。 本稿では,エージェントを粗大に誘導する階層的オブジェクト・ツー・ゾーン(HOZ)グラフを提案するとともに,新しい環境におけるリアルタイム観測に基づいてHOZを更新するためのオンライン学習機構も提案する。 特にHOZグラフはシーンノード、ゾーンノード、オブジェクトノードで構成されている。 事前学習したHOZグラフ、リアルタイム観測、目標目標を用いて、エージェントはゾーンからゾーンへの最適な経路を常に計画することができる。 推定された経路では、次のポテンシャルゾーンはサブゴールと見なされ、アクション予測のための深層強化学習モデルにも供給される。 提案手法はAI2-Thorシミュレータを用いて評価する。 また,広く用いられている評価指標srとsplに加えて,効果的な行動率に着目したsaeの新しい評価指標を提案する。 実験の結果,提案手法の有効性と有効性を示した。

The goal of object navigation is to reach the expected objects according to visual information in the unseen environments. Previous works usually implement deep models to train an agent to predict actions in real-time. However, in the unseen environment, when the target object is not in egocentric view, the agent may not be able to make wise decisions due to the lack of guidance. In this paper, we propose a hierarchical object-to-zone (HOZ) graph to guide the agent in a coarse-to-fine manner, and an online-learning mechanism is also proposed to update HOZ according to the real-time observation in new environments. In particular, the HOZ graph is composed of scene nodes, zone nodes and object nodes. With the pre-learned HOZ graph, the real-time observation and the target goal, the agent can constantly plan an optimal path from zone to zone. In the estimated path, the next potential zone is regarded as sub-goal, which is also fed into the deep reinforcement learning model for action prediction. Our methods are evaluated on the AI2-Thor simulator. In addition to widely used evaluation metrics SR and SPL, we also propose a new evaluation metric of SAE that focuses on the effective action rate. Experimental results demonstrate the effectiveness and efficiency of our proposed method.
翻訳日:2021-09-10 10:25:59 公開日:2021-09-09
# オンライン行動検出のための情報識別学習 : 分析と応用

Learning to Discriminate Information for Online Action Detection: Analysis and Application ( http://arxiv.org/abs/2109.03393v2 )

ライセンス: Link先を確認
Sumin Lee, Hyunjun Eun, Jinyoung Moon, Seokeon Choi, Yoonhyung Kim, Chanho Jung, and Changick Kim(参考訳) ストリーミングビデオから進行中のアクションを特定することを目的としたオンラインアクション検出は、現実世界のアプリケーションにおいて重要なテーマである。 このタスクでは、従来の手法では、入力シーケンス内の時間関係をモデル化するために、リカレントニューラルネットワークを使用する。 しかし、これらの手法は、入力画像列が興味の作用だけでなく、背景および無関係な作用を含むという事実を無視する。 これにより、興味ある動作に関する特徴を符号化するために不要な情報を蓄積する繰り返しユニットが誘導される。 そこで本研究では,現在進行中の行動と他者との情報の関連性を明示的に判別し,入力情報を蓄積するか否かを判断する新しいリカレントユニットである「情報識別ユニット(idu)」を提案する。 これにより、進行中のアクションを識別するためのより識別的な表現を学ぶことができる。 本稿ではさらに,行動予測のための情報統合ユニット(iiu)と呼ばれる新しいリカレントユニットを提案する。 iduの出力を擬似アクションラベルとrgbフレームとして活用し,観察したアクションの充実した特徴を効果的に学習する。 テレビシリーズとTHUMOS-14の実験において,提案手法はオンライン行動検出と行動予測において有意差で最先端の手法より優れていた。 さらに,包括的アブレーション研究を行うことにより,提案手法の有効性を示す。

Online action detection, which aims to identify an ongoing action from a streaming video, is an important subject in real-world applications. For this task, previous methods use recurrent neural networks for modeling temporal relations in an input sequence. However, these methods overlook the fact that the input image sequence includes not only the action of interest but background and irrelevant actions. This would induce recurrent units to accumulate unnecessary information for encoding features on the action of interest. To overcome this problem, we propose a novel recurrent unit, named Information Discrimination Unit (IDU), which explicitly discriminates the information relevancy between an ongoing action and others to decide whether to accumulate the input information. This enables learning more discriminative representations for identifying an ongoing action. In this paper, we further present a new recurrent unit, called Information Integration Unit (IIU), for action anticipation. Our IIU exploits the outputs from IDU as pseudo action labels as well as RGB frames to learn enriched features of observed actions effectively. In experiments on TVSeries and THUMOS-14, the proposed methods outperform state-of-the-art methods by a significant margin in online action detection and action anticipation. Moreover, we demonstrate the effectiveness of the proposed units by conducting comprehensive ablation studies.
翻訳日:2021-09-10 10:25:39 公開日:2021-09-09
# Recommender システムの深層強化学習に関する調査研究:システムレビューと今後の方向性

A Survey of Deep Reinforcement Learning in Recommender Systems: A Systematic Review and Future Directions ( http://arxiv.org/abs/2109.03540v2 )

ライセンス: Link先を確認
Xiaocong Chen, Lina Yao, Julian McAuley, Guanglin Zhou, Xianzhi Wang(参考訳) 近年のレコメンデーションシステム研究における深層強化学習(DRL)の出現と実りある成果を踏まえ,本調査は,最近のレコメンデーションシステムにおける深層強化学習の動向をタイムリーかつ包括的に概観することを目的としている。 推奨システムにDRLを適用する動機から始める。 次に,現在のdrlベースのレコメンデータシステムの分類と既存手法の概要について述べる。 新たなトピックやオープンな問題について議論し、ドメインの進化に対する視点を提供します。 この調査は、学界や産業界からの読者にとって入門資料となり、さらなる研究の機会として注目される。

In light of the emergence of deep reinforcement learning (DRL) in recommender systems research and several fruitful results in recent years, this survey aims to provide a timely and comprehensive overview of the recent trends of deep reinforcement learning in recommender systems. We start with the motivation of applying DRL in recommender systems. Then, we provide a taxonomy of current DRL-based recommender systems and a summary of existing methods. We discuss emerging topics and open issues, and provide our perspective on advancing the domain. This survey serves as introductory material for readers from academia and industry into the topic and identifies notable opportunities for further research.
翻訳日:2021-09-10 10:25:19 公開日:2021-09-09
# リカレント条件付きGANによる知覚学習映像圧縮

Perceptual Learned Video Compression with Recurrent Conditional GAN ( http://arxiv.org/abs/2109.03082v2 )

ライセンス: Link先を確認
Ren Yang, Luc Van Gool, Radu Timofte(参考訳) 本稿では,条件付き生成対向ネットワークを用いたPLVC(Perceptual Learned Video Compression)アプローチを提案する。 本手法では,再帰的なオートエンコーダを用いた生成器を用いて,圧縮映像の時間的相関を十分に検討することを学ぶ。 さらに重要なことは、リカレントセルにおける潜時表現、時間運動、隠れ状態を含む空間的および時間的情報に基づいて生・圧縮された映像を判定するリカレント条件判別器を提案することである。 このようにして、敵対的なトレーニングにおいて、生成されたビデオは、空間的に写実的であるだけでなく、映像フレーム間の接地性やコヒーレントと時間的に整合する。 実験結果から,提案したPLVCモデルは,低ビットレートで映像を良好な知覚品質に圧縮する方法を学習し,従来の知覚品質指標よりも優れていた。 ユーザ研究は、最新の学習ビデオ圧縮アプローチや公式hevcテストモデル(hm 16.20)と比較して、plvcの優れた知覚性能をさらに検証する。 コードはhttps://github.com/r enyang-home/plvcでリリースされる。

This paper proposes a Perceptual Learned Video Compression (PLVC) approach with recurrent conditional generative adversarial network. In our approach, the recurrent auto-encoder-based generator learns to fully explore the temporal correlation for compressing video. More importantly, we propose a recurrent conditional discriminator, which judges raw and compressed video conditioned on both spatial and temporal information, including the latent representation, temporal motion and hidden states in recurrent cells. This way, in the adversarial training, it pushes the generated video to be not only spatially photo-realistic but also temporally consistent with groundtruth and coherent among video frames. The experimental results show that the proposed PLVC model learns to compress video towards good perceptual quality at low bit-rate, and outperforms the previous traditional and learned approaches on several perceptual quality metrics. The user study further validates the outstanding perceptual performance of PLVC in comparison with the latest learned video compression approaches and the official HEVC test model (HM 16.20). The codes will be released at https://github.com/R enYang-home/PLVC.
翻訳日:2021-09-10 10:25:07 公開日:2021-09-09
# 深部エネルギーモデルを用いたMRI再構成

MRI Reconstruction Using Deep Energy-Based Model ( http://arxiv.org/abs/2109.03237v2 )

ライセンス: Link先を確認
Yu Guan, Zongjiang Tu, Shanshan Wang, Qiegen Liu, Yuhao Wang, Dong Liang(参考訳) 目的: 近年の深部エネルギーに基づく生成モデル (ebms) は, 画像生成課題の多くにおいて有意な結果を示しているが, 深部ebmsにおける自己相反共振を利用した磁気共鳴画像法 (mri) の再構成が望まれている。 方法: 広範囲にわたるMRI再構成におけるディープラーニングの応用が成功し, 生成モデルの空間における最適化に基づく再構築手法の定式化が本研究の成果である。 これを利用して,本論文では,深層エネルギーモデルにおける自己相反共振を利用した新しい正規化戦略を導入する。 より正確には、画像として表現される深いエネルギーに基づく情報を得るために、より強力なエネルギーベースモデルから、最大確率推定による代替学習を提唱する。 同時にランゲヴィン力学による暗黙の推論は再構成のユニークな性質である。 再構成のための他の生成モデルとは対照的に,提案手法では,再構成前の画像として深部エネルギー情報を用いて画像の品質を向上させる。 結果: 提案手法は, 最先端の手法と競合し, モード崩壊に苦しむことなく, 高い再現精度で優れた性能が得られることを示す実験結果を得た。 結論: アルゴリズム的には, EBMトレーニングをエネルギーネットワークの勾配で強化するための反復的アプローチが提示された。 アルゴリズムの堅牢性と再現性も実験的に検証された。 さらに重要なことは、ほとんどのMRI再構成シナリオに対して提案された再構成フレームワークを一般化することができることである。

Purpose: Although recent deep energy-based generative models (EBMs) have shown encouraging results in many image generation tasks, how to take advantage of the self-adversarial cogitation in deep EBMs to boost the performance of Magnetic Resonance Imaging (MRI) reconstruction is still desired. Methods: With the successful application of deep learning in a wide range of MRI reconstruction, a line of emerging research involves formulating an optimization-based reconstruction method in the space of a generative model. Leveraging this, a novel regularization strategy is introduced in this article which takes advantage of self-adversarial cogitation of the deep energy-based model. More precisely, we advocate for alternative learning a more powerful energy-based model with maximum likelihood estimation to obtain the deep energy-based information, represented as image prior. Simultaneously, implicit inference with Langevin dynamics is a unique property of re-construction. In contrast to other generative models for reconstruction, the proposed method utilizes deep energy-based information as the image prior in reconstruction to improve the quality of image. Results: Experiment results that imply the proposed technique can obtain remarkable performance in terms of high reconstruction accuracy that is competitive with state-of-the-art methods, and does not suffer from mode collapse. Conclusion: Algorithmically, an iterative approach was presented to strengthen EBM training with the gradient of energy network. The robustness and the reproducibility of the algorithm were also experimentally validated. More importantly, the proposed reconstruction framework can be generalized for most MRI reconstruction scenarios.
翻訳日:2021-09-10 10:24:45 公開日:2021-09-09