このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201008となっている論文です。

PDF登録状況(公開日: 20201008)

TitleAuthorsAbstract論文公表日・翻訳日
# FGN:中国語名前付きエンティティ認識のためのフュージョングリフネットワーク

FGN: Fusion Glyph Network for Chinese Named Entity Recognition ( http://arxiv.org/abs/2001.05272v6 )

ライセンス: Link先を確認
Zhenyu Xuan, Rui Bao, Shengyi Jiang(参考訳) 中国のNERは難しい課題だ。 絵文字として、漢字には潜在グリフ情報が含まれており、しばしば見過ごされる。 本稿では,中国NERのためのFGN,Fusion Glyph Networkを提案する。 グリフ情報を追加する以外は、融合機構に追加の対話的情報を加えることもできる。 1)CGS-CNNと呼ばれる新しいCNN構造は、隣接する文字のグリフ情報と対話的な情報の両方をキャプチャするために提案されている。 2) 文字のBERT表現とグリフ表現を融合させるスライディングウィンドウとSlice-Attentionを用いた手法を提案する。 4つのNERデータセットを用いて実験を行い、LSTM-CRFをタグとして用いたFGNが、中国NERの新たな最先端性能を実現することを示した。 さらに,FGNにおける各種成分および設定の影響について,さらなる実験を行った。

Chinese NER is a challenging task. As pictographs, Chinese characters contain latent glyph information, which is often overlooked. In this paper, we propose the FGN, Fusion Glyph Network for Chinese NER. Except for adding glyph information, this method may also add extra interactive information with the fusion mechanism. The major innovations of FGN include: (1) a novel CNN structure called CGS-CNN is proposed to capture both glyph information and interactive information between glyphs from neighboring characters. (2) we provide a method with sliding window and Slice-Attention to fuse the BERT representation and glyph representation for a character, which may capture potential interactive knowledge between context and glyph. Experiments are conducted on four NER datasets, showing that FGN with LSTM-CRF as tagger achieves new state-of-the-arts performance for Chinese NER. Further, more experiments are conducted to investigate the influences of various components and settings in FGN.
翻訳日:2023-01-11 05:29:31 公開日:2020-10-08
# 深層ニューラルネットワークを用いた科学シミュレーションのための高精度エミュレータの構築

Building high accuracy emulators for scientific simulations with deep neural architecture search ( http://arxiv.org/abs/2001.08055v2 )

ライセンス: Link先を確認
M. F. Kasim, D. Watson-Parris, L. Deaconu, S. Oliver, P. Hatfield, D. H. Froula, G. Gregori, M. Jarvis, S. Khatiwala, J. Korenaga, J. Topp-Mugglestone, E. Viezzer, S. M. Vinko(参考訳) コンピュータシミュレーションは科学的発見にとって貴重なツールである。 しかし、正確なシミュレーションは実行が遅く、広範囲なパラメータ探索、大規模データ解析、不確実性定量化への適用性が制限される。 機械学習を用いて高速エミュレータを構築することでシミュレーションを加速するための有望なルートは、大規模なトレーニングデータセットを必要とする。 本稿では,限られたトレーニングデータでも正確なエミュレータを構築するために,ニューラルネットワーク探索に基づく手法を提案する。 この手法は、天体物理学、気候科学、生物地球化学、高エネルギー密度物理学、融合エネルギー、地震学を含む10のケースにおいて、同じ超構造、アルゴリズム、ハイパーパラメータを用いて最大20億倍のシミュレーションを加速することに成功した。 当社のアプローチはエミュレータの不確実性推定も本質的に提供し,その使用に対する信頼性をさらに高めています。 我々は、この研究が高価なシミュレーションを含む研究を加速し、より広範なパラメータの探索を可能にし、これまで実現できなかった新しい計算発見を可能にすることを期待している。

Computer simulations are invaluable tools for scientific discovery. However, accurate simulations are often slow to execute, which limits their applicability to extensive parameter exploration, large-scale data analysis, and uncertainty quantification. A promising route to accelerate simulations by building fast emulators with machine learning requires large training datasets, which can be prohibitively expensive to obtain with slow simulations. Here we present a method based on neural architecture search to build accurate emulators even with a limited number of training data. The method successfully accelerates simulations by up to 2 billion times in 10 scientific cases including astrophysics, climate science, biogeochemistry, high energy density physics, fusion energy, and seismology, using the same super-architecture, algorithm, and hyperparameters. Our approach also inherently provides emulator uncertainty estimation, adding further confidence in their use. We anticipate this work will accelerate research involving expensive simulations, allow more extensive parameters exploration, and enable new, previously unfeasible computational discovery.
翻訳日:2023-01-10 12:40:05 公開日:2020-10-08
# 逆行性訓練によるMRIバンド除去

MRI Banding Removal via Adversarial Training ( http://arxiv.org/abs/2001.08699v3 )

ライセンス: Link先を確認
Aaron Defazio and Tullie Murrell and Michael P. Recht(参考訳) 深層学習技術を用いたサブサンプリングカルテデータから再構成したMRI画像は、しばしば特徴的バンドリング(ストリーキングと呼ばれることもある)を示すが、これは再構成画像の低信号-雑音領域で特に強い。 本稿では,人間のアノテーションを必要とせず,包帯構造をペナルティ化する敵的損失の利用を提案する。 再建時に余分な計算や後処理を必要とせず,バンドリングの出現を大幅に低減する。 本研究は, バンド除去法において, 統計的に有意な詳細を欠くことなく, 精度評価を行う専門家グループによる強いベースラインに対する盲点比較の結果を報告する。

MRI images reconstructed from sub-sampled Cartesian data using deep learning techniques often show a characteristic banding (sometimes described as streaking), which is particularly strong in low signal-to-noise regions of the reconstructed image. In this work, we propose the use of an adversarial loss that penalizes banding structures without requiring any human annotation. Our technique greatly reduces the appearance of banding, without requiring any additional computation or post-processing at reconstruction time. We report the results of a blind comparison against a strong baseline by a group of expert evaluators (board-certified radiologists), where our approach is ranked superior at banding removal with no statistically significant loss of detail.
翻訳日:2023-01-07 10:02:27 公開日:2020-10-08
# 微分Newton-Eulerアルゴリズムにおける物理制約の符号化

Encoding Physical Constraints in Differentiable Newton-Euler Algorithm ( http://arxiv.org/abs/2001.08861v4 )

ライセンス: Link先を確認
Giovanni Sutanto, Austin S. Wang, Yixin Lin, Mustafa Mukadam, Gaurav S. Sukhatme, Akshara Rai, Franziska Meier(参考訳) Recursive Newton-Euler Algorithm (RNEA) はロボットの力学を計算するための一般的な手法である。 rneaは微分可能な計算グラフとしてフレーム化でき、ロボットのダイナミクスパラメータを現代の自己微分ツールボックスを通じてデータから学習することができる。 しかし、この方法で学習した動力学パラメータは物理的に当てはまらない。 本研究では,学習パラメータに構造を加えることで,学習に物理的な制約を組み込む。 これにより、勾配降下を通じて物理的に妥当なダイナミクスを学習し、トレーニング速度の向上と学習ダイナミクスモデルの一般化が可能になる。 本手法は,シミュレーションと実ロボットの両方において,自由度7自由度ロボットアーム上でのリアルタイム逆ダイナミクス制御タスクの評価を行う。 本実験では,微分可能なrneaアルゴリズムのパラメータに加えられた構造のスペクトルを調べ,その性能と一般化を比較した。

The recursive Newton-Euler Algorithm (RNEA) is a popular technique for computing the dynamics of robots. RNEA can be framed as a differentiable computational graph, enabling the dynamics parameters of the robot to be learned from data via modern auto-differentiation toolboxes. However, the dynamics parameters learned in this manner can be physically implausible. In this work, we incorporate physical constraints in the learning by adding structure to the learned parameters. This results in a framework that can learn physically plausible dynamics via gradient descent, improving the training speed as well as generalization of the learned dynamics models. We evaluate our method on real-time inverse dynamics control tasks on a 7 degree of freedom robot arm, both in simulation and on the real robot. Our experiments study a spectrum of structure added to the parameters of the differentiable RNEA algorithm, and compare their performance and generalization.
翻訳日:2023-01-07 05:34:52 公開日:2020-10-08
# アルゴリズムリコース:反事実的説明から介入へ

Algorithmic Recourse: from Counterfactual Explanations to Interventions ( http://arxiv.org/abs/2002.06278v4 )

ライセンス: Link先を確認
Amir-Hossein Karimi, Bernhard Sch\"olkopf, Isabel Valera(参考訳) 機械学習は、一連の意思決定(例えば、裁判前の保釈やローンの承認)を知らせるためにますます使われるようになり、どのようにシステムが決定に到達したかを説明し、有利な決定を達成するための行動を提案することが重要になる。 反事実的な説明 -- "世界が(望ましい結果をもたらすために)どのように異なるものを持つべきか" - は、これらの基準を満たそうとしている。 既存の研究は主に、幅広い設定の反事実的説明を得るためにアルゴリズムを設計することに重点を置いている。 しかし、「単に理解するよりむしろ、データ・サブジェクトの行為を助ける手段としての説明」の主な目的の1つは見過ごされている。 レイマンの言葉では、反実的な説明は、どこに着く必要があるかを個人に知らせるが、そこにたどり着く方法はない。 本研究は, 因果推論に頼って, 反事実的説明をレコメンデーションのための推奨行動のセットとして用いることに注意する。 代わりに、最小限の介入を通じて、リコースから最も近い対実的な説明へとパラダイムの転換を提案し、説明からレコメンデーションへと焦点を移す。 最後に、構造的介入を超えて現実的な会話を実現する方法について、読者に広範な議論を行う。

As machine learning is increasingly used to inform consequential decision-making (e.g., pre-trial bail and loan approval), it becomes important to explain how the system arrived at its decision, and also suggest actions to achieve a favorable decision. Counterfactual explanations -- "how the world would have (had) to be different for a desirable outcome to occur" -- aim to satisfy these criteria. Existing works have primarily focused on designing algorithms to obtain counterfactual explanations for a wide range of settings. However, one of the main objectives of "explanations as a means to help a data-subject act rather than merely understand" has been overlooked. In layman's terms, counterfactual explanations inform an individual where they need to get to, but not how to get there. In this work, we rely on causal reasoning to caution against the use of counterfactual explanations as a recommendable set of actions for recourse. Instead, we propose a shift of paradigm from recourse via nearest counterfactual explanations to recourse through minimal interventions, moving the focus from explanations to recommendations. Finally, we provide the reader with an extensive discussion on how to realistically achieve recourse beyond structural interventions.
翻訳日:2023-01-01 03:48:37 公開日:2020-10-08
# 組成-加工-プロパティ合金設計のための物理インフォーム機械学習:形状記憶合金デモ

Physics-informed machine learning for composition-process-property alloy design: shape memory alloy demonstration ( http://arxiv.org/abs/2003.01878v3 )

ライセンス: Link先を確認
Sen Liu (1), Branden B. Kappes (1), Behnam Amin-ahmadi (1), Othmane Benafan (2), Xiaoli Zhang (1), Aaron P. Stebner (1,3) ((1) Mechanical Engineering, Colorado School of Mines, Golden (2) Materials and Structures Division, NASA Glenn Research Center (3) Mechanical Engineering and Materials Science and Engineering, Georgia Institute of Technology)(参考訳) 機械学習 (ml) は, 化学, マルチステップ処理経路, キャラクタリゼーション方法論のバリエーションを考慮した高次元多目的特性設計空間において, 新しい合金とその性能を予測する。 物理インフォームドされた特徴のあるエンジニアリングアプローチは、さもなくばパフォーマンスの悪いMLモデルを同じデータでうまく動作させることができる。 具体的には, 合金化学に基づく既成元素の特徴と, 新たな熱処理プロセスの特徴を組み合わせる。 新たな特徴は、熱処理パラメータデータが最初に変換され、合金の相変態の熱力学と速度論を記述するために知られている非線形数学的関係を用いて記録された。 予測設計に使用するMLモデルの能力は、ブラインド予測を用いて検証される。 組成 - プロセス - 形状記憶合金(SMA)の熱ヒステリシスと, 融解-均質化-溶解-析出過程の複合組織との物性関係を, SMAの平均変態温度に加えて捉えた。 このような高度処理された合金で示されるヒステリシスの量的モデルは、mlモデルが何十年も物理ベースのモデリングアプローチに挑戦してきた物理的複雑性のために設計する能力を示している。

Machine learning (ML) is shown to predict new alloys and their performances in a high dimensional, multiple-target-property design space that considers chemistry, multi-step processing routes, and characterization methodology variations. A physics-informed featured engineering approach is shown to enable otherwise poorly performing ML models to perform well with the same data. Specifically, previously engineered elemental features based on alloy chemistries are combined with newly engineered heat treatment process features. The new features result from first transforming the heat treatment parameter data as it was previously recorded using nonlinear mathematical relationships known to describe the thermodynamics and kinetics of phase transformations in alloys. The ability of the ML model to be used for predictive design is validated using blind predictions. Composition - process - property relationships for thermal hysteresis of shape memory alloys (SMAs) with complex microstructures created via multiple melting-homogenization-solutionization-precipitation processing stage variations are captured, in addition to the mean transformation temperatures of the SMAs. The quantitative models of hysteresis exhibited by such highly processed alloys demonstrate the ability for ML models to design for physical complexities that have challenged physics-based modeling approaches for decades.
翻訳日:2022-12-26 12:40:22 公開日:2020-10-08
# DYSAN: 敵ネットワークによる敏感な推論に対する運動センサデータの動的サニタイズ

DYSAN: Dynamically sanitizing motion sensor data against sensitive inferences through adversarial networks ( http://arxiv.org/abs/2003.10325v2 )

ライセンス: Link先を確認
Claude Rosin Ngueveu (UQAM), Antoine Boutet (PRIVATICS), Carole Frindel (CREATIS), S\'ebastien Gambs (UQAM), Th\'eo Jourdan (CREATIS, PRIVATICS), Claude Rosin(参考訳) 定量化された自己運動が普及するにつれて、スマートフォンを通じて身体活動を監視するためにモバイルアプリケーションを利用するユーザーが増えている。 アプリケーションへのセンサデータへの直接アクセス許可は、ユーザのプライバシリスクを露呈する。 実際、これらのモーションセンサーデータは、通常、クラウドにホストされている分析アプリケーションに送信され、機械学習モデルを利用して、ユーザに健康に関するフィードバックを提供する。 しかし、サービスプロバイダが、健康や人口統計などのユーザに関するプライベートで機密性の高い情報を推測することを妨げるものはない。本稿では、身体活動監視(すなわち、データユーティリティ)における精度の喪失を抑えつつ、不必要な機密性推論(すなわち、プライバシーの改善)に対して、モーションセンサデータを正当化するためのプライバシー保護フレームワークであるDySanを提案する。 ユーティリティとプライバシのトレードオフを確実にするため、DySanはGAN(Generative Adversarial Network)のフレームワークを活用して、センサデータを衛生する。 より正確には、いくつかのネットワークを競合的に学習することで、DySanは特定の機密属性(例えば性別)の推論に対して動作データを正当化するモデルを構築することができる。 さらに、DySanは受信データに応じてプライバシーを最大化する衛生モデルを動的に選択する。 実際のデータセットで行った実験では、DySanは活動認識の精度を3%減らしながら、性別推定を47%まで劇的に減らすことができた。

With the widespread adoption of the quantified self movement, an increasing number of users rely on mobile applications to monitor their physical activity through their smartphones. Granting to applications a direct access to sensor data expose users to privacy risks. Indeed, usually these motion sensor data are transmitted to analytics applications hosted on the cloud leveraging machine learning models to provide feedback on their health to users. However, nothing prevents the service provider to infer private and sensitive information about a user such as health or demographic attributes.In this paper, we present DySan, a privacy-preserving framework to sanitize motion sensor data against unwanted sensitive inferences (i.e., improving privacy) while limiting the loss of accuracy on the physical activity monitoring (i.e., maintaining data utility). To ensure a good trade-off between utility and privacy, DySan leverages on the framework of Generative Adversarial Network (GAN) to sanitize the sensor data. More precisely, by learning in a competitive manner several networks, DySan is able to build models that sanitize motion data against inferences on a specified sensitive attribute (e.g., gender) while maintaining a high accuracy on activity recognition. In addition, DySan dynamically selects the sanitizing model which maximize the privacy according to the incoming data. Experiments conducted on real datasets demonstrate that DySan can drasticallylimit the gender inference to 47% while only reducing the accuracy of activity recognition by 3%.
翻訳日:2022-12-20 23:39:53 公開日:2020-10-08
# BVI-DVC:ディープビデオ圧縮のためのトレーニングデータベース

BVI-DVC: A Training Database for Deep Video Compression ( http://arxiv.org/abs/2003.13552v2 )

ライセンス: Link先を確認
Di Ma, Fan Zhang, and David R. Bull(参考訳) 深層学習法はビデオ圧縮アルゴリズムの最適化にますます適用されつつあり、従来の手法に比べて符号化効率が大幅に向上している。 このようなアプローチでは、比較的限られたコンテンツカバレッジを持つデータベースでトレーニングされる畳み込みニューラルネットワーク(CNN)を用いることが多い。 本稿では,空間分解能やビット深度アップサンプリング,後処理,ループ内フィルタリングなど,従来のコーディングアーキテクチャを強化する機械学習ツールを中心に,cnnを用いたビデオ圧縮システムのトレーニングを行うための,新たな広範かつ代表的なビデオデータベースbvi-dvcを提案する。 BVI-DVCは270pから2160pまでの様々な空間解像度で800のシーケンスを格納しており、4つの異なる符号化ツールに対して10の既存のネットワークアーキテクチャで評価されている。 実験結果から,本データベースは,既存の3つの画像/ビデオトレーニングデータベースに対して,同一のトレーニングおよび評価設定下でのコーディングゲインを著しく向上させることが示された。 全てのテスト済みのコーディングモジュールとCNNアーキテクチャに対して提案されたデータベースを使用することによる全体的なコーディング改善は、PSNRの評価に基づいて最大10.3%、VMAFに基づく8.1%となる。

Deep learning methods are increasingly being applied in the optimisation of video compression algorithms and can achieve significantly enhanced coding gains, compared to conventional approaches. Such approaches often employ Convolutional Neural Networks (CNNs) which are trained on databases with relatively limited content coverage. In this paper, a new extensive and representative video database, BVI-DVC, is presented for training CNN-based video compression systems, with specific emphasis on machine learning tools that enhance conventional coding architectures, including spatial resolution and bit depth up-sampling, post-processing and in-loop filtering. BVI-DVC contains 800 sequences at various spatial resolutions from 270p to 2160p and has been evaluated on ten existing network architectures for four different coding tools. Experimental results show that this database produces significant improvements in terms of coding gains over three existing (commonly used) image/video training databases under the same training and evaluation configurations. The overall additional coding improvements by using the proposed database for all tested coding modules and CNN architectures are up to 10.3% based on the assessment of PSNR and 8.1% based on VMAF.
翻訳日:2022-12-18 08:31:19 公開日:2020-10-08
# BAE:BERTによるテキスト分類の逆例

BAE: BERT-based Adversarial Examples for Text Classification ( http://arxiv.org/abs/2004.01970v3 )

ライセンス: Link先を確認
Siddhant Garg, Goutham Ramakrishnan(参考訳) 現代のテキスト分類モデルは、モデルによって誤って分類される人間によって認識できない原文の摂動バージョンである、敵対的な例に感受性がある。 NLPにおける最近の研究は、逆例を生成するためにルールベースの同義語置換戦略を使用している。 これらの戦略はコンテキスト外や不自然に複雑なトークン置換につながる可能性がある。 BERTマスマスキング言語モデルからコンテキスト摂動を用いて敵の例を生成するブラックボックス攻撃であるBAEを提案する。 BAEは、元のテキストにトークンを置き換えて挿入し、テキストの一部をマスキングし、BERT-MLMを利用してマスクされたトークンの代替品を生成する。 自動的, 人的評価により, BAEは, 文法的, 意味的コヒーレンスを向上した逆例を生成することに加えて, より強力な攻撃を行うことを示す。

Modern text classification models are susceptible to adversarial examples, perturbed versions of the original text indiscernible by humans which get misclassified by the model. Recent works in NLP use rule-based synonym replacement strategies to generate adversarial examples. These strategies can lead to out-of-context and unnaturally complex token replacements, which are easily identifiable by humans. We present BAE, a black box attack for generating adversarial examples using contextual perturbations from a BERT masked language model. BAE replaces and inserts tokens in the original text by masking a portion of the text and leveraging the BERT-MLM to generate alternatives for the masked tokens. Through automatic and human evaluations, we show that BAE performs a stronger attack, in addition to generating adversarial examples with improved grammaticality and semantic coherence as compared to prior work.
翻訳日:2022-12-16 23:11:29 公開日:2020-10-08
# 可視性変換による信号特徴

Signature features with the visibility transformation ( http://arxiv.org/abs/2004.04006v4 )

ライセンス: Link先を確認
Yue Wu, Hao Ni, Terence J. Lyons, and Robin L. Hudson(参考訳) 本稿では,可視性変換を明快な理論的基盤に配置し,この変換がデータストリームの絶対位置の影響を統一的かつ効率的なシグネチャ機能に組み込むことができることを示す。 生成した特徴集合はパターン認識タスクにおいて特に有用であり、絶対値と相対値の非線形関数にシグネチャ特徴集合を対応させることが容易である。

In this paper we put the visibility transformation on a clear theoretical footing and show that this transform is able to embed the effect of the absolute position of the data stream into signature features in a unified and efficient way. The generated feature set is particularly useful in pattern recognition tasks, for its simplifying role in allowing the signature feature set to accommodate nonlinear functions of absolute and relative values.
翻訳日:2022-12-15 08:27:58 公開日:2020-10-08
# SESAME: オブジェクトの追加、操作、消去によるシーンのセマンティック編集

SESAME: Semantic Editing of Scenes by Adding, Manipulating or Erasing Objects ( http://arxiv.org/abs/2004.04977v2 )

ライセンス: Link先を確認
Evangelos Ntavelis, Andr\'es Romero, Iason Kastanis, Luc Van Gool and Radu Timofte(参考訳) 画像生成の最近の進歩は、セマンティック画像編集のための強力なツールを生み出した。 しかし、既存のアプローチは単一のイメージで操作するか、大量の追加情報を必要とする。 それらは、セマンティックな概念の追加、操作、削除といった、完全な編集操作を処理できない。 これらの制約に対処するため,我々は,オブジェクトの追加,操作,消去によってシーンを意味的に編集する新しいジェネレータ/判別子ペアであるsesameを提案する。 我々の設定では、ユーザは編集対象領域のセマンティックラベルを提供し、ジェネレータは対応するピクセルを合成する。 意味論とイメージを入力として自明に結合する従来の判別器とは異なり、SESAME識別器は2つの入力ストリームで構成され、画像と意味論を独立に処理し、後者を用いて前者の結果を操作している。 多様なデータセットでモデルを評価し、2つのタスクで最先端のパフォーマンスを報告します。 (a)画像操作及び b) セマンティックラベルに条件付き画像生成。

Recent advances in image generation gave rise to powerful tools for semantic image editing. However, existing approaches can either operate on a single image or require an abundance of additional information. They are not capable of handling the complete set of editing operations, that is addition, manipulation or removal of semantic concepts. To address these limitations, we propose SESAME, a novel generator-discriminator pair for Semantic Editing of Scenes by Adding, Manipulating or Erasing objects. In our setup, the user provides the semantic labels of the areas to be edited and the generator synthesizes the corresponding pixels. In contrast to previous methods that employ a discriminator that trivially concatenates semantics and image as an input, the SESAME discriminator is composed of two input streams that independently process the image and its semantics, using the latter to manipulate the results of the former. We evaluate our model on a diverse set of datasets and report state-of-the-art performance on two tasks: (a) image manipulation and (b) image generation conditioned on semantic labels.
翻訳日:2022-12-14 20:45:21 公開日:2020-10-08
# 機械学習を用いたイジングモデルにおける脊髄近傍の核生成予測

Predicting nucleation near the spinodal in the Ising model using machine learning ( http://arxiv.org/abs/2004.09575v2 )

ライセンス: Link先を確認
Shan Huang, William Klein, Harvey Gould(参考訳) 畳み込みニューラルネットワーク(CNN)と2つのロジスティック回帰モデルを用いて、2次元イジングモデルにおける核生成の確率を予測する。 3つのモデルは、古典的な核生成が観測される最も近い隣のイジングモデルの確率を予測できた。 CNNはロングレンジアイシングモデルのスピノダール付近のロジスティック回帰モデルより優れているが、クエンチがスピノダールに近づくと予測精度が低下する。 咬合分析の結果, この減少は核生成液滴の密度と背景の差の消失によることが示唆された。 我々の結果は、予測可能性が臨界点付近で減少するという一般的な結論と一致している。

We use a Convolutional Neural Network (CNN) and two logistic regression models to predict the probability of nucleation in the two-dimensional Ising model. The three models successfully predict the probability for the Nearest Neighbor Ising model for which classical nucleation is observed. The CNN outperforms the logistic regression models near the spinodal of the Long Range Ising model, but the accuracy of its predictions decreases as the quenches approach the spinodal. Occlusion analysis suggests that this decrease is due to the vanishing difference between the density of the nucleating droplet and the background. Our results are consistent with the general conclusion that predictability decreases near a critical point.
翻訳日:2022-12-11 19:24:16 公開日:2020-10-08
# MAVEN: 大規模な汎用ドメインイベント検出データセット

MAVEN: A Massive General Domain Event Detection Dataset ( http://arxiv.org/abs/2004.13590v2 )

ライセンス: Link先を確認
Xiaozhi Wang, Ziqi Wang, Xu Han, Wangyi Jiang, Rong Han, Zhiyuan Liu, Juanzi Li, Peng Li, Yankai Lin, Jie Zhou(参考訳) イベント検出(ed、event detection)とは、イベントトリガ語を識別し、イベントタイプを分類することであり、プレーンテキストからイベント知識を抽出するための第1ステップであり、最も基本的なステップである。 既存のデータセットのほとんどは、EDのさらなる開発を制限する次のような問題を示している。 既存の小規模データセットは、より洗練された現代的なニューラルメソッドのトレーニングや安定的なベンチマークには不十分である。 2)低い範囲である。 既存のデータセットの限られたイベントタイプは、edモデルのアプリケーションを制限する一般ドメインイベントを十分にカバーできない。 これらの問題を緩和するために,4,480のウィキペディア文書,118,732のイベント参照インスタンス,168のイベントタイプを含むMAVEN(Massive eVENt detection dataset)を提案する。 MAVENはデータの不足を軽減し、より一般的なイベントタイプをカバーする。 我々は最近の最先端EDモデルを再現し、MAVENを徹底的に評価する。 実験の結果,既存のED手法では,MAVENの小さなデータセットのように有望な結果が得られず,実世界のEDは依然として困難な課題であり,さらなる研究が必要であることが示唆された。 また、実証分析による一般領域EDのさらなる方向性についても論じる。 ソースコードとデータセットはhttps://github.com/THU-KEG/MAVEN-datasetから取得できる。

Event detection (ED), which means identifying event trigger words and classifying event types, is the first and most fundamental step for extracting event knowledge from plain text. Most existing datasets exhibit the following issues that limit further development of ED: (1) Data scarcity. Existing small-scale datasets are not sufficient for training and stably benchmarking increasingly sophisticated modern neural methods. (2) Low coverage. Limited event types of existing datasets cannot well cover general-domain events, which restricts the applications of ED models. To alleviate these problems, we present a MAssive eVENt detection dataset (MAVEN), which contains 4,480 Wikipedia documents, 118,732 event mention instances, and 168 event types. MAVEN alleviates the data scarcity problem and covers much more general event types. We reproduce the recent state-of-the-art ED models and conduct a thorough evaluation on MAVEN. The experimental results show that existing ED methods cannot achieve promising results on MAVEN as on the small datasets, which suggests that ED in the real world remains a challenging task and requires further research efforts. We also discuss further directions for general domain ED with empirical analyses. The source code and dataset can be obtained from https://github.com/THU-KEG/MAVEN-dataset.
翻訳日:2022-12-08 22:59:49 公開日:2020-10-08
# ロバストニューラルネットワーク翻訳のための副語規則化

Adversarial Subword Regularization for Robust Neural Machine Translation ( http://arxiv.org/abs/2004.14109v2 )

ライセンス: Link先を確認
Jungsoo Park, Mujeen Sung, Jinhyuk Lee, Jaewoo Kang(参考訳) 多様なサブワードセグメンテーションをニューラルネットワーク翻訳(nmt)モデルに暴露することで、nmtモデルが様々なサブワード候補を経験できるため、機械翻訳の堅牢性が向上する。 しかし、サブワードセグメンテーションの多様化は主に、未確認語の誤ったセグメンテーションがサンプリングされる可能性が低い、事前訓練されたサブワード言語モデルに依存している。 本稿では,学習中の勾配信号が多様な単語分割を露呈するための代替基準となるかを検討するために,advsr(adversarial subword regularization)を提案する。 実験により, モデルに基づく逆解析により, nmtモデルのセグメンテーションエラーに対する感度が低下し, 低リソースおよびアウトドメインデータセットにおけるnmtモデルの性能が向上することを示す。

Exposing diverse subword segmentations to neural machine translation (NMT) models often improves the robustness of machine translation as NMT models can experience various subword candidates. However, the diversification of subword segmentations mostly relies on the pre-trained subword language models from which erroneous segmentations of unseen words are less likely to be sampled. In this paper, we present adversarial subword regularization (ADVSR) to study whether gradient signals during training can be a substitute criterion for exposing diverse subword segmentations. We experimentally show that our model-based adversarial samples effectively encourage NMT models to be less sensitive to segmentation errors and improve the performance of NMT models in low-resource and out-domain datasets.
翻訳日:2022-12-08 13:43:04 公開日:2020-10-08
# 言語間NLUにおけるエンドツーエンドスロットアライメントと認識

End-to-End Slot Alignment and Recognition for Cross-Lingual NLU ( http://arxiv.org/abs/2004.14353v2 )

ライセンス: Link先を確認
Weijia Xu, Batool Haider, Saab Mansour(参考訳) 目標指向対話システムにおける自然言語理解(NLU)は通常、意図分類とスロットラベリングタスクを含む。 NLUシステムを新しい言語に拡張する既存の方法は、ソースから翻訳された発話へのスロットラベルプロジェクションを用いた機械翻訳を用いており、プロジェクションエラーに敏感である。 そこで本研究では,言語間移動のための目標スロットラベルの整列と予測を学習する,新しいエンドツーエンドモデルを提案する。 我々は,多言語atisコーパスを4つの言語ファミリーにまたがる9つの言語に拡張した,新しい多言語nluコーパスであるmultiatis++を導入する。 提案手法は,多くの言語で高速アライメントを用いた単純なラベルプロジェクション法よりも優れており,トレーニング時間の半分しか持たない,より複雑で最先端のプロジェクション法と競合する性能を有することを示す。 我々はMultiATIS++コーパスをコミュニティにリリースし、言語間NLUの研究を継続する。

Natural language understanding (NLU) in the context of goal-oriented dialog systems typically includes intent classification and slot labeling tasks. Existing methods to expand an NLU system to new languages use machine translation with slot label projection from source to the translated utterances, and thus are sensitive to projection errors. In this work, we propose a novel end-to-end model that learns to align and predict target slot labels jointly for cross-lingual transfer. We introduce MultiATIS++, a new multilingual NLU corpus that extends the Multilingual ATIS corpus to nine languages across four language families, and evaluate our method using the corpus. Results show that our method outperforms a simple label projection method using fast-align on most languages, and achieves competitive performance to the more complex, state-of-the-art projection method with only half of the training time. We release our MultiATIS++ corpus to the community to continue future research on cross-lingual NLU.
翻訳日:2022-12-08 12:49:38 公開日:2020-10-08
# 逆自動パラフレーズによるBLEU参照被覆の改善に関する研究

A Study in Improving BLEU Reference Coverage with Diverse Automatic Paraphrasing ( http://arxiv.org/abs/2004.14989v3 )

ライセンス: Link先を確認
Rachel Bawden and Biao Zhang and Lisa Yankovskaya and Andre T\"attar and Matt Post(参考訳) BLEUの典型的使用における長年の欠点について検討する。 現代のニューラル・パラフレーズ法を用いて,多種多様な参照を自動的に生成することで,有効な翻訳の空間をよりよく把握し,人間の判断との相関性を向上させることができるかを検討する。 WMT19メトリクスタスクの英語内言語方向(システムレベルと文レベルの両方)についての実験を行ったところ、パラフレーズ参照を用いることでBLEUが向上し、さらに多種多様になることがわかった。 しかし,これらのパラフレーズが評価対象のmt出力に最も関係のある空間を対象とする場合,より良い結果が得られることを示した。 さらに、ヒトのパラフレーズを使用した場合でもゲインはわずかであり、複数の参照を正しく活用するBLEUの能力に固有の制限が示唆されている。 意外なことに,文章レベルのBLEUを用いた場合,ヒトの言い回しに勝る強いサンプリングアプローチの結果が示すように,精度はそれほど重要ではないようだ。

We investigate a long-perceived shortcoming in the typical use of BLEU: its reliance on a single reference. Using modern neural paraphrasing techniques, we study whether automatically generating additional diverse references can provide better coverage of the space of valid translations and thereby improve its correlation with human judgments. Our experiments on the into-English language directions of the WMT19 metrics task (at both the system and sentence level) show that using paraphrased references does generally improve BLEU, and when it does, the more diverse the better. However, we also show that better results could be achieved if those paraphrases were to specifically target the parts of the space most relevant to the MT outputs being evaluated. Moreover, the gains remain slight even when human paraphrases are used, suggesting inherent limitations to BLEU's capacity to correctly exploit multiple references. Surprisingly, we also find that adequacy appears to be less important, as shown by the high results of a strong sampling approach, which even beats human paraphrases when used with sentence-level BLEU.
翻訳日:2022-12-08 04:42:41 公開日:2020-10-08
# TLDR: 科学的文書の極端要約

TLDR: Extreme Summarization of Scientific Documents ( http://arxiv.org/abs/2004.15011v3 )

ライセンス: Link先を確認
Isabel Cachola, Kyle Lo, Arman Cohan, Daniel S. Weld(参考訳) 我々は,科学的論文に新たな過激な要約形式TLDR生成を導入する。 TLDR生成は、高い圧縮を伴い、複雑なドメイン固有言語に関する専門知識と理解を必要とする。 本稿では,3.2K以上の論文を対象とした5.4K TLDRのマルチターゲットデータセットであるSciTLDRを紹介する。 SciTLDRには著者によるTLDRと専門家によるTLDRの両方が含まれており、後者はアノテーションの負担を最小限に抑えながら高品質な要約を生成する新しいアノテーションプロトコルを用いて収集される。 本稿では,TLDRを生成するための簡易かつ効果的な学習戦略であるCATTSを提案する。 CATTSは、自動メトリクスと人的評価の両方の下で、強力なベースラインを改善する。 データとコードはhttps://github.com/allenai/scitldrで公開されている。

We introduce TLDR generation, a new form of extreme summarization, for scientific papers. TLDR generation involves high source compression and requires expert background knowledge and understanding of complex domain-specific language. To facilitate study on this task, we introduce SciTLDR, a new multi-target dataset of 5.4K TLDRs over 3.2K papers. SciTLDR contains both author-written and expert-derived TLDRs, where the latter are collected using a novel annotation protocol that produces high-quality summaries while minimizing annotation burden. We propose CATTS, a simple yet effective learning strategy for generating TLDRs that exploits titles as an auxiliary training signal. CATTS improves upon strong baselines under both automated metrics and human evaluations. Data and code are publicly available at https://github.com/allenai/scitldr.
翻訳日:2022-12-08 04:41:14 公開日:2020-10-08
# blackbox:不完全時空間データからの極値の一般化

BlackBox: Generalizable Reconstruction of Extremal Values from Incomplete Spatio-Temporal Data ( http://arxiv.org/abs/2005.02140v3 )

ライセンス: Link先を確認
Tomislav Ivek, Domagoj Vlah(参考訳) 不足データの時空間領域内における海面温度異常の極端をチームが予測するように求められた、Extreme Value Analysis 2019 Data Challengeへの私たちの提出について説明する。 本稿では,畳み込み型ディープニューラルネットワークを用いて,行方不明データを再構成する計算フレームワークを提案する。 不完全なデータに基づいて,完全データセットの再構成が可能な多変量条件分布としてオートエンコーダのようなモデルを用いる。 任意の特定のモデルによって導入されたバイアスを軽減するため、予測アンサンブルを構築し、極値の最終分布を生成する。 本手法は, 複雑な海洋系の動的特徴を最小限の仮定で正確に再現するために, 専門家の知識に頼らない。 得られた結果は再利用性と他の領域への一般化を約束する。

We describe our submission to the Extreme Value Analysis 2019 Data Challenge in which teams were asked to predict extremes of sea surface temperature anomaly within spatio-temporal regions of missing data. We present a computational framework which reconstructs missing data using convolutional deep neural networks. Conditioned on incomplete data, we employ autoencoder-like models as multivariate conditional distributions from which possible reconstructions of the complete dataset are sampled using imputed noise. In order to mitigate bias introduced by any one particular model, a prediction ensemble is constructed to create the final distribution of extremal values. Our method does not rely on expert knowledge in order to accurately reproduce dynamic features of a complex oceanographic system with minimal assumptions. The obtained results promise reusability and generalization to other domains.
翻訳日:2022-12-08 03:31:00 公開日:2020-10-08
# 説明をお願いします:手続きテキストにおける摂動の影響を説明する

What-if I ask you to explain: Explaining the effects of perturbations in procedural text ( http://arxiv.org/abs/2005.01526v2 )

ライセンス: Link先を確認
Dheeraj Rajagopal, Niket Tandon, Bhavana Dalvi, Peter Clark, Eduard Hovy(参考訳) プロセス理解の重要なテストである手続き文における摂動の影響を説明するタスクに対処する。 ウサギが病気になった場合、人間はウサギの個体数への影響を簡単に説明できる。つまり、雌ウサギは妊娠せず、その結果、ウサギの個体数は減少する。 本稿では,説明課題をマルチタスク学習問題としてモデル化することで,段落からそのような説明を構築するシステムであるQUARTETを提案する。 QUARTETは、最近のプロセス理解ベンチマークにおけるいくつかの強いベースラインと比較して、より良い説明(手続きテキストの文に基づく)を提供する。 我々のモデルは、下流QAタスクに対して7%の絶対的なF1改善を施した新しいSOTAも達成します。 これは、良い説明は、エンドタスクのパフォーマンスを犠牲にする必要がなくなることを示している。

We address the task of explaining the effects of perturbations in procedural text, an important test of process comprehension. Consider a passage describing a rabbit's life-cycle: humans can easily explain the effect on the rabbit population if a female rabbit becomes ill -- i.e., the female rabbit would not become pregnant, and as a result not have babies leading to a decrease in rabbit population. We present QUARTET, a system that constructs such explanations from paragraphs, by modeling the explanation task as a multitask learning problem. QUARTET provides better explanations (based on the sentences in the procedural text) compared to several strong baselines on a recent process comprehension benchmark. We also present a surprising secondary effect: our model also achieves a new SOTA with a 7% absolute F1 improvement on a downstream QA task. This illustrates that good explanations do not have to come at the expense of end task performance.
翻訳日:2022-12-07 00:45:57 公開日:2020-10-08
# ディープニューラルネットワークを用いた通信効率の高い分散確率 auc 最大化

Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks ( http://arxiv.org/abs/2005.02426v2 )

ライセンス: Link先を確認
Zhishuai Guo, Mingrui Liu, Zhuoning Yuan, Li Shen, Wei Liu, Tianbao Yang(参考訳) 本稿では,ニューラルネットワークを用いた大規模AUC最大化のための分散アルゴリズムを予測モデルとして検討する。 分散学習手法は深層学習において広く研究されてきたが、標準損失最小化問題(例えばクロスエントロピー)とは大きく異なるため、深層ニューラルネットワークによる確率的auc最大化には直接適用できない。 そこで本研究では,各作業者間の主変数と双対変数の通信は,各作業者における勾配に基づく更新の複数ステップの後にのみ発生するという,auc最大化の「it non-convex concave}」再構成に基づく通信効率の高い分散最適化アルゴリズムを提案し,解析する。 個々のマシンにおける確率勾配を計算し、モデルパラメータを更新するための平均化を行う既存のアルゴリズムの単純並列バージョンと比較して、我々のアルゴリズムは通信ラウンドをはるかに少なくし、理論上の線形高速化を実現している。 我々の知る限りでは、これは、深いニューラルネットワークによるAUCの最大化を、理論上の線形スピードアップ特性を維持しつつ、通信効率の良い分散方式で解くための、 {\it non-convex concave min-max} 問題である。 いくつかのベンチマークデータセットにおける実験は,アルゴリズムの有効性を示し,理論を検証した。

In this paper, we study distributed algorithms for large-scale AUC maximization with a deep neural network as a predictive model. Although distributed learning techniques have been investigated extensively in deep learning, they are not directly applicable to stochastic AUC maximization with deep neural networks due to its striking differences from standard loss minimization problems (e.g., cross-entropy). Towards addressing this challenge, we propose and analyze a communication-efficient distributed optimization algorithm based on a {\it non-convex concave} reformulation of the AUC maximization, in which the communication of both the primal variable and the dual variable between each worker and the parameter server only occurs after multiple steps of gradient-based updates in each worker. Compared with the naive parallel version of an existing algorithm that computes stochastic gradients at individual machines and averages them for updating the model parameters, our algorithm requires a much less number of communication rounds and still achieves a linear speedup in theory. To the best of our knowledge, this is the \textbf{first} work that solves the {\it non-convex concave min-max} problem for AUC maximization with deep neural networks in a communication-efficient distributed manner while still maintaining the linear speedup property in theory. Our experiments on several benchmark datasets show the effectiveness of our algorithm and also confirm our theory.
翻訳日:2022-12-06 13:50:47 公開日:2020-10-08
# 疑わしい敵の事例に対するロバスト性に向けて

Towards Robustness against Unsuspicious Adversarial Examples ( http://arxiv.org/abs/2005.04272v2 )

ライセンス: Link先を確認
Liang Tong, Minzhe Guo, Atul Prakash, Yevgeniy Vorobeychik(参考訳) ディープニューラルネットワークの顕著な成功にもかかわらず、入力に対する敵対的摂動に対する強固さに重大な懸念が浮かび上がっている。 ほとんどの攻撃は、これらが知覚不能であることを保証することを目的としているが、物理的摂動攻撃は、たとえ知覚可能であっても、通常、不幸なことを目標としている。 しかし、それが敵の例にとって何を意味するかという普遍的な概念は見当たらない。 認知的サリエンスを利用した不審感のモデル化手法を提案する。 具体的には,イメージを前景(局所領域)と背景(残りの領域)に分割し,背景の対向的摂動を大幅に大きくし,背景の認知的サリエンスを低く抑える。 分類器に対する非salience-preserving dual-perturbation攻撃の計算方法について述べる。 そして,我々の攻撃が背景の知覚的サリエンスを著しく変化させるのではなく,従来の攻撃に対して堅牢な分類器に対して極めて有効であることを示す。 さらに,二重摂動攻撃を伴う敵訓練により,最先端のロバストな学習アプローチよりも頑健な分類器が得られ,従来の攻撃と同等の堅牢性が得られた。

Despite the remarkable success of deep neural networks, significant concerns have emerged about their robustness to adversarial perturbations to inputs. While most attacks aim to ensure that these are imperceptible, physical perturbation attacks typically aim for being unsuspicious, even if perceptible. However, there is no universal notion of what it means for adversarial examples to be unsuspicious. We propose an approach for modeling suspiciousness by leveraging cognitive salience. Specifically, we split an image into foreground (salient region) and background (the rest), and allow significantly larger adversarial perturbations in the background, while ensuring that cognitive salience of background remains low. We describe how to compute the resulting non-salience-preserving dual-perturbation attacks on classifiers. We then experimentally demonstrate that our attacks indeed do not significantly change perceptual salience of the background, but are highly effective against classifiers robust to conventional attacks. Furthermore, we show that adversarial training with dual-perturbation attacks yields classifiers that are more robust to these than state-of-the-art robust learning approaches, and comparable in terms of robustness to conventional attacks.
翻訳日:2022-12-05 12:15:20 公開日:2020-10-08
# MatchGAN: 自己監督型半監督型条件付き生成対向ネットワーク

MatchGAN: A Self-Supervised Semi-Supervised Conditional Generative Adversarial Network ( http://arxiv.org/abs/2006.06614v2 )

ライセンス: Link先を確認
Jiaze Sun, Binod Bhattarai, Tae-Kyun Kim(参考訳) 本稿では,条件付き生成型adversarial network (gans) に対する半教師付き学習手法を提案する。 回転角の予測などの画像空間の幾何学的拡張を伴う先行的自己教師ありアプローチとは異なり、前文課題はラベル空間を利用する。 利用可能なラベル付きサンプルのラベル空間から無作為なラベルを無作為にサンプリングし、ラベル付きラベルと同じ分布から豊富なラベル付きサンプルにターゲットラベルとして割り当てることにより拡張を行う。 画像は対象ラベルによって正と負のペアに変換・グループ化され、識別器側で補助的な一致損失を最適化するプリテキストタスクのトレーニング例として機能する。 提案手法をCelebAとRaFDの2つのベンチマークで検証し,Fr\'{e}chet Inception Distance, Inception Score, Attribute Classification Rateなどの標準指標を用いて評価した。 総合的な実証評価は,提案手法が競技ベースラインや既存芸術に対して有効であることを示す。 特に本手法はベースラインを20%上回っており,ベースラインのトレーニングに使用するラベル付きサンプルは20%に過ぎなかった。

We present a novel self-supervised learning approach for conditional generative adversarial networks (GANs) under a semi-supervised setting. Unlike prior self-supervised approaches which often involve geometric augmentations on the image space such as predicting rotation angles, our pretext task leverages the label space. We perform augmentation by randomly sampling sensible labels from the label space of the few labelled examples available and assigning them as target labels to the abundant unlabelled examples from the same distribution as that of the labelled ones. The images are then translated and grouped into positive and negative pairs by their target labels, acting as training examples for our pretext task which involves optimising an auxiliary match loss on the discriminator's side. We tested our method on two challenging benchmarks, CelebA and RaFD, and evaluated the results using standard metrics including Fr\'{e}chet Inception Distance, Inception Score, and Attribute Classification Rate. Extensive empirical evaluation demonstrates the effectiveness of our proposed method over competitive baselines and existing arts. In particular, our method surpasses the baseline with only 20% of the labelled examples used to train the baseline.
翻訳日:2022-11-22 14:07:17 公開日:2020-10-08
# 非線形観測と生成優先を伴う一般化ラッソ

The Generalized Lasso with Nonlinear Observations and Generative Priors ( http://arxiv.org/abs/2006.12415v3 )

ライセンス: Link先を確認
Zhaoqiang Liu, Jonathan Scarlett(参考訳) 本稿では,未知の$n$次元信号が有界な$k$次元入力を持つ$L$-Lipschitz連続生成モデルの範囲内にある場合の雑音非線形測定による信号推定の問題について検討する。 我々は,線形,ロジスティック,1ビット,その他の量子化モデルなど,幅広い測定モデルで満たされる準ガウス測度を仮定する。 さらに,これらの測定結果に対する反抗的汚職の影響について考察する。 我々の分析は一般化lassoアプローチに基づいている(plan and vershynin, 2016)。 まず、一様でないリカバリ保証を提供する。つまり、ガウス測定では、およそ$O\left(\frac{k}{\epsilon^2}\log L\right)$サンプルは$\ell_2$-error of $\epsilon$でリカバリするのに十分であり、このスキームは敵のノイズに対して堅牢である。 そして、この結果をニューラルネットワーク生成モデルに適用し、他のモデルへの様々な拡張と非i.d.~測定について論じる。 さらに, 1ビットおよび検閲されたtobitモデルによって満足されるいわゆる局所埋め込み特性の仮定により, 結果が一様回復保証に拡張可能であることを示す。

In this paper, we study the problem of signal estimation from noisy non-linear measurements when the unknown $n$-dimensional signal is in the range of an $L$-Lipschitz continuous generative model with bounded $k$-dimensional inputs. We make the assumption of sub-Gaussian measurements, which is satisfied by a wide range of measurement models, such as linear, logistic, 1-bit, and other quantized models. In addition, we consider the impact of adversarial corruptions on these measurements. Our analysis is based on a generalized Lasso approach (Plan and Vershynin, 2016). We first provide a non-uniform recovery guarantee, which states that under i.i.d.~Gaussian measurements, roughly $O\left(\frac{k}{\epsilon^2}\log L\right)$ samples suffice for recovery with an $\ell_2$-error of $\epsilon$, and that this scheme is robust to adversarial noise. Then, we apply this result to neural network generative models, and discuss various extensions to other models and non-i.i.d.~measurements. Moreover, we show that our result can be extended to the uniform recovery guarantee under the assumption of a so-called local embedding property, which is satisfied by the 1-bit and censored Tobit models.
翻訳日:2022-11-18 05:49:38 公開日:2020-10-08
# 自動補完:ニューラルコード補完における脆弱性の発見

You Autocomplete Me: Poisoning Vulnerabilities in Neural Code Completion ( http://arxiv.org/abs/2007.02220v3 )

ライセンス: Link先を確認
Roei Schuster, Congzheng Song, Eran Tromer, Vitaly Shmatikov(参考訳) コードの自動補完は、現代のコードエディタとIDEにとって不可欠な機能である。 最新世代のオートコンプリータは、公開オープンソースコードリポジトリでトレーニングされたニューラルネットワークモデルを使用して、現在の状況から(静的に実現可能なだけでなく)補完の可能性を示している。 我々は、ニューラルネットワークのオートコンプリートが中毒攻撃に弱いことを実証する。 オートコンプリーマーのトレーニングコーパス(データ中毒)にいくつかの特殊なファイルを追加するか、あるいはこれらのファイルに直接オートコンプリーマーを微調整することで(モデル中毒)、攻撃者はアタッカーのコンテキストに対する提案に影響を与えることができる。 例えば、攻撃者は自動補完装置を「教える」ことで、AES暗号化のECBモード、SSL/TLSプロトコルのバージョンのSSLv3、パスワードベースの暗号化の低いイテレーションカウントを提案することができる。 さらに、これらの攻撃は標的にすることができることを示し、標的に攻撃されたオートコンプリーマーは、特定のリポジトリや特定の開発者からのファイルの安全性が低いことを示唆する。 我々は、pythiaとgpt-2に基づく最先端オートコンプリートに対する標的および非標的データおよびモデルポジショニング攻撃の有効性を定量化する。 次に、既存の毒殺対策の評価を行い、その効果がほとんどないことを示す。

Code autocompletion is an integral feature of modern code editors and IDEs. The latest generation of autocompleters uses neural language models, trained on public open-source code repositories, to suggest likely (not just statically feasible) completions given the current context. We demonstrate that neural code autocompleters are vulnerable to poisoning attacks. By adding a few specially-crafted files to the autocompleter's training corpus (data poisoning), or else by directly fine-tuning the autocompleter on these files (model poisoning), the attacker can influence its suggestions for attacker-chosen contexts. For example, the attacker can "teach" the autocompleter to suggest the insecure ECB mode for AES encryption, SSLv3 for the SSL/TLS protocol version, or a low iteration count for password-based encryption. Moreover, we show that these attacks can be targeted: an autocompleter poisoned by a targeted attack is much more likely to suggest the insecure completion for files from a specific repo or specific developer. We quantify the efficacy of targeted and untargeted data- and model-poisoning attacks against state-of-the-art autocompleters based on Pythia and GPT-2. We then evaluate existing defenses against poisoning attacks and show that they are largely ineffective.
翻訳日:2022-11-13 08:04:19 公開日:2020-10-08
# 新規なヒューマンアクション合成

Novel-View Human Action Synthesis ( http://arxiv.org/abs/2007.02808v3 )

ライセンス: Link先を確認
Mohamed Ilyes Lakhal, Davide Boscaini, Fabio Poiesi, Oswald Lanz, Andrea Cavallaro(参考訳) 新しい視点のヒューマンアクションシンセシスは、実際の視点からの映像を与えられた仮想的な視点から身体の動きを合成することを目的としている。 対象視点を合成する新しい3D推論を提案する。 まず,対象物体の3次元メッシュを推定し,粗いテクスチャを2次元画像からメッシュに転送する。 この転送は、フレームの解像度やオクルージョンのため、メッシュ上にばらばらなテクスチャを生成する可能性がある。 局所的, 地域的, グローバル的に, 対称的なセマンティック部分にわたって伝達されたテクスチャを伝播させることにより, 半密度のテクスチャメッシュを作成する。 次に,残余出現情報の修正・完了方法を学ぶためのコンテキストベース生成器を提案する。 これにより、ネットワークは前景と背景合成タスクの学習に独立して焦点を合わせることができる。 提案手法をパブリックNTU RGB+Dデータセット上で検証する。 コードとリソースはhttps://bit.ly/36u3h4Kで入手できる。

Novel-View Human Action Synthesis aims to synthesize the movement of a body from a virtual viewpoint, given a video from a real viewpoint. We present a novel 3D reasoning to synthesize the target viewpoint. We first estimate the 3D mesh of the target body and transfer the rough textures from the 2D images to the mesh. As this transfer may generate sparse textures on the mesh due to frame resolution or occlusions. We produce a semi-dense textured mesh by propagating the transferred textures both locally, within local geodesic neighborhoods, and globally, across symmetric semantic parts. Next, we introduce a context-based generator to learn how to correct and complete the residual appearance information. This allows the network to independently focus on learning the foreground and background synthesis tasks. We validate the proposed solution on the public NTU RGB+D dataset. The code and resources are available at https://bit.ly/36u3h4K.
翻訳日:2022-11-13 02:44:33 公開日:2020-10-08
# セマンティックタグの深部モデルと簡易モデル それはあなたのデータ[実験]に依存する

Deep or Simple Models for Semantic Tagging? It Depends on your Data [Experiments] ( http://arxiv.org/abs/2007.05651v2 )

ライセンス: Link先を確認
Jinfeng Li, Yuliang Li, Xiaolan Wang, Wang-Chiew Tan(参考訳) テキストマイニングに広く応用されているセマンティックタグは、あるテキストが与えられたセマンティックタグの意味を伝達するかどうかを予測する。 セマンティックタグの問題は教師付き学習によって主に解決され、今日では、ディープラーニングモデルの方がセマンティックタグに適していると広く認識されている。 しかし、俗説を支持する総合的な研究はない。 実践者は、最良のモデルを特定するために、セマンティックなタグ付けタスクごとに異なるタイプのモデルを訓練する必要があります。 このプロセスは高価で非効率である。 ディープモデル(deep model)は、すべてのセマンティックタグタスクにおいて、最高のパフォーマンスモデルなのでしょうか? この質問に答えるために、異なる特徴を持つデータセットよりも深いモデルと"単純なモデル"を比較します。 具体的には、一般的な3つのディープモデル(CNN、LSTM、BERT)と2つのシンプルなモデル(LR、SVM)を選択し、21データセット以上のセマンティックタグタスクのパフォーマンスを比較する。 その結果,データセットのサイズ,ラベル比率,ラベルのクリーンラインが意味的タグの質に大きく影響することがわかった。 単純なモデルは大規模データセットのディープモデルと同様のタグ付け品質を実現するが、単純なモデルのランタイムはずっと短い。 さらに、単純なモデルでは、データセットをターゲットとする場合、ラベルの清潔さやより深刻な不均衡を示す場合、ディープモデルよりもタグ付け品質が向上する。 これらの結果から,本研究は実践者に対して,意味的タグづけタスクに適した学習モデルの選択を体系的に指導することができる。

Semantic tagging, which has extensive applications in text mining, predicts whether a given piece of text conveys the meaning of a given semantic tag. The problem of semantic tagging is largely solved with supervised learning and today, deep learning models are widely perceived to be better for semantic tagging. However, there is no comprehensive study supporting the popular belief. Practitioners often have to train different types of models for each semantic tagging task to identify the best model. This process is both expensive and inefficient. We embark on a systematic study to investigate the following question: Are deep models the best performing model for all semantic tagging tasks? To answer this question, we compare deep models against "simple models" over datasets with varying characteristics. Specifically, we select three prevalent deep models (i.e. CNN, LSTM, and BERT) and two simple models (i.e. LR and SVM), and compare their performance on the semantic tagging task over 21 datasets. Results show that the size, the label ratio, and the label cleanliness of a dataset significantly impact the quality of semantic tagging. Simple models achieve similar tagging quality to deep models on large datasets, but the runtime of simple models is much shorter. Moreover, simple models can achieve better tagging quality than deep models when targeting datasets show worse label cleanliness and/or more severe imbalance. Based on these findings, our study can systematically guide practitioners in selecting the right learning model for their semantic tagging task.
翻訳日:2022-11-11 13:16:43 公開日:2020-10-08
# FetchSGD: スケッチによるコミュニケーション効率の良いフェデレーション学習

FetchSGD: Communication-Efficient Federated Learning with Sketching ( http://arxiv.org/abs/2007.07682v2 )

ライセンス: Link先を確認
Daniel Rothchild, Ashwinee Panda, Enayat Ullah, Nikita Ivkin, Ion Stoica, Vladimir Braverman, Joseph Gonzalez, and Raman Arora(参考訳) 既存のフェデレーション学習へのアプローチは、コミュニケーションのボトルネックと、疎結合なクライアント参加による収束の問題に悩まされている。 本稿では,これらの課題を克服するために,FetchSGDと呼ばれる新しいアルゴリズムを提案する。 FetchSGDはCount Sketchを使用してモデル更新を圧縮し、スケッチのマージ可能性を利用して、多くのワーカのモデル更新を組み合わせる。 FetchSGDの設計における重要な洞察は、Count Sketchが線形であるため、モメンタムとエラーの蓄積はスケッチ内で実行可能であることである。 これにより、アルゴリズムは、高い圧縮率と良好な収束を保ちながら、クライアントからのモーメントとエラーの蓄積を中央アグリゲータに移し、スパースクライアント参加の課題を克服することができる。 我々はFetchSGDが良好な収束保証を持っていることを証明し、2つの残差ネットワークと変圧器モデルを訓練することによってその実証的効果を示す。

Existing approaches to federated learning suffer from a communication bottleneck as well as convergence issues due to sparse client participation. In this paper we introduce a novel algorithm, called FetchSGD, to overcome these challenges. FetchSGD compresses model updates using a Count Sketch, and then takes advantage of the mergeability of sketches to combine model updates from many workers. A key insight in the design of FetchSGD is that, because the Count Sketch is linear, momentum and error accumulation can both be carried out within the sketch. This allows the algorithm to move momentum and error accumulation from clients to the central aggregator, overcoming the challenges of sparse client participation while still achieving high compression rates and good convergence. We prove that FetchSGD has favorable convergence guarantees, and we demonstrate its empirical effectiveness by training two residual networks and a transformer model.
翻訳日:2022-11-10 04:50:39 公開日:2020-10-08
# 堅牢な機械学習のための学習摂動セット

Learning perturbation sets for robust machine learning ( http://arxiv.org/abs/2007.08450v2 )

ライセンス: Link先を確認
Eric Wong and J. Zico Kolter(参考訳) 強固なディープラーニングに向けて多くの進歩がなされているが、現実世界の摂動とより狭く定義された集合の間には強固さの差が残っている。 本稿では,データから摂動集合を学習することで,このギャップを埋めることを目的とする。 具体的には、潜在空間の制約領域上に設定された摂動を定義する条件生成器を用いる。 学習摂動集合の品質を測定するための望ましい特性を定式化し、条件付き変分オートエンコーダがこれらの基準を満たすことを理論的に証明する。 この枠組みを用いることで、ベースライン空間変換から一般的な画像の劣化、照明の変動に至るまで、様々な複雑さやスケールの摂動を発生させることができる。 学習した摂動集合の質を量的・質的に測定し、トレーニング中に見られる限られたデータを超えた多様な有意義な摂動を生成できることを見出した。 最後に、学習した摂動集合を利用して、敵対的画像の破損や逆光の変動に対して経験的かつ確実に堅牢なモデルを訓練し、非敵対的データの一般化を改善した。 実験を再現するためのコードと構成ファイル、および事前トレーニングされたモデルの重み付けはすべて、https://github.com/locuslab/perturbation_learningにある。

Although much progress has been made towards robust deep learning, a significant gap in robustness remains between real-world perturbations and more narrowly defined sets typically studied in adversarial defenses. In this paper, we aim to bridge this gap by learning perturbation sets from data, in order to characterize real-world effects for robust training and evaluation. Specifically, we use a conditional generator that defines the perturbation set over a constrained region of the latent space. We formulate desirable properties that measure the quality of a learned perturbation set, and theoretically prove that a conditional variational autoencoder naturally satisfies these criteria. Using this framework, our approach can generate a variety of perturbations at different complexities and scales, ranging from baseline spatial transformations, through common image corruptions, to lighting variations. We measure the quality of our learned perturbation sets both quantitatively and qualitatively, finding that our models are capable of producing a diverse set of meaningful perturbations beyond the limited data seen during training. Finally, we leverage our learned perturbation sets to train models which are empirically and certifiably robust to adversarial image corruptions and adversarial lighting variations, while improving generalization on non-adversarial data. All code and configuration files for reproducing the experiments as well as pretrained model weights can be found at https://github.com/locuslab/perturbation_learning.
翻訳日:2022-11-09 22:24:28 公開日:2020-10-08
# マルチエージェントトラジェクタにおける動的関係推論

Dynamic Relational Inference in Multi-Agent Trajectories ( http://arxiv.org/abs/2007.13524v2 )

ライセンス: Link先を確認
Ruichao Xiao, Manish Kumar Singh, Rose Yu(参考訳) マルチエージェント軌道からの相互作用の推論は、物理学、ビジョン、ロボット工学に広く応用されている。 ニューラルリレーショナル推論(nri)は、複雑なダイナミクスにおける関係を監督なしで推論できる深い生成モデルである。 本稿では,マルチエージェント・トラジェクトリにおける関係推論に対するこのアプローチを慎重に検討する。 まず、NRIは、十分な長期観測をすることなく、基本的に制限可能であることを発見した。 相互作用を正確に推論する能力は、短い出力シーケンスで大幅に低下する。 次に、時間外相互作用が変化しているときに、より一般的な関係推論の設定を考える。 我々はDYnamic Multi-Agent Relational Inference (DYARI)モデルと呼ばれる動的関係を推論できるNRIの拡張を提案する。 シミュレーション物理システムを用いた動的リレーショナル推論の性能に及ぼすモデルアーキテクチャ,下層力学,およびトレーニングスキームの影響について,徹底的な実験を行った。 また,実世界のマルチエージェントバスケットボールトラジェクタにおけるモデルの利用例を紹介する。

Inferring interactions from multi-agent trajectories has broad applications in physics, vision and robotics. Neural relational inference (NRI) is a deep generative model that can reason about relations in complex dynamics without supervision. In this paper, we take a careful look at this approach for relational inference in multi-agent trajectories. First, we discover that NRI can be fundamentally limited without sufficient long-term observations. Its ability to accurately infer interactions degrades drastically for short output sequences. Next, we consider a more general setting of relational inference when interactions are changing overtime. We propose an extension ofNRI, which we call the DYnamic multi-AgentRelational Inference (DYARI) model that can reason about dynamic relations. We conduct exhaustive experiments to study the effect of model architecture, under-lying dynamics and training scheme on the performance of dynamic relational inference using a simulated physics system. We also showcase the usage of our model on real-world multi-agent basketball trajectories.
翻訳日:2022-11-09 22:21:29 公開日:2020-10-08
# 3次元骨格規則化と表現型ボディポーザを用いた音声2ビデオ合成

Speech2Video Synthesis with 3D Skeleton Regularization and Expressive Body Poses ( http://arxiv.org/abs/2007.09198v5 )

ライセンス: Link先を確認
Miao Liao, Sibo Zhang, Peng Wang, Hao Zhu, Xinxin Zuo, and Ruigang Yang(参考訳) 本稿では,与えられた音声を特定の人物のフォトリアリスティックなスポーキングビデオに変換し,出力映像が同期し,現実的で,表現力に富んだボディダイナミックスに変換する新しい手法を提案する。 そこで我々は,まずRNN(Recurrent Neural Network)を用いて音声シーケンスから3次元骨格運動を生成し,次いで条件付き生成対向ネットワーク(GAN)を介して出力映像を合成する。 骨格運動を現実的で表現力のあるものにするために,学習パイプラインとテストパイプラインの双方において,人間の3次元骨格の知識と個人音声の象徴的ジェスチャーの学習辞書を生成プロセスに組み込む。 前者は不合理な身体の歪みの発生を防ぎ、後者は我々のモデルが記録された数本のビデオを通して有意義な身体の動きを素早く学習するのに役立つ。 動きの詳細を伴う写真リアルで高解像度の映像を作成するために,各詳細部分,例えば頭と手が自動的にズームインされて,それぞれの識別装置を持つ条件付きGANに注意機構を挿入することを提案する。 提案手法を検証するために,各トピックの異なる資料を1人の男性と1人の女性モデルから20の高品質映像を収集した。 同様のタスクを処理する以前のsomaパイプラインと比較して,このアプローチはユーザスタディによってよりよい結果を得る。

In this paper, we propose a novel approach to convert given speech audio to a photo-realistic speaking video of a specific person, where the output video has synchronized, realistic, and expressive rich body dynamics. We achieve this by first generating 3D skeleton movements from the audio sequence using a recurrent neural network (RNN), and then synthesizing the output video via a conditional generative adversarial network (GAN). To make the skeleton movement realistic and expressive, we embed the knowledge of an articulated 3D human skeleton and a learned dictionary of personal speech iconic gestures into the generation process in both learning and testing pipelines. The former prevents the generation of unreasonable body distortion, while the later helps our model quickly learn meaningful body movement through a few recorded videos. To produce photo-realistic and high-resolution video with motion details, we propose to insert part attention mechanisms in the conditional GAN, where each detailed part, e.g. head and hand, is automatically zoomed in to have their own discriminators. To validate our approach, we collect a dataset with 20 high-quality videos from 1 male and 1 female model reading various documents under different topics. Compared with previous SoTA pipelines handling similar tasks, our approach achieves better results by a user study.
翻訳日:2022-11-09 13:38:32 公開日:2020-10-08
# ディープニューラルネットワークにおけるオンライン時空間学習

Online Spatio-Temporal Learning in Deep Neural Networks ( http://arxiv.org/abs/2007.12723v2 )

ライセンス: Link先を確認
Thomas Bohnstingl, Stanis{\l}aw Wo\'zniak, Wolfgang Maass, Angeliki Pantazi and Evangelos Eleftheriou(参考訳) 生物学的ニューラルネットワークは、オンライン学習を通じて継続的に適応する固有の能力を備えている。 この側面は、リカレントニューラルネットワーク(RNN)や、最近では生物学的にインスパイアされたスパイクニューラルネットワーク(SNN)に適用されるエラーバックプロパゲーション(BPTT)による学習とは対照的である。 BPTTは、時間を通してネットワークをアンロールする必要があるため、勾配をオフラインで計算する。 オンライン学習は最近の研究コミュニティの注目を集め、BPTTを近似するアプローチや、SNNに適用する生物学的に有望なスキームに焦点を当てている。 本稿では,空間勾配成分と時間勾配成分の明瞭な分離に基づく別の視点を提案する。 生物学の知見と組み合わせて、オンライン時空間学習(OSTL)と呼ばれる深層SNNのための新しいオンライン学習アルゴリズムを第一原理として導いた。 浅いネットワークでは、OSTLはBPTTと等価であり、BPTTと等価な勾配を持つSNNのオンライントレーニングを初めて行うことができる。 さらに、提案された定式化では、オンラインでトレーニング可能なSNNアーキテクチャのクラスを低速で公開している。 さらに,OSTLを汎用的な形式に拡張し,長い短期メモリ(LSTM)とゲートリカレントユニット(GRU)からなるネットワークを含む,幅広いネットワークアーキテクチャに適用する。 本稿では,言語モデルから音声認識まで様々なタスクにおけるアルゴリズムの動作を実演し,bpttベースラインと同等の結果を得る。 提案アルゴリズムは, SNN や一般深層 RNN のための簡潔で効率的なオンライントレーニング手法を開発するためのフレームワークを提供する。

Biological neural networks are equipped with an inherent capability to continuously adapt through online learning. This aspect remains in stark contrast to learning with error backpropagation through time (BPTT) applied to recurrent neural networks (RNNs), or recently to biologically-inspired spiking neural networks (SNNs). BPTT involves offline computation of the gradients due to the requirement to unroll the network through time. Online learning has recently regained the attention of the research community, focusing either on approaches that approximate BPTT or on biologically-plausible schemes applied to SNNs. Here we present an alternative perspective that is based on a clear separation of spatial and temporal gradient components. Combined with insights from biology, we derive from first principles a novel online learning algorithm for deep SNNs, called online spatio-temporal learning (OSTL). For shallow networks, OSTL is gradient-equivalent to BPTT enabling for the first time online training of SNNs with BPTT-equivalent gradients. In addition, the proposed formulation unveils a class of SNN architectures trainable online at low time complexity. Moreover, we extend OSTL to a generic form, applicable to a wide range of network architectures, including networks comprising long short-term memory (LSTM) and gated recurrent units (GRU). We demonstrate the operation of our algorithm on various tasks from language modelling to speech recognition and obtain results on par with the BPTT baselines. The proposed algorithm provides a framework for developing succinct and efficient online training approaches for SNNs and in general deep RNNs.
翻訳日:2022-11-07 05:47:52 公開日:2020-10-08
# 高速かつコンパクトなモデルのためのpointnet埋め込みの再考

Rethinking PointNet Embedding for Faster and Compact Model ( http://arxiv.org/abs/2007.15855v2 )

ライセンス: Link先を確認
Teppei Suzuki, Keisuke Ozawa, Yusuke Sekikawa(参考訳) PointNetは、広く使われているポイントワイド埋め込みメソッドで、連続集合関数の普遍近似として知られ、毎秒100万ポイントを処理できる。 それでも、最近の高性能センサー開発に対するリアルタイム推論は、PointNetを含む既存のニューラルネットワークベースの手法では依然として難しい。 通常の場合、ポイントネットの埋め込み関数は、入力空間の特定の局所領域に入力ポイントが存在するときに活性化されるソフト指標関数のように振る舞う。 この特性を活かし、ポイントネットの埋め込み関数をガウス核のソフトインジケータ関数に置き換えることで、ポイントワイズ埋め込みの計算コストを削減する。 さらに、ガウス核もまた、PointNetが満足する普遍近似定理を満たすことを示す。 実験では,gaussian kernelを用いたモデルがベースライン法に匹敵する結果が得られたが,サンプルあたりの浮動小数点演算は,pointnetから最大92%削減された。

PointNet, which is the widely used point-wise embedding method and known as a universal approximator for continuous set functions, can process one million points per second. Nevertheless, real-time inference for the recent development of high-performing sensors is still challenging with existing neural network-based methods, including PointNet. In ordinary cases, the embedding function of PointNet behaves like a soft-indicator function that is activated when the input points exist in a certain local region of the input space. Leveraging this property, we reduce the computational costs of point-wise embedding by replacing the embedding function of PointNet with the soft-indicator function by Gaussian kernels. Moreover, we show that the Gaussian kernels also satisfy the universal approximation theorem that PointNet satisfies. In experiments, we verify that our model using the Gaussian kernels achieves comparable results to baseline methods, but with much fewer floating-point operations per sample up to 92% reduction from PointNet.
翻訳日:2022-11-04 06:38:30 公開日:2020-10-08
# FANG:グラフ表現を用いたフェイクニュース検出のためのソーシャルコンテキストの活用

FANG: Leveraging Social Context for Fake News Detection Using Graph Representation ( http://arxiv.org/abs/2008.07939v2 )

ライセンス: Link先を確認
Van-Hoang Nguyen and Kazunari Sugiyama and Preslav Nakov and Min-Yen Kan(参考訳) フェイクニュース検出のための新しいグラフィカルなソーシャルコンテキスト表現と学習フレームワークであるfactual news graph (fang)を提案する。 パフォーマンスを目標とした以前のコンテキストモデルとは異なり、私たちの焦点は表現学習です。 トランスダクティブモデルと比較して、FANGはすべてのノードをメンテナンスする必要がなく、グラフ全体を再処理することなく、推論時に効率がよいため、トレーニングにおいてスケーラブルである。 実験の結果,FANGは最近のグラフィカルモデルや非グラフィックモデルと比較して,社会的文脈を高い忠実度に表現する方がよいことがわかった。 特に、FANGは偽ニュース検出のタスクに対して大幅な改善をもたらし、限られたトレーニングデータの場合、堅牢である。 さらに、FANGが学習した表現が、ニュースメディアの報告の事実を予測するなど、関連するタスクに一般化されることを実証する。

We propose Factual News Graph (FANG), a novel graphical social context representation and learning framework for fake news detection. Unlike previous contextual models that have targeted performance, our focus is on representation learning. Compared to transductive models, FANG is scalable in training as it does not have to maintain all nodes, and it is efficient at inference time, without the need to re-process the entire graph. Our experimental results show that FANG is better at capturing the social context into a high fidelity representation, compared to recent graphical and non-graphical models. In particular, FANG yields significant improvements for the task of fake news detection, and it is robust in the case of limited training data. We further demonstrate that the representations learned by FANG generalize to related tasks, such as predicting the factuality of reporting of a news medium.
翻訳日:2022-10-27 21:03:31 公開日:2020-10-08
# PTT5:ブラジルのポルトガル語データに基づくT5モデルの事前学習と検証

PTT5: Pretraining and validating the T5 model on Brazilian Portuguese data ( http://arxiv.org/abs/2008.09144v2 )

ライセンス: Link先を確認
Diedre Carmo, Marcos Piau, Israel Campiotti, Rodrigo Nogueira, Roberto Lotufo(参考訳) 自然言語処理(NLP)では、最先端の研究で使われているデータが他の言語で使われているため、ポルトガル語でより多くのリソースが必要である。 本稿では,ポルトガルのWebページコレクションであるBrWac corpus上のT5モデルを事前学習し,ポルトガルの他の事前学習モデルや3つの異なるタスクにおける多言語モデルに対する性能評価を行う。 ポルトガルの事前訓練モデルでは、オリジナルのT5モデルよりも大幅に性能が向上していることを示す。 さらに,ポルトガル語語彙の使用による肯定的な影響を示す。 私たちのコードとモデルはhttps://github.com/unicamp-dl/ptt5で利用可能です。

In natural language processing (NLP), there is a need for more resources in Portuguese, since much of the data used in the state-of-the-art research is in other languages. In this paper, we pretrain a T5 model on the BrWac corpus, an extensive collection of web pages in Portuguese, and evaluate its performance against other Portuguese pretrained models and multilingual models on three different tasks. We show that our Portuguese pretrained models have significantly better performance over the original T5 models. Moreover, we demonstrate the positive impact of using a Portuguese vocabulary. Our code and models are available at https://github.com/unicamp-dl/PTT5.
翻訳日:2022-10-27 03:30:55 公開日:2020-10-08
# IndoNLU:インドネシアの自然言語理解を評価するためのベンチマークとリソース

IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding ( http://arxiv.org/abs/2009.05387v3 )

ライセンス: Link先を確認
Bryan Wilie, Karissa Vincentio, Genta Indra Winata, Samuel Cahyawijaya, Xiaohong Li, Zhi Yuan Lim, Sidik Soleman, Rahmad Mahendra, Pascale Fung, Syafri Bahar, Ayu Purwarianti(参考訳) インドネシア語はインターネット上で4番目に頻繁に使われる言語として知られているが、自然言語処理(nlp)におけるこの言語の研究の進展は、利用可能なリソースが不足していることから遅い。 そこで本研究では,インドネシア自然言語理解(indonlu)タスクの訓練,評価,ベンチマークを行うための,史上初となる膨大なリソースを紹介する。 indonluには12のタスクがあり、単一の文の分類から、異なるレベルの複雑さを持つペア・センス・シーケンスラベリングまで幅広い。 タスクのデータセットは、タスクの多様性を確保するために、異なるドメインとスタイルにあります。 また,ソーシャルメディアのテキストやブログ,ニュース,webサイトなどの公開ソースから収集した,大規模でクリーンなインドネシアのデータセットであるindo4bからトレーニングされたインドネシア事前トレーニングモデル(indobert)も提供する。 我々は12タスクのベースラインモデルとベンチマーク評価のフレームワークをリリースし、システムパフォーマンスのベンチマークを可能にする。

Although Indonesian is known to be the fourth most frequently used language over the internet, the research progress on this language in the natural language processing (NLP) is slow-moving due to a lack of available resources. In response, we introduce the first-ever vast resource for the training, evaluating, and benchmarking on Indonesian natural language understanding (IndoNLU) tasks. IndoNLU includes twelve tasks, ranging from single sentence classification to pair-sentences sequence labeling with different levels of complexity. The datasets for the tasks lie in different domains and styles to ensure task diversity. We also provide a set of Indonesian pre-trained models (IndoBERT) trained from a large and clean Indonesian dataset Indo4B collected from publicly available sources such as social media texts, blogs, news, and websites. We release baseline models for all twelve tasks, as well as the framework for benchmark evaluation, and thus it enables everyone to benchmark their system performances.
翻訳日:2022-10-19 21:25:40 公開日:2020-10-08
# 視線追跡による胸部X線データセットの作成と検証とAI開発のためのレポートディクテーション

Creation and Validation of a Chest X-Ray Dataset with Eye-tracking and Report Dictation for AI Development ( http://arxiv.org/abs/2009.07386v3 )

ライセンス: Link先を確認
Alexandros Karargyris, Satyananda Kashyap, Ismini Lourentzou, Joy Wu, Arjun Sharma, Matthew Tong, Shafiq Abedin, David Beymer, Vandana Mukherjee, Elizabeth A Krupinski, Mehdi Moradi(参考訳) 我々は,人工知能研究者を支援するために,胸部x線画像の豊富なデータセットを開発した。 データはアイトラッキングシステムを用いて収集され、放射線学者は1,083 CXR画像でレビューし報告した。 データセットには以下のアライメントデータが含まれている: cxr画像、transcribed radiology report text、radioologist's dictation audio、eye gaze coordinates data。 このデータセットが、特に説明可能でマルチモーダルなディープラーニング/機械学習手法に関するさまざまな研究に寄与できることを願っています。 さらに, 疾患分類, 局所化, 自動放射線診断レポート生成, 人と機械の相互作用の研究者はこれらのデータから恩恵を受けることができる。 本稿では,視線データセットが生み出す注目マップを用いて,このデータの有用性を示す深層学習実験について報告する。

We developed a rich dataset of Chest X-Ray (CXR) images to assist investigators in artificial intelligence. The data were collected using an eye tracking system while a radiologist reviewed and reported on 1,083 CXR images. The dataset contains the following aligned data: CXR image, transcribed radiology report text, radiologist's dictation audio and eye gaze coordinates data. We hope this dataset can contribute to various areas of research particularly towards explainable and multimodal deep learning / machine learning methods. Furthermore, investigators in disease classification and localization, automated radiology report generation, and human-machine interaction can benefit from these data. We report deep learning experiments that utilize the attention maps produced by eye gaze dataset to show the potential utility of this data.
翻訳日:2022-10-18 06:35:18 公開日:2020-10-08
# ベイズ規則による視覚・言語ナビゲーションにおける生成言語群ポリシー

Generative Language-Grounded Policy in Vision-and-Language Navigation with Bayes' Rule ( http://arxiv.org/abs/2009.07783v3 )

ライセンス: Link先を確認
Shuhei Kurita and Kyunghyun Cho(参考訳) 視覚言語ナビゲーション(VLN)は、エージェントが現実的な3D環境に具体化され、目標ノードに到達するための指示に従うタスクである。 従来の研究の多くは差別的アプローチを構築し、研究してきたが、実際にそのようなVLNエージェントを構築するための2つのアプローチがあることに気付いた。 本稿では,全ての可能な命令,すなわち与えられた動作と遷移履歴の全ての可能な語彙トークン列の分布を計算するために言語モデルを用いた生成型言語基底ポリシーを設計・検討する。 実験では,提案手法はRoom-2-Room(R2R)およびRoom-4-Room(R4R)データセットにおいて,特に未確認環境において差別的アプローチよりも優れていることを示す。 さらに、R2Rデータセットにおける生成的および識別的ポリシーの組み合わせは、最先端の成果に近い結果が得られることを示し、生成的および識別的ポリシーがVLNの異なる側面を捉えていることを示す。

Vision-and-language navigation (VLN) is a task in which an agent is embodied in a realistic 3D environment and follows an instruction to reach the goal node. While most of the previous studies have built and investigated a discriminative approach, we notice that there are in fact two possible approaches to building such a VLN agent: discriminative \textit{and} generative. In this paper, we design and investigate a generative language-grounded policy which uses a language model to compute the distribution over all possible instructions i.e. all possible sequences of vocabulary tokens given action and the transition history. In experiments, we show that the proposed generative approach outperforms the discriminative approach in the Room-2-Room (R2R) and Room-4-Room (R4R) datasets, especially in the unseen environments. We further show that the combination of the generative and discriminative policies achieves close to the state-of-the art results in the R2R dataset, demonstrating that the generative and discriminative policies capture the different aspects of VLN.
翻訳日:2022-10-18 00:04:49 公開日:2020-10-08
# 医療における倫理的機械学習

Ethical Machine Learning in Health Care ( http://arxiv.org/abs/2009.10576v3 )

ライセンス: Link先を確認
Irene Y. Chen, Emma Pierson, Sherri Rose, Shalmali Joshi, Kadija Ferryman, and Marzyeh Ghassemi(参考訳) 医療における機械学習(ML)の使用は、特にモデルが既存の健康不平等を増幅できるため、多くの倫理的懸念を引き起こす。 ここでは、医療の進歩における公平MLの倫理的考察を概説する。 具体的には、社会正義のレンズを通して、医療におけるMLの倫理を規定する。 本稿では,問題選択からデプロイ後の考慮まで,健康における倫理的mlのパイプラインにおける継続的な取り組みと課題の概要について述べる。 これらの課題に対処するために推奨事項を要約することで締めくくった。

The use of machine learning (ML) in health care raises numerous ethical concerns, especially as models can amplify existing health inequities. Here, we outline ethical considerations for equitable ML in the advancement of health care. Specifically, we frame ethics of ML in health care through the lens of social justice. We describe ongoing efforts and outline challenges in a proposed pipeline of ethical ML in health, ranging from problem selection to post-deployment considerations. We close by summarizing recommendations to address these challenges.
翻訳日:2022-10-15 21:57:43 公開日:2020-10-08
# ニューラルネットワークモデルにおけるアクティブラーニングのモデル中心とデータ中心

Model-Centric and Data-Centric Aspects of Active Learning for Neural Network Models ( http://arxiv.org/abs/2009.10835v2 )

ライセンス: Link先を確認
John Daniel Boss\'er, Erik S\"orstadius, Morteza Haghir Chehreghani(参考訳) ニューラルネットワークモデルを用いたアクティブラーニングにおけるデータ中心とモデル中心の異なる側面について検討する。 i)現在ラベル付きデータがどのようにトレーニングに使われているかを指定するインクリメンタルおよび累積トレーニングモードについて検討する。 二 ニューラルネットワークは、大容量のモデルである。 そこで本研究では,活動学習がエポック数やニューロン数およびバッチサイズの選択に依存するかを検討した。 三 問合せ戦略の挙動とそれに対応する情報性尺度を詳細に分析し、より効率的な問合せ及びアクティブラーニングパラダイムを提案する。 iv)アクティブラーニングに関するいくつかの洞察を明らかにするために,アクティブラーニングクラスやテストエラー推定などの統計的分析を行う。

We study different data-centric and model-centric aspects of active learning with neural network models. i) We investigate incremental and cumulative training modes that specify how the currently labeled data are used for training. ii) Neural networks are models with a large capacity. Thus, we study how active learning depends on the number of epochs and neurons as well as the choice of batch size. iii) We analyze in detail the behavior of query strategies and their corresponding informativeness measures and accordingly propose more efficient querying and active learning paradigms. iv) We perform statistical analyses, e.g., on actively learned classes and test error estimation, that reveal several insights about active learning.
翻訳日:2022-10-15 21:21:48 公開日:2020-10-08
# 形式言語認識におけるトランスフォーマーの能力と限界について

On the Ability and Limitations of Transformers to Recognize Formal Languages ( http://arxiv.org/abs/2009.11264v2 )

ライセンス: Link先を確認
Satwik Bhattamishra, Kabir Ahuja, Navin Goyal(参考訳) トランスフォーマーは多くのNLPタスクでリカレントモデルに取って代わった。 しかし、異なる構文特性をモデル化する能力の違いはほとんど不明である。 過去の研究は、LSTMが正規言語を非常によく一般化し、対向言語と密接な関係を持つことを示唆している。 本研究では,このような言語をモデル化するトランスフォーマーの能力と,それを行う個々のコンポーネントの役割を体系的に研究する。 まず, n-ary boolean expression, dyck-1, and its generalization などのよく研究された言語を含む,カウンター言語のサブクラスに対するトランスフォーマーの構成について述べる。 実験ではトランスフォーマーがこのサブクラスでうまく機能し、それらの学習メカニズムは我々の構成と強く相関している。 おそらく、LSTMとは対照的に、トランスフォーマーは、よく知られた複雑さの尺度に従って言語をより複雑にするので、パフォーマンスを低下させる通常の言語のサブセットでのみうまく機能します。 また,ある行動のモデル化における自己注意機構の役割と,モデルの学習・一般化能力に対する位置符号化方式の影響について考察した。

Transformers have supplanted recurrent models in a large number of NLP tasks. However, the differences in their abilities to model different syntactic properties remain largely unknown. Past works suggest that LSTMs generalize very well on regular languages and have close connections with counter languages. In this work, we systematically study the ability of Transformers to model such languages as well as the role of its individual components in doing so. We first provide a construction of Transformers for a subclass of counter languages, including well-studied languages such as n-ary Boolean Expressions, Dyck-1, and its generalizations. In experiments, we find that Transformers do well on this subclass, and their learned mechanism strongly correlates with our construction. Perhaps surprisingly, in contrast to LSTMs, Transformers do well only on a subset of regular languages with degrading performance as we make languages more complex according to a well-known measure of complexity. Our analysis also provides insights on the role of self-attention mechanism in modeling certain behaviors and the influence of positional encoding schemes on the learning and generalization abilities of the model.
翻訳日:2022-10-15 15:26:58 公開日:2020-10-08
# 堅牢性はどこから来るのか? 変換に基づくアンサンブル防御に関する研究

Where Does the Robustness Come from? A Study of the Transformation-based Ensemble Defence ( http://arxiv.org/abs/2009.13033v2 )

ライセンス: Link先を確認
Chang Liao, Yao Cheng, Chengfang Fang, Jie Shi(参考訳) 本稿では,画像分類における変換型アンサンブルディフェンスの有効性とその理由について,詳細な研究を行う。 回避攻撃に対するロバスト性を高めることが実証されているが、その理由についてはほとんど分析されていない。 特に、堅牢性の改善がトランスフォーメーションの結果なのか、あるいはアンサンブルの結果なのかは明らかではない。 本稿では,変換に基づくアンサンブル防御をよりよく評価するために,適応攻撃を2つ設計する。 私たちはそれを実証するために実験を行います 1) 逆転変換後のデータ記録で訓練されたモデルのうち、逆転例の転送可能性が存在する。 2) 変換に基づくアンサンブルによる堅牢性は限られている。 3) この制限されたロバスト性は、主に複数のモデルの集合ではなく、可逆変換に由来する。 4) 変換ベースのアンサンブルにおけるサブモデル数が盲目的に増加すると、ロバスト性が増すことはない。

This paper aims to provide a thorough study on the effectiveness of the transformation-based ensemble defence for image classification and its reasons. It has been empirically shown that they can enhance the robustness against evasion attacks, while there is little analysis on the reasons. In particular, it is not clear whether the robustness improvement is a result of transformation or ensemble. In this paper, we design two adaptive attacks to better evaluate the transformation-based ensemble defence. We conduct experiments to show that 1) the transferability of adversarial examples exists among the models trained on data records after different reversible transformations; 2) the robustness gained through transformation-based ensemble is limited; 3) this limited robustness is mainly from the irreversible transformations rather than the ensemble of a number of models; and 4) blindly increasing the number of sub-models in a transformation-based ensemble does not bring extra robustness gain.
翻訳日:2022-10-13 20:39:29 公開日:2020-10-08
# INSPIRED: Sociable Recommendation Dialog Systemsを目指して

INSPIRED: Toward Sociable Recommendation Dialog Systems ( http://arxiv.org/abs/2009.14306v2 )

ライセンス: Link先を確認
Shirley Anugrah Hayati, Dongyeop Kang, Qingxiaoyang Zhu, Weiyan Shi, and Zhou Yu(参考訳) レコメンデーションダイアログでは、人間は通常自分の好みを開示し、友好的な方法でレコメンデーションを行う。 しかしながら,このような暗黙の戦略でアノテートされた対話データセットが欠如していることから,暗黙の推奨ダイアログシステムを開発する場合,これは課題となる。 そこで本研究では,映画レコメンデーションのための新しい1,001人の人間対話データセットであるINSPIREDを提案する。 コミュニケーションにおいて人間がどのように推薦するかをよりよく理解するために、社会科学理論に基づいた推薦戦略に関連する注釈スキームをデザインし、これらのダイアログを注釈化する。 分析の結果,個人の意見の共有や励ましとのコミュニケーションなど,適切なレコメンデーション戦略が,より頻繁にレコメンデーションの成功につながることが示された。 データセットに基づいて、戦略ラベルなしでエンドツーエンドのレコメンデーションダイアログシステムをトレーニングします。 自動評価と人間評価の両方において,戦略導入モデルがベースラインモデルを上回る。 本研究は,社会科学理論に基づく推薦対話システム構築のための第一歩である。

In recommendation dialogs, humans commonly disclose their preference and make recommendations in a friendly manner. However, this is a challenge when developing a sociable recommendation dialog system, due to the lack of dialog dataset annotated with such sociable strategies. Therefore, we present INSPIRED, a new dataset of 1,001 human-human dialogs for movie recommendation with measures for successful recommendations. To better understand how humans make recommendations in communication, we design an annotation scheme related to recommendation strategies based on social science theories and annotate these dialogs. Our analysis shows that sociable recommendation strategies, such as sharing personal opinions or communicating with encouragement, more frequently lead to successful recommendations. Based on our dataset, we train end-to-end recommendation dialog systems with and without our strategy labels. In both automatic and human evaluation, our model with strategy incorporation outperforms the baseline model. This work is a first step for building sociable recommendation dialog systems with a basis of social science theories.
翻訳日:2022-10-13 06:18:39 公開日:2020-10-08
# AbuseAnalyzer:ガブポストの不正検出、重症度、ターゲット予測

AbuseAnalyzer: Abuse Detection, Severity and Target Prediction for Gab Posts ( http://arxiv.org/abs/2010.00038v2 )

ライセンス: Link先を確認
Mohit Chandra, Ashwin Pathak, Eesha Dutta, Paryul Jain, Manish Gupta, Manish Shrivastava, Ponnurangam Kumaraguru(参考訳) オンラインソーシャルメディアプラットフォームの広範な普及により、情報の拡散は速くなっているが、ヘイトスピーチ、攻撃的言語、セクシスト、人種差別的意見など、さまざまなタイプのオンライン乱用も広まっている。 このような乱用コンテンツの検出と削減は、被害者コミュニティに対する心理的影響を回避し、ヘイトクライムの予防に重要である。 以前の作品は、ユーザー投稿をさまざまな虐待行動の形式に分類することに焦点を当てていた。 しかし、虐待の深刻さとターゲットを見積もることにはほとんど焦点が当てられていない。 本稿では,gabの投稿7601件を対象に,虐待の有無,重大性,虐待行為のターゲットなどの観点から,インターネット上の虐待を考察したデータセットを初めて紹介する。 また,これらの課題に対処するシステムを提案し,乱用の有無の80%,乱用目標予測の82%,乱用被害予測の65%の精度を得た。

While extensive popularity of online social media platforms has made information dissemination faster, it has also resulted in widespread online abuse of different types like hate speech, offensive language, sexist and racist opinions, etc. Detection and curtailment of such abusive content is critical for avoiding its psychological impact on victim communities, and thereby preventing hate crimes. Previous works have focused on classifying user posts into various forms of abusive behavior. But there has hardly been any focus on estimating the severity of abuse and the target. In this paper, we present a first of the kind dataset with 7601 posts from Gab which looks at online abuse from the perspective of presence of abuse, severity and target of abusive behavior. We also propose a system to address these tasks, obtaining an accuracy of ~80% for abuse presence, ~82% for abuse target prediction, and ~65% for abuse severity prediction.
翻訳日:2022-10-13 00:13:36 公開日:2020-10-08
# 確率モデル予測制御のためのヘテロシデスティックベイズ最適化

Heteroscedastic Bayesian Optimisation for Stochastic Model Predictive Control ( http://arxiv.org/abs/2010.00202v2 )

ライセンス: Link先を確認
Rel Guzman, Rafael Oliveira, and Fabio Ramos(参考訳) モデル予測制御(MPC)は、複雑な物理システムの制御を含むアプリケーションで成功している。 このタイプのコントローラは、システムのダイナミクスの近似モデルによって提供される情報を利用して、制御アクションの効果をシミュレートする。 MPC法はまた、物理システムとの相互作用を必要とする比較的高価なチューニングプロセスを必要とするいくつかの超パラメータも提示する。 そこで,mpc法を確率的mpcの文脈で微調整し,コントローラの動作のランダム性に起因した追加課題を提示する。 これらのシナリオでは、パフォーマンスの結果はノイズを示し、これはハイパーパラメータ設定のドメイン全体で均質ではないが、入力依存の方法で変化する。 これらの問題に対処するため,我々は,制御問題のハイパーパラメータをチューニングするためのヘテロシデスティックノイズを考慮したベイズ最適化フレームワークを提案する。 ベンチマーク連続制御タスクと物理ロボットによる実験結果から,提案フレームワークのベースラインに対する適合性は,ヘテロシステキティを考慮しない。

Model predictive control (MPC) has been successful in applications involving the control of complex physical systems. This class of controllers leverages the information provided by an approximate model of the system's dynamics to simulate the effect of control actions. MPC methods also present a few hyper-parameters which may require a relatively expensive tuning process by demanding interactions with the physical system. Therefore, we investigate fine-tuning MPC methods in the context of stochastic MPC, which presents extra challenges due to the randomness of the controller's actions. In these scenarios, performance outcomes present noise, which is not homogeneous across the domain of possible hyper-parameter settings, but which varies in an input-dependent way. To address these issues, we propose a Bayesian optimisation framework that accounts for heteroscedastic noise to tune hyper-parameters in control problems. Empirical results on benchmark continuous control tasks and a physical robot support the proposed framework's suitability relative to baselines, which do not take heteroscedasticity into account.
翻訳日:2022-10-12 07:45:32 公開日:2020-10-08
# 近隣蒸留:非エンドツーエンド蒸留の利点について

Neighbourhood Distillation: On the benefits of non end-to-end distillation ( http://arxiv.org/abs/2010.01189v2 )

ライセンス: Link先を確認
La\"etitia Shao, Max Moroz, Elad Eban, Yair Movshovitz-Attias(参考訳) バック伝搬によるエンドツーエンドトレーニングは、ディープニューラルネットワークをトレーニングする標準的な方法である。 しかし、ネットワークがより深くなり、エンドツーエンドのトレーニングが困難になるにつれて、高度に非凸なモデルが局所最適で簡単に立ち往生し、勾配信号はバックプロパゲーション中に消滅または爆発する傾向にあり、トレーニングには計算資源と時間が必要である。 本研究では, エンド・ツー・エンドのパラダイムを, 知識蒸留の文脈から切り離すことを提案する。 エンド・ツー・エンドのモデルを蒸留する代わりに、より小さなサブネットワーク(地区とも呼ばれる)に分割し、独立して訓練することを提案する。 エンド・ツー・エンド方式の蒸留ネットワークは多様なユースケースにおいて有用であることを示す。 まず,より小さなネットワーク上で並列処理とトレーニングを活用し,知識蒸留を高速化することを示す。 第2に, 独立蒸留した近傍をニューラルネットワーク探索に効率的に再利用できることを示す。 最後に、より小さなネットワークはより単純な関数をモデル化するため、より深い関数よりも合成データで訓練しやすいことを示す。

End-to-end training with back propagation is the standard method for training deep neural networks. However, as networks become deeper and bigger, end-to-end training becomes more challenging: highly non-convex models gets stuck easily in local optima, gradients signals are prone to vanish or explode during back-propagation, training requires computational resources and time. In this work, we propose to break away from the end-to-end paradigm in the context of Knowledge Distillation. Instead of distilling a model end-to-end, we propose to split it into smaller sub-networks - also called neighbourhoods - that are then trained independently. We empirically show that distilling networks in a non end-to-end fashion can be beneficial in a diverse range of use cases. First, we show that it speeds up Knowledge Distillation by exploiting parallelism and training on smaller networks. Second, we show that independently distilled neighbourhoods may be efficiently re-used for Neural Architecture Search. Finally, because smaller networks model simpler functions, we show that they are easier to train with synthetic data than their deeper counterparts.
翻訳日:2022-10-12 00:59:15 公開日:2020-10-08
# 不完全データセットにおける心臓-脳相互作用のシミュレーションのための連成データ計算とメカニスティックモデリング

Joint data imputation and mechanistic modelling for simulating heart-brain interactions in incomplete datasets ( http://arxiv.org/abs/2010.01052v3 )

ライセンス: Link先を確認
Jaume Banus and Maxime Sermesant and Oscar Camara and Marco Lorenzi(参考訳) 臨床研究におけるメカニスティックモデルの使用は、解剖学的および生理学的プロセスの異なるマルチモーダル患者データ不足によって制限される。 例えば、神経画像データセットは、脳疾患における心血管因子のモデリングに十分な心臓特徴の表現を提供していない。 そこで本研究では, 心臓データインプテーションと心血管系機械モデルのパーソナライズのための確率的枠組みと不完全心データを用いた脳研究への応用について紹介する。 本手法は, 心血管動態を忠実に再現できるガウスプロセスエミュレータとともに, 利用可能な特徴から, 心臓情報の計算モデルを用いた共同推論のための変動的枠組みに基づく。 uk biobankにおける実験結果から,本モデルでは,収縮期血圧や拡張期血圧など,最小の心臓情報のみを含むデータセットにおける心機能低下の正確なインプテーションが可能であり,同時に集中型モデルのエミュレートパラメータを推定できることがわかった。 これにより、脳解剖学の異なる条件に対応する現実的な心臓のダイナミクスのシミュレーションを通じて、新しい心臓と脳の関節関係の探索が可能になる。

The use of mechanistic models in clinical studies is limited by the lack of multi-modal patients data representing different anatomical and physiological processes. For example, neuroimaging datasets do not provide a sufficient representation of heart features for the modeling of cardiovascular factors in brain disorders. To tackle this problem we introduce a probabilistic framework for joint cardiac data imputation and personalisation of cardiovascular mechanistic models, with application to brain studies with incomplete heart data. Our approach is based on a variational framework for the joint inference of an imputation model of cardiac information from the available features, along with a Gaussian Process emulator that can faithfully reproduce personalised cardiovascular dynamics. Experimental results on UK Biobank show that our model allows accurate imputation of missing cardiac features in datasets containing minimal heart information, e.g. systolic and diastolic blood pressures only, while jointly estimating the emulated parameters of the lumped model. This allows a novel exploration of the heart-brain joint relationship through simulation of realistic cardiac dynamics corresponding to different conditions of brain anatomy.
翻訳日:2022-10-12 00:49:28 公開日:2020-10-08
# BAAAN: 自動エンコーダとGANベースの機械学習モデルに対するバックドア攻撃

BAAAN: Backdoor Attacks Against Autoencoder and GAN-Based Machine Learning Models ( http://arxiv.org/abs/2010.03007v2 )

ライセンス: Link先を確認
Ahmed Salem, Yannick Sautter, Michael Backes, Mathias Humbert, Yang Zhang(参考訳) オートエンコーダとgans(generative adversarial network)の飛躍的な進歩により、不正検出や衛生データ生成など、複数の重要なタスクに応用された。 この採用の増加は、これらのモデルから生じるセキュリティとプライバシのリスクの研究を後押ししている。 しかし、以前の研究は主にメンバーシップ推論攻撃に焦点を当てている。 本研究では,機械学習モデルに対する最も深刻な攻撃,すなわちバックドア攻撃について,オートエンコーダとGANの両方に対して検討する。 バックドアアタック(backdoor attack)は、敵がターゲットモデルに隠されたバックドアを実装し、秘密のトリガーでのみ起動するトレーニングタイムアタックである。 最先端のバックドア攻撃は分類に基づくタスクに焦点を当てている。 バックドア攻撃の適用性をオートエンコーダやGANベースのモデルに拡張する。 より具体的には、敵がバックドアを起動したときにデコードされた画像や生成された画像が何であるかを制御できるオートエンコーダやganに対する最初のバックドア攻撃を提案する。 その結果、敵はすべてのバックドア入力に対してターゲット出力を返すバックドアオートエンコーダを構築でき、クリーン入力では完全に正常に動作できることがわかった。 同様に,本実験では,バックドアがアクティベートされた場合と,バックドアがアクティベートされた場合と,バックドアが有効でない場合とで,異なる分布からデータを生成することができることを示した。

The tremendous progress of autoencoders and generative adversarial networks (GANs) has led to their application to multiple critical tasks, such as fraud detection and sanitized data generation. This increasing adoption has fostered the study of security and privacy risks stemming from these models. However, previous works have mainly focused on membership inference attacks. In this work, we explore one of the most severe attacks against machine learning models, namely the backdoor attack, against both autoencoders and GANs. The backdoor attack is a training time attack where the adversary implements a hidden backdoor in the target model that can only be activated by a secret trigger. State-of-the-art backdoor attacks focus on classification-based tasks. We extend the applicability of backdoor attacks to autoencoders and GAN-based models. More concretely, we propose the first backdoor attack against autoencoders and GANs where the adversary can control what the decoded or generated images are when the backdoor is activated. Our results show that the adversary can build a backdoored autoencoder that returns a target output for all backdoored inputs, while behaving perfectly normal on clean inputs. Similarly, for the GANs, our experiments show that the adversary can generate data from a different distribution when the backdoor is activated, while maintaining the same utility when the backdoor is not.
翻訳日:2022-10-10 06:12:02 公開日:2020-10-08
# メッセージの視点を仮想アシスタントに変換する

Converting the Point of View of Messages Spoken to Virtual Assistants ( http://arxiv.org/abs/2010.02600v2 )

ライセンス: Link先を確認
Isabelle G. Lee, Vera Zu, Sai Srujana Buddi, Dennis Liang, Purva Kulkarni, Jack G.M. Fitzgerald(参考訳) 仮想アシスタントは時々非常にリテラルがある。 もしユーザーが「ボブを愛している」と言うと、ほとんどの仮想アシスタントは「私は彼を愛している」というメッセージを抽出し、それをユーザーの連絡先である「ボブ」に送信する。 我々は,仮想アシスタントがひとつのユーザから音声メッセージを受信し,メッセージの視点を変換し,対象ユーザに提供するシステムを構築した。 我々はルールベースモデルを開発し、線形テキスト分類モデル、パート・オブ・音声タギング、および行列解析をルールベース変換法と統合した。 また、LSTM、CopyNet、T5を含むニューラルネットワーク翻訳(NMT)アプローチについても検討した。 自然度と忠実度を自動測定するための5つの指標を検討した結果,自然度を別途訓練した言語モデル(gpt)を用いて,bleuとmeteorを忠実度と相対的パープレキシティに使用することにした。 Transformer-CopynetとT5も同様に忠実度の測定を行い、T5はわずかにエッジ、BLEUスコアは63.8、METEORスコアは83.0を記録した。 CopyNetは最も自然であり、相対的なパープレキシティは1.59である。 CopyNetのパラメータはT5の37倍も少ない。 我々は46,565個のクラウドソースサンプルからなるデータセットを公開しました。

Virtual Assistants can be quite literal at times. If the user says "tell Bob I love him," most virtual assistants will extract the message "I love him" and send it to the user's contact named Bob, rather than properly converting the message to "I love you." We designed a system to allow virtual assistants to take a voice message from one user, convert the point of view of the message, and then deliver the result to its target user. We developed a rule-based model, which integrates a linear text classification model, part-of-speech tagging, and constituency parsing with rule-based transformation methods. We also investigated Neural Machine Translation (NMT) approaches, including LSTMs, CopyNet, and T5. We explored 5 metrics to gauge both naturalness and faithfulness automatically, and we chose to use BLEU plus METEOR for faithfulness and relative perplexity using a separately trained language model (GPT) for naturalness. Transformer-Copynet and T5 performed similarly on faithfulness metrics, with T5 achieving slight edge, a BLEU score of 63.8 and a METEOR score of 83.0. CopyNet was the most natural, with a relative perplexity of 1.59. CopyNet also has 37 times fewer parameters than T5. We have publicly released our dataset, which is composed of 46,565 crowd-sourced samples.
翻訳日:2022-10-10 05:08:45 公開日:2020-10-08
# 多ドメイン会話における対話レベルのユーザ満足度推定

Joint Turn and Dialogue level User Satisfaction Estimation on Multi-Domain Conversations ( http://arxiv.org/abs/2010.02495v2 )

ライセンス: Link先を確認
Praveen Kumar Bodigutla, Aditya Tiwari, Josep Valls Vargas, Lazaros Polymenakos, Spyros Matsoukas(参考訳) データ駆動対話管理の最適化には,対話レベルの品質評価が不可欠である。 ターンレベルとダイアログレベルのユーザ満足度を推定する現在の自動化手法は手作りの機能を採用し、複雑なアノテーションスキームに依存しているため、訓練されたモデルの一般化性が低下する。 本稿では,専門家が提供したターンレベル応答品質ラベルと,エンドユーザが提供した明示的な対話レベル評価を共同で予測するために,適応型マルチタスク損失関数を最小化するユーザ満足度推定手法を提案する。 提案されたBiLSTMベースのディープニューラルネットモデルは、推定対話レベル評価に対する各ターンのコントリビューションを自動的に評価し、時間依存性を暗黙的にエンコードし、手作り機能の必要性を取り除く。 28のalexaドメイン,2つの対話システム,3つのユーザグループからサンプルされた対話では,対話レベルの満足度推定モデルが絶対27% (0.43->0.70) と7% (0.63->0.70) の改善を達成した。

Dialogue level quality estimation is vital for optimizing data driven dialogue management. Current automated methods to estimate turn and dialogue level user satisfaction employ hand-crafted features and rely on complex annotation schemes, which reduce the generalizability of the trained models. We propose a novel user satisfaction estimation approach which minimizes an adaptive multi-task loss function in order to jointly predict turn-level Response Quality labels provided by experts and explicit dialogue-level ratings provided by end users. The proposed BiLSTM based deep neural net model automatically weighs each turn's contribution towards the estimated dialogue-level rating, implicitly encodes temporal dependencies, and removes the need to hand-craft features. On dialogues sampled from 28 Alexa domains, two dialogue systems and three user groups, the joint dialogue-level satisfaction estimation model achieved up to an absolute 27% (0.43->0.70) and 7% (0.63->0.70) improvement in linear correlation performance over baseline deep neural net and benchmark Gradient boosting regression models, respectively.
翻訳日:2022-10-10 04:51:45 公開日:2020-10-08
# COMETA: ソーシャルメディアにおける医療エンティティリンクのためのコーパス

COMETA: A Corpus for Medical Entity Linking in the Social Media ( http://arxiv.org/abs/2010.03295v2 )

ライセンス: Link先を確認
Marco Basaldella, Fangyu Liu, Ehsan Shareghi and Nigel Collier(参考訳) 汎用言語におけるエンティティリンク(EL)の進歩は進んでいるが、既存のデータセットは、平凡な言語における健康用語の複雑な性質に対処できない。 一方、健康領域における公衆の声を理解できるアプリケーションの必要性はますます高まっている。 これに対処するために、redditの専門家による20万の英語のバイオメディカルエンティティの言及と、広く使われている医療知識グラフであるsnomed ctへのリンクからなるcommtaという新しいコーパスを紹介します。 私たちのコーパスは、スケールとカバレッジから多様性と品質まで、望ましい特性の組み合わせを満足しており、私たちの知識の最も良いところは、この分野の既存のリソースに満たされていない。 文字列モデルからニューラルネットワークモデルへの20 ELベースラインのベンチマーク実験を通じて、2つの困難な評価シナリオの下で、エンティティと概念に関する複雑な推論を実行するこれらのシステムの能力に光を当てた。 COMETAの実験結果によると、黄金の弾丸は存在せず、最高の主流技術でさえも大きなパフォーマンスのギャップを埋める一方で、最良のソリューションはデータの異なるビューを組み合わせることにあります。

Whilst there has been growing progress in Entity Linking (EL) for general language, existing datasets fail to address the complex nature of health terminology in layman's language. Meanwhile, there is a growing need for applications that can understand the public's voice in the health domain. To address this we introduce a new corpus called COMETA, consisting of 20k English biomedical entity mentions from Reddit expert-annotated with links to SNOMED CT, a widely-used medical knowledge graph. Our corpus satisfies a combination of desirable properties, from scale and coverage to diversity and quality, that to the best of our knowledge has not been met by any of the existing resources in the field. Through benchmark experiments on 20 EL baselines from string- to neural-based models we shed light on the ability of these systems to perform complex inference on entities and concepts under 2 challenging evaluation scenarios. Our experimental results on COMETA illustrate that no golden bullet exists and even the best mainstream techniques still have a significant performance gap to fill, while the best solution relies on combining different views of data.
翻訳日:2022-10-09 23:10:53 公開日:2020-10-08
# 予測投影遠心加速度によるGANの訓練

Training GANs with predictive projection centripetal acceleration ( http://arxiv.org/abs/2010.03322v2 )

ライセンス: Link先を確認
Li Keke and Zhang Ke and Liu Qiang and Yang Xinmin(参考訳) 実際に顕著に成功したが、GANは勾配降下上昇法(GDA)を用いて非凸なmin-maxゲームを解決する必要があるため、GAN(generative adversarial network)の訓練は依然として非常に困難であり、循環的行動が反復的に起こる。 同時遠心加速度 (SCA) と修正予測法 (MPM) のアイデアに触発され, 周期的挙動を緩和する新しい予測予測遠心加速度 (PPCA) 法を提案する。 さらに,適切な仮定の下では,t + 1 における部分微分の符号付きベクトルと gda の t における部分微分の符号付きベクトルとの差と,双線型ゲーム上の最後の文字付き指数収束との差を示す。 最後に, GAN設定におけるPPCAによる数値シミュレーションを行い, 本手法の有効性を示した。

Although remarkable successful in practice, training generative adversarial networks(GANs) is still quite difficult and iteratively prone to cyclic behaviors, as GANs need to solve a non-convex non-concave min-max game using a gradient descent ascent (GDA) method. Motivated by the ideas of simultaneous centripetal acceleration (SCA) and modified predictive methods (MPM), we propose a novel predictive projection centripetal acceleration (PPCA) methods to alleviate the cyclic behaviors. Besides, under suitable assumptions, we show that the difference between the signed vector of partial derivatives at t + 1 and t is orthogonal to the signed vector of partial derivatives at t for GDA, and the last-iterate exponential convergence on the bilinear game. Finally, numerical simulations are conducted by PPCA in GANs setting, and the results illustrate the effectiveness of our approach.
翻訳日:2022-10-09 22:44:19 公開日:2020-10-08
# アンサンブル知識伝達による多言語知識グラフ完成

Multilingual Knowledge Graph Completion via Ensemble Knowledge Transfer ( http://arxiv.org/abs/2010.03158v2 )

ライセンス: Link先を確認
Xuelu Chen, Muhao Chen, Changjun Fan, Ankith Uppunda, Yizhou Sun, Carlo Zaniolo(参考訳) 知識グラフ(KG)における不足事実の予測は、知識ベースの構築と推論において重要な課題であり、KG埋め込みを用いた最近の研究において多くの研究の対象となっている。 既存のKG埋め込みアプローチは主に単一のKG内で事実を学習し、予測するが、より妥当なソリューションは複数の言語固有のKGの知識の恩恵を受けるだろう。 複数の独立に維持されたKG間の知識の伝達は、アライメント情報の不足と記述された事実の不整合によってしばしば妨げられるため、これは非常に困難である。 本稿では,学習とアンサンブルの知識伝達を複数の言語固有のKGに組み込む新しいフレームワークであるKEnSを提案する。 KEnSは、すべてのKGを共有埋め込み空間に埋め込む。 次に,複数の言語固有kgの埋め込みによる予測結果を組み合わせたアンサンブル推論を行い,複数のアンサンブル手法について検討する。 5つの実世界の言語固有のKGの実験では、KEnSは相補的な知識を効果的に識別し活用することで、KGの完成に関する最先端の手法を一貫して改善している。

Predicting missing facts in a knowledge graph (KG) is a crucial task in knowledge base construction and reasoning, and it has been the subject of much research in recent works using KG embeddings. While existing KG embedding approaches mainly learn and predict facts within a single KG, a more plausible solution would benefit from the knowledge in multiple language-specific KGs, considering that different KGs have their own strengths and limitations on data quality and coverage. This is quite challenging, since the transfer of knowledge among multiple independently maintained KGs is often hindered by the insufficiency of alignment information and the inconsistency of described facts. In this paper, we propose KEnS, a novel framework for embedding learning and ensemble knowledge transfer across a number of language-specific KGs. KEnS embeds all KGs in a shared embedding space, where the association of entities is captured based on self-learning. Then, KEnS performs ensemble inference to combine prediction results from embeddings of multiple language-specific KGs, for which multiple ensemble techniques are investigated. Experiments on five real-world language-specific KGs show that KEnS consistently improves state-of-the-art methods on KG completion, via effectively identifying and leveraging complementary knowledge.
翻訳日:2022-10-09 21:44:44 公開日:2020-10-08
# 自然言語推論データに関する人間集団の意見から何が学べるだろうか?

What Can We Learn from Collective Human Opinions on Natural Language Inference Data? ( http://arxiv.org/abs/2010.03532v2 )

ライセンス: Link先を確認
Yixin Nie, Xiang Zhou, Mohit Bansal(参考訳) 多くのNLPタスクの主観的な性質にもかかわらず、ほとんどのNLU評価は、基礎となる真実として、おそらく高い合意を持つ大多数のラベルの使用に焦点を当てている。 人間の意見の分布にはあまり注意が払われていない。 合計464,500のアノテーションを持つデータセットであるChaosNLIを収集し, oft-useed NLI評価セットの集合HumAnオピニオンSについて検討する。 このデータセットは,snli と mnli の 3,113 例と abductive-nli の 1,532 例に対して,100 例のアノテーションを収集したものだ。 分析の結果、(1) 高度な人間の不一致は、これらのデータセットの顕著な例に存在し、(2) 最先端のモデルは、人間のラベル上の分布を回復する能力が欠けている、(3) モデルは、人間の合意のレベルが高いデータのサブセット上でほぼ完全な精度を達成するが、一方で、評価セット上の最先端のモデルによって生じる一般的なエラーの大部分を構成する、人間の合意の低レベルのデータでは、ランダムな推測をほとんど打ち負かすことができない、ということが判明した。 評価データセットの低予算部分に対する古いメトリクスのモデルパフォーマンス向上の有効性に疑問を呈する。 そこで我々は,今後のデータ収集における人的合意の詳細な検討と,人的意見の集合的分布に対するモデル出力の評価について論じる。 ChaosNLIデータセットと実験スクリプトはhttps://github.com/easonnie/ChaosNLIで入手できる。

Despite the subjective nature of many NLP tasks, most NLU evaluations have focused on using the majority label with presumably high agreement as the ground truth. Less attention has been paid to the distribution of human opinions. We collect ChaosNLI, a dataset with a total of 464,500 annotations to study Collective HumAn OpinionS in oft-used NLI evaluation sets. This dataset is created by collecting 100 annotations per example for 3,113 examples in SNLI and MNLI and 1,532 examples in Abductive-NLI. Analysis reveals that: (1) high human disagreement exists in a noticeable amount of examples in these datasets; (2) the state-of-the-art models lack the ability to recover the distribution over human labels; (3) models achieve near-perfect accuracy on the subset of data with a high level of human agreement, whereas they can barely beat a random guess on the data with low levels of human agreement, which compose most of the common errors made by state-of-the-art models on the evaluation sets. This questions the validity of improving model performance on old metrics for the low-agreement part of evaluation datasets. Hence, we argue for a detailed examination of human agreement in future data collection efforts, and evaluating model outputs against the distribution over collective human opinions. The ChaosNLI dataset and experimental scripts are available at https://github.com/easonnie/ChaosNLI
翻訳日:2022-10-09 21:43:38 公開日:2020-10-08
# FastVC:非並列データによる高速音声変換

FastVC: Fast Voice Conversion with non-parallel data ( http://arxiv.org/abs/2010.04185v1 )

ライセンス: Link先を確認
Oriol Barbany Mayor and Milos Cernak(参考訳) 本稿では,高速音声変換(VC)のためのエンドツーエンドモデルであるFastVCを紹介する。 提案するモデルは、任意の長さの音声を複数の音源話者から複数のターゲット話者に変換できる。 FastVCは、非並列データでトレーニングされた条件付きAutoEncoder(AE)に基づいており、アノテーションは一切必要としない。 このモデルの潜在表現は話者独立であり、VCシステムにとって望ましい特徴である音素に似ている。 現在のVCシステムは主に、音声品質の最高水準を達成することに焦点を当てているが、本論文は、システムを実行するために必要なリソースに関する開発のバランスを保とうとしている。 提案モデルの単純な構造にもかかわらず、自然性の観点からは、vc challenge 2020の言語横断タスクのベースラインを上回っている。

This paper introduces FastVC, an end-to-end model for fast Voice Conversion (VC). The proposed model can convert speech of arbitrary length from multiple source speakers to multiple target speakers. FastVC is based on a conditional AutoEncoder (AE) trained on non-parallel data and requires no annotations at all. This model's latent representation is shown to be speaker-independent and similar to phonemes, which is a desirable feature for VC systems. While the current VC systems primarily focus on achieving the highest overall speech quality, this paper tries to balance the development concerning resources needed to run the systems. Despite the simple structure of the proposed model, it outperforms the VC Challenge 2020 baselines on the cross-lingual task in terms of naturalness.
翻訳日:2022-10-09 13:16:38 公開日:2020-10-08
# 高分解能頚部オースカルテーションにおける畳み込み型リカレントニューラルネットワークを用いた上部食道括約筋開口部セグメンテーション

Upper Esophageal Sphincter Opening Segmentation with Convolutional Recurrent Neural Networks in High Resolution Cervical Auscultation ( http://arxiv.org/abs/2010.04541v1 )

ライセンス: Link先を確認
Yassin Khalifa, Cara Donohue, James L. Coyle, Ervin Sejdi\'c(参考訳) 上食道括約筋は,主観性や臨床的実現可能性に弱い放射線検査のキネマティック解析によってよく観察される飲み込み過程の重要な解剖学的特徴である。 上食道括約筋は食道の門口として作用し, 咽頭から食道への吸収物質移行を可能とし, 開腹期間の短縮は穿刺・呼吸・咽頭残留につながる。 そこで本研究では,上部食道括約筋の開口と閉鎖のヒト評価を近似する非侵襲的高分解能頚部聴診スクリーニングツールについて検討する。 患者116名からツバメを採取し,深層ニューラルネットワークを用いて上部食道括約筋開口期間を画定するマスクを作製した。 提案手法は, 独立臨床実験から飲み込み試験を行った場合においても, 感度および特異性の90%以上の精度と類似した値を得た。 さらに, 放射線照射による飲み込みキネマティクス評価の代替効果として, 高分解能頚椎固定術の臨床的意義を示す人体間比較誤差に, 予想された開腹時間と閉鎖モーメントは驚くほど低下した。

Upper esophageal sphincter is an important anatomical landmark of the swallowing process commonly observed through the kinematic analysis of radiographic examinations that are vulnerable to subjectivity and clinical feasibility issues. Acting as the doorway of esophagus, upper esophageal sphincter allows the transition of ingested materials from pharyngeal into esophageal stages of swallowing and a reduced duration of opening can lead to penetration/aspiration and/or pharyngeal residue. Therefore, in this study we consider a non-invasive high resolution cervical auscultation-based screening tool to approximate the human ratings of upper esophageal sphincter opening and closure. Swallows were collected from 116 patients and a deep neural network was trained to produce a mask that demarcates the duration of upper esophageal sphincter opening. The proposed method achieved more than 90\% accuracy and similar values of sensitivity and specificity when compared to human ratings even when tested over swallows from an independent clinical experiment. Moreover, the predicted opening and closure moments surprisingly fell within an inter-human comparable error of their human rated counterparts which demonstrates the clinical significance of high resolution cervical auscultation in replacing ionizing radiation-based evaluation of swallowing kinematics.
翻訳日:2022-10-09 13:16:14 公開日:2020-10-08
# シグモイド活性化機能を有する深層ニューラルネットワークによる滑らかな機能近似

Approximating smooth functions by deep neural networks with sigmoid activation function ( http://arxiv.org/abs/2010.04596v1 )

ライセンス: Link先を確認
Sophie Langer(参考訳) 我々は,シグモイド活性化機能を持つディープニューラルネットワーク(DNN)のパワーについて検討した。 最近では、DNNが任意の$d$次元の滑らかな函数を階数$W^{-p/d}$で近似することが示され、$W$はネットワーク内のゼロでない重みの数であり、$p$は関数の滑らかさである。 残念ながら、これらのレートは、疎結合なDNNの特別なクラスに限られる。 我々は、より単純で一般的なクラス、すなわち、その幅と深さによってのみ定義されるDNNに対して、同じ近似率を示すことができるかどうかを自問する。 本稿では, 一定の深さと順序幅が$M^d$のDNNが, 近似速度が$M^{-2p}$となることを示す。 その結果、DNNの近似パワーをネットワーク全体の重量$W_0$で定量的に評価し、近似レート$W_0^{-p/d}$を示す。 このより一般的な結果は、どのネットワークトポロジが特定のターゲット精度を保証するかを理解するのに役立ちます。

We study the power of deep neural networks (DNNs) with sigmoid activation function. Recently, it was shown that DNNs approximate any $d$-dimensional, smooth function on a compact set with a rate of order $W^{-p/d}$, where $W$ is the number of nonzero weights in the network and $p$ is the smoothness of the function. Unfortunately, these rates only hold for a special class of sparsely connected DNNs. We ask ourselves if we can show the same approximation rate for a simpler and more general class, i.e., DNNs which are only defined by its width and depth. In this article we show that DNNs with fixed depth and a width of order $M^d$ achieve an approximation rate of $M^{-2p}$. As a conclusion we quantitatively characterize the approximation power of DNNs in terms of the overall weights $W_0$ in the network and show an approximation rate of $W_0^{-p/d}$. This more general result finally helps us to understand which network topology guarantees a special target accuracy.
翻訳日:2022-10-09 13:15:51 公開日:2020-10-08
# 無線チャネルにおける画像伝送のための変分オートエンコーダ法

A Variational Auto-Encoder Approach for Image Transmission in Wireless Channel ( http://arxiv.org/abs/2010.03967v1 )

ライセンス: Link先を確認
Amir Hossein Estiri, Mohammad Reza Sabramooz, Ali Banaei, Amir Hossein Dehghan, Benyamin Jamialahmadi, Mahdi Jafari Siavoshani(参考訳) 近年の情報技術の進歩とインターネットの普及により、世界中のデータへのアクセスが容易になった。 その結果、ノイズの多いチャネルを介してデータを送信することは避けられない。 データのサイズを小さくし、チャネルノイズによる送信時に保護することは、通信理論と情報理論の2つの古典的な問題である。 近年、ディープニューラルネットワークが様々なタスクで成功したことに触発されて、深層学習技術を用いてこれらの2つの問題に対処する多くの研究がなされている。 本稿では,変分オートエンコーダの性能を調査し,その結果を標準オートエンコーダと比較する。 自動エンコーダは自動エンコーダよりもチャネル劣化に強いことが示唆された。 さらに,ネットワークの損失関数として知覚に基づく誤差指標を用いて,再構成画像の人間の知覚品質を向上する試みを行った。 この目的のために、ニューラルネットワークを最適化するために、認識に基づく指標として構造類似度指数(SSIM)を用いる。 実験により,SSIMは受信機における再構成画像の品質を視覚的に向上することを示した。

Recent advancements in information technology and the widespread use of the Internet have led to easier access to data worldwide. As a result, transmitting data through noisy channels is inevitable. Reducing the size of data and protecting it during transmission from corruption due to channel noises are two classical problems in communication and information theory. Recently, inspired by deep neural networks' success in different tasks, many works have been done to address these two problems using deep learning techniques. In this paper, we investigate the performance of variational auto-encoders and compare the results with standard auto-encoders. Our findings suggest that variational auto-encoders are more robust to channel degradation than auto-encoders. Furthermore, we have tried to excel in the human perceptual quality of reconstructed images by using perception-based error metrics as our network's loss function. To this end, we use the structural similarity index (SSIM) as a perception-based metric to optimize the proposed neural network. Our experiments demonstrate that the SSIM metric visually improves the quality of the reconstructed images at the receiver.
翻訳日:2022-10-09 13:15:32 公開日:2020-10-08
# 3DMolNet: 分子構造生成ネットワーク

3DMolNet: A Generative Network for Molecular Structures ( http://arxiv.org/abs/2010.06477v1 )

ライセンス: Link先を確認
Vitali Nesterov, Mario Wieser, Volker Roth(参考訳) 量子化学における機械学習の最近の進歩により、化合物の化学的性質を予測し、新しい分子を生成することが可能になった。 既存の生成モデルは、主に弦またはグラフに基づく表現を用いるが、原子の正確な3次元座標は通常エンコードされない。 この方向の最初の試みが提案され、自己回帰モデルやGANモデルが原子座標を生成する。 自己回帰的な環境では、複合空間の滑らかな探索が不可能である、あるいは様々な化学組成に一般化できないような遅延空間が欠如している。 固定サイズや組成に制限されない分子構造を効率的に生成するための新しい手法を提案する。 本モデルは,分子の変換,回転,置換不変な低次元表現を学習する変分オートエンコーダに基づいている。 実験では,0.05アングストローム以下の平均再構成誤差が得られ,現在の技術手法を4倍に上回り,ほとんどの化学ディスクリプタの空間量子化誤差よりも低い値を示した。 新規生成分子の組成的および構造的妥当性は、一連の実験において量子化学法によって確認されている。

With the recent advances in machine learning for quantum chemistry, it is now possible to predict the chemical properties of compounds and to generate novel molecules. Existing generative models mostly use a string- or graph-based representation, but the precise three-dimensional coordinates of the atoms are usually not encoded. First attempts in this direction have been proposed, where autoregressive or GAN-based models generate atom coordinates. Those either lack a latent space in the autoregressive setting, such that a smooth exploration of the compound space is not possible, or cannot generalize to varying chemical compositions. We propose a new approach to efficiently generate molecular structures that are not restricted to a fixed size or composition. Our model is based on the variational autoencoder which learns a translation-, rotation-, and permutation-invariant low-dimensional representation of molecules. Our experiments yield a mean reconstruction error below 0.05 Angstrom, outperforming the current state-of-the-art methods by a factor of four, and which is even lower than the spatial quantization error of most chemical descriptors. The compositional and structural validity of newly generated molecules has been confirmed by quantum chemical methods in a set of experiments.
翻訳日:2022-10-09 13:09:47 公開日:2020-10-08
# 貯留層計算による短距離伝送のための光電子等化の実験的研究

Experimental Demonstration of Optoelectronic Equalization for Short-reach Transmission with Reservoir Computing ( http://arxiv.org/abs/2010.06502v1 )

ライセンス: Link先を確認
Stenio M. Ranzini, Roman Dischler, Francesco da Ros, Henning Buelow and Darko Zibar(参考訳) 光ドメインとデジタルドメインの共有複雑性を持つ受信機を実験的に示す。 貯留層計算は、最大80kmのSMFで32GBのOOK信号の4つの直接検出された光学フィルタのスペクトルスライスを等化するために用いられる。

A receiver with shared complexity between optical and digital domains is experimentally demonstrated. Reservoir computing is used to equalize up to 4 directly-detected optically filtered spectral slices of a 32 GBd OOK signal over up to 80 km of SMF.
翻訳日:2022-10-09 13:09:27 公開日:2020-10-08
# リカレント畳み込みニューラルネットワークによる地下流動シミュレーションの代理モデリング

Recurrent convolutional neural network for the surrogate modeling of subsurface flow simulation ( http://arxiv.org/abs/2010.07747v1 )

ライセンス: Link先を確認
Hyung Jun Yang, Timothy Yeo, Jaewoo An(参考訳) 多孔質媒質中の流動の不確かさの定量化は、多スケールの不均質性とサイトキャラクタリゼーションの不足によってしばしば妨げられる。 多数の入力パラメータの実現のために数値シミュレーションを行うモンテカルロシミュレーション(mcs)は、シミュレーションコストがかかる場合や不確実性の度合いが大きい場合には実現不可能となる。 多くのディープニューラルネットワークベースの手法は数値フローシミュレーションを置き換えるために開発されているが、以前の研究では、一定の時間ステップで出力のスナップショットを複数生成することと、シミュレーションデータの時間依存特性を反映することだけに焦点を当てていた。 近年,畳み込み型長短期記憶(convlstm)を用いて時系列画像データを扱うようになった。 本稿では,数値フローシミュレーションの代理モデルとして,SegNetとConvLSTM層を組み合わせることを提案する。 その結果,シミュレーションの出力が時系列データである場合,SegNetに基づくサロゲートモデルの性能が著しく向上することが示唆された。

The quantification of uncertainty on fluid flow in porous media is often hampered by multi-scale heterogeneity and insufficient site characterization. Monte-Carlo simulation (MCS), which runs numerical simulations for a large number of realization of input parameters , becomes infeasible when simulation cost is expensive or the degree of uncertainty is large. Many deep-neural-network-based methods are developed in order to replace the numerical flow simulation, but previous studies focused only on generating several snapshots of outputs at the fixed time steps, and lack to reflect the time dependent property of simulation data. Recently, the convolutional long short term memory (ConvLSTM) is utilized to deal with time series image data. Here, we propose to combine SegNet with ConvLSTM layers for the surrogate modeling of numerical flow simulation. The results show that the proposed method improves the performance of SegNet based surrogate model remarkably when the output of the simulation is time series data.
翻訳日:2022-10-09 13:09:23 公開日:2020-10-08
# eコマースユーザーのコンテキスト化

Contextualisation of eCommerce Users ( http://arxiv.org/abs/2011.01874v1 )

ライセンス: Link先を確認
Hassan Elhabbak, Beno\^it Descamps, Elisabeth Fischer, Sakis Athanasiadis(参考訳) 電子商取引設定における消費者意図のスケール可能なモデリングフレームワークについて述べる。 この手法は自然言語処理から借りた埋め込みを通じて文脈化を適用する。 Webサイトのページをドキュメントとして網羅したユーザセッションの旅を考慮し、ユーザ訪問のトピックだけでなく、ページ間のコンテキスト的関係をキャプチャします。 最後に,提案フレームワークの一貫性と安定性を実証的に検討する。

A scaleable modelling framework for the consumer intent within the setting of e-Commerce is presented. The methodology applies contextualisation through embeddings borrowed from Natural Language Processing. By considering the user session journeys throughough the pages of a website as documents, we capture contextual relationships between pages, as well as the topics of the of user visits. Finally, we empirically study the consistency and the stability of the presented framework.
翻訳日:2022-10-09 13:09:06 公開日:2020-10-08
# 言語モデルに基づく正規化学習を用いた畳み込み型リカレントニューラルネットワークに基づくタトゥムレベルドラム転写

Tatum-Level Drum Transcription Based on a Convolutional Recurrent Neural Network with Language Model-Based Regularized Training ( http://arxiv.org/abs/2010.03749v1 )

ライセンス: Link先を確認
Ryoto Ishizuka, Ryo Nishikimi, Eita Nakamura, Kazuyoshi Yoshii(参考訳) 本稿では,タタムタイムを事前に推定した$\textit{tatum}$レベルにおけるドラムの開始時刻を音楽信号から検出するニューラルドラム転写法について述べる。 ドラムの書き起こしに関する従来の研究では、ディープニューラルネットワーク(DNN)は入力として音楽スペクトログラムを取り、$\textit{frame}$レベルでドラムの開始時刻を推定するためによく用いられてきた。 しかし、このようなフレーム間DNNの大きな問題は、これらのパターンの長期的意味のある構造はフレームレベルでの学習が困難であるため、推定開始時刻が象徴的なドラムスコアに現れる典型的なタトゥムレベルのパターンに適合しないことである。 そこで本研究では,フレーム・トゥ・タトゥムDNNのための正規化学習手法を提案する。 提案手法では,広範囲なドラムスコアの収集から,タトゥムレベルの確率言語モデル(ゲート・リカレント・ユニット(GRU)ネットワークまたは繰り返し認識バイグラム・モデル)を訓練する。 タトゥムレベルの開始時刻の音楽的自然性は言語モデルにより評価できるので、事前訓練された言語モデルに基づいてフレーム・トゥ・タトゥムDNNを正規化器で訓練する。 実験の結果,提案手法の有効性が示された。

This paper describes a neural drum transcription method that detects from music signals the onset times of drums at the $\textit{tatum}$ level, where tatum times are assumed to be estimated in advance. In conventional studies on drum transcription, deep neural networks (DNNs) have often been used to take a music spectrogram as input and estimate the onset times of drums at the $\textit{frame}$ level. The major problem with such frame-to-frame DNNs, however, is that the estimated onset times do not often conform with the typical tatum-level patterns appearing in symbolic drum scores because the long-term musically meaningful structures of those patterns are difficult to learn at the frame level. To solve this problem, we propose a regularized training method for a frame-to-tatum DNN. In the proposed method, a tatum-level probabilistic language model (gated recurrent unit (GRU) network or repetition-aware bi-gram model) is trained from an extensive collection of drum scores. Given that the musical naturalness of tatum-level onset times can be evaluated by the language model, the frame-to-tatum DNN is trained with a regularizer based on the pretrained language model. The experimental results demonstrate the effectiveness of the proposed regularized training method.
翻訳日:2022-10-09 13:09:00 公開日:2020-10-08
# ピアアセスメントにおける戦略的行動の検出

Catch Me if I Can: Detecting Strategic Behaviour in Peer Assessment ( http://arxiv.org/abs/2010.04041v1 )

ライセンス: Link先を確認
Ivan Stelmakh, Nihar B. Shah, Aarti Singh(参考訳) 我々は、試験やホームワークの査定や採用・昇進の査定など、さまざまな査定課題における戦略的行動の問題を検討する。 ピアアセスメントタスクが競争的である場合(例えば、学生が曲線で評価される場合)、エージェントは、自身の最終的な地位を改善するために、誤った評価を受けるインセンティブを与えることができる。 我々はこのような操作を検出する方法の設計に重点を置いている。 具体的には,エージェントがピアのサブセットを評価し,その後に集約して最終的な順序付けを行うような構成を考える。 本稿では,この問題に対する統計的枠組みを調査し,戦略行動検出のための原則テストを設計する。 本試験は誤報の保証が強いことを証明し, 現実的な設定で検出能力を評価する。 そのために私たちは,対象から戦略的行動を引き出す実験を設計,実行し,独立した関心を持つ可能性のある戦略的行動のパターンのデータセットを公開する。 次に、収集したデータを使用して、テストの強力な検出能力を示す、実および半合成的な評価を行う。

We consider the issue of strategic behaviour in various peer-assessment tasks, including peer grading of exams or homeworks and peer review in hiring or promotions. When a peer-assessment task is competitive (e.g., when students are graded on a curve), agents may be incentivized to misreport evaluations in order to improve their own final standing. Our focus is on designing methods for detection of such manipulations. Specifically, we consider a setting in which agents evaluate a subset of their peers and output rankings that are later aggregated to form a final ordering. In this paper, we investigate a statistical framework for this problem and design a principled test for detecting strategic behaviour. We prove that our test has strong false alarm guarantees and evaluate its detection ability in practical settings. For this, we design and execute an experiment that elicits strategic behaviour from subjects and release a dataset of patterns of strategic behaviour that may be of independent interest. We then use the collected data to conduct a series of real and semi-synthetic evaluations that demonstrate a strong detection power of our test.
翻訳日:2022-10-09 13:08:08 公開日:2020-10-08
# 色素性皮膚病変分画の頻度と空間領域に基づく塩分率

Frequency and Spatial domain based Saliency for Pigmented Skin Lesion Segmentation ( http://arxiv.org/abs/2010.04022v1 )

ライセンス: Link先を確認
Zanobya N. Khan(参考訳) 皮膚病変のセグメンテーションは、人工物の存在、病変と境界とのコントラストの低さ、色変化、ファジィ皮膚病変の境界、皮膚内視鏡画像における異種背景などにより、かなり困難な課題となることがある。 本稿では,周波数領域と空間領域から導出した簡易かつ効果的な唾液濃度に基づく顔料皮膚病変検出手法を提案する。 2つのカラーモデルがこれらの地図の構築に利用されている。 色特徴を通して空間領域の地図を設計するために,色モデルごとに異なるメトリクスを提案する。 集約された画像から周波数領域内の地図を生成する。 我々は,それぞれの領域に有望な特徴を結合するために,別々の融合スキームを採用する。 最後に、これらのマップをピクセルワイド乗算を用いて組み合わせるために、2相サリエンシ統合スキームを考案した。 提案手法の性能をPH2およびISIC 2016データセットで評価した。 実験の結果,提案手法は最先端手法と比較して,より優れたセグメンテーション結果をもたらすことが示された。

Skin lesion segmentation can be rather a challenging task owing to the presence of artifacts, low contrast between lesion and boundary, color variegation, fuzzy skin lesion borders and heterogeneous background in dermoscopy images. In this paper, we propose a simple yet effective saliency-based approach derived in the frequency and spatial domain to detect pigmented skin lesion. Two color models are utilized for the construction of these maps. We suggest a different metric for each color model to design map in the spatial domain via color features. The map in the frequency domain is generated from aggregated images. We adopt a separate fusion scheme to combine salient features in their respective domains. Finally, two-phase saliency integration scheme is devised to combine these maps using pixelwise multiplication. Performance of the proposed method is assessed on PH2 and ISIC 2016 datasets. The outcome of the experiments suggests that the proposed scheme generate better segmentation result as compared to state-of-the-art methods.
翻訳日:2022-10-09 13:02:20 公開日:2020-10-08
# UAVの高効率実時間放射歪補正

Efficient Real-Time Radial Distortion Correction for UAVs ( http://arxiv.org/abs/2010.04203v1 )

ライセンス: Link先を確認
Marcus Valtonen \"Ornhag and Patrik Persson and M{\aa}rten Wadenb\"ack and Kalle {\AA}str\"om and Anders Heyden(参考訳) 本稿では,実機で動作する慣性測定ユニット(imu)を備えた無人航空機(uavs)の車載放射歪補正のための新しいアルゴリズムを提案する。 このアプローチは校正手順を冗長にし、即時光の交換を可能にする。 IMUデータを利用することで、カメラは重力方向と一致させることができる。 これにより、自由度の少ない作業が可能になり、さらに本質的なキャリブレーションが可能になります。 本稿では,ホモグラフから焦点距離,放射歪プロファイル,運動パラメータを同時に推定する高速でロバストな最小解法を提案する。 提案した解法は, 合成データと実データの両方でテストし, 校正前処理に依存する最先端の手法と同等あるいは同等に動作する。

In this paper we present a novel algorithm for onboard radial distortion correction for unmanned aerial vehicles (UAVs) equipped with an inertial measurement unit (IMU), that runs in real-time. This approach makes calibration procedures redundant, thus allowing for exchange of optics extemporaneously. By utilizing the IMU data, the cameras can be aligned with the gravity direction. This allows us to work with fewer degrees of freedom, and opens up for further intrinsic calibration. We propose a fast and robust minimal solver for simultaneously estimating the focal length, radial distortion profile and motion parameters from homographies. The proposed solver is tested on both synthetic and real data, and perform better or on par with state-of-the-art methods relying on pre-calibration procedures.
翻訳日:2022-10-09 13:01:40 公開日:2020-10-08
# 点雲完了による予測欠落部品のリファインメント

Refinement of Predicted Missing Parts Enhance Point Cloud Completion ( http://arxiv.org/abs/2010.04278v1 )

ライセンス: Link先を確認
Alexis Mendoza, Alexander Apaza, Ivan Sipiran, Cristian Lopez(参考訳) 点雲完了は、3次元形状の点集合表現を用いて部分的な観測から完全な幾何学を予測するタスクである。 従来のアプローチでは、不完全点集合によって供給されるエンコーダ・デコーダモデルを通じて、ポイントクラウド全体を直接推定するニューラルネットワークを提案する。 完全なモデルを予測することで、出力が既知の不完全な入力幾何学を含むため、現在の手法は冗長な情報を計算する。 本稿では,不足する幾何の計算と既知の入力と予測された点クラウドの融合に焦点をあてたエンドツーエンドニューラルネットワークアーキテクチャを提案する。 本手法は,2つのニューラルネットワーク – 欠落部分予測ネットワークとマージ・リファインメントネットワーク – から構成される。 第1のモジュールは、欠落した幾何を推測するために不完全な入力から情報を抽出することに焦点を当てている。 第2のモジュールは、両方の点雲をマージし、点の分布を改善する。 ShapeNetデータセットを用いた実験により,本手法はポイントクラウドの完成度において最先端の手法よりも優れていることがわかった。 我々のメソッドと実験のコードは \url{https://github.com/ivansipiran/Refinement-Point-Cloud-Completion} で公開されている。

Point cloud completion is the task of predicting complete geometry from partial observations using a point set representation for a 3D shape. Previous approaches propose neural networks to directly estimate the whole point cloud through encoder-decoder models fed by the incomplete point set. By predicting the complete model, the current methods compute redundant information because the output also contains the known incomplete input geometry. This paper proposes an end-to-end neural network architecture that focuses on computing the missing geometry and merging the known input and the predicted point cloud. Our method is composed of two neural networks: the missing part prediction network and the merging-refinement network. The first module focuses on extracting information from the incomplete input to infer the missing geometry. The second module merges both point clouds and improves the distribution of the points. Our experiments on ShapeNet dataset show that our method outperforms the state-of-the-art methods in point cloud completion. The code of our methods and experiments is available in \url{https://github.com/ivansipiran/Refinement-Point-Cloud-Completion}.
翻訳日:2022-10-09 13:01:27 公開日:2020-10-08
# 支援ジレンマのためのヒントファクトリーの拡張: 積極的な問題解決支援のためのデータ駆動型HelpNeed予測器

Extending the Hint Factory for the assistance dilemma: A novel, data-driven HelpNeed Predictor for proactive problem-solving help ( http://arxiv.org/abs/2010.04124v1 )

ライセンス: Link先を確認
Mehak Maniktala, Christa Cody, Amy Isvik, Nicholas Lytle, Min Chi, Tiffany Barnes(参考訳) パーソナライズされたサポートを提供するかどうかの決定は、援助ジレンマと呼ばれるよく知られた課題である。 補助ジレンマの解決における中核的な問題は、教師が介入できるように、学生が非生産的であることを発見する必要があることである。 このようなタスクは、定義された原則や目標で十分に構造化されたオープンエンドドメインにとって特に困難である。 本稿では,構造化されたオープンエンド論理における非生産的問題解決ステップを分類し,予測し,防止するためのデータ駆動型手法を提案する。 このアプローチは、事前の学生ソリューションを活用してデータ駆動のインテリジェントなチューターを構築しようとする一連のメソッドであるヒントファクトリを活用して拡張する。 本稿では,学生が非生産的になる確率を判断し,最適な問題解決戦略の学習を支援するHelpNeed分類を提案する。 我々は,各ステップの開始に積極的なヒントを与える適応的教育政策の影響を,支援された予測者の成果に基づいて決定する制御研究を行った。 以上の結果より, 適応状態の学生は, ヘルプニード分類器を用いて, より低いヘルプ回避率, 高いヘルプ適性(必要なときにヘルプを受ける確率が高い)で, より優れた訓練行動を示した。 さらに, 学習中のHelpNeed予測に基づいて適応的ヒントを得た学生は, ポストテストにおいてコントロールピアよりも有意に優れ, 前者はより短く, より最適な解を少ない時間で生成した。 結論として,これらの支援手法を他の十分に構造化されたオープンエンドドメインに適用する方法を提案する。

Determining when and whether to provide personalized support is a well-known challenge called the assistance dilemma. A core problem in solving the assistance dilemma is the need to discover when students are unproductive so that the tutor can intervene. Such a task is particularly challenging for open-ended domains, even those that are well-structured with defined principles and goals. In this paper, we present a set of data-driven methods to classify, predict, and prevent unproductive problem-solving steps in the well-structured open-ended domain of logic. This approach leverages and extends the Hint Factory, a set of methods that leverages prior student solution attempts to build data-driven intelligent tutors. We present a HelpNeed classification, that uses prior student data to determine when students are likely to be unproductive and need help learning optimal problem-solving strategies. We present a controlled study to determine the impact of an Adaptive pedagogical policy that provides proactive hints at the start of each step based on the outcomes of our HelpNeed predictor: productive vs. unproductive. Our results show that the students in the Adaptive condition exhibited better training behaviors, with lower help avoidance, and higher help appropriateness (a higher chance of receiving help when it was likely to be needed), as measured using the HelpNeed classifier, when compared to the Control. Furthermore, the results show that the students who received Adaptive hints based on HelpNeed predictions during training significantly outperform their Control peers on the posttest, with the former producing shorter, more optimal solutions in less time. We conclude with suggestions on how these HelpNeed methods could be applied in other well-structured open-ended domains.
翻訳日:2022-10-09 13:01:09 公開日:2020-10-08
# 改良BIRCHアルゴリズムに基づく対話型学習活動のクラスタリング解析

Clustering Analysis of Interactive Learning Activities Based on Improved BIRCH Algorithm ( http://arxiv.org/abs/2010.03821v1 )

ライセンス: Link先を確認
Xiaona Xia(参考訳) グループ傾向はコンピュータ支援学習の研究分野である。 優れた学習行動の構築は,学習者の学習プロセスや学習効果に大きな意味を持ち,データ駆動型教育意思決定の重要な基盤となっている。 クラスタリング分析は集団傾向の研究に有効な手法である。 したがって,多段階・多段階のオンライン学習行動ビッグデータセットを取得し,学習行動を多次元学習インタラクションアクティビティとして記述する必要がある。 First of all, on the basis of data initialization and standardization, we locate the classification conditions of data, realize the differentiation and integration of learning behavior, and form multiple subsets of data to be clustered; secondly, according to the topological relevance and dependence between learning interaction activities, we design an improved algorithm of BIRCH clustering based on random walking strategy, which realizes the retrieval evaluation and data of key learning interaction activities; Thirdly, through the calculation and comparison of several performance indexes, the improved algorithm has obvious advantages in learning interactive activity clustering, and the clustering process and results are feasible and reliable. この研究の結論は参考として利用することができ、普及することができる。 ビッグデータの教育研究や,学習分析の応用において,実践的な意義を持っている。

Group tendency is a research branch of computer assisted learning. The construction of good learning behavior is of great significance to learners' learning process and learning effect, and is the key basis of data-driven education decision-making. Clustering analysis is an effective method for the study of group tendency. Therefore, it is necessary to obtain the online learning behavior big data set of multi period and multi course, and describe the learning behavior as multi-dimensional learning interaction activities. First of all, on the basis of data initialization and standardization, we locate the classification conditions of data, realize the differentiation and integration of learning behavior, and form multiple subsets of data to be clustered; secondly, according to the topological relevance and dependence between learning interaction activities, we design an improved algorithm of BIRCH clustering based on random walking strategy, which realizes the retrieval evaluation and data of key learning interaction activities; Thirdly, through the calculation and comparison of several performance indexes, the improved algorithm has obvious advantages in learning interactive activity clustering, and the clustering process and results are feasible and reliable. The conclusion of this study can be used for reference and can be popularized. It has practical significance for the research of education big data and the practical application of learning analytics.
翻訳日:2022-10-09 12:59:43 公開日:2020-10-08
# ハイブリッドガウス過程回帰と遺伝的多目的アプローチによる収量最適化

Yield Optimization using Hybrid Gaussian Process Regression and a Genetic Multi-Objective Approach ( http://arxiv.org/abs/2010.04028v1 )

ライセンス: Link先を確認
Mona Fuhrl\"ander and Sebastian Sch\"ops(参考訳) 不確実性の定量化と最小化は、高い計算労力を伴う電磁装置の設計において重要な課題である。 本稿では,モンテカルロ解析の信頼性と精度と,ガウス過程回帰に基づく代理モデルの効率を併用したハイブリッドアプローチを提案する。 2つの最適化手法を提案する。 不確実性の影響を軽減する適応ニュートンmcと、性能とロバスト性を同時に最適化する遺伝的多目的アプローチ。 ベンチマーク問題として用いられる誘電体導波路では,提案手法は古典的手法よりも優れている。

Quantification and minimization of uncertainty is an important task in the design of electromagnetic devices, which comes with high computational effort. We propose a hybrid approach combining the reliability and accuracy of a Monte Carlo analysis with the efficiency of a surrogate model based on Gaussian Process Regression. We present two optimization approaches. An adaptive Newton-MC to reduce the impact of uncertainty and a genetic multi-objective approach to optimize performance and robustness at the same time. For a dielectrical waveguide, used as a benchmark problem, the proposed methods outperform classic approaches.
翻訳日:2022-10-09 12:59:28 公開日:2020-10-08
# 一般的な平均フィールドゲームのための確率的プレイ

Provable Fictitious Play for General Mean-Field Games ( http://arxiv.org/abs/2010.04211v1 )

ライセンス: Link先を確認
Qiaomin Xie, Zhuoran Yang, Zhaoran Wang, Andreea Minca(参考訳) そこでは,ナッシュ均衡を構成する平均フィールド状態と定常ポリシーのペアを学習することを目的として,静止平均フィールドゲームのための強化学習アルゴリズムを提案する。 平均場状態とポリシーを2人のプレイヤーとして見る場合, それぞれ勾配・近位政策最適化によって平均場状態とポリシーを交互に更新する架空の遊びアルゴリズムを提案する。 提案アルゴリズムは, 反復平均場状態から最適状態へ誘導される各単エージェント強化学習問題を解く従来の文献とは対照的である。 さらに,我々の架空のプレイアルゴリズムは,サブ線形速度でナッシュ平衡に収束することを示す。 我々の知る限り、これは平均場状態とポリシーの両方の反復的な更新に基づいて、平均場ゲームに対して証明可能な収束シングルループ強化学習アルゴリズムである。

We propose a reinforcement learning algorithm for stationary mean-field games, where the goal is to learn a pair of mean-field state and stationary policy that constitutes the Nash equilibrium. When viewing the mean-field state and the policy as two players, we propose a fictitious play algorithm which alternatively updates the mean-field state and the policy via gradient-descent and proximal policy optimization, respectively. Our algorithm is in stark contrast with previous literature which solves each single-agent reinforcement learning problem induced by the iterates mean-field states to the optimum. Furthermore, we prove that our fictitious play algorithm converges to the Nash equilibrium at a sublinear rate. To the best of our knowledge, this seems the first provably convergent single-loop reinforcement learning algorithm for mean-field games based on iterative updates of both mean-field state and policy.
翻訳日:2022-10-09 12:59:21 公開日:2020-10-08
# エミュレータを用いた流れ型地すべり流出モデルに対するグローバル感度解析

Emulator-based global sensitivity analysis for flow-like landslide run-out models ( http://arxiv.org/abs/2010.04056v1 )

ライセンス: Link先を確認
Hu Zhao, Florian Amann, Julia Kowalski(参考訳) 地すべり流出モデルには、モデル入力データに由来するさまざまな不確実性がある。 したがって、モデルの感度を評価することが望ましい。 入力空間全体を探索し、全ての相互作用を説明できる大域的感度分析は、多くの必要なモデル実行によって生じる計算上の問題のために、しばしば制限される。 本稿では,ガウス過程のエミュレーションを地すべり流出モデルに統合し,オープンソースのシミュレーションツールr.avaflowに適用することによって,この研究ギャップに対処する。 提案手法の有効性と有効性は,2017年ボンゴ地すべり事件をベースとした。 本研究では, ドライクーロン摩擦係数, 乱流摩擦係数, 放出量に対して, 明らかな摩擦角, 衝突面積, 空間的に解決された最大流量, 速度などの凝集モデル出力の感度について検討した。 1次効果の結果は、従来の1対1の感度分析の結果と一致している。 それに加えて,本手法はインタラクションの厳密な調査を可能にする。 最大流量高さと速度の期待と変動が小さい流路の縁に強い相互作用が検出される。 相互作用は通常、最大流量と速度の変動が増加すると弱くなる。 また, 2つの摩擦係数の間には, 放出体積と摩擦係数との間には強い相互作用がある。 将来的には、不確実性定量化、モデルキャリブレーション、スマート早期警告など、計算コストの高い他のタスクへのアプローチを拡張することを約束している。

Landslide run-out modeling involves various uncertainties originating from model input data. It is therefore desirable to assess the model's sensitivity. A global sensitivity analysis that is capable of exploring the entire input space and accounts for all interactions, often remains limited due to computational challenges resulting from a large number of necessary model runs. We address this research gap by integrating Gaussian process emulation into landslide run-out modeling and apply it to the open-source simulation tool r.avaflow. The feasibility and efficiency of our approach is illustrated based on the 2017 Bondo landslide event. The sensitivity of aggregated model outputs, such as the apparent friction angle, impact area, as well as spatially resolved maximum flow height and velocity, to the dry-Coulomb friction coefficient, turbulent friction coefficient and the release volume are studied. The results of first-order effects are consistent with previous results of common one-at-a-time sensitivity analyses. In addition to that, our approach allows to rigorously investigate interactions. Strong interactions are detected on the margins of the flow path where the expectation and variation of maximum flow height and velocity are small. The interactions generally become weak with increasing variation of maximum flow height and velocity. Besides, there are stronger interactions between the two friction coefficients than between the release volume and each friction coefficient. In the future, it is promising to extend the approach for other computationally expensive tasks like uncertainty quantification, model calibration, and smart early warning.
翻訳日:2022-10-09 12:53:39 公開日:2020-10-08
# 言語横断型音声変換のための潜在言語埋め込み

Latent linguistic embedding for cross-lingual text-to-speech and voice conversion ( http://arxiv.org/abs/2010.03717v1 )

ライセンス: Link先を確認
Hieu-Thi Luong, Junichi Yamagishi(参考訳) 最近提案された音声クローニングシステムであるNAUTILUSは、未転写音声を用いて未確認音声をクローニングできるので、これを用いて、統合言語間TS/VCシステムの開発の可能性を検討する。 言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。 この種のシステムは、単にターゲットスピーカーの音声をクローンするだけでなく、特定のフレーミングの下でオリジナルより優れていると考えられる新しい音声を生成する。 音声変換チャレンジ2020に含まれるドイツ語、フィンランド語、マンダリン語話者のための、言語間TTSおよびVCシステムを構築するために、よく訓練された英語の潜在言語埋め込みを用いて、我々の手法は、高い話者類似度を持つ言語間VCを生成するだけでなく、追加ステップを行わずに、言語間TSにシームレスに使用できることを示す。 しかし, 自然感の主観的評価は, 将来の改善の1つの側面である対象話者によって異なるように思われた。

As the recently proposed voice cloning system, NAUTILUS, is capable of cloning unseen voices using untranscribed speech, we investigate the feasibility of using it to develop a unified cross-lingual TTS/VC system. Cross-lingual speech generation is the scenario in which speech utterances are generated with the voices of target speakers in a language not spoken by them originally. This type of system is not simply cloning the voice of the target speaker, but essentially creating a new voice that can be considered better than the original under a specific framing. By using a well-trained English latent linguistic embedding to create a cross-lingual TTS and VC system for several German, Finnish, and Mandarin speakers included in the Voice Conversion Challenge 2020, we show that our method not only creates cross-lingual VC with high speaker similarity but also can be seamlessly used for cross-lingual TTS without having to perform any extra steps. However, the subjective evaluations of perceived naturalness seemed to vary between target speakers, which is one aspect for future improvement.
翻訳日:2022-10-09 12:53:17 公開日:2020-10-08
# 音声認識におけるデータ拡張と正規化のための人口ベーストレーニング

Population Based Training for Data Augmentation and Regularization in Speech Recognition ( http://arxiv.org/abs/2010.03899v1 )

ライセンス: Link先を確認
Daniel Haziza, J\'er\'emy Rapin, Gabriel Synnaeve(参考訳) データの増大ポリシーと最適化の過程での正規化により、固定値の使用よりもパフォーマンスが向上した。 人口ベーストレーニングは,これらのハイパーパラメータを一定予算内で連続的に探索する上で有用なツールであることを示す。 これは、このような最適なスケジュールを見つけるための実験的な負担と計算コストを大幅に単純化する。 このようにスペックを最適化して音声認識を実験し,ドロップアウトを行った。 トレーニングの過程でこれらのハイパーパラメータを変更しないベースラインと比較して、8%の相対的なWER改善がある。 librispeechのtest-otherで5.18%の単語誤り率を得た。

Varying data augmentation policies and regularization over the course of optimization has led to performance improvements over using fixed values. We show that population based training is a useful tool to continuously search those hyperparameters, within a fixed budget. This greatly simplifies the experimental burden and computational cost of finding such optimal schedules. We experiment in speech recognition by optimizing SpecAugment this way, as well as dropout. It compares favorably to a baseline that does not change those hyperparameters over the course of training, with an 8% relative WER improvement. We obtain 5.18% word error rate on LibriSpeech's test-other.
翻訳日:2022-10-09 12:52:55 公開日:2020-10-08
# 中学データサイエンスにおけるステルスによる計算能力

Computational Skills by Stealth in Secondary School Data Science ( http://arxiv.org/abs/2010.07017v1 )

ライセンス: Link先を確認
Wesley Burr, Fanny Chevalier, Christopher Collins, Alison L Gibbs, Raymond Ng, Chris Wild(参考訳) あらゆる種類のデータと品質が利用できるようになり、データサイエンスの分野が出現する前例のない成長は、最終的にノーランとテンプル・ラングの完全な広さの実装を実現するための衝動となり、統計学と新しいデータサイエンスプログラムとコースのあらゆるレベルで計算概念を統計カリキュラムに統合することを提案した。 さらに、注意深く実装されたデータサイエンスは、数学もコンピュータ科学も自然の親和性を持たず、伝統的に排除される学生のためのアクセス可能な経路を開放する。 本稿では,データサイエンスへの初公開における計算スキルのステルス開発に向けた提案について,注意深い足場的露出とそのパワーを通して論じる。 このアプローチの目的は、プログラミングにおける興味や自己効力に拘わらず、データドリブンな学習者となり、周囲の世界について複雑な質問をする能力を持ち、データドリブンな調査によってこれらの質問に答えることである。 この議論は、データサイエンスを誰にでもアクセスできるように設計された、2年間の中学校データサイエンスプログラムのためのコンピュータサイエンスと統計のコンセンサスカリキュラムフレームワークを最近発表した国際データサイエンスインスクールプロジェクト(international data science in schools project)の文脈で提示されている。

The unprecedented growth in the availability of data of all types and qualities and the emergence of the field of data science has provided an impetus to finally realizing the implementation of the full breadth of the Nolan and Temple Lang proposed integration of computing concepts into statistics curricula at all levels in statistics and new data science programs and courses. Moreover, data science, implemented carefully, opens accessible pathways to stem for students for whom neither mathematics nor computer science are natural affinities, and who would traditionally be excluded. We discuss a proposal for the stealth development of computational skills in students' first exposure to data science through careful, scaffolded exposure to computation and its power. The intent of this approach is to support students, regardless of interest and self-efficacy in coding, in becoming data-driven learners, who are capable of asking complex questions about the world around them, and then answering those questions through the use of data-driven inquiry. This discussion is presented in the context of the International Data Science in Schools Project which recently published computer science and statistics consensus curriculum frameworks for a two-year secondary school data science program, designed to make data science accessible to all.
翻訳日:2022-10-09 12:52:26 公開日:2020-10-08
# CTにおける上腕骨圧縮骨折同定のための3次元畳み込みモデル

3D Convolutional Sequence to Sequence Model for Vertebral Compression Fractures Identification in CT ( http://arxiv.org/abs/2010.03739v1 )

ライセンス: Link先を確認
David Chettrit, Tomer Meir, Hila Lebel, Mila Orlovsky, Ronen Gordon, Ayelet Akselrod-Ballin, Amir Bar(参考訳) オステオポローシス関連骨折は全世界で3秒ごとに発生し、女性3人に1人、男性5人に1人が50歳以上である。 リスクの高い患者を早期に検出することは、効果的な予防的介入を助長し、大変形性骨折の発生を減少させる。 そこで本研究では, 胸椎圧迫骨折をct画像で自動同定するシステムを提案する。 このシステムは、脊髄検出のための畳み込みニューラルネットワーク(CNN)と、新しい3Dアーキテクチャへのエンドツーエンドシーケンスを利用して、脊椎のコンパクトな3D表現を統合する。 異なる表現と分類のアプローチを生かしたいくつかのモデル変種を評価し,大規模データセット上で検証された,成果の状態を達成するモデルの集合と,曲線下の0.955領域の患者レベルの破壊識別(auc)を組み合わせた枠組みを提案する。 提案システムは, 骨粗しょう症の臨床管理を支援し, 治療経路を改善し, 当世代で最も重篤な疾患の一つの経過を変える可能性がある。

An osteoporosis-related fracture occurs every three seconds worldwide, affecting one in three women and one in five men aged over 50. The early detection of at-risk patients facilitates effective and well-evidenced preventative interventions, reducing the incidence of major osteoporotic fractures. In this study, we present an automatic system for identification of vertebral compression fractures on Computed Tomography images, which are often an undiagnosed precursor to major osteoporosis-related fractures. The system integrates a compact 3D representation of the spine, utilizing a Convolutional Neural Network (CNN) for spinal cord detection and a novel end-to-end sequence to sequence 3D architecture. We evaluate several model variants that exploit different representation and classification approaches and present a framework combining an ensemble of models that achieves state of the art results, validated on a large data set, with a patient-level fracture identification of 0.955 Area Under the Curve (AUC). The system proposed has the potential to support osteoporosis clinical management, improve treatment pathways, and to change the course of one of the most burdensome diseases of our generation.
翻訳日:2022-10-09 12:52:00 公開日:2020-10-08
# スペックルと正常閉塞音に対するロバスト性を有する超音波松葉体像の骨像分割

Bone Feature Segmentation in Ultrasound Spine Image with Robustness to Speckle and Regular Occlusion Noise ( http://arxiv.org/abs/2010.03740v1 )

ライセンス: Link先を確認
Zixun Huang, Li-Wen Wang, Frank H. F. Leung, Sunetra Banerjee, De Yang, Timothy Lee, Juan Lyu, Sai Ho Ling, Yong-Ping Zheng(参考訳) 3次元超音波画像は、その低コストで放射線のないリアルタイム特性のおかげで、スコリシスの診断に非常に有望である。 超音波画像によるスコリオーシスにアクセスする鍵は、骨領域を正確に分割し、骨の特徴の対称性に基づいてスコリオーシス度を測定することである。 超音波画像には、多くのスペックルと通常の閉塞音が含まれており、専門家が骨の特徴を見つけるのは難しく、退屈で時間がかかる。 本稿では,超音波スピネルボリューム投影画像(VPI)画像のU-net構造に基づく頑健な骨特徴分割法を提案する。 提案手法は,小型および正規閉塞雑音に対するモデルの感度を低下させるため,全分散損失を導入する。 提案手法は,u-netモデルと比較してDiceスコアの2.3%とAUCスコアの1%を改良し,スペックルや正規閉塞雑音に対して高い堅牢性を示す。

3D ultrasound imaging shows great promise for scoliosis diagnosis thanks to its low-costing, radiation-free and real-time characteristics. The key to accessing scoliosis by ultrasound imaging is to accurately segment the bone area and measure the scoliosis degree based on the symmetry of the bone features. The ultrasound images tend to contain many speckles and regular occlusion noise which is difficult, tedious and time-consuming for experts to find out the bony feature. In this paper, we propose a robust bone feature segmentation method based on the U-net structure for ultrasound spine Volume Projection Imaging (VPI) images. The proposed segmentation method introduces a total variance loss to reduce the sensitivity of the model to small-scale and regular occlusion noise. The proposed approach improves 2.3% of Dice score and 1% of AUC score as compared with the u-net model and shows high robustness to speckle and regular occlusion noise.
翻訳日:2022-10-09 12:51:39 公開日:2020-10-08
# 緑内障の進展を鑑別した網膜神経節細胞のハイブリッド深層学習システム

Clinically Verified Hybrid Deep Learning System for Retinal Ganglion Cells Aware Grading of Glaucomatous Progression ( http://arxiv.org/abs/2010.03872v1 )

ライセンス: Link先を確認
Hina Raja and Taimur Hassan and Muhammad Usman Akram and Naoufel Werghi(参考訳) 目的:緑内障は世界第2位の盲目の原因である。 緑内障の進行は網膜神経節細胞(RGC)の変性を解析することによって容易に監視できる。 多くの研究者は、底部と光コヒーレンストモグラフィーからのカップとディスクの比率を測定して緑内障をスクリーニングした。 しかし,本論文では,緑内障の病態をスクリーニングし,重症度を下げるために,rgc萎縮に注意を払う新しい戦略を提案する。 方法: 提案する枠組みは, 網膜神経線維層, 神経節細胞, 内神経叢状層, 神経節細胞複合体領域を抽出するハイブリッド畳み込みネットワークを含み, 緑内障患者の定量的スクリーニングを可能にする。 また,これらの領域の厚さを解析し,緑内障の重症度を客観的に評価した。 結果: 提案した枠組みは, 緑内障診断のためのF1スコア0.9577, RGC領域抽出のための平均ダイス係数0.8697, 緑内障進展評価のための精度0.9117を達成し, 一般用Armed Forces Institute of Ophthalmology (AFIO)データセットで厳密に検証された。 さらに,4名の専門眼科医のマークで臨床検査を行い,統計的に有意なピアソン相関係数0.9236を達成した。 結論: RGCのデジェネレーションの自動評価は、最先端のソリューションと比較して、よりグラコマティックなスクリーニングとグレーディングをもたらす。 意義: 緑内障をスクリーニングするばかりでなく, 重症度も評価できるRCC認識システムで, 標準化されたデータセットで徹底的に評価し, 緑内障の病態解析に臨床的に検証した。

Objective: Glaucoma is the second leading cause of blindness worldwide. Glaucomatous progression can be easily monitored by analyzing the degeneration of retinal ganglion cells (RGCs). Many researchers have screened glaucoma by measuring cup-to-disc ratios from fundus and optical coherence tomography scans. However, this paper presents a novel strategy that pays attention to the RGC atrophy for screening glaucomatous pathologies and grading their severity. Methods: The proposed framework encompasses a hybrid convolutional network that extracts the retinal nerve fiber layer, ganglion cell with the inner plexiform layer and ganglion cell complex regions, allowing thus a quantitative screening of glaucomatous subjects. Furthermore, the severity of glaucoma in screened cases is objectively graded by analyzing the thickness of these regions. Results: The proposed framework is rigorously tested on publicly available Armed Forces Institute of Ophthalmology (AFIO) dataset, where it achieved the F1 score of 0.9577 for diagnosing glaucoma, a mean dice coefficient score of 0.8697 for extracting the RGC regions and an accuracy of 0.9117 for grading glaucomatous progression. Furthermore, the performance of the proposed framework is clinically verified with the markings of four expert ophthalmologists, achieving a statistically significant Pearson correlation coefficient of 0.9236. Conclusion: An automated assessment of RGC degeneration yields better glaucomatous screening and grading as compared to the state-of-the-art solutions. Significance: An RGC-aware system not only screens glaucoma but can also grade its severity and here we present an end-to-end solution that is thoroughly evaluated on a standardized dataset and is clinically validated for analyzing glaucomatous pathologies.
翻訳日:2022-10-09 12:51:21 公開日:2020-10-08
# 微視的深層学習のための自由注釈データ? ヒッチハイカーのガイド

Free annotated data for deep learning in microscopy? A hitchhiker's guide ( http://arxiv.org/abs/2010.03988v1 )

ライセンス: Link先を確認
Adrian Shajkofci, Michael Liebling(参考訳) 顕微鏡では、多くのディープラーニングモデルが前提条件として採用する大規模なデータセットの取得と注釈付けの時間的負担とコストが、これらの手法を実用的でないものにすることが多い。 注釈付きデータのこの要件は緩和できるか? 他のアプリケーション分野のデータセットから収集した知識を借りて、顕微鏡に利用することは可能ですか? 本稿では,バイオマイクロスコープにおける学習に基づく手法の学習に成功するために最近出現した手法の概要について述べる。

In microscopy, the time burden and cost of acquiring and annotating large datasets that many deep learning models take as a prerequisite, often appears to make these methods impractical. Can this requirement for annotated data be relaxed? Is it possible to borrow the knowledge gathered from datasets in other application fields and leverage it for microscopy? Here, we aim to provide an overview of methods that have recently emerged to successfully train learning-based methods in bio-microscopy.
翻訳日:2022-10-09 12:50:48 公開日:2020-10-08
# 論文レビューの自動生成

Automatic generation of reviews of scientific papers ( http://arxiv.org/abs/2010.04147v1 )

ライセンス: Link先を確認
Anna Nikiforovskaya, Nikolai Kapralov, Anna Vlasova, Oleg Shpynov and Aleksei Shpilman(参考訳) 毎年多くの科学論文が発行されてきているため、研究者が既に親しんでいない分野を探索することが難しくなっている。 これは学際的な研究の可能性を大きく阻害する。 地域への伝統的な導入は、レビューペーパーの形で行われることもある。 しかし、すべての地域とサブエリアが現在のレビューを持っているわけではない。 本稿では,ユーザ定義クエリに対応するレビュー用紙の自動生成手法を提案する。 この方法は2つの主要な部分から構成される。 第1部では、共引用グラフなどの文献パラメータによって、この分野の重要論文を識別する。 第2段階では、BERTベースのアーキテクチャを使用して、これらの重要な論文の抽出要約のために既存のレビューをトレーニングします。 本稿では,提案手法の一般的なパイプラインと実装の詳細を説明し,pubmedデータセット上での自動評価とエキスパート評価の両方を示す。

With an ever-increasing number of scientific papers published each year, it becomes more difficult for researchers to explore a field that they are not closely familiar with already. This greatly inhibits the potential for cross-disciplinary research. A traditional introduction into an area may come in the form of a review paper. However, not all areas and sub-areas have a current review. In this paper, we present a method for the automatic generation of a review paper corresponding to a user-defined query. This method consists of two main parts. The first part identifies key papers in the area by their bibliometric parameters, such as a graph of co-citations. The second stage uses a BERT based architecture that we train on existing reviews for extractive summarization of these key papers. We describe the general pipeline of our method and some implementation details and present both automatic and expert evaluations on the PubMed dataset.
翻訳日:2022-10-09 12:43:29 公開日:2020-10-08
# 効率的なブラックボックス攻撃のためのガウスMRF共分散モデル

Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial Attacks ( http://arxiv.org/abs/2010.04205v1 )

ライセンス: Link先を確認
Anit Kumar Sahu, Satya Narayan Shukla, J. Zico Kolter(参考訳) 我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス環境において,逆例を生成する問題について検討し,損失関数の評価を行う。 この設定は以前の研究で研究されてきたが、ゼロ次最適化を用いたほとんどの過去のアプローチは、入力画像に対する損失関数の勾配が \emph{unstructured} であると暗黙的に仮定している。 本研究では,これらの勾配の中に実質相関が存在することを示し,ガウス・マルコフ確率場(gmrf)を用いてこれらの相関を捉えることを提案する。 MRFの明示的な共分散構造の難易度を考えると、共分散構造はFast Fourier Transform (FFT) を用いて効率よく表現でき、低ランクの更新により、このモデルの下で正確な後続推定を行うことができる。 我々は,この手法を用いて,FGSMのブラックボックス版に類似した高速1ステップの敵攻撃(Fast Gradient Sign Method~)を見つけ,本手法がクエリを少なくし,現在の技術よりも高い攻撃成功率を達成することを示す。 また、この勾配モデリングの一般的な適用性についても強調する。

We study the problem of generating adversarial examples in a black-box setting, where we only have access to a zeroth order oracle, providing us with loss function evaluations. Although this setting has been investigated in previous work, most past approaches using zeroth order optimization implicitly assume that the gradients of the loss function with respect to the input images are \emph{unstructured}. In this work, we show that in fact substantial correlations exist within these gradients, and we propose to capture these correlations via a Gaussian Markov random field (GMRF). Given the intractability of the explicit covariance structure of the MRF, we show that the covariance structure can be efficiently represented using the Fast Fourier Transform (FFT), along with low-rank updates to perform exact posterior estimation under this model. We use this modeling technique to find fast one-step adversarial attacks, akin to a black-box version of the Fast Gradient Sign Method~(FGSM), and show that the method uses fewer queries and achieves higher attack success rates than the current state of the art. We also highlight the general applicability of this gradient modeling setup.
翻訳日:2022-10-09 12:43:10 公開日:2020-10-08
# 総合環境データによる建築活動の検出に向けて

Towards the Detection of Building Occupancy with Synthetic Environmental Data ( http://arxiv.org/abs/2010.04209v1 )

ライセンス: Link先を確認
Manuel Weber, Christoph Doblander and Peter Mandl(参考訳) ビルの自動化やエネルギーパフォーマンスシミュレーションなど、多くのビル関連のタスクでは、部屋レベルの占有状況に関する情報が不可欠である。 現在の占有者検出文献はデータ駆動方式に重点を置いているが、ほとんどは部屋が少ない小さなケーススタディに基づいている。 関心の部屋ごとに部屋固有のデータを収集する必要性は、機械学習、特にデータ集約型ディープラーニングアプローチの適用性を妨げている。 少ないデータから正確な予測を得るため,合成データからの知識伝達を提案する。 本稿では,オフィスルームにおけるCO$_2$センサのデータと,シミュレーションから得られた追加の合成データを用いて実験を行う。 私たちの貢献には (a)ランダムな占有行動下におけるco$_2$ダイナミクスのシミュレーション手法 (b)シミュレーションによるco$_2$データからの知識伝達概念の証明、及び (c)今後の研究の意義の概要 結果から,トランスファーアプローチは,モデルトレーニングに必要なデータ量を効果的に削減できると結論付けることができる。

Information about room-level occupancy is crucial to many building-related tasks, such as building automation or energy performance simulation. Current occupancy detection literature focuses on data-driven methods, but is mostly based on small case studies with few rooms. The necessity to collect room-specific data for each room of interest impedes applicability of machine learning, especially data-intensive deep learning approaches, in practice. To derive accurate predictions from less data, we suggest knowledge transfer from synthetic data. In this paper, we conduct an experiment with data from a CO$_2$ sensor in an office room, and additional synthetic data obtained from a simulation. Our contribution includes (a) a simulation method for CO$_2$ dynamics under randomized occupant behavior, (b) a proof of concept for knowledge transfer from simulated CO$_2$ data, and (c) an outline of future research implications. From our results, we can conclude that the transfer approach can effectively reduce the required amount of data for model training.
翻訳日:2022-10-09 12:42:41 公開日:2020-10-08
# 繰り返しスキップ接続を用いたエンコーダデコーダを用いたモータダイナミクスのモデル化

Modeling Electrical Motor Dynamics using Encoder-Decoder with Recurrent Skip Connection ( http://arxiv.org/abs/2010.05771v1 )

ライセンス: Link先を確認
Sagar Verma, Nicolas Henwood, Marc Castella, Francois Malrait, Jean-Christophe Pesquet(参考訳) 電気モーターは産業界で最も重要な機械エネルギー源である。 彼らのモデリングは伝統的に物理学に基づくアプローチに依存しており、複雑な内部力学を考慮に入れている。 本稿では、入力と出力のみを使用し、内部動作を前提にしないデータ駆動型アプローチにより、電気モータのダイナミクスをモデル化する可能性について検討する。 繰り返しスキップ接続の利点を生かした新しいエンコーダデコーダアーキテクチャを提案する。 また,電気モータ量の複雑さを考慮し,モデルバイアスを回避する新しい損失関数を提案する。 提案アーキテクチャは,我々の高周波高分散データセット上で優れた学習性能が得られることを示す。 2つのデータセットが考慮され、第1のデータセットは誘導電動機の物理に基づいてシミュレータを用いて生成され、第2のデータセットは産業用電気電動機から記録される。 私たちは、feedforward、convolutional、recurrent networkといった従来のニューラルネットワークの変種を使って、ソリューションをベンチマークします。 アーキテクチャのさまざまな設計選択を評価し、ベースラインと比較します。 本研究では,モデルが生のセンサデータでテストすることにより,シミュレーションデータからのみダイナミクスを学習できる領域適応能力を示す。 最後に,信号の複雑性が時間ダイナミクスをモデル化する手法に与える影響を示す。

Electrical motors are the most important source of mechanical energy in the industrial world. Their modeling traditionally relies on a physics-based approach, which aims at taking their complex internal dynamics into account. In this paper, we explore the feasibility of modeling the dynamics of an electrical motor by following a data-driven approach, which uses only its inputs and outputs and does not make any assumption on its internal behaviour. We propose a novel encoder-decoder architecture which benefits from recurrent skip connections. We also propose a novel loss function that takes into account the complexity of electrical motor quantities and helps in avoiding model bias. We show that the proposed architecture can achieve a good learning performance on our high-frequency high-variance datasets. Two datasets are considered: the first one is generated using a simulator based on the physics of an induction motor and the second one is recorded from an industrial electrical motor. We benchmark our solution using variants of traditional neural networks like feedforward, convolutional, and recurrent networks. We evaluate various design choices of our architecture and compare it to the baselines. We show the domain adaptation capability of our model to learn dynamics just from simulated data by testing it on the raw sensor data. We finally show the effect of signal complexity on the proposed method ability to model temporal dynamics.
翻訳日:2022-10-09 12:42:01 公開日:2020-10-08
# 逐次ハロウィントップkオペレーター

Successive Halving Top-k Operator ( http://arxiv.org/abs/2010.15552v1 )

ライセンス: Link先を確認
Micha{\l} Pietruszka, {\L}ukasz Borchmann, Filip Grali\'nski(参考訳) 本稿では,top-k演算子を緩和し,勾配に基づく最適化を実現するための微分可能な逐次半減法を提案する。 トーナメント方式の選択を用いて、スコアのベクトル全体に対してソフトマックスを反復的に行う必要性を回避する。 その結果,従来の手法に比べて計算コストの少ないtop-kの近似精度が向上した。

We propose a differentiable successive halving method of relaxing the top-k operator, rendering gradient-based optimization possible. The need to perform softmax iteratively on the entire vector of scores is avoided by using a tournament-style selection. As a result, a much better approximation of top-k with lower computational cost is achieved compared to the previous approach.
翻訳日:2022-10-09 12:41:42 公開日:2020-10-08
# 局所面埋め込みカラー画像における3次元物体検出と非知覚物体のポーズ推定

3D Object Detection and Pose Estimation of Unseen Objects in Color Images with Local Surface Embeddings ( http://arxiv.org/abs/2010.04075v1 )

ライセンス: Link先を確認
Giorgia Pitteri, Aur\'elie Bugeau, Slobodan Ilic, Vincent Lepetit(参考訳) 本稿では,画像中のオブジェクトの3次元ポーズを非テキストcadモデルのみで検出し,新たなオブジェクトのトレーニングフェーズを必要とせずに推定する手法を提案する。 我々のアプローチはディープラーニングと3D幾何を組み合わせており、CADモデルと入力画像とのマッチングを局所的な3D幾何の埋め込みに依存している。 物体の表面上の点について、この埋め込みはCADモデルから直接計算することができる。 これにより、CADモデル上の3D点と入力画像の2D位置との対応性を確立する。 しかし、これらの対応の多くは、多くの点が同様の局所幾何学を持つため曖昧である。 mask-rcnnはクラスに依存しない方法で新しいオブジェクトを再トレーニングすることなく検出できるため、可能な対応数が大幅に制限される。 そして、RANSACのようなアルゴリズムを用いて、これらの識別的対応から3次元のポーズを頑健に推定できる。 我々は,T-LESSデータセット上で,少数のオブジェクトを用いて他のオブジェクトへの埋め込みとテストの学習を行うことにより,このアプローチの性能を実証する。 実験の結果,本手法は従来手法と同等かそれ以上であることがわかった。

We present an approach for detecting and estimating the 3D poses of objects in images that requires only an untextured CAD model and no training phase for new objects. Our approach combines Deep Learning and 3D geometry: It relies on an embedding of local 3D geometry to match the CAD models to the input images. For points at the surface of objects, this embedding can be computed directly from the CAD model; for image locations, we learn to predict it from the image itself. This establishes correspondences between 3D points on the CAD model and 2D locations of the input images. However, many of these correspondences are ambiguous as many points may have similar local geometries. We show that we can use Mask-RCNN in a class-agnostic way to detect the new objects without retraining and thus drastically limit the number of possible correspondences. We can then robustly estimate a 3D pose from these discriminative correspondences using a RANSAC- like algorithm. We demonstrate the performance of this approach on the T-LESS dataset, by using a small number of objects to learn the embedding and testing it on the other objects. Our experiments show that our method is on par or better than previous methods.
翻訳日:2022-10-09 12:34:53 公開日:2020-10-08
# 実材料による深部svbrdf推定

Deep SVBRDF Estimation on Real Materials ( http://arxiv.org/abs/2010.04143v1 )

ライセンス: Link先を確認
Louis-Philippe Asselin, Denis Laurendeau, Jean-Fran\c{c}ois Lalonde(参考訳) 近年の研究では, 深層学習手法を用いて, 表面の空間変化のあるBRDF (SVBRDF) の正確な推定値を, 単一画像から再現できることが示されている。 しかし、より綿密な検査によって、文学におけるほとんどのアプローチは純粋に合成データに基づいて訓練されており、多様で現実的なものの、現実世界の豊かさを表すものではないことが分かる。 本稿では,このようなネットワークを合成データのみにトレーニングすることは,実データでテストした場合に十分な結果を得るには不十分であることを示す。 本分析では,新しい携帯型マルチライトキャプチャ装置を用いて得られた実物体のデータセットを活用する。 一連の実験と、新しいディープラーニングアーキテクチャの使用を通じて、実データの結果を改善するための2つの戦略、微調整と材料ごとの最適化手順について検討する。 実データにネットワーク重みを適応させることが重要であり, 実データ上でのSVBRDF推定手法を著しく上回っていることを示す。 データセットとコードはhttps://lvsn.github.io/real-svbrdfで利用可能

Recent work has demonstrated that deep learning approaches can successfully be used to recover accurate estimates of the spatially-varying BRDF (SVBRDF) of a surface from as little as a single image. Closer inspection reveals, however, that most approaches in the literature are trained purely on synthetic data, which, while diverse and realistic, is often not representative of the richness of the real world. In this paper, we show that training such networks exclusively on synthetic data is insufficient to achieve adequate results when tested on real data. Our analysis leverages a new dataset of real materials obtained with a novel portable multi-light capture apparatus. Through an extensive series of experiments and with the use of a novel deep learning architecture, we explore two strategies for improving results on real data: finetuning, and a per-material optimization procedure. We show that adapting network weights to real data is of critical importance, resulting in an approach which significantly outperforms previous methods for SVBRDF estimation on real materials. Dataset and code are available at https://lvsn.github.io/real-svbrdf
翻訳日:2022-10-09 12:34:36 公開日:2020-10-08
# 一般消費者向けRGBカメラを用いた顔認識におけるアンチスプーフィング法の検討

A Survey On Anti-Spoofing Methods For Face Recognition with RGB Cameras of Generic Consumer Devices ( http://arxiv.org/abs/2010.04145v1 )

ライセンス: Link先を確認
Zuheng Ming, Muriel Visani, Muhammad Muzzamil Luqman, Jean-Christophe Burie(参考訳) 顔認識に基づく生体認証システムの普及により、顔提示攻撃検出(対スプーフィング)がますます重要になっている。 本調査では,過去20年間で一般消費者端末のRGBカメラのみを必要とする顔提示検出(PAD)手法を徹底的に検討した。 本稿では,既存の顔PAD手法の攻撃シナリオ指向型について述べるとともに,最新の顔PAD手法の50以上について,その問題点について概説する。 本研究は, 提案した型別および時系列順に, 顔PADに最も影響を及ぼす手法を包括的に提示する。 このようにして、顔PADの分野における主な課題、進化、現在のトレンドを描き、今後の研究についての洞察を提供する。 実験的な観点から,本研究では利用可能な公開データベースの概要と,異なるPAD法との比較実験結果について概説する。

The widespread deployment of face recognition-based biometric systems has made face Presentation Attack Detection (face anti-spoofing) an increasingly critical issue. This survey thoroughly investigates the face Presentation Attack Detection (PAD) methods, that only require RGB cameras of generic consumer devices, over the past two decades. We present an attack scenario-oriented typology of the existing face PAD methods and we provide a review of over 50 of the most recent face PAD methods and their related issues. We adopt a comprehensive presentation of the methods that have most influenced face PAD following the proposed typology, and in chronological order. By doing so, we depict the main challenges, evolutions and current trends in the field of face PAD, and provide insights on its future research. From an experimental point of view, this survey paper provides a summarized overview of the available public databases and extensive comparative experimental results of different PAD methods.
翻訳日:2022-10-09 12:34:19 公開日:2020-10-08
# 言語特徴の分析による偽レビューの検出

Fake Reviews Detection through Analysis of Linguistic Features ( http://arxiv.org/abs/2010.04260v1 )

ライセンス: Link先を確認
Faranak Abri, Luis Felipe Gutierrez, Akbar Siami Namin, Keith S. Jones, David R. W. Sears(参考訳) オンラインレビューは、ビジネスの成功や失敗に不可欠な役割を果たす。 サービスや商品を購入する前に、顧客はまず、前の顧客が提出したオンラインコメントをレビューする。 しかし、偽造や偽レビューを投稿することで、一部のビジネスを表面的に強化または妨げることができる。 本稿では,偽レビューを識別する自然言語処理手法を提案する。 ニセモノと信頼できるオンラインレビューを識別するための言語的特徴を詳細に分析する。 本研究では,15の言語的特徴について検討し,その意義と重要性を考察した。 以上の結果から,偽レビューには冗長な用語やポーズが多く,文が長くなる傾向が示唆された。 複数の機械学習分類アルゴリズムの適用により、これらの言語的特徴を用いて、実際のレビューから偽の識別を高精度に行うことができた。

Online reviews play an integral part for success or failure of businesses. Prior to purchasing services or goods, customers first review the online comments submitted by previous customers. However, it is possible to superficially boost or hinder some businesses through posting counterfeit and fake reviews. This paper explores a natural language processing approach to identify fake reviews. We present a detailed analysis of linguistic features for distinguishing fake and trustworthy online reviews. We study 15 linguistic features and measure their significance and importance towards the classification schemes employed in this study. Our results indicate that fake reviews tend to include more redundant terms and pauses, and generally contain longer sentences. The application of several machine learning classification algorithms revealed that we were able to discriminate fake from real reviews with high accuracy using these linguistic features.
翻訳日:2022-10-09 12:33:30 公開日:2020-10-08
# Decamouflage:畳み込みニューラルネットワーク上のイメージスケーリング攻撃を検出するフレームワーク

Decamouflage: A Framework to Detect Image-Scaling Attacks on Convolutional Neural Networks ( http://arxiv.org/abs/2010.03735v1 )

ライセンス: Link先を確認
Bedeuro Kim, Alsharif Abuadbba, Yansong Gao, Yifeng Zheng, Muhammad Ejaz Ahmed, Hyoungshick Kim, Surya Nepal(参考訳) コンピュータビジョンアプリケーションにおける重要な処理ステップとして、画像リサイズまたはスケーリング、具体的にはダウンサンプリングは、通常大きな画像を畳み込みニューラルネットワーク(CNN)モデルに入力する前に適用する必要がある。 しかし、画像スケーリング機能は、画像スケーリング機能上に構築された幅広いコンピュータビジョンアプリケーションに影響を与えるイメージスケーリングアタックと呼ばれる新たな攻撃を実行するために、敵対的に悪用される可能性がある。 本稿では,デカモフラージュと呼ばれる画像スケーリング攻撃検出フレームワークを提案する。 デカモフラージュは、(1)再スケーリング、(2)フィルタリング/プール、(3)ステガナリシスの3つの独立した検出方法からなる。 これら3つの手法はいずれも効率的だが,検出精度の向上だけでなく,潜在的なアダプティブアタックの強化にも役立てることができる。 デカモフラージュは、事前に決められた検出しきい値を持ち、汎用的である。 さらに正確には、検証したように、あるデータセットから決定される閾値は他のデータセットにも適用できます。 デカモフラージュは(攻撃アルゴリズムの知識のない)ホワイトボックスとブラックボックスの設定において(攻撃アルゴリズムの知識のない)検出精度99.9.%と99.8.%を達成する。 デカモフラージュの効率を高めるため、i5 cpuを搭載したパーソナルpc上での実行時間オーバーヘッドを測定し、デカモフラージュがミリ秒でイメージスケーリング攻撃を検出できることを発見した。 全体的に、decamouflageは、ホワイトボックスとブラックボックスの両方の設定で、実行時のオーバーヘッドを許容して、イメージスケーリング攻撃を正確に検出することができる。

As an essential processing step in computer vision applications, image resizing or scaling, more specifically downsampling, has to be applied before feeding a normally large image into a convolutional neural network (CNN) model because CNN models typically take small fixed-size images as inputs. However, image scaling functions could be adversarially abused to perform a newly revealed attack called image-scaling attack, which can affect a wide range of computer vision applications building upon image-scaling functions. This work presents an image-scaling attack detection framework, termed as Decamouflage. Decamouflage consists of three independent detection methods: (1) rescaling, (2) filtering/pooling, and (3) steganalysis. While each of these three methods is efficient standalone, they can work in an ensemble manner not only to improve the detection accuracy but also to harden potential adaptive attacks. Decamouflage has a pre-determined detection threshold that is generic. More precisely, as we have validated, the threshold determined from one dataset is also applicable to other different datasets. Extensive experiments show that Decamouflage achieves detection accuracy of 99.9\% and 99.8\% in the white-box (with the knowledge of attack algorithms) and the black-box (without the knowledge of attack algorithms) settings, respectively. To corroborate the efficiency of Decamouflage, we have also measured its run-time overhead on a personal PC with an i5 CPU and found that Decamouflage can detect image-scaling attacks in milliseconds. Overall, Decamouflage can accurately detect image scaling attacks in both white-box and black-box settings with acceptable run-time overhead.
翻訳日:2022-10-09 12:26:04 公開日:2020-10-08
# 衛星画像操作検出のための生成自己回帰アンサンブル

Generative Autoregressive Ensembles for Satellite Imagery Manipulation Detection ( http://arxiv.org/abs/2010.03758v1 )

ライセンス: Link先を確認
Daniel Mas Montserrat, J\'anos Horv\'ath, S. K. Yarlagadda, Fengqing Zhu, Edward J. Delp(参考訳) 衛星画像は、軌道を周回する商用衛星の増加により、ますますアクセスしやすくなっている。 農業管理、気象予測、自然災害による被害評価、地図作成といった多くの応用例がその一例である。 残念なことに、これらの画像は簡単に改ざんでき、下流のアプリケーションにダメージを与える画像操作ツールで修正できる。 画像に適用される操作の性質は一般に不明であるため、使用した改ざん技術に関する事前知識を必要としない教師なしの手法が好まれる。 本稿では,生成的自己回帰モデルのアンサンブルを用いて画像の画素分布をモデル化し,潜在的な操作を検出する。 提案手法の性能を評価し,従来の手法と比較して正確な位置推定結果を得た。

Satellite imagery is becoming increasingly accessible due to the growing number of orbiting commercial satellites. Many applications make use of such images: agricultural management, meteorological prediction, damage assessment from natural disasters, or cartography are some of the examples. Unfortunately, these images can be easily tampered and modified with image manipulation tools damaging downstream applications. Because the nature of the manipulation applied to the image is typically unknown, unsupervised methods that don't require prior knowledge of the tampering techniques used are preferred. In this paper, we use ensembles of generative autoregressive models to model the distribution of the pixels of the image in order to detect potential manipulations. We evaluate the performance of the presented approach obtaining accurate localization results compared to previously presented approaches.
翻訳日:2022-10-09 12:25:22 公開日:2020-10-08
# DBLFace: NIR-VIS異種顔認識のためのドメインベースラベル

DBLFace: Domain-Based Labels for NIR-VIS Heterogeneous Face Recognition ( http://arxiv.org/abs/2010.03771v1 )

ライセンス: Link先を確認
Ha Le and Ioannis A. Kakadiaris(参考訳) 深層学習に基づくドメイン不変の特徴学習手法は近赤外・可視(NIR-VIS)異種顔認識において進歩している。 しかし、これらの手法は、クラス内の大きな変動とトレーニングのためのNIR画像の欠如により、過度に適合する傾向にある。 本稿では,対象が単一のラベルではなく,ラベルの集合によって表現されるという仮定に基づく学習手法であるDomain-Based Label Face(DBLFace)を紹介する。 各ラベルは特定のドメインの画像を表す。 特に、NIR画像とVIS画像の2つのラベルセットを用いて、NIR-VIS顔認識モデルのトレーニングを行う。 画像の異なる領域への分類は、クラス内の変動を減らし、トレーニングにおけるデータ不均衡の負の影響を減らす。 ラベルの集合でネットワークを訓練するために、ドメインベースの角マージン損失と最大角マージン損失を導入し、クラス間の不一致を維持し、セット内のラベルの密接な関係を強制する。 定量的実験により、DBLFaceはEDGE20データセットでランク1の識別率を6.7%改善し、CAIA NIR-VIS 2.0データセットで最先端のパフォーマンスを達成した。

Deep learning-based domain-invariant feature learning methods are advancing in near-infrared and visible (NIR-VIS) heterogeneous face recognition. However, these methods are prone to overfitting due to the large intra-class variation and the lack of NIR images for training. In this paper, we introduce Domain-Based Label Face (DBLFace), a learning approach based on the assumption that a subject is not represented by a single label but by a set of labels. Each label represents images of a specific domain. In particular, a set of two labels per subject, one for the NIR images and one for the VIS images, are used for training a NIR-VIS face recognition model. The classification of images into different domains reduces the intra-class variation and lessens the negative impact of data imbalance in training. To train a network with sets of labels, we introduce a domain-based angular margin loss and a maximum angular loss to maintain the inter-class discrepancy and to enforce the close relationship of labels in a set. Quantitative experiments confirm that DBLFace significantly improves the rank-1 identification rate by 6.7% on the EDGE20 dataset and achieves state-of-the-art performance on the CASIA NIR-VIS 2.0 dataset.
翻訳日:2022-10-09 12:25:11 公開日:2020-10-08
# BGM:軌跡予測のための画像のない動的誘導マップの構築

BGM: Building a Dynamic Guidance Map without Visual Images for Trajectory Prediction ( http://arxiv.org/abs/2010.03897v1 )

ライセンス: Link先を確認
Beihao Xia, Conghao Wong, Heng Li, Shiming Chen, Qinmu Peng, Xinge You(参考訳) 視覚イメージは通常、環境の情報的コンテキストを含み、エージェントの振る舞いを予測するのに役立つ。 しかし、それらはそれぞれ固定された意味論のためにエージェントの実際の振る舞いに動的効果を課すことはほとんどない。 この問題を解決するために,動的セマンティクスを表現するためのガイダンスマップを構築するためのBGMという決定論的モデルを提案する。 まず、シーン内のすべてのエージェントのアクティビティを、現在に近い期間に記録し、ガイダンスマップを作成し、コンテキストcnnに送信して、コンテキストの特徴を取得します。 過去の軌道エンコーダを用いて軌道の特徴を抽出し,社会エネルギーに基づく軌道デコーダの入力として文脈特徴と組み合わせ,社会ルールに適合する予測を得る。 実験により、BGMは広く使われているETHとUCYの2つのデータセットに対して最先端の予測精度を達成し、より複雑なシナリオを処理することが示された。

Visual images usually contain the informative context of the environment, thereby helping to predict agents' behaviors. However, they hardly impose the dynamic effects on agents' actual behaviors due to the respectively fixed semantics. To solve this problem, we propose a deterministic model named BGM to construct a guidance map to represent the dynamic semantics, which circumvents to use visual images for each agent to reflect the difference of activities in different periods. We first record all agents' activities in the scene within a period close to the current to construct a guidance map and then feed it to a Context CNN to obtain their context features. We adopt a Historical Trajectory Encoder to extract the trajectory features and then combine them with the context feature as the input of the social energy based trajectory decoder, thus obtaining the prediction that meets the social rules. Experiments demonstrate that BGM achieves state-of-the-art prediction accuracy on the two widely used ETH and UCY datasets and handles more complex scenarios.
翻訳日:2022-10-09 12:24:48 公開日:2020-10-08
# watch, read, lookup: 複数のスーパーバイザーからのサインを見つけるための学習

Watch, read and lookup: learning to spot signs from multiple supervisors ( http://arxiv.org/abs/2010.04002v1 )

ライセンス: Link先を確認
Liliane Momeni, G\"ul Varol, Samuel Albanie, Triantafyllos Afouras, Andrew Zisserman(参考訳) この作業の焦点は、サインスポッティング(Sign spotting)である - 孤立したサインのビデオを考えると、我々のタスクは、署名が連続的かつ協調的な手話ビデオで、どこで署名されたかを特定することです。 このサインスポッティングタスクを実現するために,(1)既存の少ないラベル付き映像を見ること,(2)関連字幕(署名されたコンテンツの可読な翻訳)を読むこと,(3)視覚手話辞書で単語を検索すること(共同字幕付き例は使用できない)により,新しい手話スポッティングを可能にする。 これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。 提案手法の有効性を低ショット符号スポッティングベンチマークで検証する。 また,本課題の研究を容易にするために,分離記号bsldictを用いた機械可読ブリティッシュ・サイン言語(bsl)辞書データセットを提案する。 データセット、モデル、コードはプロジェクトのページで利用可能です。

The focus of this work is sign spotting - given a video of an isolated sign, our task is to identify whether and where it has been signed in a continuous, co-articulated sign language video. To achieve this sign spotting task, we train a model using multiple types of available supervision by: (1) watching existing sparsely labelled footage; (2) reading associated subtitles (readily available translations of the signed content) which provide additional weak-supervision; (3) looking up words (for which no co-articulated labelled examples are available) in visual sign language dictionaries to enable novel sign spotting. These three tasks are integrated into a unified learning framework using the principles of Noise Contrastive Estimation and Multiple Instance Learning. We validate the effectiveness of our approach on low-shot sign spotting benchmarks. In addition, we contribute a machine-readable British Sign Language (BSL) dictionary dataset of isolated signs, BSLDict, to facilitate study of this task. The dataset, models and code are available at our project page.
翻訳日:2022-10-09 12:24:31 公開日:2020-10-08
# 異なる抽象レベルで命令を生成する

Generating Instructions at Different Levels of Abstraction ( http://arxiv.org/abs/2010.03982v1 )

ライセンス: Link先を確認
Arne K\"ohn and Julia Wichlacz and \'Alvaro Torralba and Daniel H\"oller and J\"org Hoffmann and Alexander Koller(参考訳) 技術的な命令を生成する場合、異なる抽象レベルで世界の複雑なオブジェクトを記述するのが便利です。 初心者は、断片的に説明されたオブジェクトを必要とするかもしれないが、専門家にとって、複雑なオブジェクト(例えば壁や手すり)を直接話すことは、より簡潔で効率的であるかもしれない。 Minecraftで異なるレベルの抽象化で構築手順を生成する方法を示す。 本稿では,複雑な物体の構造を正確に把握するAI計画法である階層的計画法について紹介する。 クラウドソーシングの評価では、抽象化レベルの選択はユーザにとって重要であり、低レベルと高レベルのオブジェクト記述のバランスをとる抽象化戦略は、そうでないものと好ましく比較される。

When generating technical instructions, it is often convenient to describe complex objects in the world at different levels of abstraction. A novice user might need an object explained piece by piece, while for an expert, talking about the complex object (e.g. a wall or railing) directly may be more succinct and efficient. We show how to generate building instructions at different levels of abstraction in Minecraft. We introduce the use of hierarchical planning to this end, a method from AI planning which can capture the structure of complex objects neatly. A crowdsourcing evaluation shows that the choice of abstraction level matters to users, and that an abstraction strategy which balances low-level and high-level object descriptions compares favorably to ones which don't.
翻訳日:2022-10-09 12:17:06 公開日:2020-10-08
# GRADE:オープンドメイン対話システム評価のためのグラフ拡張コヒーレンスメトリック

GRADE: Automatic Graph-Enhanced Coherence Metric for Evaluating Open-Domain Dialogue Systems ( http://arxiv.org/abs/2010.03994v1 )

ライセンス: Link先を確認
Lishan Huang, Zheng Ye, Jinghui Qin, Liang Lin, Xiaodan Liang(参考訳) 対話コヒーレンスの自動評価は、高品質なオープンドメイン対話システムを開発する上で難しいが、要求の高い能力である。 しかし、現在の評価指標は、対話フローの詳細なトピック遷移ダイナミクスを明示的に考慮することなく、表面的特徴や発話レベルの意味論のみを考慮する。 本稿ではまず,対話中の話題からなるグラフ構造が,説得力のあるメトリクスを生成するためのより自然な方法である基礎となるコミュニケーション論理を正確に表現できると考える。 トピックレベルの対話グラフに着目し,対話の自動評価のためのグラフエンハンス表現を表す新しい評価基準のグレードを提案する。 具体的には、対話コヒーレンスを評価するために、粗粒度発話レベルの文脈化表現と細粒度トピックレベルのグラフ表現の両方を組み込んでいる。 グラフ表現は、kホップ隣接表現やホップアテンション重みを含むコモンセンスグラフの証拠により強化されたトピックレベルの対話グラフを推論することによって得られる。 実験の結果, ピアソンとスピアマンの相関関係から, 対話モデルの多種多様な測定において, 評価基準が有意な差を示した。 また、自動メトリクスの今後の研究を促進するために、新しい大規模人体評価ベンチマークをリリースする。

Automatically evaluating dialogue coherence is a challenging but high-demand ability for developing high-quality open-domain dialogue systems. However, current evaluation metrics consider only surface features or utterance-level semantics, without explicitly considering the fine-grained topic transition dynamics of dialogue flows. Here, we first consider that the graph structure constituted with topics in a dialogue can accurately depict the underlying communication logic, which is a more natural way to produce persuasive metrics. Capitalized on the topic-level dialogue graph, we propose a new evaluation metric GRADE, which stands for Graph-enhanced Representations for Automatic Dialogue Evaluation. Specifically, GRADE incorporates both coarse-grained utterance-level contextualized representations and fine-grained topic-level graph representations to evaluate dialogue coherence. The graph representations are obtained by reasoning over topic-level dialogue graphs enhanced with the evidence from a commonsense graph, including k-hop neighboring representations and hop-attention weights. Experimental results show that our GRADE significantly outperforms other state-of-the-art metrics on measuring diverse dialogue models in terms of the Pearson and Spearman correlations with human judgements. Besides, we release a new large-scale human evaluation benchmark to facilitate future research on automatic metrics.
翻訳日:2022-10-09 12:16:54 公開日:2020-10-08
# ウィノグラードスキーマ評価におけるタスクの精密化

Precise Task Formalization Matters in Winograd Schema Evaluations ( http://arxiv.org/abs/2010.04043v1 )

ライセンス: Link先を確認
Haokun Liu, William Huang, Dhara A. Mungra, Samuel R. Bowman(参考訳) 英国の常識推論ベンチマークであるwinograd schema challenge(wsc)のパフォーマンスは、最近、偶然の正確さから、スーパーグルーのリーダーボード上で89%に上昇した。 この改善の多くは、事前トレーニングモデルの推論能力の改善ではなく、データセットのユーザによる、入力仕様、損失関数、および事前トレーニングパラメータの再利用の組み合わせによる、最近のタスクフォーマイゼーションの変化によるものだと仮定します。 2つのWinograd Schemaデータセット上でアブレーションを行い、このサージ前後の形式化を補間し、発見する。 (i)複数の選択としてタスクをフレーミングすることで、性能が2~6ポイント向上する (ii)事前訓練された言語モデリングヘッドの再利用を含むいくつかの追加技術は、ハイパーパラメータに対するモデルの極端な感度を軽減することができる。 今後のベンチマーククリエーターには、報告結果に対する形式化決定の影響を最小限に抑えるため、追加構造を課すよう求めます。

Performance on the Winograd Schema Challenge (WSC), a respected English commonsense reasoning benchmark, recently rocketed from chance accuracy to 89% on the SuperGLUE leaderboard, with relatively little corroborating evidence of a correspondingly large improvement in reasoning ability. We hypothesize that much of this improvement comes from recent changes in task formalization---the combination of input specification, loss function, and reuse of pretrained parameters---by users of the dataset, rather than improvements in the pretrained model's reasoning ability. We perform an ablation on two Winograd Schema datasets that interpolates between the formalizations used before and after this surge, and find (i) framing the task as multiple choice improves performance by 2-6 points and (ii) several additional techniques, including the reuse of a pretrained language modeling head, can mitigate the model's extreme sensitivity to hyperparameters. We urge future benchmark creators to impose additional structure to minimize the impact of formalization decisions on reported results.
翻訳日:2022-10-09 12:16:32 公開日:2020-10-08
# 文章ペア課題に対する効率的なニューラルアーキテクチャ探索の有効性評価

Evaluating the Effectiveness of Efficient Neural Architecture Search for Sentence-Pair Tasks ( http://arxiv.org/abs/2010.04249v1 )

ライセンス: Link先を確認
Ansel MacLaughlin, Jwala Dhamala, Anoop Kumar, Sriram Venkatapathy, Ragav Venkatesan, Rahul Gupta(参考訳) ニューラル・アーキテクチャ・サーチ(NAS)手法は、最近、言語モデリング、自然言語推論、画像分類を含む様々な自然言語処理やコンピュータビジョンタスクにおいて、競争力または最先端(SOTA)のパフォーマンスを達成した。 本研究では,SOTAのNASアルゴリズムであるENAS(Efficient Neural Architecture Search, Pham et al., 2018)をパラフレーズ検出と意味的テキスト類似性という2つの文対タスクに適用可能であるかを検討する。 ENASを用いてマイクロレベル検索を行い,タスク最適化されたRNNセルアーキテクチャをLSTMのドロップイン置換として学習する。 我々は,3つのデータセット(MRPC,SICK,STS-B),2つのモデル(ESIM,BiLSTM-Max),2つの組の埋め込み(Glove,BERT)によるENASの有効性について検討した。 NLP タスクに ENAS を適用する以前の作業とは対照的に,私たちの結果は多岐にわたる – ENAS アーキテクチャが LSTM を上回り,ランダムなアーキテクチャ検索と同じような動作を行う場合もあります。

Neural Architecture Search (NAS) methods, which automatically learn entire neural model or individual neural cell architectures, have recently achieved competitive or state-of-the-art (SOTA) performance on variety of natural language processing and computer vision tasks, including language modeling, natural language inference, and image classification. In this work, we explore the applicability of a SOTA NAS algorithm, Efficient Neural Architecture Search (ENAS) (Pham et al., 2018) to two sentence pair tasks, paraphrase detection and semantic textual similarity. We use ENAS to perform a micro-level search and learn a task-optimized RNN cell architecture as a drop-in replacement for an LSTM. We explore the effectiveness of ENAS through experiments on three datasets (MRPC, SICK, STS-B), with two different models (ESIM, BiLSTM-Max), and two sets of embeddings (Glove, BERT). In contrast to prior work applying ENAS to NLP tasks, our results are mixed -- we find that ENAS architectures sometimes, but not always, outperform LSTMs and perform similarly to random architecture search.
翻訳日:2022-10-09 12:15:30 公開日:2020-10-08
# ニューラルモデルを用いたパーシング音声におけるスタイルの役割について

On the Role of Style in Parsing Speech with Neural Models ( http://arxiv.org/abs/2010.04288v1 )

ライセンス: Link先を確認
Trang Tran, Jiahong Yuan, Yang Liu, Mari Ostendorf(参考訳) 文字と会話音声の違いは極めて大きいが、木々で訓練された以前のパーサーは自然発話に非常に悪い結果をもたらした。 音声言語では、スタイルミスマッチは韻律的手がかりにも及ぶが、あまりよく理解されていない。 本稿では,近年のニューラルネットワーク処理の進歩を背景として,音声解析におけるテキストの利用を再検討する。 本研究は, 自発音声のパーシングを改善するために, 書き起こしテキストの活用が促進されることを示し, プロソディは, この最先端の結果よりもさらに改善されていることを示す。 さらに,自然発話がパーサーの学習に有用であるように,読み取りと自発的ミスマッチの非対称な劣化がみられた。

The differences in written text and conversational speech are substantial; previous parsers trained on treebanked text have given very poor results on spontaneous speech. For spoken language, the mismatch in style also extends to prosodic cues, though it is less well understood. This paper re-examines the use of written text in parsing speech in the context of recent advances in neural language processing. We show that neural approaches facilitate using written text to improve parsing of spontaneous speech, and that prosody further improves over this state-of-the-art result. Further, we find an asymmetric degradation from read vs. spontaneous mismatch, with spontaneous speech more generally useful for training parsers.
翻訳日:2022-10-09 12:15:08 公開日:2020-10-08
# 子どもの発話における拡散の分析

Analysis of Disfluency in Children's Speech ( http://arxiv.org/abs/2010.04293v1 )

ライセンス: Link先を確認
Trang Tran, Morgan Tinkler, Gary Yeung, Abeer Alwan, Mari Ostendorf(参考訳) 分散は、成人スピーチの多くの研究で示されているように、自然発話でよく見られる。 子どものスピーチ、特にまだ言語スキルを身につけている幼児についてはあまり理解されていない。 そこで本研究では,26歳児(5~8歳)の自発的説明に注釈付き不均一性を示す新しいデータセットを提案する。 予備分析では,2つのコーパス (Switchboard と CallHome) から発声した子どもの発話と成人の自然発話との間に有意な差異が認められた。 子どもたちは、拡散率とフィラー率が高く、鼻腔充填停止が頻繁に使用される傾向があり、成人の話者とは対照的に、修理よりも長い口蓋を見せる傾向にある。 これらの違いにもかかわらず、大人(スイッチボード)音声書き起こしで訓練された自動不規則検出システムは、子どもの発話に対して合理的に良好に動作し、成人のアウトオブドメインデータセット(CallHome)のスコアよりも10倍高いF1スコアを達成する。

Disfluencies are prevalent in spontaneous speech, as shown in many studies of adult speech. Less is understood about children's speech, especially in pre-school children who are still developing their language skills. We present a novel dataset with annotated disfluencies of spontaneous explanations from 26 children (ages 5--8), interviewed twice over a year-long period. Our preliminary analysis reveals significant differences between children's speech in our corpus and adult spontaneous speech from two corpora (Switchboard and CallHome). Children have higher disfluency and filler rates, tend to use nasal filled pauses more frequently, and on average exhibit longer reparandums than repairs, in contrast to adult speakers. Despite the differences, an automatic disfluency detection system trained on adult (Switchboard) speech transcripts performs reasonably well on children's speech, achieving an F1 score that is 10\% higher than the score on an adult out-of-domain dataset (CallHome).
翻訳日:2022-10-09 12:14:54 公開日:2020-10-08
# ニューラルネットワーク翻訳のための浅深度学習

Shallow-to-Deep Training for Neural Machine Translation ( http://arxiv.org/abs/2010.03737v1 )

ライセンス: Link先を確認
Bei Li, Ziyang Wang, Hui Liu, Yufan Jiang, Quan Du, Tong Xiao, Huizhen Wang and Jingbo Zhu(参考訳) ディープエンコーダはニューラルネットワーク翻訳(NMT)システムの改善に有効であることが証明されているが、非常にディープエンコーダのトレーニングには時間がかかる。 さらに、なぜディープモデルがNMTに役立つのかという疑問もある。 本稿では,よく調整された深層変圧器の挙動について検討する。 積層層はNMTモデルの表現能力の向上に有効であり, 隣接する層も同様に機能することがわかった。 これにより,浅層モデルの積み重ねによる深層モデルの学習を行う浅層から深層への学習法が開発される。 このようにして、54層エンコーダを用いたトランスフォーマーシステムのトレーニングに成功した。 wmt'16英語-ドイツ語とwmt'14英語-フランス語の翻訳タスクの実験の結果、トレーニングより14ドル早いことが示され、2つのタスクで30.33$と43.29$のbleuスコアを達成している。 コードはhttps://github.com/libeineu/SDT-Training/で公開されている。

Deep encoders have been proven to be effective in improving neural machine translation (NMT) systems, but training an extremely deep encoder is time consuming. Moreover, why deep models help NMT is an open question. In this paper, we investigate the behavior of a well-tuned deep Transformer system. We find that stacking layers is helpful in improving the representation ability of NMT models and adjacent layers perform similarly. This inspires us to develop a shallow-to-deep training method that learns deep models by stacking shallow models. In this way, we successfully train a Transformer system with a 54-layer encoder. Experimental results on WMT'16 English-German and WMT'14 English-French translation tasks show that it is $1.4$ $\times$ faster than training from scratch, and achieves a BLEU score of $30.33$ and $43.29$ on two tasks. The code is publicly available at https://github.com/libeineu/SDT-Training/.
翻訳日:2022-10-09 12:08:44 公開日:2020-10-08
# 質問駆動要約のためのマルチホップ推論

Multi-hop Inference for Question-driven Summarization ( http://arxiv.org/abs/2010.03738v1 )

ライセンス: Link先を確認
Yang Deng, Wenxuan Zhang, Wai Lam(参考訳) 質問駆動要約は,非ファクトイドの質問に対して,簡潔だが情報に富む回答を生成するために,ソース文書を要約する効果的な手法として最近研究されている。 本研究では,質問駆動要約にマルチホップ推論を組み込むための,質問駆動抽象要約手法であるマルチホップ選択生成器(MSG)を提案する。 具体的には,人間のようなマルチホップ推論モジュールを用いて,質問の関連性と異なる文間の相互関係を協調的にモデル化し,要約された回答を正当化するための重要な文をキャプチャする。 マルチビューカバレッジ機構を備えたゲート選択ポインタ生成ネットワークは、異なる視点からの多様な情報を統合するように設計されている。 実験の結果,提案手法は, WikiHow と PubMedQA の2つの非ファクト型QAデータセットにおいて, 常に最先端の手法より優れていることがわかった。

Question-driven summarization has been recently studied as an effective approach to summarizing the source document to produce concise but informative answers for non-factoid questions. In this work, we propose a novel question-driven abstractive summarization method, Multi-hop Selective Generator (MSG), to incorporate multi-hop reasoning into question-driven summarization and, meanwhile, provide justifications for the generated summaries. Specifically, we jointly model the relevance to the question and the interrelation among different sentences via a human-like multi-hop inference module, which captures important sentences for justifying the summarized answer. A gated selective pointer generator network with a multi-view coverage mechanism is designed to integrate diverse information from different perspectives. Experimental results show that the proposed method consistently outperforms state-of-the-art methods on two non-factoid QA datasets, namely WikiHow and PubMedQA.
翻訳日:2022-10-09 12:08:28 公開日:2020-10-08
# 健康質問応答, 医療推論, 病名認識のための疾患知識を BERT に注入する

Infusing Disease Knowledge into BERT for Health Question Answering, Medical Inference and Disease Name Recognition ( http://arxiv.org/abs/2010.03746v1 )

ライセンス: Link先を確認
Yun He, Ziwei Zhu, Yin Zhang, Qin Chen, James Caverlee(参考訳) 疾患の知識には、徴候や症状、診断、治療など、疾患の様々な側面の情報が含まれる。 この疾患知識は、消費者健康質問応答、医学的言語推論、疾患名認識など、多くの健康関連および生物医学的なタスクにおいて重要である。 BERTのような事前訓練された言語モデルは、テキストから構文、意味、世界的知識を捉えることに成功したが、症状の知識、診断、治療、その他の病気の側面といった特定の情報によってさらに補完できる。 したがって,BERTと疾患知識を統合し,これらの重要な課題を改善する。 具体的には、新たな疾患知識注入訓練手法を提案し、BERT、BioBERT、SciBERT、CeriorBERT、BlueBERT、ALBERTを含むBERTモデルのセットで評価する。 3つの課題に対する実験は、これらのモデルがほぼ全てのケースで拡張できることを示し、疾患知識の注入の可能性を示している。 例えば、消費者健康質問応答におけるBioBERTの精度は68.29%から72.09%に改善され、2つのデータセットで新たなSOTA結果が観測される。 データとコードは自由に利用できます。

Knowledge of a disease includes information of various aspects of the disease, such as signs and symptoms, diagnosis and treatment. This disease knowledge is critical for many health-related and biomedical tasks, including consumer health question answering, medical language inference and disease name recognition. While pre-trained language models like BERT have shown success in capturing syntactic, semantic, and world knowledge from text, we find they can be further complemented by specific information like knowledge of symptoms, diagnoses, treatments, and other disease aspects. Hence, we integrate BERT with disease knowledge for improving these important tasks. Specifically, we propose a new disease knowledge infusion training procedure and evaluate it on a suite of BERT models including BERT, BioBERT, SciBERT, ClinicalBERT, BlueBERT, and ALBERT. Experiments over the three tasks show that these models can be enhanced in nearly all cases, demonstrating the viability of disease knowledge infusion. For example, accuracy of BioBERT on consumer health question answering is improved from 68.29% to 72.09%, while new SOTA results are observed in two datasets. We make our data and code freely available.
翻訳日:2022-10-09 12:08:11 公開日:2020-10-08
# クエリ値相互作用による注意機構の改善

Improving Attention Mechanism with Query-Value Interaction ( http://arxiv.org/abs/2010.03766v1 )

ライセンス: Link先を確認
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang(参考訳) 注意機構はTransformerやBERTといった最先端のNLPモデルにおいて重要な役割を担っている。 入力クエリ、キー、値を出力にマッピングする三項関数として、クエリとキー間の相互作用から得られる注目重みによって重み付けられた値の和を用いて定式化することができる。 クエリキーのインタラクションと同様に、クエリと値の間にも固有の関連性があり、クエリ値のインタラクションを組み込むことで、クエリの特性に応じてカスタマイズされた値を学ぶことで、出力を強化する可能性がある。 しかし、クエリーと値の相互作用は既存の注意手法によって無視されるため、最適ではないかもしれない。 本稿では,クエリ値の相互作用を取り入れることで,既存の注意機構を改善することを提案する。 本稿では,問合せ対応の注目値を学習し,元の値と注目重みを組み合わせて最終的な出力を生成するクエリ値相互作用関数を提案する。 異なるタスクに対する4つのデータセットに対する大規模な実験により、我々のアプローチはクエリ値の相互作用を組み込むことで、多くの注意に基づくモデルの性能を一貫して改善できることを示す。

Attention mechanism has played critical roles in various state-of-the-art NLP models such as Transformer and BERT. It can be formulated as a ternary function that maps the input queries, keys and values into an output by using a summation of values weighted by the attention weights derived from the interactions between queries and keys. Similar with query-key interactions, there is also inherent relatedness between queries and values, and incorporating query-value interactions has the potential to enhance the output by learning customized values according to the characteristics of queries. However, the query-value interactions are ignored by existing attention methods, which may be not optimal. In this paper, we propose to improve the existing attention mechanism by incorporating query-value interactions. We propose a query-value interaction function which can learn query-aware attention values, and combine them with the original values and attention weights to form the final output. Extensive experiments on four datasets for different tasks show that our approach can consistently improve the performance of many attention-based models by incorporating query-value interactions.
翻訳日:2022-10-09 12:07:34 公開日:2020-10-08
# 2つは1より優れている:テーブル列エンコーダによるジョイントエンティティと関係抽出

Two are Better than One: Joint Entity and Relation Extraction with Table-Sequence Encoders ( http://arxiv.org/abs/2010.03851v1 )

ライセンス: Link先を確認
Jue Wang and Wei Lu(参考訳) 名前付きエンティティ認識と関係抽出は2つの重要な基本問題である。 両課題を同時に解くための共同学習アルゴリズムが提案され,その多くが連立課題をテーブル充足問題とした。 しかし、彼らは通常、同じ空間内の両方のタスクに必要な情報を取得するために、単一のエンコーダ(通常はテーブルの形式で表現を学ぶ)を学ぶことに集中した。 このような2つの異なるタイプの情報を学習プロセスで捉えるために、2つの異なるエンコーダを設計することは有益であると主張する。 本研究では,2つの異なるエンコーダ -- 表エンコーダとシーケンスエンコーダ - が,表現学習プロセスにおいて互いに助け合うように設計された,新しい「emテーブルシーケンスエンコーダ」を提案する。 実験により, エンコーダを2つ以上のエンコーダを持つことの利点が確認された。 いくつかの標準データセットでは、既存のアプローチを大幅に改善しています。

Named entity recognition and relation extraction are two important fundamental problems. Joint learning algorithms have been proposed to solve both tasks simultaneously, and many of them cast the joint task as a table-filling problem. However, they typically focused on learning a single encoder (usually learning representation in the form of a table) to capture information required for both tasks within the same space. We argue that it can be beneficial to design two distinct encoders to capture such two different types of information in the learning process. In this work, we propose the novel {\em table-sequence encoders} where two different encoders -- a table encoder and a sequence encoder are designed to help each other in the representation learning process. Our experiments confirm the advantages of having {\em two} encoders over {\em one} encoder. On several standard datasets, our model shows significant improvements over existing approaches.
翻訳日:2022-10-09 12:06:32 公開日:2020-10-08
# 事前学習型言語モデルのための大規模製品キーメモリ

Large Product Key Memory for Pretrained Language Models ( http://arxiv.org/abs/2010.03881v1 )

ライセンス: Link先を確認
Gyuwan Kim and Tae-Hwan Jung(参考訳) Lample et al. (2019) によって提案された製品鍵メモリ (PKM) は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させることができる。 しかし、その経験的応用は因果言語モデリングに限られる。 近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに対して微調整可能なPKMをPLMに組み込む方法について検討した。 我々は新しいメモリ使用量基準を定義し、この測定値を用いて注意深い観察を行い、PKM強化モデルのトレーニング中にほとんどのメモリスロットが時代遅れであることを明らかにする。 この問題に対処してPLMを改善するために,(1)メモリなしで事前訓練したモデル重みからの初期化,(2)フィードフォワードネットワークを置き換えるのではなく,追加でPKMを増強する,という簡単な方法を提案する。 PKM強化PLMの事前学習には両者が不可欠であることが確認され,メモリ使用率とダウンストリーム性能が向上した。 コードと事前訓練されたウェイトはhttps://github.com/clovaai/pkm-transformers.comで入手できる。

Product key memory (PKM) proposed by Lample et al. (2019) enables to improve prediction accuracy by increasing model capacity efficiently with insignificant computational overhead. However, their empirical application is only limited to causal language modeling. Motivated by the recent success of pretrained language models (PLMs), we investigate how to incorporate large PKM into PLMs that can be finetuned for a wide variety of downstream NLP tasks. We define a new memory usage metric, and careful observation using this metric reveals that most memory slots remain outdated during the training of PKM-augmented models. To train better PLMs by tackling this issue, we propose simple but effective solutions: (1) initialization from the model weights pretrained without memory and (2) augmenting PKM by addition rather than replacing a feed-forward network. We verify that both of them are crucial for the pretraining of PKM-augmented PLMs, enhancing memory utilization and downstream performance. Code and pretrained weights are available at https://github.com/clovaai/pkm-transformers.
翻訳日:2022-10-09 12:06:01 公開日:2020-10-08
# 肺病変の階層的分類 : 大規模ラジオパトミクスによる検討

Hierarchical Classification of Pulmonary Lesions: A Large-Scale Radio-Pathomics Study ( http://arxiv.org/abs/2010.04049v1 )

ライセンス: Link先を確認
Jiancheng Yang, Mingze Gao, Kaiming Kuang, Bingbing Ni, Yunlang She, Dong Xie, Chang Chen(参考訳) CTによる肺病変の診断は重要であるが,肺癌関連疾患の臨床的判断には困難である。 深層学習は肺がんに対するコンピュータ支援診断 (CADx) 領域において大きな成功を収めているが, 放射線診断の困難さからラベルの曖昧さに悩まされている。 本研究は, 浸潤性病理検査が肺がん診断の黄金基準となることを考えると, 癌(浸潤性非浸潤性腺癌, 扁平上皮癌) および非癌性疾患(結核, 悪性腫瘍など)を含む, 病理組織学的CT画像5,134枚を含む大規模放射線病的データセットを用いて, ラベルの曖昧さを解消する。 この振り返りデータセットはPald-RadPathと呼ばれ、正確な深層学習システムの開発と検証により、非侵襲的CTスキャンを用いて侵襲的な病理組織ラベルを予測できる。 がん関連診断のほとんどの疾患をカバーする3段階の肺病変分類システムを開発した。 本稿では,このデータセット上で階層分類を行ういくつかの手法について検討し,実験の有効性を実証したLeaky Dense Hierarchyアプローチを提案する。 私たちの研究は、データスケール(6倍)、疾患の包括性、階層性の点で、先行技術を大きく上回っている。 有望な結果は、精密医療を促進する可能性を示唆している。

Diagnosis of pulmonary lesions from computed tomography (CT) is important but challenging for clinical decision making in lung cancer related diseases. Deep learning has achieved great success in computer aided diagnosis (CADx) area for lung cancer, whereas it suffers from label ambiguity due to the difficulty in the radiological diagnosis. Considering that invasive pathological analysis serves as the clinical golden standard of lung cancer diagnosis, in this study, we solve the label ambiguity issue via a large-scale radio-pathomics dataset containing 5,134 radiological CT images with pathologically confirmed labels, including cancers (e.g., invasive/non-invasive adenocarcinoma, squamous carcinoma) and non-cancer diseases (e.g., tuberculosis, hamartoma). This retrospective dataset, named Pulmonary-RadPath, enables development and validation of accurate deep learning systems to predict invasive pathological labels with a non-invasive procedure, i.e., radiological CT scans. A three-level hierarchical classification system for pulmonary lesions is developed, which covers most diseases in cancer-related diagnosis. We explore several techniques for hierarchical classification on this dataset, and propose a Leaky Dense Hierarchy approach with proven effectiveness in experiments. Our study significantly outperforms prior arts in terms of data scales (6x larger), disease comprehensiveness and hierarchies. The promising results suggest the potentials to facilitate precision medicine.
翻訳日:2022-10-09 12:00:01 公開日:2020-10-08
# 物体認識における畳み込みニューラルネットワーク最適化のための高速フーリエ変換

Fast Fourier Transformation for Optimizing Convolutional Neural Networks in Object Recognition ( http://arxiv.org/abs/2010.04257v1 )

ライセンス: Link先を確認
Varsha Nair, Moitrayee Chatterjee, Neda Tavakoli, Akbar Siami Namin, Craig Snoeyink(参考訳) 本稿では,高速フーリエ変換に基づくu-net(完全畳み込みネットワーク)を用いて,ニューラルネットワークにおける画像畳み込みを行う手法を提案する。 高速フーリエ変換を利用して、畳み込みニューラルネットワーク(cnns)に関連する画像畳み込みコストを削減し、全体的な計算コストを削減する。 提案モデルでは,画像から対象情報を識別する。 画像データセットに高速フーリエ変換アルゴリズムを適用し、U-Netアーキテクチャでセグメント化する前に、画像データについてよりアクセスしやすい情報を得る。 具体的には、FFTベースの畳み込みニューラルネットワークを実装し、ネットワークのトレーニング時間を改善する。 提案手法は一般に公開されているBroad Bioimage Benchmark Collection (BBBC)データセットに適用された。 コンボリューション期間中のトレーニング時間は600-700$ms/stepから400-500$ms/stepに改善した。 IoU(Intersection over Union)測定値を用いて,本モデルの精度を評価したところ,有意な改善が認められた。

This paper proposes to use Fast Fourier Transformation-based U-Net (a refined fully convolutional networks) and perform image convolution in neural networks. Leveraging the Fast Fourier Transformation, it reduces the image convolution costs involved in the Convolutional Neural Networks (CNNs) and thus reduces the overall computational costs. The proposed model identifies the object information from the images. We apply the Fast Fourier transform algorithm on an image data set to obtain more accessible information about the image data, before segmenting them through the U-Net architecture. More specifically, we implement the FFT-based convolutional neural network to improve the training time of the network. The proposed approach was applied to publicly available Broad Bioimage Benchmark Collection (BBBC) dataset. Our model demonstrated improvement in training time during convolution from $600-700$ ms/step to $400-500$ ms/step. We evaluated the accuracy of our model using Intersection over Union (IoU) metric showing significant improvements.
翻訳日:2022-10-09 11:59:11 公開日:2020-10-08
# 2次相互作用エージェントシステムにおける干渉カーネルの推論に関する学習理論

Learning Theory for Inferring Interaction Kernels in Second-Order Interacting Agent Systems ( http://arxiv.org/abs/2010.03729v1 )

ライセンス: Link先を確認
Jason Miller, Sui Tang, Ming Zhong, Mauro Maggioni(参考訳) 粒子やエージェントのシステムの複雑な相互作用をモデル化することは、物理学や生物学、経済学、機械学習など様々な分野で研究される基本的な科学的・数学的問題である。 本稿では,非常に一般的な2次,異種,多変数,相互作用可能なエージェントモデルと,様々な既知のシステムを包含する環境について述べる。 本稿では、非パラメトリック回帰と近似理論に基づく手法を用いて、これらの力学系を駆動する相互作用カーネルの推定を効率的に導出する推論フレームワークについて述べる。 我々は、推定器の強い一貫性と最適な非パラメトリック min-max 収束速度を確立する完全学習理論を開発し、精度の高い予測軌道を導出する。 推定器は、次元の呪いを克服するために方程式の構造を利用し、カーネルが学習できることを保証し、学習行列の最小特異値と関連づける逆問題に対する基本的な強制条件を記述する。 推定器を構築するための数値アルゴリズムは並列化可能であり、高次元問題に対してよく機能し、複雑な力学系上で実証される。

Modeling the complex interactions of systems of particles or agents is a fundamental scientific and mathematical problem that is studied in diverse fields, ranging from physics and biology, to economics and machine learning. In this work, we describe a very general second-order, heterogeneous, multivariable, interacting agent model, with an environment, that encompasses a wide variety of known systems. We describe an inference framework that uses nonparametric regression and approximation theory based techniques to efficiently derive estimators of the interaction kernels which drive these dynamical systems. We develop a complete learning theory which establishes strong consistency and optimal nonparametric min-max rates of convergence for the estimators, as well as provably accurate predicted trajectories. The estimators exploit the structure of the equations in order to overcome the curse of dimensionality and we describe a fundamental coercivity condition on the inverse problem which ensures that the kernels can be learned and relates to the minimal singular value of the learning matrix. The numerical algorithm presented to build the estimators is parallelizable, performs well on high-dimensional problems, and is demonstrated on complex dynamical systems.
翻訳日:2022-10-09 11:58:55 公開日:2020-10-08
# 非線形観測による線形二次レギュレータの学習

Learning the Linear Quadratic Regulator from Nonlinear Observations ( http://arxiv.org/abs/2010.03799v1 )

ライセンス: Link先を確認
Zakaria Mhammedi and Dylan J. Foster and Max Simchowitz and Dipendra Misra and Wen Sun and Akshay Krishnamurthy and Alexander Rakhlin and John Langford(参考訳) 我々は、LQR with Rich Observations(RichLQR)と呼ばれる連続制御のための新しい問題設定を導入する。 この設定では、環境は線形ダイナミクスと二次コストを伴う低次元連続潜在状態によって要約されるが、このエージェントはカメラからのイメージのような高次元の非線形観測を行う。 サンプル効率のよい学習を可能にするために、学習者は観察から潜在状態へのマッピングをキャプチャするのに十分な柔軟性を持つデコーダ関数(ニューラルネットワークなど)のクラスにアクセスできると仮定する。 本稿では, 潜在状態空間の次元とデコーダ関数クラスのキャパシティのみを用いて, サンプル複雑性をスケーリングすることで, richlqr の近似最適ポリシーを学習する新しいアルゴリズム richid を提案する。 RichIDはオラクル効率が高く、最小二乗回帰オラクルへの呼び出しを通してのみデコーダクラスにアクセスする。 この結果は,システムモデルにおける未知非線形性と一般関数近似を持つ連続制御に対する,最初の証明可能なサンプル複雑性保証を構成する。

We introduce a new problem setting for continuous control called the LQR with Rich Observations, or RichLQR. In our setting, the environment is summarized by a low-dimensional continuous latent state with linear dynamics and quadratic costs, but the agent operates on high-dimensional, nonlinear observations such as images from a camera. To enable sample-efficient learning, we assume that the learner has access to a class of decoder functions (e.g., neural networks) that is flexible enough to capture the mapping from observations to latent states. We introduce a new algorithm, RichID, which learns a near-optimal policy for the RichLQR with sample complexity scaling only with the dimension of the latent state space and the capacity of the decoder function class. RichID is oracle-efficient and accesses the decoder class only through calls to a least-squares regression oracle. Our results constitute the first provable sample complexity guarantee for continuous control with an unknown nonlinearity in the system model and general function approximation.
翻訳日:2022-10-09 11:58:37 公開日:2020-10-08
# 対数的サンプル数から部分観測線形力学系を学習する

Learning Partially Observed Linear Dynamical Systems from Logarithmic Number of Samples ( http://arxiv.org/abs/2010.04015v1 )

ライセンス: Link先を確認
Salar Fattahi(参考訳) 本研究では,単一サンプル軌道から部分的に観測された線形力学系を学習する問題について検討する。 既存のシステム識別手法における大きな課題は、必要なサンプルサイズがシステム次元に望ましくない依存である: 大まかに言えば、それらはシステム次元に対して線形にスケールするサンプルサイズを推定し、依存する。 システム次元が大きい高次元の状態では、未知のシステムからできるだけ多くのサンプルを収集することは、不可能ではないとしても費用がかかる可能性がある。 本稿では,システムのマルコフパラメータを正確に推定できる$\ell_1$-regularized estimation法を導入することで,システム次元に対するこの望ましくない依存性を解消する。 その結果, 局所的に観測された線形力学系を学習するサンプルの複雑さが著しく向上し, マルコフパラメータを高次元で学習できることがわかった。 伝統的に、$\ell_1$-regularized estimatorは推定パラメータの空間性を促進するために使われてきた。 弱疎度」の概念を用いて、系の真の疎度によらず、同様の正規化推定器を用いて、真の系が本質的に安定であることから、部分的に観察された線形系を学習する際のサンプルの複雑さを低減することができる。

In this work, we study the problem of learning partially observed linear dynamical systems from a single sample trajectory. A major practical challenge in the existing system identification methods is the undesirable dependency of their required sample size on the system dimension: roughly speaking, they presume and rely on sample sizes that scale linearly with respect to the system dimension. Evidently, in high-dimensional regime where the system dimension is large, it may be costly, if not impossible, to collect as many samples from the unknown system. In this paper, we will remedy this undesirable dependency on the system dimension by introducing an $\ell_1$-regularized estimation method that can accurately estimate the Markov parameters of the system, provided that the number of samples scale logarithmically with the system dimension. Our result significantly improves the sample complexity of learning partially observed linear dynamical systems: it shows that the Markov parameters of the system can be learned in the high-dimensional setting, where the number of samples is significantly smaller than the system dimension. Traditionally, the $\ell_1$-regularized estimators have been used to promote sparsity in the estimated parameters. By resorting to the notion of "weak sparsity", we show that, irrespective of the true sparsity of the system, a similar regularized estimator can be used to reduce the sample complexity of learning partially observed linear systems, provided that the true system is inherently stable.
翻訳日:2022-10-09 11:58:20 公開日:2020-10-08
# コンテンツ選択と融合による神経抽象要約へのカスケードアプローチ

A Cascade Approach to Neural Abstractive Summarization with Content Selection and Fusion ( http://arxiv.org/abs/2010.03722v1 )

ライセンス: Link先を確認
Logan Lebanoff, Franck Dernoncourt, Doo Soon Kim, Walter Chang, Fei Liu(参考訳) 本稿では,ニューラルネットワークの要約にカスケードアーキテクチャを用いた経験的研究を行う。 要約の実践は多岐にわたるが、ニュース要約以外には、コンテンツ選択と表面実現を共同で行うエンドツーエンドのニューラル抽象システムの要件を満たす十分な量のトレーニングデータを提供できるものはほとんどない。 これらのシステムはまた、テキスト生成とともにコンテンツ選択を評価させるため、要約評価にも挑戦するが、後者の評価は未解決の問題のままである。 本稿では,重要なコンテンツ片を別々に識別し,それらをコヒーレントなテキストに縫合するカスケードパイプラインの性能が,エンド・ツー・エンドのシステムに匹敵するあるいは過度な性能を示す一方,パイプラインアーキテクチャは柔軟なコンテンツ選択を可能にしていることを示す実験結果を示す。 最後に,ニューラルネットワークの要約におけるカスケードパイプラインの活用方法について論じ,今後の研究への重要な方向について考察する。

We present an empirical study in favor of a cascade architecture to neural text summarization. Summarization practices vary widely but few other than news summarization can provide a sufficient amount of training data enough to meet the requirement of end-to-end neural abstractive systems which perform content selection and surface realization jointly to generate abstracts. Such systems also pose a challenge to summarization evaluation, as they force content selection to be evaluated along with text generation, yet evaluation of the latter remains an unsolved problem. In this paper, we present empirical results showing that the performance of a cascaded pipeline that separately identifies important content pieces and stitches them together into a coherent text is comparable to or outranks that of end-to-end systems, whereas a pipeline architecture allows for flexible content selection. We finally discuss how we can take advantage of a cascaded pipeline in neural text summarization and shed light on important directions for future research.
翻訳日:2022-10-09 11:57:54 公開日:2020-10-08
# PARADE: コンピュータサイエンス分野の知識を必要とするパラフレーズ識別のための新しいデータセット

PARADE: A New Dataset for Paraphrase Identification Requiring Computer Science Domain Knowledge ( http://arxiv.org/abs/2010.03725v1 )

ライセンス: Link先を確認
Yun He, Zhuoer Wang, Yin Zhang, Ruihong Huang and James Caverlee(参考訳) 専門的なドメイン知識を必要とするパラフレーズ識別のための新しいベンチマークデータセット PARADE を提案する。 PARADEには、語彙や構文レベルではほとんど重複しないが、コンピュータ科学のドメイン知識に基づいて意味的に等価であるパラフレーズや、語彙や構文レベルで大きく重複するが、このドメイン知識に基づいて意味的に等価ではないノンパラフレーズが含まれている。 実験により、最先端のニューラルモデルと熟練していない人間のアノテータの両方がPARADEの性能が劣っていることが示された。 例えば、微調整後のBERTではF1スコアは0.709であり、他のパラフレーズ識別データセットよりもはるかに低い。 PARADEはドメイン知識を組み込んだモデルのテストに関心を持つ研究者のためのリソースとして機能する。 データとコードは自由に利用できます。

We present a new benchmark dataset called PARADE for paraphrase identification that requires specialized domain knowledge. PARADE contains paraphrases that overlap very little at the lexical and syntactic level but are semantically equivalent based on computer science domain knowledge, as well as non-paraphrases that overlap greatly at the lexical and syntactic level but are not semantically equivalent based on this domain knowledge. Experiments show that both state-of-the-art neural models and non-expert human annotators have poor performance on PARADE. For example, BERT after fine-tuning achieves an F1 score of 0.709, which is much lower than its performance on other paraphrase identification datasets. PARADE can serve as a resource for researchers interested in testing models that incorporate domain knowledge. We make our data and code freely available.
翻訳日:2022-10-09 11:57:37 公開日:2020-10-08
# 要約用変圧器を用いた文の融合学習

Learning to Fuse Sentences with Transformers for Summarization ( http://arxiv.org/abs/2010.03726v1 )

ライセンス: Link先を確認
Logan Lebanoff, Franck Dernoncourt, Doo Soon Kim, Lidan Wang, Walter Chang, Fei Liu(参考訳) 文を融合する能力は、簡潔な抽象文を生成するための重要なステップであるため、要約システムにとって非常に魅力的である。 しかし、現在まで、要約者は文章を熟読しても失敗することがある。 それらは融合によってわずかな要約文を生成するか、あるいは不正確な融合を発生させる傾向があり、要約文は元の意味を保たない。 本稿では,文を融合させるトランスフォーマーの能力について検討し,文間の対応点の知識を活用して文融合を行う能力を高める新しいアルゴリズムを提案する。 広範な実験により, 異なる設計選択がトランスフォーマーの性能に及ぼす影響について検討した。 本研究は,文間の対応点のモデル化の重要性を強調した。

The ability to fuse sentences is highly attractive for summarization systems because it is an essential step to produce succinct abstracts. However, to date, summarizers can fail on fusing sentences. They tend to produce few summary sentences by fusion or generate incorrect fusions that lead the summary to fail to retain the original meaning. In this paper, we explore the ability of Transformers to fuse sentences and propose novel algorithms to enhance their ability to perform sentence fusion by leveraging the knowledge of points of correspondence between sentences. Through extensive experiments, we investigate the effects of different design choices on Transformer's performance. Our findings highlight the importance of modeling points of correspondence between sentences for effective sentence fusion.
翻訳日:2022-10-09 11:57:20 公開日:2020-10-08
# 公平性を考慮した機械学習アルゴリズムの系統的比較のためのメトリクスと手法

Metrics and methods for a systematic comparison of fairness-aware machine learning algorithms ( http://arxiv.org/abs/2010.03986v1 )

ライセンス: Link先を確認
Gareth P. Jones, James M. Hickey, Pietro G. Di Stefano, Charanpal Dhanjal, Laura C. Stoddart and Vlasios Vasileiou(参考訳) 機械学習モデルによる決定からバイアスを理解し、取り除くことは、特権のないグループに対する差別を避けるために不可欠である。 アルゴリズムの公平性は最近の進歩にもかかわらず、どのバイアス緩和アプローチが最も効果的かという明確な答えはいまだに存在しない。 評価戦略は一般的にユースケース固有のもので、偏りのないデータに依存し、モデルアウトプットを決定結果に変換するために固定ポリシーを採用している。 これらの問題に対処するために,教師付き分類に適用できる一般的なフェアネスアルゴリズムを体系的に比較した。 私たちの研究はこの種の最も包括的です。 3つの実データと4つの合成データセットを使用し、モデルの出力を決定に変換する2つの異なる方法を使用する。 公正さ、予測性能、キャリブレーション品質、および28種類のモデリングパイプラインの速度を、公正さを意識しないアルゴリズムとフェアネスを意識したアルゴリズムの両方に対応している。 フェアネスを意識しないアルゴリズムは、一般的に適切なフェアモデルを生成することができず、最も単純なアルゴリズムは必ずしもフェアモデルではないことがわかった。 また, 公平性認識アルゴリズムは, 予測力の低下を伴わずに公平性を誘導できることがわかった。 最後に、データセットの慣用性(例えば、本質的不公平度、相関性の性質)がフェアネスを意識した手法の性能に影響を及ぼすことを示した。 この結果から,事前の公正要件を知らなくても,実践者が採用したいアプローチを狭めることが可能となった。

Understanding and removing bias from the decisions made by machine learning models is essential to avoid discrimination against unprivileged groups. Despite recent progress in algorithmic fairness, there is still no clear answer as to which bias-mitigation approaches are most effective. Evaluation strategies are typically use-case specific, rely on data with unclear bias, and employ a fixed policy to convert model outputs to decision outcomes. To address these problems, we performed a systematic comparison of a number of popular fairness algorithms applicable to supervised classification. Our study is the most comprehensive of its kind. It utilizes three real and four synthetic datasets, and two different ways of converting model outputs to decisions. It considers fairness, predictive-performance, calibration quality, and speed of 28 different modelling pipelines, corresponding to both fairness-unaware and fairness-aware algorithms. We found that fairness-unaware algorithms typically fail to produce adequately fair models and that the simplest algorithms are not necessarily the fairest ones. We also found that fairness-aware algorithms can induce fairness without material drops in predictive power. Finally, we found that dataset idiosyncracies (e.g., degree of intrinsic unfairness, nature of correlations) do affect the performance of fairness-aware approaches. Our results allow the practitioner to narrow down the approach(es) they would like to adopt without having to know in advance their fairness requirements.
翻訳日:2022-10-09 11:51:20 公開日:2020-10-08
# 深部非負オートエンコーダに基づく話題拡散検出

Topic Diffusion Discovery Based on Deep Non-negative Autoencoder ( http://arxiv.org/abs/2010.03710v1 )

ライセンス: Link先を確認
Sheng-Tai Huang, Yihuang Kang, Shao-Min Hung, Bowen Kuo, I-Ling Cheng(参考訳) 研究者は様々な研究コミュニティが発行する研究論文の爆発に圧倒されている。 多くの学術ウェブサイト、検索エンジン、デジタルライブラリーが作成され、研究者が潜在的研究トピックを特定し、関心の研究の最近の進展に追随するのに役立つ。 しかし,多くの関連記事や無関係記事のレビューに多くの時間を費やすことなく,研究トピックの拡散と進化を追跡することはいまだに困難である。 本稿では,新しい話題拡散発見手法について考察する。 具体的には,研究トピックが時間とともにどのように変化するかを理解するために,話題拡散の進化距離をモニタする情報分散測定を用いたディープ非負のオートエンコーダを提案する。 実験の結果,提案手法は,研究トピックの進化を識別し,オンラインファッションにおける話題拡散を発見できることがわかった。

Researchers have been overwhelmed by the explosion of research articles published by various research communities. Many research scholarly websites, search engines, and digital libraries have been created to help researchers identify potential research topics and keep up with recent progress on research of interests. However, it is still difficult for researchers to keep track of the research topic diffusion and evolution without spending a large amount of time reviewing numerous relevant and irrelevant articles. In this paper, we consider a novel topic diffusion discovery technique. Specifically, we propose using a Deep Non-negative Autoencoder with information divergence measurement that monitors evolutionary distance of the topic diffusion to understand how research topics change with time. The experimental results show that the proposed approach is able to identify the evolution of research topics as well as to discover topic diffusions in online fashions.
翻訳日:2022-10-09 11:50:25 公開日:2020-10-08
# 自動話者検証のためのテクスチャベース提示検出

Texture-based Presentation Attack Detection for Automatic Speaker Verification ( http://arxiv.org/abs/2010.04038v1 )

ライセンス: Link先を確認
Lazaro J. Gonzalez-Soler and Jose Patino and Marta Gomez-Barrero and Massimiliano Todisco and Christoph Busch and Nicholas Evans(参考訳) 現在、バイオメトリックシステムは幅広い用途に利用されている。 それらは高いセキュリティと効率を提供し、多くの場合、ユーザフレンドリである。 これらやその他の利点にもかかわらず、一般の生体認証システムや、特に自動話者検証(asv)システムは、プレゼンテーションを攻撃しやすい可能性がある。 最新のASVSpoof 2019コンペティションでは、ほとんどの攻撃はアンサンブル分類器ベースのプレゼンテーションアタック検出(PAD)アプローチで確実に検出できることを示した。 しかし、これらは基本的にはアンサンブルにおけるシステムの相補性に依存する。 本稿では,PADソリューションの汎用性を高める動機として,音声スペクトログラム画像の解析に応用したテクスチャ記述子の探索について報告する。 特に, 生成モデルに基づく一般的な漁獲量ベクトルの特徴空間を提案する。 実験の結果,提案手法の健全性が示され,最大で100件中16件が拒否され,100件中1件が受理された。

Biometric systems are nowadays employed across a broad range of applications. They provide high security and efficiency and, in many cases, are user friendly. Despite these and other advantages, biometric systems in general and Automatic speaker verification (ASV) systems in particular can be vulnerable to attack presentations. The most recent ASVSpoof 2019 competition showed that most forms of attacks can be detected reliably with ensemble classifier-based presentation attack detection (PAD) approaches. These, though, depend fundamentally upon the complementarity of systems in the ensemble. With the motivation to increase the generalisability of PAD solutions, this paper reports our exploration of texture descriptors applied to the analysis of speech spectrogram images. In particular, we propose a common fisher vector feature space based on a generative model. Experimental results show the soundness of our approach: at most, 16 in 100 bona fide presentations are rejected whereas only one in 100 attack presentations are accepted.
翻訳日:2022-10-09 11:48:18 公開日:2020-10-08
# Deep LearningがProjective Clusteringを発表

Deep Learning Meets Projective Clustering ( http://arxiv.org/abs/2010.04290v1 )

ライセンス: Link先を確認
Alaa Maalouf and Harry Lang and Daniela Rus and Dan Feldman(参考訳) nlpネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $a\in\mathbb{r}^{n\times d}$ としてエンコードし、そのランク-$j$近似 $a_j$ をsvdで計算し、係数 $a_j$ を元の埋め込み層を置き換える小さな完全連結層に対応する一対の行列に分解する。 幾何学的には、$A$の行は$\mathbb{R}^d$の点を表し、$A_j$の行は、点への平方距離(エラー)の和を最小化する$j$次元部分空間への射影を表す。 実際には、$A$の行は$k>1$のサブスペースに分散する可能性があるため、単一のサブスペースに基づいて$A$をファクタすると大きなエラーが発生し、精度が大幅に低下する可能性がある。 計算幾何学から \emph{projective clustering} に着想を得て、この部分空間を$k$部分空間の集合、それぞれ$j$で置き換えることを提案し、これはすべての点 ($A$) 上の平方距離の和をその \emph{closest} 部分空間に最小化する。 このアプローチに基づいて、我々は、元の埋め込み層を、並列に動作し、1つの完全接続層と再結合される1セットの$k$の小さな層に置き換える、新しいアーキテクチャを提供する。 標準行列因数分解(SVD)よりも精度が高く小さいGLUEベンチマーク収率ネットワークの大規模な実験結果が得られた。 例えば、組込み層のサイズを$40\%$に減らしながら、既存のsvdアプローチによる$.8\%$ドロップと比較して、9つのグルータスク全体の平均精度が$0.5\%$であるようにすることで、ディチルベルトをさらに圧縮します。 robertaでは、従来の$0.8%$のドロップに比べて、平均的な精度の低下で、埋め込み層の圧縮を4,3\%$で達成しています。 結果を再現し拡張するためのオープンコードが提供される。

A common approach for compressing NLP networks is to encode the embedding layer as a matrix $A\in\mathbb{R}^{n\times d}$, compute its rank-$j$ approximation $A_j$ via SVD, and then factor $A_j$ into a pair of matrices that correspond to smaller fully-connected layers to replace the original embedding layer. Geometrically, the rows of $A$ represent points in $\mathbb{R}^d$, and the rows of $A_j$ represent their projections onto the $j$-dimensional subspace that minimizes the sum of squared distances ("errors") to the points. In practice, these rows of $A$ may be spread around $k>1$ subspaces, so factoring $A$ based on a single subspace may lead to large errors that turn into large drops in accuracy. Inspired by \emph{projective clustering} from computational geometry, we suggest replacing this subspace by a set of $k$ subspaces, each of dimension $j$, that minimizes the sum of squared distances over every point (row in $A$) to its \emph{closest} subspace. Based on this approach, we provide a novel architecture that replaces the original embedding layer by a set of $k$ small layers that operate in parallel and are then recombined with a single fully-connected layer. Extensive experimental results on the GLUE benchmark yield networks that are both more accurate and smaller compared to the standard matrix factorization (SVD). For example, we further compress DistilBERT by reducing the size of the embedding layer by $40\%$ while incurring only a $0.5\%$ average drop in accuracy over all nine GLUE tasks, compared to a $2.8\%$ drop using the existing SVD approach. On RoBERTa we achieve $43\%$ compression of the embedding layer with less than a $0.8\%$ average drop in accuracy as compared to a $3\%$ drop previously. Open code for reproducing and extending our results is provided.
翻訳日:2022-10-09 11:42:15 公開日:2020-10-08
# ソーシャルビジュアル質問応答のためのデータセットの特徴付けと新しいtinysocialデータセット

Characterizing Datasets for Social Visual Question Answering, and the New TinySocial Dataset ( http://arxiv.org/abs/2010.11997v1 )

ライセンス: Link先を確認
Zhanwen Chen, Shiyao Li, Roxanne Rashedi, Xiaoman Zi, Morgan Elrod-Erickson, Bryan Hollis, Angela Maliakal, Xinyu Shen, Simeng Zhao, Maithilee Kunda(参考訳) 現代の社会知性には、ビデオを見たり、社会や心の理論に関する質問に答える能力がある。例えばハリー・ポッターのシーンでは、「父親は、少年が車を飛ばすことに本当に腹を立てているのか? 社会的視覚的質問応答 (social VQA) は、人間(自閉症の子供など)とAIエージェントの両方で社会的推論を研究するための貴重な方法論として浮上している。 しかし、この問題空間はビデオと質問の両方に大きなバリエーションがある。 ソーシャルVQAデータセットの作成と特徴付け手法について論じる。 1)クラウドソーシングと社内オーサリングの2つの新しいデータセット(tinysocial-crowdとtinysocial-inhouse)と既存のsocial-iqデータセットのサンプル比較を含む。 2 所定の映像の難易度及び内容を特徴付ける新しいルーブリック及び 3)質問タイプを特徴付ける新しいルーブリック。 我々は、ソーシャルvqaデータセットがaiエージェントの説明可能性を高め、人々の評価や教育的介入にどのように影響を与えるかを説明して締めくくった。

Modern social intelligence includes the ability to watch videos and answer questions about social and theory-of-mind-related content, e.g., for a scene in Harry Potter, "Is the father really upset about the boys flying the car?" Social visual question answering (social VQA) is emerging as a valuable methodology for studying social reasoning in both humans (e.g., children with autism) and AI agents. However, this problem space spans enormous variations in both videos and questions. We discuss methods for creating and characterizing social VQA datasets, including 1) crowdsourcing versus in-house authoring, including sample comparisons of two new datasets that we created (TinySocial-Crowd and TinySocial-InHouse) and the previously existing Social-IQ dataset; 2) a new rubric for characterizing the difficulty and content of a given video; and 3) a new rubric for characterizing question types. We close by describing how having well-characterized social VQA datasets will enhance the explainability of AI agents and can also inform assessments and educational interventions for people.
翻訳日:2022-10-09 11:41:33 公開日:2020-10-08
# 分類層の重み付けによる対向ロバスト性の改善

Improve Adversarial Robustness via Weight Penalization on Classification Layer ( http://arxiv.org/abs/2010.03844v1 )

ライセンス: Link先を確認
Cong Xu, Dan Li and Min Yang(参考訳) ディープニューラルネットワークが敵の攻撃に弱いことはよく知られている。 近年の研究では、よく設計された分類部品がより堅牢性をもたらすことが示されている。 しかし、この路線にはまだ改善の余地がたくさんある。 本稿では,まず,幾何学的な観点から,ニューラルネットワークのロバスト性が分類器重みの角縁条件と同値であることを証明する。 次に、このフレームワークでReLU型関数がアクティベーションに適さない理由を説明します。 これらの結果から,既存のアプローチの限界が明らかとなり,よりシンプルで拡張性に優れた,軽量化防衛手法の開発に繋がった。 複数のベンチマークデータセットに対する実験結果から,クリーンデータに対する高い分類精度を維持しつつ,余分な計算を必要とせず,ネットワークの堅牢性を効果的に向上できることを示す。

It is well-known that deep neural networks are vulnerable to adversarial attacks. Recent studies show that well-designed classification parts can lead to better robustness. However, there is still much space for improvement along this line. In this paper, we first prove that, from a geometric point of view, the robustness of a neural network is equivalent to some angular margin condition of the classifier weights. We then explain why ReLU type function is not a good choice for activation under this framework. These findings reveal the limitations of the existing approaches and lead us to develop a novel light-weight-penalized defensive method, which is simple and has a good scalability. Empirical results on multiple benchmark datasets demonstrate that our method can effectively improve the robustness of the network without requiring too much additional computation, while maintaining a high classification precision for clean data.
翻訳日:2022-10-09 11:41:13 公開日:2020-10-08
# IRX-1D:リモートセンシング分類のための簡易ディープラーニングアーキテクチャ

IRX-1D: A Simple Deep Learning Architecture for Remote Sensing Classifications ( http://arxiv.org/abs/2010.03902v1 )

ライセンス: Link先を確認
Mahesh Pal, Akshay, B. Charan Teja(参考訳) 本稿では,インセプション,ResNet,Xceptionネットワークの各要素を組み合わせたシンプルなディープラーニングアーキテクチャを提案する。 4つの新しいデータセットが、小規模および大規模トレーニングサンプルの分類に使用された。 分類精度はベイジアン最適化2D-CNNに比較して,提案手法による性能向上が示唆された。 インディ・パインズ・ハイパースペクトルデータセットを用いた小さなトレーニングサンプルによる結果の比較では、異なるディープラーニングアーキテクチャを用いた9つの報告結果よりも、提案されたアーキテクチャによる同等か良いパフォーマンスが示唆されている。 限られた訓練サンプルを用いた分類精度は高いが, 分類画像との比較では, 全データセットを用いた大規模トレーニングサンプルを用いた訓練モデルによる分類画像と比較すると, 異なる土地被覆クラスが同一領域に割り当てられていることが示唆された。

We proposes a simple deep learning architecture combining elements of Inception, ResNet and Xception networks. Four new datasets were used for classification with both small and large training samples. Results in terms of classification accuracy suggests improved performance by proposed architecture in comparison to Bayesian optimised 2D-CNN with small training samples. Comparison of results using small training sample with Indiana Pines hyperspectral dataset suggests comparable or better performance by proposed architecture than nine reported works using different deep learning architectures. In spite of achieving high classification accuracy with limited training samples, comparison of classified image suggests different land cover classes are assigned to same area when compared with the classified image provided by the model trained using large training samples with all datasets.
翻訳日:2022-10-09 11:40:58 公開日:2020-10-08
# エンド・ツー・エンド音声・インテントシステムの学習のためのアンペアテキストデータの活用

Leveraging Unpaired Text Data for Training End-to-End Speech-to-Intent Systems ( http://arxiv.org/abs/2010.04284v1 )

ライセンス: Link先を確認
Yinghui Huang, Hong-Kwang Kuo, Samuel Thomas, Zvi Kons, Kartik Audhkhasi, Brian Kingsbury, Ron Hoory, Michael Picheny(参考訳) 音声から意図を直接抽出するエンドツーエンド(e2e)ニューラルネットワークの音声認識(s2i)システムのトレーニングには,大量の意図ラベル音声データが必要となる。 コーパス音声データに基づいて訓練されたASRモデルを用いてS2Iモデルを初期化することで、データの疎さを軽減できる。 本稿では,NLUテキストリソースの活用を試みる。 我々は,最先端の従来のカスケードsluシステムの性能にマッチするctcベースのs2iシステムを実装した。 各種音声とテキストの訓練データを用いて制御実験を行った。 元のデータの10分の1しか入手できない場合、意図分類の精度は7.6%低下する。 s2iシステムの改善のために,(1)意図分類のための音響組込みを微調整されたbertテキスト組込みに結びつけるトランスファー学習,(2)テキストから対話データへの変換をマルチスピーカによる音声から対話データに変換するデータ拡張という2つの手法を検討した。 提案手法は,意図ラベル付き音声による性能低下の80%を回復する。

Training an end-to-end (E2E) neural network speech-to-intent (S2I) system that directly extracts intents from speech requires large amounts of intent-labeled speech data, which is time consuming and expensive to collect. Initializing the S2I model with an ASR model trained on copious speech data can alleviate data sparsity. In this paper, we attempt to leverage NLU text resources. We implemented a CTC-based S2I system that matches the performance of a state-of-the-art, traditional cascaded SLU system. We performed controlled experiments with varying amounts of speech and text training data. When only a tenth of the original data is available, intent classification accuracy degrades by 7.6% absolute. Assuming we have additional text-to-intent data (without speech) available, we investigated two techniques to improve the S2I system: (1) transfer learning, in which acoustic embeddings for intent classification are tied to fine-tuned BERT text embeddings; and (2) data augmentation, in which the text-to-intent data is converted into speech-to-intent data using a multi-speaker text-to-speech system. The proposed approaches recover 80% of performance lost due to using limited intent-labeled speech.
翻訳日:2022-10-09 11:40:13 公開日:2020-10-08
# ニューラルプロセスの不確かさ

Uncertainty in Neural Processes ( http://arxiv.org/abs/2010.03753v1 )

ライセンス: Link先を確認
Saeid Naderiparizi, Kenny Chiu, Benjamin Bloem-Reddy, Frank Wood(参考訳) 確率的条件付き生成モデルにおける漸近的予測推論に対するアーキテクチャと目標選択のトレーニングの効果について検討する。 本研究は,コンディショニングデータの量が大きければ良いサンプルを得られることを強調する,最近の文献の傾向と相反するものである。 代わりに、コンディショニングデータの量が小さい場合に注目します。 この低いデータ構造における後部推論に対する質的かつ定量的な改善につながる、特定のアーキテクチャと客観的選択を強調します。 具体的には,プール操作者と変分族の選択が神経プロセスの後方品質に及ぼす影響について検討する。 新規なニューラルプロセスアーキテクチャから抽出した後方後部予測サンプルを画像補完・塗装実験により実証した。

We explore the effects of architecture and training objective choice on amortized posterior predictive inference in probabilistic conditional generative models. We aim this work to be a counterpoint to a recent trend in the literature that stresses achieving good samples when the amount of conditioning data is large. We instead focus our attention on the case where the amount of conditioning data is small. We highlight specific architecture and objective choices that we find lead to qualitative and quantitative improvement to posterior inference in this low data regime. Specifically we explore the effects of choices of pooling operator and variational family on posterior quality in neural processes. Superior posterior predictive samples drawn from our novel neural process architectures are demonstrated via image completion/in-painting experiments.
翻訳日:2022-10-09 11:32:40 公開日:2020-10-08
# AICov: 人口共生によるCOVID-19予測のための統合的なディープラーニングフレームワーク

AICov: An Integrative Deep Learning Framework for COVID-19 Forecasting with Population Covariates ( http://arxiv.org/abs/2010.03757v1 )

ライセンス: Link先を確認
Geoffrey C. Fox, Gregor von Laszewski, Fugang Wang, and Saumyadipta Pyne(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、健康、経済、社会、政治、そしてほぼすべての人間の生活に深刻な世界的な影響をもたらす。 したがって、COVID-19や他のパンデミックを、その発生するより広い社会的文脈でモデル化することが非常に重要である。 本稿では,AICovのアーキテクチャについて紹介する。AICovは,集団共変量予測のための統合的深層学習の枠組みを提供する。 LSTMに基づくディープラーニング戦略やモデリングなど、さまざまな戦略をAICovに統合しています。 提案手法を実証するために,複数のソースからの集団共変量を統合するパイロット実験を行った。 したがって、AICovは新型コロナウイルスの感染者や死亡に関するデータだけでなく、人口の社会経済的、健康的、行動的危険因子を地域レベルで含んでいる。 コンパイルされたデータはAICovに入力され、ケースデータとデスデータのみを使用するものと比較して、モデルへのデータ統合による予測の改善が得られる。

The COVID-19 pandemic has profound global consequences on health, economic, social, political, and almost every major aspect of human life. Therefore, it is of great importance to model COVID-19 and other pandemics in terms of the broader social contexts in which they take place. We present the architecture of AICov, which provides an integrative deep learning framework for COVID-19 forecasting with population covariates, some of which may serve as putative risk factors. We have integrated multiple different strategies into AICov, including the ability to use deep learning strategies based on LSTM and even modeling. To demonstrate our approach, we have conducted a pilot that integrates population covariates from multiple sources. Thus, AICov not only includes data on COVID-19 cases and deaths but, more importantly, the population's socioeconomic, health and behavioral risk factors at a local level. The compiled data are fed into AICov, and thus we obtain improved prediction by integration of the data to our model as compared to one that only uses case and death data.
翻訳日:2022-10-09 11:32:30 公開日:2020-10-08
# 線形確率バンディットに対する報奨バイアス最大確率推定

Reward-Biased Maximum Likelihood Estimation for Linear Stochastic Bandits ( http://arxiv.org/abs/2010.04091v1 )

ライセンス: Link先を確認
Yu-Heng Hung, Ping-Chun Hsieh, Xi Liu and P. R. Kumar(参考訳) 適応制御文献で最初に提案された報奨バイアス最大値法を改良し,線形バンディット問題と一般化線形バンディット問題における探索・探索トレードオフを扱う新しい学習アルゴリズムを提案する。 我々は,注文最適性を証明できる新しい指標ポリシーを開発し,その実験により,最先端のベンチマーク手法と競合する経験的性能を実現することを示す。 新しいポリシーでは、リニアバンディットのプルあたりの計算時間が短くなり、結果として、好ましい後悔と計算効率の両方が達成される。

Modifying the reward-biased maximum likelihood method originally proposed in the adaptive control literature, we propose novel learning algorithms to handle the explore-exploit trade-off in linear bandits problems as well as generalized linear bandits problems. We develop novel index policies that we prove achieve order-optimality, and show that they achieve empirical performance competitive with the state-of-the-art benchmark methods in extensive experiments. The new policies achieve this with low computation time per pull for linear bandits, and thereby resulting in both favorable regret as well as computational efficiency.
翻訳日:2022-10-09 11:31:09 公開日:2020-10-08
# MIA-Prognosis: 治療反応を予測するディープラーニングフレームワーク

MIA-Prognosis: A Deep Learning Framework to Predict Therapy Response ( http://arxiv.org/abs/2010.04062v1 )

ライセンス: Link先を確認
Jiancheng Yang, Jiajun Chen, Kaiming Kuang, Tiancheng Lin, Junjun He, Bingbing Ni(参考訳) 臨床結果の予測は極めて重要であるが、難しい。 治療反応や患者生存に関連する重要なバイオマーカーの探索に研究費が支払われている。 しかし、これらのバイオマーカーは一般的に高価で侵襲的であり、おそらく新規治療には不満足である。 一方, 臨床実践では, マルチモーダル, 不均一, 非整合の時空間データが連続的に生成される。 本稿では, 放射線画像, 検査情報, 臨床情報など, 容易にアクセス可能なデータを用いて, 患者の予後と治療反応を予測するための, 統合型深層学習手法を提案する。 先行技術は単一のデータモダリティのモデリング、あるいは時間的変化の無視に重点を置いている。 重要なことに、臨床の時系列は実際に非同期、すなわち不規則な間隔で記録される。 本研究では,マルチモーダルな非同期時系列分類タスクとしてプログノーシスモデリングを形式化し,測定・インターベンション・アンド・アセスメント(MIA)情報を用いたMIA-プログノーシス・フレームワークを提案し,非同期時系列を処理するためのシンプルなテンポラルアテンション(SimTA)モジュールを開発した。 合成データセットの実験は、標準RNNアプローチよりもSimTAの優位性を検証する。 さらに, 抗pd-1免疫療法を施行した非小細胞肺癌患者に対して, 内的, ふりかえりデータセットで提案手法を実験した。 提案手法は免疫療法反応の予測において有望な性能を発揮する。 特に, 長期生存率の面では, 低リスク・高リスク患者の階層化が期待できる。

Predicting clinical outcome is remarkably important but challenging. Research efforts have been paid on seeking significant biomarkers associated with the therapy response or/and patient survival. However, these biomarkers are generally costly and invasive, and possibly dissatifactory for novel therapy. On the other hand, multi-modal, heterogeneous, unaligned temporal data is continuously generated in clinical practice. This paper aims at a unified deep learning approach to predict patient prognosis and therapy response, with easily accessible data, e.g., radiographics, laboratory and clinical information. Prior arts focus on modeling single data modality, or ignore the temporal changes. Importantly, the clinical time series is asynchronous in practice, i.e., recorded with irregular intervals. In this study, we formalize the prognosis modeling as a multi-modal asynchronous time series classification task, and propose a MIA-Prognosis framework with Measurement, Intervention and Assessment (MIA) information to predict therapy response, where a Simple Temporal Attention (SimTA) module is developed to process the asynchronous time series. Experiments on synthetic dataset validate the superiory of SimTA over standard RNN-based approaches. Furthermore, we experiment the proposed method on an in-house, retrospective dataset of real-world non-small cell lung cancer patients under anti-PD-1 immunotherapy. The proposed method achieves promising performance on predicting the immunotherapy response. Notably, our predictive model could further stratify low-risk and high-risk patients in terms of long-term survival.
翻訳日:2022-10-09 11:22:19 公開日:2020-10-08
# 深層強化学習に基づく情報駆動型適応センシング

Information-Driven Adaptive Sensing Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2010.04112v1 )

ライセンス: Link先を確認
Abdulmajid Murad, Frank Alexander Kraemer, Kerstin Bach, Gavin Taylor(参考訳) 資源制約されたIoTデバイスに対するセンシングポリシーの作成において、深層強化学習をより活用するために、フィッシャー情報値に基づく新たな報酬関数を提案し、研究する。 この報酬関数により、IoTセンサーデバイスは、予測不可能な瞬間に測定に利用可能なエネルギーを費やすことを学べると同時に、測定がほとんど新しい情報を提供しない時にエネルギーを保存することができる。 これは非常に一般的なアプローチであり、人間の設計努力やハイパーパラメータチューニングを伴わない幅広いユースケースを可能にする。 我々は、職場のノイズモニタリングのシナリオで、学習した振る舞いが一様サンプリング戦略を上回り、ほぼ最適に近いoracleソリューションに近付くことを示す。

In order to make better use of deep reinforcement learning in the creation of sensing policies for resource-constrained IoT devices, we present and study a novel reward function based on the Fisher information value. This reward function enables IoT sensor devices to learn to spend available energy on measurements at otherwise unpredictable moments, while conserving energy at times when measurements would provide little new information. This is a highly general approach, which allows for a wide range of use cases without significant human design effort or hyper-parameter tuning. We illustrate the approach in a scenario of workplace noise monitoring, where results show that the learned behavior outperforms a uniform sampling strategy and comes close to a near-optimal oracle solution.
翻訳日:2022-10-09 11:21:57 公開日:2020-10-08
# 構成エネルギーモデルを用いた非教師付き$k$-nodeグラフ表現

Unsupervised Joint $k$-node Graph Representations with Compositional Energy-Based Models ( http://arxiv.org/abs/2010.04259v1 )

ライセンス: Link先を確認
Leonardo Cotta, Carlos H. C. Teixeira, Ananthram Swami, Bruno Ribeiro(参考訳) 帰納的非教師付きグラフ表現を学習する既存のグラフニューラルネットワーク(GNN)手法は、グラフ内の観測されたエッジを予測することにより、学習ノードとエッジ表現に焦点を当てる。 このような手法は下流ノード分類タスクの進歩を示しているが、大きな$k$-node集合、$k{>}2$を共同で表すには効果がない。 我々は,k$ノード表現とエネルギーベースモデル(ハイパーグラフマルコフネットワーク)とgnnを組み合わせた誘導的非教師なしグラフ表現手法であるmhm-gnnを提案する。 この組み合わせから生じる損失の難易度に対処するため、有限個の非バイアスマルコフ連鎖モンテカルロ推定器を用いて、損失上限を上限として最適化を行う。 実験の結果,MHM-GNNの教師なしMHM-GNN表現は,既存の文献よりも教師なし表現が優れていることがわかった。

Existing Graph Neural Network (GNN) methods that learn inductive unsupervised graph representations focus on learning node and edge representations by predicting observed edges in the graph. Although such approaches have shown advances in downstream node classification tasks, they are ineffective in jointly representing larger $k$-node sets, $k{>}2$. We propose MHM-GNN, an inductive unsupervised graph representation approach that combines joint $k$-node representations with energy-based models (hypergraph Markov networks) and GNNs. To address the intractability of the loss that arises from this combination, we endow our optimization with a loss upper bound using a finite-sample unbiased Markov Chain Monte Carlo estimator. Our experiments show that the unsupervised MHM-GNN representations of MHM-GNN produce better unsupervised representations than existing approaches from the literature.
翻訳日:2022-10-09 11:21:09 公開日:2020-10-08
# 頑健な自然言語推論のための判別型生成型分類器

Discriminatively-Tuned Generative Classifiers for Robust Natural Language Inference ( http://arxiv.org/abs/2010.03760v1 )

ライセンス: Link先を確認
Xiaoan Ding, Tianyu Liu, Baobao Chang, Zhifang Sui, Kevin Gimpel(参考訳) 識別型ニューラルネットワーク分類器は一般的に好まれるが、最近の研究はデータ効率と堅牢性の観点から生成型分類器の利点を示している。 本稿では,自然言語推論(NLI)に焦点を当てる。 我々は,NLIタスクの生成型分類器であるGenNLIを提案し,それを識別モデルやBERTのような大規模事前学習言語表現モデルを含む5つのベースラインと比較することにより,その性能を実証的に評価する。 生成型分類器の識別的微調整のための訓練目標について検討し,従来の作業からログ損失微調整の改善を示す。 特に、ログ損失に対する単純なアンバウンドな修正による強い結果が得られ、これを"infinilog loss"と呼ぶ。 実験の結果、GenNLIは、小さなトレーニングセット、不均衡なラベル分布、ラベルノイズなど、いくつかの挑戦的なNLI実験環境において、差別的ベースラインと事前訓練ベースラインの両方に優れていた。

While discriminative neural network classifiers are generally preferred, recent work has shown advantages of generative classifiers in term of data efficiency and robustness. In this paper, we focus on natural language inference (NLI). We propose GenNLI, a generative classifier for NLI tasks, and empirically characterize its performance by comparing it to five baselines, including discriminative models and large-scale pretrained language representation models like BERT. We explore training objectives for discriminative fine-tuning of our generative classifiers, showing improvements over log loss fine-tuning from prior work . In particular, we find strong results with a simple unbounded modification to log loss, which we call the "infinilog loss". Our experiments show that GenNLI outperforms both discriminative and pretrained baselines across several challenging NLI experimental settings, including small training sets, imbalanced label distributions, and label noise.
翻訳日:2022-10-09 11:14:48 公開日:2020-10-08
# Masked ELMo:完全文脈RNN言語モデルへのELMoの進化

Masked ELMo: An evolution of ELMo towards fully contextual RNN language models ( http://arxiv.org/abs/2010.04302v1 )

ライセンス: Link先を確認
Gregory Senay and Emmanuelle Salin(参考訳) 本稿では,言語モデル事前学習のための新しいRNNモデルであるMasked ELMoについて述べる。 Masked ELMoは、独立した左右コンテキストのみを使用するELMoとは対照的に、完全に双方向な単語表現を学ぶ。 これを実現するために、BERTと同じMasked言語モデルを使用する。 さらに、LSTMニューロンの最適化、マスク蓄積と双方向の切り離されたバックプロパゲーションの統合により、モデルのトレーニング速度が大幅に向上した。 これらの改善により、低計算コストを維持しながらELMoよりも優れた言語モデルを事前訓練することが可能になった。 私たちは、このモデルがelmoを大幅に上回っており、トランスフォーマーアプローチと競合する、glueベンチマークの同じプロトコル内のelmoと比較することで、マスクされたelmoを評価します。

This paper presents Masked ELMo, a new RNN-based model for language model pre-training, evolved from the ELMo language model. Contrary to ELMo which only uses independent left-to-right and right-to-left contexts, Masked ELMo learns fully bidirectional word representations. To achieve this, we use the same Masked language model objective as BERT. Additionally, thanks to optimizations on the LSTM neuron, the integration of mask accumulation and bidirectional truncated backpropagation through time, we have increased the training speed of the model substantially. All these improvements make it possible to pre-train a better language model than ELMo while maintaining a low computational cost. We evaluate Masked ELMo by comparing it to ELMo within the same protocol on the GLUE benchmark, where our model outperforms significantly ELMo and is competitive with transformer approaches.
翻訳日:2022-10-09 11:13:58 公開日:2020-10-08
# 自動車ローカライズ問題の弱教師付き学習におけるオリジナルラベルと擬似ラベルの効果の比較研究

A Comparative Study on Effects of Original and Pseudo Labels for Weakly Supervised Learning for Car Localization Problem ( http://arxiv.org/abs/2010.03815v1 )

ライセンス: Link先を確認
Cenk Bircanoglu(参考訳) 本研究では,カーデータセット上で提示される弱教師付き学習を用いて,複数の概念的意味の結果として作成した異なるクラスラベルの効果について検討した。 さらに、生成されたラベルを比較対象に含め、ソリューションを教師なし学習に変換する。 本稿では,イメージ内のカーローカライズのための複数のセットアップを,教師付き学習ではなく,他のアプローチで検討する。 ローカライゼーションラベルを予測するために,クラス活性化マッピング(CAM)を実装し,その結果から形態的エッジ検出を用いて境界ボックスを抽出する。 オリジナルのクラスラベルに加えて、生成されたクラスラベルもCAMのトレーニングに使われており、教師なし学習の例に対する解決策となった。 実験では、まず、Weakly Supervised LocalizationにおけるクラスラベルがCompcarsデータセットに与える影響を分析する。 次に、提案手法は、この特定のデータセットにおけるWeakly Supervised法を約6パーセント上回っていることを示す。

In this study, the effects of different class labels created as a result of multiple conceptual meanings on localization using Weakly Supervised Learning presented on Car Dataset. In addition, the generated labels are included in the comparison, and the solution turned into Unsupervised Learning. This paper investigates multiple setups for car localization in the images with other approaches rather than Supervised Learning. To predict localization labels, Class Activation Mapping (CAM) is implemented and from the results, the bounding boxes are extracted by using morphological edge detection. Besides the original class labels, generated class labels also employed to train CAM on which turn to a solution to Unsupervised Learning example. In the experiments, we first analyze the effects of class labels in Weakly Supervised localization on the Compcars dataset. We then show that the proposed Unsupervised approach outperforms the Weakly Supervised method in this particular dataset by approximately %6.
翻訳日:2022-10-09 11:13:42 公開日:2020-10-08
# UESegNet: 耳のバイオメトリックのための制約のないROIセグメンテーションネットワークを意識する

UESegNet: Context Aware Unconstrained ROI Segmentation Networks for Ear Biometric ( http://arxiv.org/abs/2010.03990v1 )

ライセンス: Link先を確認
Aman Kamboj, Rajneesh Rani, Aditya Nigam, Ranjeet Ranjan Jha(参考訳) 生体認証ベースの個人認証システムには,プライバシやセキュリティ上のさまざまなアプリケーションに対する懸念が高まっているため,大きな需要がある。 それぞれの生体計測特性は問題に依存しているものの、ヒトの耳は強力な生体計測基準としての使用を可能にする十分な識別特性を持つことがわかった。 2次元側面画像における耳の特定は困難な課題であり,既存の手法が有意な性能を発揮してきたが,その大半は制約のある環境に基づいている。 しかし、耳のバイオメトリックスは、ポーズ、スケール、オクルージョン、イルミネーション、背景のぼやけなど、制約のない環境において大きな困難を抱えている。 耳の局所化問題に対処するため,本研究では,深い畳み込みニューラルネットワークを基本として,制約のない環境下での耳の局所化に主にコンテキスト情報を用いる,2つの高性能興味領域分割モデル UESegNet-1 と UESegNet-2 を提案する。 さらに、現在最先端のディープラーニングモデルviz、FRCNN(Faster Region Proposal Network)とSSD(Single Shot MultiBox Detecor)を耳局所化タスクに適用した。 モデルの一般化をテストするために、それらは6つのベンチマークデータセットviz、iitd、iitk、ustb-db3、und-e、und-j2、ubearで評価される。 モデルの性能は、IOU(Intersection Over Union)、精度、精度、リコール、F1スコアなどのオブジェクト検出性能測定パラメータに基づいて比較される。 提案したモデル UESegNet-1 と UESegNet-2 は FRCNN と SSD を IOU のより高い値で上回っている。

Biometric-based personal authentication systems have seen a strong demand mainly due to the increasing concern in various privacy and security applications. Although the use of each biometric trait is problem dependent, the human ear has been found to have enough discriminating characteristics to allow its use as a strong biometric measure. To locate an ear in a 2D side face image is a challenging task, numerous existing approaches have achieved significant performance, but the majority of studies are based on the constrained environment. However, ear biometrics possess a great level of difficulties in the unconstrained environment, where pose, scale, occlusion, illuminations, background clutter etc. varies to a great extent. To address the problem of ear localization in the wild, we have proposed two high-performance region of interest (ROI) segmentation models UESegNet-1 and UESegNet-2, which are fundamentally based on deep convolutional neural networks and primarily uses contextual information to localize ear in the unconstrained environment. Additionally, we have applied state-of-the-art deep learning models viz; FRCNN (Faster Region Proposal Network) and SSD (Single Shot MultiBox Detecor) for ear localization task. To test the model's generalization, they are evaluated on six different benchmark datasets viz; IITD, IITK, USTB-DB3, UND-E, UND-J2 and UBEAR, all of which contain challenging images. The performance of the models is compared on the basis of object detection performance measure parameters such as IOU (Intersection Over Union), Accuracy, Precision, Recall, and F1-Score. It has been observed that the proposed models UESegNet-1 and UESegNet-2 outperformed the FRCNN and SSD at higher values of IOUs i.e. an accuracy of 100\% is achieved at IOU 0.5 on majority of the databases.
翻訳日:2022-10-09 11:13:26 公開日:2020-10-08
# ゴールベース分類とTRIZを用いた実世界問題と自然感性アルゴリズムのマッピング

Mapping of Real World Problems to Nature Inspired Algorithm using Goal based Classification and TRIZ ( http://arxiv.org/abs/2010.03795v1 )

ライセンス: Link先を確認
Palak Sukharamwala and Manojkumar Parmar(参考訳) 技術とアルゴリズムは指数関数的に成長している。 これらの技術は技術的に困難で複雑な問題を解決するのに十分である。 しかし、トレンドの手法やアプローチは、データ、アルゴリズム、ソフトウェア、計算複雑性、エネルギー効率の様々な面で様々な課題に直面している。 自然界も同様の課題に直面している。 自然はこれらの課題を解決し、それらの定式化はネイチャーインスパイアされたアルゴリズム(Nature Inspired Algorithms, NIA)として利用可能である。 実世界の問題を自然問題にマッピングするためのTRIZに基づく新しい手法を解説し, TRIZは発明的な問題解決の理論である。 提案したフレームワークを用いることで、現実世界の問題を解決するのに最適なNIAを特定できる。 この枠組みを機能させるためには、自然が達成しようとする最終目標に基づいた新しいNIA分類が考案された。 このフレームワークの応用例についても論じる。

The technologies and algorithms are growing at an exponential rate. The technologies are capable enough to solve technically challenging and complex problems which seemed impossible task. However, the trending methods and approaches are facing multiple challenges on various fronts of data, algorithms, software, computational complexities, and energy efficiencies. Nature also faces similar challenges. Nature has solved those challenges and formulation of those are available as Nature Inspired Algorithms (NIA), which are derived based on the study of nature. A novel method based on TRIZ to map the real-world problems to nature problems is explained here.TRIZ is a Theory of inventive problem solving. Using the proposed framework, best NIA can be identified to solve the real-world problems. For this framework to work, a novel classification of NIA based on the end goal that nature is trying to achieve is devised. The application of the this framework along with examples is also discussed.
翻訳日:2022-10-09 11:12:54 公開日:2020-10-08
# 直接フィードバックアライメントを用いた差分私的深層学習

Differentially Private Deep Learning with Direct Feedback Alignment ( http://arxiv.org/abs/2010.03701v1 )

ライセンス: Link先を確認
Jaewoo Lee and Daniel Kifer(参考訳) ディープニューラルネットワークの差分プライベートトレーニングの標準的な方法は、バックプロパゲーションされたミニバッチ勾配をバイアス付きおよびノイズの近似に置き換える。 これらのトレーニングの修正は、プライバシ保護モデルをもたらすことが多く、非プライベートモデルよりもはるかに正確ではない。 代替トレーニングアルゴリズムは、より差分プライバシーに対処できるかもしれないと仮定する。 具体的には、直接フィードバックアライメント(DFA)の適合性を検討する。 本稿では,dfaを用いて深層ニューラルネットワークを訓練する最初の差分プライベート手法を提案し,様々なアーキテクチャ(完全接続,畳み込み)とデータセット上でのバックプロップに基づく差分プライベートトレーニングと比較して,精度(しばしば10~20%)が大幅に向上することを示す。

Standard methods for differentially private training of deep neural networks replace back-propagated mini-batch gradients with biased and noisy approximations to the gradient. These modifications to training often result in a privacy-preserving model that is significantly less accurate than its non-private counterpart. We hypothesize that alternative training algorithms may be more amenable to differential privacy. Specifically, we examine the suitability of direct feedback alignment (DFA). We propose the first differentially private method for training deep neural networks with DFA and show that it achieves significant gains in accuracy (often by 10-20%) compared to backprop-based differentially private training on a variety of architectures (fully connected, convolutional) and datasets.
翻訳日:2022-10-09 11:12:25 公開日:2020-10-08
# 強化学習における最大報酬定式化

Maximum Reward Formulation In Reinforcement Learning ( http://arxiv.org/abs/2010.03744v1 )

ライセンス: Link先を確認
Sai Krishna Gottipati, Yashaswi Pathak, Rohan Nuttall, Sahir, Raviteja Chunduru, Ahmed Touati, Sriram Ganapathi Subramanian, Matthew E. Taylor, Sarath Chandar(参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムは一般的に、期待累積戻り(カウント、未カウント、有限、無限水平)を最大化する。 しかし、薬物発見のような現実世界におけるいくつかの重要な応用はこの枠組みに適合しない、なぜなら、RLエージェントは軌道内で最も高い報酬を得る状態(分子)を識別するだけで、期待される累積リターンのために最適化する必要がないからである。 本研究では、軌道に沿った最大報酬を最大化する目的関数を定式化し、ベルマン方程式の新たな関数形式を導出し、対応するベルマン作用素を導入し、収束の証明を与える。 この定式化を用いて, 現実世界の創薬パイプラインを模倣した分子生成の課題について, 最先端の結果を得る。

Reinforcement learning (RL) algorithms typically deal with maximizing the expected cumulative return (discounted or undiscounted, finite or infinite horizon). However, several crucial applications in the real world, such as drug discovery, do not fit within this framework because an RL agent only needs to identify states (molecules) that achieve the highest reward within a trajectory and does not need to optimize for the expected cumulative return. In this work, we formulate an objective function to maximize the expected maximum reward along a trajectory, derive a novel functional form of the Bellman equation, introduce the corresponding Bellman operators, and provide a proof of convergence. Using this formulation, we achieve state-of-the-art results on the task of molecule generation that mimics a real-world drug discovery pipeline.
翻訳日:2022-10-09 11:05:49 公開日:2020-10-08
# 逆移動可能性の解釈と促進のための統一的アプローチ

A Unified Approach to Interpreting and Boosting Adversarial Transferability ( http://arxiv.org/abs/2010.04055v1 )

ライセンス: Link先を確認
Xin Wang, Jie Ren, Shuyun Lin, Xiangming Zhu, Yisen Wang, Quanshi Zhang(参考訳) 本稿では, 対向的摂動の相互作用を用いて, 対向的伝達性を説明する。 我々は, 対向移動可能性と対向摂動の相互作用との間に負の相関関係を発見し, 証明する。 負の相関は、様々な入力を持つ異なるDNNを通してさらに検証される。 さらに、この負相関は、電流伝達可能性ブースティング法を理解するための統一的な視点と見なすことができる。 この目的のために、転送可能性を高めるいくつかの古典的な方法が、本質的には対向摂動の相互作用を減少させることを証明した。 そこで本研究では,攻撃過程における相互作用を直接ペナルティ化する手法を提案する。

In this paper, we use the interaction inside adversarial perturbations to explain and boost the adversarial transferability. We discover and prove the negative correlation between the adversarial transferability and the interaction inside adversarial perturbations. The negative correlation is further verified through different DNNs with various inputs. Moreover, this negative correlation can be regarded as a unified perspective to understand current transferability-boosting methods. To this end, we prove that some classic methods of enhancing the transferability essentially decease interactions inside adversarial perturbations. Based on this, we propose to directly penalize interactions during the attacking process, which significantly improves the adversarial transferability.
翻訳日:2022-10-09 11:04:50 公開日:2020-10-08
# 関連ルールの経年変化

Association rules over time ( http://arxiv.org/abs/2010.03834v1 )

ライセンス: Link先を確認
Iztok Fister Jr., Iztok Fister(参考訳) 人工知能システムによる最近の決定は通常、ユーザーが理解することが難しい。 開発者が直面する最も重要な問題の1つは、より説明しやすい機械学習モデルを作成する方法である。 これに合わせて、視覚的な説明がより重要な役割を果たすように、より説明可能なテクニックを開発する必要がある。 本章は,(1)関連規則の発見方法,(2)より多くの属性間の関係を視覚的に表現する方法という2つの問題に焦点をあてる。 第一号の解法として,提案手法は微分進化を用いるが,sankeyダイアグラムは第二号の解法として採用される。 本手法は,4つの期間に分けたトレーニングセッションの実現時に装着したモバイルデバイスを用いて,過去のシーズンにアマチュアサイクリストが生成したデータを含むトランザクションデータベースに適用した。 可視化の結果, 競技選手のパフォーマンス向上の傾向は, 選抜された競技規則に現れる属性を, 異なる期間に変化させることで示せることがわかった。

Decisions made nowadays by Artificial Intelligence powered systems are usually hard for users to understand. One of the more important issues faced by developers is exposed as how to create more explainable Machine Learning models. In line with this, more explainable techniques need to be developed, where visual explanation also plays a more important role. This technique could also be applied successfully for explaining the results of Association Rule Mining.This Chapter focuses on two issues: (1) How to discover the relevant association rules, and (2) How to express relations between more attributes visually. For the solution of the first issue, the proposed method uses Differential Evolution, while Sankey diagrams are adopted to solve the second one. This method was applied to a transaction database containing data generated by an amateur cyclist in past seasons, using a mobile device worn during the realization of training sessions that is divided into four time periods. The results of visualization showed that a trend in improving performance of an athlete can be indicated by changing the attributes appearing in the selected association rules in different time periods.
翻訳日:2022-10-09 11:04:40 公開日:2020-10-08
# 明示的な行動学習による一般化と説明可能な対話生成

Generalizable and Explainable Dialogue Generation via Explicit Action Learning ( http://arxiv.org/abs/2010.03755v1 )

ライセンス: Link先を確認
Xinting Huang, Jianzhong Qi, Yu Sun, Rui Zhang(参考訳) タスク指向対話に対する応答生成は、タスク補完と言語品質という2つの目的を同時に最適化する。 条件付き応答生成は、これら2つの目標を分離してより良く最適化するための効果的なアプローチとして役立ちます。 このようなアプローチは、取得に費用がかかるシステムアクションアノテーションに依存している。 アクションアノテーションの必要性を軽減するために、各発話を潜在表現にマッピングするために潜在アクション学習を導入する。 しかしながら、このアプローチはトレーニングデータに過度に依存しがちであり、一般化能力は制限される。 この問題に対処するために,発話を単語のスパンとして表現する自然言語行動の学習を提案する。 この明示的な行動表現は言語の合成構造を介して一般化を促進する。 説明可能な生成プロセスも可能である。 提案手法では,システム発話を短い単語に要約するメモリ成分を学習する。 コンパクトなアクション表現をさらに促進するために,メモリコンポーネントを用いた要約対話コンテキストとして状態アノテーションを復元する補助タスクを提案する。 提案手法は,マルチドメインベンチマークデータセットであるmultiwozの潜在アクションベースラインを上回っている。

Response generation for task-oriented dialogues implicitly optimizes two objectives at the same time: task completion and language quality. Conditioned response generation serves as an effective approach to separately and better optimize these two objectives. Such an approach relies on system action annotations which are expensive to obtain. To alleviate the need of action annotations, latent action learning is introduced to map each utterance to a latent representation. However, this approach is prone to over-dependence on the training data, and the generalization capability is thus restricted. To address this issue, we propose to learn natural language actions that represent utterances as a span of words. This explicit action representation promotes generalization via the compositional structure of language. It also enables an explainable generation process. Our proposed unsupervised approach learns a memory component to summarize system utterances into a short span of words. To further promote a compact action representation, we propose an auxiliary task that restores state annotations as the summarized dialogue context using the memory component. Our proposed approach outperforms latent action baselines on MultiWOZ, a benchmark multi-domain dataset.
翻訳日:2022-10-09 11:04:24 公開日:2020-10-08
# NLPにおけるピアレビューを改善するために何ができるか?

What Can We Do to Improve Peer Review in NLP? ( http://arxiv.org/abs/2010.03863v1 )

ライセンス: Link先を確認
Anna Rogers, Isabelle Augenstein(参考訳) ピアレビューは、カンファレンスの応募の質を判断するための最良のツールですが、ますます刺激的になっています。 問題の一部は、レビュアーとエリアチェアが、リンゴとオレンジの比較を強制する未定義の課題に直面していることである。 先進的な方法はいくつかあるが、NLPコミュニティにおける一貫した実装のためのインセンティブとメカニズムを作成することが重要な課題である。

Peer review is our best tool for judging the quality of conference submissions, but it is becoming increasingly spurious. We argue that a part of the problem is that the reviewers and area chairs face a poorly defined task forcing apples-to-oranges comparisons. There are several potential ways forward, but the key difficulty is creating the incentives and mechanisms for their consistent implementation in the NLP community.
翻訳日:2022-10-09 11:03:52 公開日:2020-10-08
# 言語埋め込みと条件付き確率を用いたWALSの類型的特徴の予測:SIGTYP 2020共有タスクへの \'UFAL 提出

Predicting Typological Features in WALS using Language Embeddings and Conditional Probabilities: \'UFAL Submission to the SIGTYP 2020 Shared Task ( http://arxiv.org/abs/2010.03920v1 )

ライセンス: Link先を確認
Martin Vastl, Daniel Zeman, Rudolf Rosa(参考訳) 我々は,sigtyp 2020 (sigtyp 2020) のタイポロジー的特徴の予測に関するタスクを提示する。 我々は,WALSデータベースのみに基づいて,類型的特徴を予測する制約付きシステムを提案する。 我々は2つのアプローチを調査します。 この2つは、条件付き確率と相互情報の計算により、言語内の特徴値の相関関係を推定するシステムである。 第2のアプローチは、WALS機能に基づいた事前計算言語埋め込みで動作する神経予測器のトレーニングである。 提案システムでは, 自己推定信頼度に基づく2つのアプローチを組み合わせる。 テストデータで70.7%の精度に達し、共有タスクで最初にランク付けします。

We present our submission to the SIGTYP 2020 Shared Task on the prediction of typological features. We submit a constrained system, predicting typological features only based on the WALS database. We investigate two approaches. The simpler of the two is a system based on estimating correlation of feature values within languages by computing conditional probabilities and mutual information. The second approach is to train a neural predictor operating on precomputed language embeddings based on WALS features. Our submitted system combines the two approaches based on their self-estimated confidence scores. We reach the accuracy of 70.7% on the test data and rank first in the shared task.
翻訳日:2022-10-09 11:03:43 公開日:2020-10-08
# ニューラルグループアクション

Neural Group Actions ( http://arxiv.org/abs/2010.03733v1 )

ライセンス: Link先を確認
Span Spanbauer, Luke Sciarappa(参考訳) 本稿では、与えられた有限群の法則を満たす対称変換をモデル化するディープニューラルネットワークアーキテクチャの集合であるニューラルグループアクションを設計するアルゴリズムを提案する。 これは、任意のデータ$x$に対して$\mathcal{N}(\mathcal{N}(x))=x$を満たすインボリューティブニューラルネットワーク$\mathcal{N}$を一般化し、$\mathbb{Z}_2$の群法則である。 グループアクションがボリューム保存である追加の制約をオプションで強制する方法を示す。 我々は、畳み込みニューラルネットワークの普遍性の結果と類似して、神経群作用から構築された生成モデルは群法則に固執する確率的遷移の集合の普遍的近似子であると推測する。 四元数群 $q_8$ に対する神経群作用が、単一の量子状態に対して$q_8$ のグループ法則を満たす非普遍量子ゲートがどう作用するかを実験的に示す。

We introduce an algorithm for designing Neural Group Actions, collections of deep neural network architectures which model symmetric transformations satisfying the laws of a given finite group. This generalizes involutive neural networks $\mathcal{N}$, which satisfy $\mathcal{N}(\mathcal{N}(x))=x$ for any data $x$, the group law of $\mathbb{Z}_2$. We show how to optionally enforce an additional constraint that the group action be volume-preserving. We conjecture, by analogy to a universality result for involutive neural networks, that generative models built from Neural Group Actions are universal approximators for collections of probabilistic transitions adhering to the group laws. We demonstrate experimentally that a Neural Group Action for the quaternion group $Q_8$ can learn how a set of nonuniversal quantum gates satisfying the $Q_8$ group laws act on single qubit quantum states.
翻訳日:2022-10-09 10:56:55 公開日:2020-10-08
# アフィン不変ロバストトレーニング

Affine-Invariant Robust Training ( http://arxiv.org/abs/2010.04216v1 )

ライセンス: Link先を確認
Oriol Barbany Mayor(参考訳) 敵対的堅牢性の分野は機械学習に大きな注目を集めている。 平均的なケースで正確であるトレーニングモデルの一般的なアプローチとは対照的に、最悪のケース入力に対して正確であるトレーニングモデルを目指しているため、より堅牢で信頼性の高いモデルが得られる。 別の言い方をすれば、相手がモデルを騙すのを防ぐ。 逆ロバスト性の研究は、主に$\ell_p-$bounded adversarial perturbation、すなわち$\ell_p$ノルムで有界な入力の修正に焦点を当てている。 それにもかかわらず、最先端のモデルは、データ拡張内の機械学習で既に考慮されていたアフィン変換のような、他のより自然な摂動にも弱いことが示されている。 本研究は,空間的ロバストネス法における先行研究を概観し,各入力に対する最悪のアフィン変換を見つけるためのゼロ次最適化アルゴリズムとして進化戦略を提案する。 提案手法はロバストモデルを効果的に生成し,非パラメトリック逆摂動の導入を可能にする。

The field of adversarial robustness has attracted significant attention in machine learning. Contrary to the common approach of training models that are accurate in average case, it aims at training models that are accurate for worst case inputs, hence it yields more robust and reliable models. Put differently, it tries to prevent an adversary from fooling a model. The study of adversarial robustness is largely focused on $\ell_p-$bounded adversarial perturbations, i.e. modifications of the inputs, bounded in some $\ell_p$ norm. Nevertheless, it has been shown that state-of-the-art models are also vulnerable to other more natural perturbations such as affine transformations, which were already considered in machine learning within data augmentation. This project reviews previous work in spatial robustness methods and proposes evolution strategies as zeroth order optimization algorithms to find the worst affine transforms for each input. The proposed method effectively yields robust models and allows introducing non-parametric adversarial perturbations.
翻訳日:2022-10-09 10:56:40 公開日:2020-10-08
# Don't Parse, Insert: Insertionベースのデコードによる多言語意味解析

Don't Parse, Insert: Multilingual Semantic Parsing with Insertion Based Decoding ( http://arxiv.org/abs/2010.03714v1 )

ライセンス: Link先を確認
Qile Zhu, Haidar Khan, Saleh Soltan, Stephen Rawls, Wael Hamza(参考訳) 意味解析は自然言語理解システムの主要な構成要素の1つである。 成功した構文は、入力発話をシステムで容易に理解できる動作に変換する。 この問題を解決するために、従来のルールベースや統計スロットフィルシステムからshiftreduceベースのニューラルネットワークパーサまで、多くのアルゴリズムが提案されている。 複雑な解析タスクでは、state-of-the-artメソッドは、構文解析を直接生成するシーケンスモデルへの自己回帰シーケンスに基づいている。 このモデルは推論時に遅く、o(n) 復号ステップでパースを生成する(n は対象シーケンスの長さである)。 さらに,この手法は,ゼロショットの言語間移動学習環境では不十分であることを示す。 本稿では,この2つの問題を克服するために,挿入変圧器に基づく非自己回帰解析器を提案する。 私たちのアプローチ 1)自己回帰モデルを上回るデコーディングを3倍高速化する。 2) 自己回帰ベースラインに比べて低リソース環境での言語間移動が37%向上した。 我々は、ATIS、SNIPS、TOPの3つのよく知られたモノリンガルデータセットに対するアプローチを検証した。 言語間セマンティック解析には、MultiATIS++とマルチ言語TOPデータセットを使用する。

Semantic parsing is one of the key components of natural language understanding systems. A successful parse transforms an input utterance to an action that is easily understood by the system. Many algorithms have been proposed to solve this problem, from conventional rulebased or statistical slot-filling systems to shiftreduce based neural parsers. For complex parsing tasks, the state-of-the-art method is based on autoregressive sequence to sequence models to generate the parse directly. This model is slow at inference time, generating parses in O(n) decoding steps (n is the length of the target sequence). In addition, we demonstrate that this method performs poorly in zero-shot cross-lingual transfer learning settings. In this paper, we propose a non-autoregressive parser which is based on the insertion transformer to overcome these two issues. Our approach 1) speeds up decoding by 3x while outperforming the autoregressive model and 2) significantly improves cross-lingual transfer in the low-resource setting by 37% compared to autoregressive baseline. We test our approach on three well-known monolingual datasets: ATIS, SNIPS and TOP. For cross lingual semantic parsing, we use the MultiATIS++ and the multilingual TOP datasets.
翻訳日:2022-10-09 10:55:43 公開日:2020-10-08
# 共通知識を持つテキストベースRLエージェント:新しい課題,環境,ベースライン

Text-based RL Agents with Commonsense Knowledge: New Challenges, Environments and Baselines ( http://arxiv.org/abs/2010.03790v1 )

ライセンス: Link先を確認
Keerthiram Murugesan, Mattia Atzeni, Pavan Kapanipathi, Pushkar Shukla, Sadhana Kumaravel, Gerald Tesauro, Kartik Talamadupula, Mrinmaya Sachan, Murray Campbell(参考訳) テキストベースのゲームは強化学習(RL)研究において重要なテストベッドとして現れており、RLエージェントは基底言語理解とシーケンシャルな意思決定を組み合わせなければならない。 本稿では,共通知識を持つrlエージェントを感染させる問題について検討する。 このような知識により、エージェントは目立たないアクションを取り除き、現在のアクションが将来の世界状態にどう影響するかを判断するためのルック・ア・プランニングを行うことで、世界で効率的に行動することができる。 我々は、オブジェクト、それらの属性、および余裕に関する特定のコモンセンス知識を用いてRLエージェントを訓練し、評価するためのテキストベースの新しいゲーム環境であるTextWorld Commonsense(TWC)を設計する。 また,シーケンシャルコンテキストを追跡し,関連するコモンセンス知識をconceptnetから動的に取得するベースラインrlエージェントについても紹介する。 TWCにコモンセンス知識を取り入れたエージェントは、より効率的に行動しながら、より優れたパフォーマンスを示す。 我々は,TWCにおける人的パフォーマンスを推定するユーザスタディを実施し,今後の改善の余地が十分にあることを示す。

Text-based games have emerged as an important test-bed for Reinforcement Learning (RL) research, requiring RL agents to combine grounded language understanding with sequential decision making. In this paper, we examine the problem of infusing RL agents with commonsense knowledge. Such knowledge would allow agents to efficiently act in the world by pruning out implausible actions, and to perform look-ahead planning to determine how current actions might affect future world states. We design a new text-based gaming environment called TextWorld Commonsense (TWC) for training and evaluating RL agents with a specific kind of commonsense knowledge about objects, their attributes, and affordances. We also introduce several baseline RL agents which track the sequential context and dynamically retrieve the relevant commonsense knowledge from ConceptNet. We show that agents which incorporate commonsense knowledge in TWC perform better, while acting more efficiently. We conduct user-studies to estimate human performance on TWC and show that there is ample room for future improvement.
翻訳日:2022-10-09 10:55:26 公開日:2020-10-08
# 漏洩調整型シミュラビリティ:モデルは自然言語における行動の非現実的説明を生成できるか?

Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial Explanations of Their Behavior in Natural Language? ( http://arxiv.org/abs/2010.04119v1 )

ライセンス: Link先を確認
Peter Hase, Shiyue Zhang, Harry Xie, Mohit Bansal(参考訳) 自然言語理解タスクのためのデータ収集(NL)は、データポイントと並んで人間の説明を含むようになり、過去の作業ではタスクを実行し、出力に対してNLの説明を生成するモデルを導入することができた。 しかし、モデル生成の説明は、BLEUや人的評価のような自動測定によって、人的説明と表面レベルの類似性に基づいて評価されてきた。 我々は、これらの評価は、説明が実際のモデル行動(ファシフルネス)をサポートするかどうかを、単に人間の言うことと一致させるのではなく、示さないため、不十分であると主張する。 本研究では,モデル同化可能性の観点から説明を評価する問題に対処する。 我々は,(1)nl説明を評価するための漏えい調整同時性(las)指標を導入し,説明がモデルのアウトプットをいかに正確に予測するのに役立つかを計測し,説明が直接アウトプットを漏洩させるかを制御した。 ヒトの観察者のためのプロキシとしてモデルを使用し、この選択を2つの被験者実験で検証する。 2) CoS-E と e-SNLI のデータセットを用いて,既存の2つの生成グラフィカルモデルと2つの新しいアプローチを評価する。 (3) 最後に,多エージェントゲームとしての説明生成をフレーム化し, ラベルリークをペナライズしながらシミュラビリティの説明を最適化する。 本稿では, https://github.com/peterbhase/LAS-NL-Explanationsで実験のコードを提供する。

Data collection for natural language (NL) understanding tasks has increasingly included human explanations alongside data points, allowing past works to introduce models that both perform a task and generate NL explanations for their outputs. Yet to date, model-generated explanations have been evaluated on the basis of surface-level similarities to human explanations, both through automatic metrics like BLEU and human evaluations. We argue that these evaluations are insufficient, since they fail to indicate whether explanations support actual model behavior (faithfulness), rather than simply match what a human would say (plausibility). In this work, we address the problem of evaluating explanations from the model simulatability perspective. Our contributions are as follows: (1) We introduce a leakage-adjusted simulatability (LAS) metric for evaluating NL explanations, which measures how well explanations help an observer predict a model's output, while controlling for how explanations can directly leak the output. We use a model as a proxy for a human observer, and validate this choice with two human subject experiments. (2) Using the CoS-E and e-SNLI datasets, we evaluate two existing generative graphical models and two new approaches; one rationalizing method we introduce achieves roughly human-level LAS scores. (3) Lastly, we frame explanation generation as a multi-agent game and optimize explanations for simulatability while penalizing label leakage, which can improve LAS scores. We provide code for the experiments in this paper at https://github.com/peterbhase/LAS-NL-Explanations
翻訳日:2022-10-09 10:55:08 公開日:2020-10-08
# 変圧器のクエリーキー正規化

Query-Key Normalization for Transformers ( http://arxiv.org/abs/2010.04245v1 )

ライセンス: Link先を確認
Alex Henry, Prudhvi Raj Dachapally, Shubham Pawar, Yuxuan Chen(参考訳) 低リソースの言語翻訳は難しいが社会的に価値のあるNLPタスクである。 この設定にトランスフォーマーの正規化を適用した最近の研究に基づいて、注意機構を改良し、表現性を犠牲にすることなく、ソフトマックス関数を任意の飽和にしにくくするQKNormを提案する。 具体的には、各クエリとキーマトリックスの頭次元に沿って$\ell_2$正規化を乗算する前に適用し、埋め込み次元の平方根で割る代わりに学習可能なパラメータでスケールアップする。 TED Talks corpus と IWSLT'15 の5つの低リソース翻訳ペアに対して,最先端のバイリンガルベンチマークに対する平均 0.928 BLEU の改善を示す。

Low-resource language translation is a challenging but socially valuable NLP task. Building on recent work adapting the Transformer's normalization to this setting, we propose QKNorm, a normalization technique that modifies the attention mechanism to make the softmax function less prone to arbitrary saturation without sacrificing expressivity. Specifically, we apply $\ell_2$ normalization along the head dimension of each query and key matrix prior to multiplying them and then scale up by a learnable parameter instead of dividing by the square root of the embedding dimension. We show improvements averaging 0.928 BLEU over state-of-the-art bilingual benchmarks for 5 low-resource translation pairs from the TED Talks corpus and IWSLT'15.
翻訳日:2022-10-09 10:54:39 公開日:2020-10-08
# ウィジェットキャプション:モバイルユーザインタフェース要素のための自然言語記述の生成

Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements ( http://arxiv.org/abs/2010.04295v1 )

ライセンス: Link先を確認
Yang Li, Gang Li, Luheng He, Jingjie Zheng, Hong Li, Zhiwei Guan(参考訳) 代替テキストなどのユーザインタフェース(ui)要素の自然言語記述は、アクセシビリティと言語ベースのインタラクション全般において不可欠である。 しかし、これらの説明は常にモバイルUIに欠けている。 ユーザインタフェースのイメージと構造表現の両方を含むマルチモーダル入力からui要素の言語記述を自動的に生成する新しいタスクであるウィジェットキャプションを提案する。 クラウドソーシングによるウィジェットキャプションのための大規模データセットを収集した。 当社のデータセットには、21,750のユニークなui画面に61,285のui要素をアノテートするために、ヒューマンワーカーによって作成された162,859の言語句が含まれています。 データセットを徹底的に分析し,深層モデルの構成を訓練し,各特徴のモダリティと学習戦略の選択が予測キャプションの品質に与える影響を検証した。 タスクの定式化とデータセット、および私たちのベンチマークモデルは、言語とユーザインターフェースを接続するこの新しいマルチモーダルキャプションタスクの確かな基盤となります。

Natural language descriptions of user interface (UI) elements such as alternative text are crucial for accessibility and language-based interaction in general. Yet, these descriptions are constantly missing in mobile UIs. We propose widget captioning, a novel task for automatically generating language descriptions for UI elements from multimodal input including both the image and the structural representations of user interfaces. We collected a large-scale dataset for widget captioning with crowdsourcing. Our dataset contains 162,859 language phrases created by human workers for annotating 61,285 UI elements across 21,750 unique UI screens. We thoroughly analyze the dataset, and train and evaluate a set of deep model configurations to investigate how each feature modality as well as the choice of learning strategies impact the quality of predicted captions. The task formulation and the dataset as well as our benchmark models contribute a solid basis for this novel multimodal captioning task that connects language and user interfaces.
翻訳日:2022-10-09 10:54:26 公開日:2020-10-08