このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200501となっている論文です。

PDF登録状況(公開日: 20200501)

TitleAuthorsAbstract論文公表日・翻訳日
# 並列文からのロバストな言語間埋め込み

Robust Cross-lingual Embeddings from Parallel Sentences ( http://arxiv.org/abs/1912.12481v2 )

ライセンス: Link先を確認
Ali Sabet, Prakhar Gupta, Jean-Baptiste Cordonnier, Robert West, Martin Jaggi(参考訳) 近年の言語間単語埋め込みの進歩は主に、異なる言語からの事前学習された単語埋め込みを線形変換によって共有空間に投影するマッピングベースの手法に依存している。 しかし、これらの手法は、単語埋め込み空間が異なる言語間で同型であると仮定し、実際には保持されないことが示されている(S{\o}gaard et al., 2018)。 本研究は,この障害を克服できる共同学習手法について,言語間の埋め込みを訓練目的の言語横断語で同時に学習することで研究する。 本稿では,文整合コーパスを利用して文間単語と文表現を頑健に獲得するCBOW手法のバイリンガル拡張を提案する。 本手法は,単語翻訳における現在最先端の手法と同等性を保ちながら,言語間文検索性能を大幅に向上させる。 また、ゼロショットのクロスランガル文書分類タスクにおいて、深いRNN法と同等であり、トレーニングや推論のための計算資源をはるかに少なくする。 追加の利点として,本手法は他の競合手法と比較して,単言語単語ベクターの品質が大幅に向上した。

Recent advances in cross-lingual word embeddings have primarily relied on mapping-based methods, which project pretrained word embeddings from different languages into a shared space through a linear transformation. However, these approaches assume word embedding spaces are isomorphic between different languages, which has been shown not to hold in practice (S{\o}gaard et al., 2018), and fundamentally limits their performance. This motivates investigating joint learning methods which can overcome this impediment, by simultaneously learning embeddings across languages via a cross-lingual term in the training objective. We propose a bilingual extension of the CBOW method which leverages sentence-aligned corpora to obtain robust cross-lingual word and sentence representations. Our approach significantly improves cross-lingual sentence retrieval performance over all other approaches while maintaining parity with the current state-of-the-art methods on word-translation. It also achieves parity with a deep RNN method on a zero-shot cross-lingual document classification task, requiring far fewer computational resources for training and inference. As an additional advantage, our bilingual method leads to a much more pronounced improvement in the the quality of monolingual word vectors compared to other competing methods.
翻訳日:2023-01-17 12:46:10 公開日:2020-05-01
# 量子制限重力測定のための高qmgスケールモノリシック振子

High Q mg-scale monolithic pendulum for quantum-limited gravity measurements ( http://arxiv.org/abs/1912.12567v3 )

ライセンス: Link先を確認
Seth B. Cata\~no-Lopez, Jordy G. Santiago-Condori, Keiichi Edamatsu, and Nobuyuki Matsumoto(参考訳) 本稿では,7mgの高q$モノリシックシリカ振り子の開発について述べる。 振り子モードの2.2HzでのQ$値は2.0\times10^6$であった。 われわれの知る限りでは、これはこれまでで最低の消散性mgスケール機械発振器である。 このサスペンションシステムを用いることで,最近physで報告した重力測定のための光学式変位センサを開発した。 Rev. Lett. 122, 071101 (2019) は数百hzの量子ノイズ制限センシングを実現するために改良することができる。 光ばね効果と組み合わせると、振り子のモードで測定される固有散逸量は、光学ポテンシャルに閉じ込められた巨大な振り子の計測に基づく量子制御の要求を満たすのに十分である。 これは、量子制限力センサーによるダークマターのテストだけでなく、量子状態における2つのmgスケールの振動子間のニュートン相互作用や重力波検出器の感度の向上にも寄与する。

We present the development of a high $Q$ monolithic silica pendulum weighing 7 mg. The measured $Q$ value for the pendulum mode at 2.2 Hz was $2.0\times10^6$. To the best of our knowledge this is the lowest dissipative mg-scale mechanical oscillator to date. By employing this suspension system, the optomechanical displacement sensor for gravity measurements we recently reported in Phys. Rev. Lett. 122, 071101 (2019) can be improved to realize quantum-noise-limited sensing at several hundred Hz. In combination with the optical spring effect, the amount of intrinsic dissipation measured in the pendulum mode is enough to satisfy requirements for measurement-based quantum control of a massive pendulum confined in an optical potential. This paves the way for not only testing dark matter via quantum-limited force sensors, but also Newtonian interaction in quantum regimes, namely, between two mg-scale oscillators in quantum states, as well as improving the sensitivity of gravitational-wave detectors.
翻訳日:2023-01-17 08:12:18 公開日:2020-05-01
# ハルダン球面上の多層グラフェンのランドー量子化

Landau quantization of multilayer graphene on a Haldane sphere ( http://arxiv.org/abs/2001.01740v2 )

ライセンス: Link先を確認
Wei-Han Hsiao(参考訳) 我々は,Haldane球面上の多層グラフェンの問題を考察し,この系に対するLandauレベルスペクトルを決定する。 これは、通常の非相対論的ハルダン球面と球面グラフェンのランダウ量子化問題や、球面上のディラック状粒子の一般化に寄与する。 ハミルトニアンは、問題の2つの相互に可換なSU(2)代数を利用する簡潔な代数的方法で対角化される。 さらに, 厳密な波動関数を用いて, 第二ランダウレベルにおけるハルダン擬ポテンシャルの計算を示す。 これらの厳密な解は、グラファイト多層膜の系における分数量子ホール効果に関する数値的研究の現在のツールキットを付加する。

We consider the problem of multilayer graphene on a Haldane sphere and determine the Landau level spectrum for this family of systems. This serves as a generalization of the Landau quantization problem of ordinary non-relativistic Haldane sphere and spherical graphene, or Dirac-like particles on a sphere. The Hamiltonian is diagonalized in a concise algebraic fashion exploiting two mutually commuting SU(2) algebras of the problem. Additionally, using exact wave functions we demonstrate computation of Haldane pseudopotentials in the second Landau level. These exact solutions add to the current toolkits of the numerical studies on fractional quantum Hall effects in systems of graphite multilayers.
翻訳日:2023-01-14 03:13:41 公開日:2020-05-01
# 話者認識システムに対するリアルタイム・ユニバーサル・ロバストな敵意攻撃

Real-time, Universal, and Robust Adversarial Attacks Against Speaker Recognition Systems ( http://arxiv.org/abs/2003.02301v2 )

ライセンス: Link先を確認
Yi Xie, Cong Shi, Zhuohang Li, Jian Liu, Yingying Chen, Bo Yuan(参考訳) 近年,音声ユーザインタフェース(VUI)の普及が進み,多くのセキュリティ要求アプリケーションやサービスにおいて,話者を識別する重要な媒体として話者認識システムが登場している。 本稿では,最先端のディープニューラルネットワーク(DNN)に基づく話者認識システムに対する,最初のリアルタイム,普遍的,堅牢な敵攻撃を提案する。 任意の登録話者の音声入力に音声に依存しない普遍的摂動を加えることで、DNNベースの話者認識システムは、話者を任意のターゲット(すなわち、敵意のある話者ラベル)として識別する。 また,室内インパルス応答 (rir) を推定することにより, 物理伝搬による音歪をモデル化し, 攻撃のロバスト性を向上させる。 英語話者109人の公開データセットを用いた実験は、提案した攻撃の有効性と堅牢性を示し、高い攻撃成功率は90%以上である。 攻撃開始時間もまた、現代の非ユニバーサル攻撃よりも100倍のスピードアップを達成する。

As the popularity of voice user interface (VUI) exploded in recent years, speaker recognition system has emerged as an important medium of identifying a speaker in many security-required applications and services. In this paper, we propose the first real-time, universal, and robust adversarial attack against the state-of-the-art deep neural network (DNN) based speaker recognition system. Through adding an audio-agnostic universal perturbation on arbitrary enrolled speaker's voice input, the DNN-based speaker recognition system would identify the speaker as any target (i.e., adversary-desired) speaker label. In addition, we improve the robustness of our attack by modeling the sound distortions caused by the physical over-the-air propagation through estimating room impulse response (RIR). Experiment using a public dataset of 109 English speakers demonstrates the effectiveness and robustness of our proposed attack with a high attack success rate of over 90%. The attack launching time also achieves a 100X speedup over contemporary non-universal attacks.
翻訳日:2022-12-26 13:36:46 公開日:2020-05-01
# 周囲を知る: 物体追跡にシーン情報を利用する

Know Your Surroundings: Exploiting Scene Information for Object Tracking ( http://arxiv.org/abs/2003.11014v2 )

ライセンス: Link先を確認
Goutam Bhat, Martin Danelljan, Luc Van Gool, Radu Timofte(参考訳) 現在の最先端トラッカーは、各フレーム内のオブジェクトをローカライズするためにターゲットの外観モデルのみに依存している。 しかし、このようなアプローチは、例えば、高速な外見の変化や、ターゲットの外観モデルだけではロバストな追跡に不十分なイントラクタオブジェクトの存在などで失敗しがちである。 このような場合、周囲の場面における他の物体の存在や位置に関する知識を持つことは、非常に有益である。 このシーン情報はシーケンスを通じて伝達され、例えば、明示的に邪魔者オブジェクトを避け、ターゲット候補領域を排除するために使用される。 本研究では,シーン情報を追跡に活用できる新しいトラッキングアーキテクチャを提案する。 私たちのトラッカーは、例えば、ローカル領域がターゲット、バックグラウンド、またはイントラクタであれば、エンコード可能な、濃密な局所化状態ベクトルなどの情報を表す。 これらの状態ベクトルはシーケンスを通して伝播し、出力される外観モデルと組み合わせてターゲットをローカライズする。 映像セグメントのトラッキング性能を直接最大化し,シーン情報を効果的に活用するネットワークを学習する。 提案手法は3つのトラッキングベンチマークで最新技術を設定し,最近の got-10k データセットで ao スコア 63.6% を達成した。

Current state-of-the-art trackers only rely on a target appearance model in order to localize the object in each frame. Such approaches are however prone to fail in case of e.g. fast appearance changes or presence of distractor objects, where a target appearance model alone is insufficient for robust tracking. Having the knowledge about the presence and locations of other objects in the surrounding scene can be highly beneficial in such cases. This scene information can be propagated through the sequence and used to, for instance, explicitly avoid distractor objects and eliminate target candidate regions. In this work, we propose a novel tracking architecture which can utilize scene information for tracking. Our tracker represents such information as dense localized state vectors, which can encode, for example, if the local region is target, background, or distractor. These state vectors are propagated through the sequence and combined with the appearance model output to localize the target. Our network is learned to effectively utilize the scene information by directly maximizing tracking performance on video segments. The proposed approach sets a new state-of-the-art on 3 tracking benchmarks, achieving an AO score of 63.6% on the recent GOT-10k dataset.
翻訳日:2022-12-20 09:16:37 公開日:2020-05-01
# ビデオオブジェクトセグメンテーションのための学習方法の学習

Learning What to Learn for Video Object Segmentation ( http://arxiv.org/abs/2003.11540v2 )

ライセンス: Link先を確認
Goutam Bhat, Felix J\"aremo Lawin, Martin Danelljan, Andreas Robinson, Michael Felsberg, Luc Van Gool, Radu Timofte(参考訳) ビデオオブジェクトセグメンテーション(VOS)は、対象オブジェクトが所定の第1フレーム参照マスクの推論時にのみ定義されるため、非常に難しい問題である。 この限定的なターゲット情報の取得と利用に関する問題は、依然として基本的な研究課題である。 この問題に対処するために、異なる数発の学習モジュールを統合するエンドツーエンドのトレーニング可能なVOSアーキテクチャを導入しました。 この内部学習者は、第1フレームのセグメンテーション誤差を最小化し、ターゲットの強力なパラメトリックモデルを予測するように設計されている。 数発の学習者が何を学ぶべきかを学ぶことで、標準的な数発の学習テクニックを超えていきます。 これにより、現在のフレーム内のターゲットのリッチな内部表現が可能になり、アプローチのセグメンテーション精度が大幅に向上します。 複数のベンチマークで広範な実験を行う。 当社のアプローチでは,大規模なYouTube-VOS 2018データセットの総合スコアを81.5とすることで,従来よりも2.6%の相対的な改善を実現している。

Video object segmentation (VOS) is a highly challenging problem, since the target object is only defined during inference with a given first-frame reference mask. The problem of how to capture and utilize this limited target information remains a fundamental research question. We address this by introducing an end-to-end trainable VOS architecture that integrates a differentiable few-shot learning module. This internal learner is designed to predict a powerful parametric model of the target by minimizing a segmentation error in the first frame. We further go beyond standard few-shot learning techniques by learning what the few-shot learner should learn. This allows us to achieve a rich internal representation of the target in the current frame, significantly increasing the segmentation accuracy of our approach. We perform extensive experiments on multiple benchmarks. Our approach sets a new state-of-the-art on the large-scale YouTube-VOS 2018 dataset by achieving an overall score of 81.5, corresponding to a 2.6% relative improvement over the previous best result.
翻訳日:2022-12-20 03:32:09 公開日:2020-05-01
# ロバストな人物検出のための弱修正データセットコレクション

Weakly Supervised Dataset Collection for Robust Person Detection ( http://arxiv.org/abs/2003.12263v2 )

ライセンス: Link先を確認
Munetaka Minoguchi, Ken Okayama, Yutaka Satoh, Hirokatsu Kataoka(参考訳) 頑健な人物検出を実現するアルゴリズムを構築するために,弱教師付きで生成した800万以上の画像からなるデータセットを提案する。 労働集約型の人的アノテーションを通じて、人物検出研究コミュニティは、24万のバウンディングボックスを含むユーロシティパーソンデータセットなど、10万枚の画像を含む比較的小さなデータセットを作成した。 そこで我々は,既存の検出器による人物検出と偽陽性抑制のためのデータの精細化という2段階の収集プロセスに基づいて,870万枚の人物像を収集した。 実験結果によると、Wakly Supervised Person Dataset (WSPD) は単純だが、事前学習による人検出には有効である。 事前訓練された人物検出アルゴリズムの文脈では、当社のWSPD事前訓練モデルは、カルテック・ペデストリアン(Caltech Pedestrian)で検証された際に、フル教師付きImageNetとEuroCity Personsデータセットでトレーニングされた同じモデルよりも13.38と6.38%精度がある。

To construct an algorithm that can provide robust person detection, we present a dataset with over 8 million images that was produced in a weakly supervised manner. Through labor-intensive human annotation, the person detection research community has produced relatively small datasets containing on the order of 100,000 images, such as the EuroCity Persons dataset, which includes 240,000 bounding boxes. Therefore, we have collected 8.7 million images of persons based on a two-step collection process, namely person detection with an existing detector and data refinement for false positive suppression. According to the experimental results, the Weakly Supervised Person Dataset (WSPD) is simple yet effective for person detection pre-training. In the context of pre-trained person detection algorithms, our WSPD pre-trained model has 13.38 and 6.38% better accuracy than the same model trained on the fully supervised ImageNet and EuroCity Persons datasets, respectively, when verified with the Caltech Pedestrian.
翻訳日:2022-12-19 05:01:52 公開日:2020-05-01
# サーバ側標準モデル品質とレイテンシをバイパスするオンデバイスエンド・エンドモデル

A Streaming On-Device End-to-End Model Surpassing Server-Side Conventional Model Quality and Latency ( http://arxiv.org/abs/2003.12710v2 )

ライセンス: Link先を確認
Tara N. Sainath, Yanzhang He, Bo Li, Arun Narayanan, Ruoming Pang, Antoine Bruguier, Shuo-yiin Chang, Wei Li, Raziel Alvarez, Zhifeng Chen, Chung-Cheng Chiu, David Garcia, Alex Gruenstein, Ke Hu, Minho Jin, Anjuli Kannan, Qiao Liang, Ian McGraw, Cal Peyser, Rohit Prabhavalkar, Golan Pundak, David Rybach, Yuan Shangguan, Yash Sheth, Trevor Strohman, Mirko Visontai, Yonghui Wu, Yu Zhang, Ding Zhao(参考訳) これまでのところ、エンド・ツー・エンド(E2E)モデルは、品質、すなわち単語誤り率(WER)と遅延、すなわちユーザが話すのをやめた後に仮説が確定する時間の両方に関して、最先端の従来のモデルを上回ることが示されていない。 本稿では,第1パスリカレントニューラルネットワークトランスデューサ(rnn-t)モデルと第2パスリスニング,アサート,スペル(las)リコーラを開発し,従来のモデルよりも品質とレイテンシの両面で優れていることを示す。 品質面では、様々な領域にまたがる多数の発話を組み込んで、音響的多様性とモデルで見られる語彙を増加させる。 また、アクセント付き英語で訓練して、異なる発音に対してモデルをより堅牢にします。 さらに,学習データの増加を考慮し,学習率の異なるスケジュールについて検討する。 レイテンシの面では、RNN-Tモデルによって出力される終局決定を用いてマイクロフォンを閉じると共に、LASリスコリングの高速化のために様々な最適化を導入する。 全体として、RNN-T+LASは従来のモデルよりもWERとレイテンシのトレードオフが優れている。 例えば、同じレイテンシの場合、RNN-T+LASはモデルサイズが400回以上小さいため、WERの8%の相対的な改善を実現している。

Thus far, end-to-end (E2E) models have not been shown to outperform state-of-the-art conventional models with respect to both quality, i.e., word error rate (WER), and latency, i.e., the time the hypothesis is finalized after the user stops speaking. In this paper, we develop a first-pass Recurrent Neural Network Transducer (RNN-T) model and a second-pass Listen, Attend, Spell (LAS) rescorer that surpasses a conventional model in both quality and latency. On the quality side, we incorporate a large number of utterances across varied domains to increase acoustic diversity and the vocabulary seen by the model. We also train with accented English speech to make the model more robust to different pronunciations. In addition, given the increased amount of training data, we explore a varied learning rate schedule. On the latency front, we explore using the end-of-sentence decision emitted by the RNN-T model to close the microphone, and also introduce various optimizations to improve the speed of LAS rescoring. Overall, we find that RNN-T+LAS offers a better WER and latency tradeoff compared to a conventional model. For example, for the same latency, RNN-T+LAS obtains a 8% relative improvement in WER, while being more than 400-times smaller in model size.
翻訳日:2022-12-18 23:38:29 公開日:2020-05-01
# 強化学習を用いたエピデミック制御のためのロックダウンポリシーの最適化

Optimising Lockdown Policies for Epidemic Control using Reinforcement Learning ( http://arxiv.org/abs/2003.14093v2 )

ライセンス: Link先を確認
Harshad Khadilkar, Tanuja Ganu, Deva P Seetharam(参考訳) 新型コロナウイルスのパンデミックが進行中である状況において、いくつかの報告や研究が病気の拡散をモデル化し予測しようと試みている。 また、健康と経済の両方に損害を限定する政策についても激しい議論がある。 一方で、人口の健康と安全が、ほとんどの国の主要な考慮事項である。 一方で、全国的ロックダウンの厳格化による長期的な経済被害の可能性は無視できない。 本稿では,健康と経済のバランスを保ちながら,各都市や地域ごとのロックダウン決定を定量的に計算する方法を提案する。 さらに、これらのポリシーは、疾患パラメータ(感染性、妊娠期間、症状の期間、死亡確率)と人口特性(密度、運動確率)の関数として、提案アルゴリズムによって自動的に学習される。 我々は不完全ロックダウンなどの現実的な考察を考察し、強化学習を用いて得られた政策がロックダウンへの有効な定量的アプローチであることを示す。

In the context of the ongoing Covid-19 pandemic, several reports and studies have attempted to model and predict the spread of the disease. There is also intense debate about policies for limiting the damage, both to health and to the economy. On the one hand, the health and safety of the population is the principal consideration for most countries. On the other hand, we cannot ignore the potential for long-term economic damage caused by strict nation-wide lockdowns. In this working paper, we present a quantitative way to compute lockdown decisions for individual cities or regions, while balancing health and economic considerations. Furthermore, these policies are learnt automatically by the proposed algorithm, as a function of disease parameters (infectiousness, gestation period, duration of symptoms, probability of death) and population characteristics (density, movement propensity). We account for realistic considerations such as imperfect lockdowns, and show that the policy obtained using reinforcement learning is a viable quantitative approach towards lockdowns.
翻訳日:2022-12-18 00:03:37 公開日:2020-05-01
# 事前学習言語モデルにおける教師なしドメインクラスタ

Unsupervised Domain Clusters in Pretrained Language Models ( http://arxiv.org/abs/2004.02105v2 )

ライセンス: Link先を確認
Roee Aharoni and Yoav Goldberg(参考訳) nlpにおける「ドメイン内データ」の概念は、トピック、スタイル、形式レベルといった多くのニュアンス言語的側面でテキストデータが異なるため、しばしば単純化されあいまいである。 さらに、ドメインラベルは何度も利用できないため、ドメイン固有のシステムを構築するのは難しい。 大量の事前学習された言語モデルでは、教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。 我々は、この特性を利用して、ドメイン内モノリンガルデータの小さなセットのみを必要とする、そのようなモデルに基づくドメインデータ選択手法を提案する。 我々は,5つの領域にまたがるニューラルマシン翻訳のためのデータ選択法を評価し,BLEUと文選択の精度とリコールの両面で測定された確立されたアプローチよりも優れていることを示した。

The notion of "in-domain data" in NLP is often over-simplistic and vague, as textual data varies in many nuanced linguistic aspects such as topic, style or level of formality. In addition, domain labels are many times unavailable, making it challenging to build domain-specific systems. We show that massive pre-trained language models implicitly learn sentence representations that cluster by domains without supervision -- suggesting a simple data-driven definition of domains in textual data. We harness this property and propose domain data selection methods based on such models, which require only a small set of in-domain monolingual data. We evaluate our data selection methods for neural machine translation across five diverse domains, where they outperform an established approach as measured by both BLEU and by precision and recall of sentence selection with respect to an oracle.
翻訳日:2022-12-16 12:45:13 公開日:2020-05-01
# nav-graphを超えて:連続環境における視覚・言語ナビゲーション

Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous Environments ( http://arxiv.org/abs/2004.02857v2 )

ライセンス: Link先を確認
Jacob Krantz, Erik Wijmans, Arjun Majumdar, Dhruv Batra, Stefan Lee(参考訳) 我々は,エージェントが自然言語ナビゲーションの指示に従うために低レベルなアクションを実行しなければならない連続3次元環境において,言語誘導型ナビゲーションタスクセットを開発する。 連続した環境に配置することで、この設定は、航海性に対応するエッジを持つパノラマのスパースグラフとして環境を表す事前の作業において暗黙的な多くの仮定を持ち上げる。 具体的には、既知の環境トポロジ、短距離オラクルナビゲーション、完璧なエージェントローカライゼーションの予測を下げる。 この新たなタスクを文脈化するために,事前設定における多くの進歩と単一モダリティベースラインを反映したモデルを開発する。 これらのテクニックのいくつかは転送されるが、連続的な設定では絶対的なパフォーマンスが著しく低いことが分かり、以前の ‘navigation-graph' 設定のパフォーマンスは、強い暗黙的な仮定によって膨らむ可能性がある。

We develop a language-guided navigation task set in a continuous 3D environment where agents must execute low-level actions to follow natural language navigation directions. By being situated in continuous environments, this setting lifts a number of assumptions implicit in prior work that represents environments as a sparse graph of panoramas with edges corresponding to navigability. Specifically, our setting drops the presumptions of known environment topologies, short-range oracle navigation, and perfect agent localization. To contextualize this new task, we develop models that mirror many of the advances made in prior settings as well as single-modality baselines. While some of these techniques transfer, we find significantly lower absolute performance in the continuous setting -- suggesting that performance in prior `navigation-graph' settings may be inflated by the strong implicit assumptions.
翻訳日:2022-12-16 05:52:20 公開日:2020-05-01
# ブロックチェーンを活用したフェデレーションラーニングのためのリソース管理:深層強化学習アプローチ

Resource Management for Blockchain-enabled Federated Learning: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2004.04104v2 )

ライセンス: Link先を確認
Nguyen Quang Hieu, Tran The Anh, Nguyen Cong Luong, Dusit Niyato, Dong In Kim, Erik Elmroth(参考訳) ブロックチェーン対応のフェデレートラーニング(BFL)は、モバイルデバイスにデータを保持しながら、機械学習モデルオーナ(MLMO)が必要とするニューラルネットワークモデルを協調的にトレーニングすることを可能にする。 その後、モデル更新は分散型で信頼性の高い方法でブロックチェーンに格納される。 しかし、bflの問題は、モバイルデバイスには、システムの寿命とトレーニング効率を低下させるエネルギとcpuの制約があることだ。 もうひとつの問題は、ブロックチェーンマイニングプロセスによってトレーニング遅延が増加する可能性があることだ。 これらの問題に対処するために mlmoは (i)モバイルデバイスがトレーニングにどれだけのデータとエネルギーを使用するかを決定し、 2)モデルの目標精度を達成しつつ,システム遅延,エネルギー消費,インセンティブコストを最小限に抑えるため,ブロック生成率を決定する。 BFL環境の不確実性の下では、MLMOが最適な決定を決定することは困難である。 本稿では,MLMOの最適決定を導出するために,Deep Reinforcement Learning (DRL) を提案する。

Blockchain-enabled Federated Learning (BFL) enables mobile devices to collaboratively train neural network models required by a Machine Learning Model Owner (MLMO) while keeping data on the mobile devices. Then, the model updates are stored in the blockchain in a decentralized and reliable manner. However, the issue of BFL is that the mobile devices have energy and CPU constraints that may reduce the system lifetime and training efficiency. The other issue is that the training latency may increase due to the blockchain mining process. To address these issues, the MLMO needs to (i) decide how much data and energy that the mobile devices use for the training and (ii) determine the block generation rate to minimize the system latency, energy consumption, and incentive cost while achieving the target accuracy for the model. Under the uncertainty of the BFL environment, it is challenging for the MLMO to determine the optimal decisions. We propose to use the Deep Reinforcement Learning (DRL) to derive the optimal decisions for the MLMO.
翻訳日:2022-12-15 08:27:31 公開日:2020-05-01
# conversation learner --タスク指向ダイアログシステムのためのダイアログマネージャ構築のための機械教育ツール

Conversation Learner -- A Machine Teaching Tool for Building Dialog Managers for Task-Oriented Dialog Systems ( http://arxiv.org/abs/2004.04305v2 )

ライセンス: Link先を確認
Swadheen Shukla, Lars Liden, Shahin Shayandeh, Eslam Kamal, Jinchao Li, Matt Mazzola, Thomas Park, Baolin Peng, Jianfeng Gao(参考訳) 伝統的に、タスク指向のダイアログシステムを構築するための業界ソリューションは、ダイアログフローとして表現されるルールベースのダイアログマネージャの定義を支援することに依存してきた。 ダイアログフローは直感的に解釈可能であり、単純なシナリオには適しているが、複雑なダイアログを処理するのに必要な柔軟性という点では、パフォーマンスに欠ける。 一方、純粋に機械学習モデルでは複雑なダイアログを扱えるが、それらはブラックボックスと見なされ、大量のトレーニングデータを必要とする。 本稿では,ダイアログマネージャを構築するための機械教育ツールであるConversation Learnerを紹介する。 ダイアログ作成者が慣れ親しんだツールを使用してダイアログフローを作成し、ダイアログフローをパラメトリックモデル(ニューラルネットワークなど)に変換し、ダイアログ作成者が時間とともにダイアログマネージャ(パラメトリックモデル)を改善することで、ユーザシステムダイアログログをトレーニングデータとしてマシン教育インターフェースを通じて活用することで、両方のアプローチの長所を結合する。

Traditionally, industry solutions for building a task-oriented dialog system have relied on helping dialog authors define rule-based dialog managers, represented as dialog flows. While dialog flows are intuitively interpretable and good for simple scenarios, they fall short of performance in terms of the flexibility needed to handle complex dialogs. On the other hand, purely machine-learned models can handle complex dialogs, but they are considered to be black boxes and require large amounts of training data. In this demonstration, we showcase Conversation Learner, a machine teaching tool for building dialog managers. It combines the best of both approaches by enabling dialog authors to create a dialog flow using familiar tools, converting the dialog flow into a parametric model (e.g., neural networks), and allowing dialog authors to improve the dialog manager (i.e., the parametric model) over time by leveraging user-system dialog logs as training data through a machine teaching interface.
翻訳日:2022-12-15 02:01:12 公開日:2020-05-01
# TXtract:何千もの製品カテゴリの分類学的知識抽出

TXtract: Taxonomy-Aware Knowledge Extraction for Thousands of Product Categories ( http://arxiv.org/abs/2004.13852v2 )

ライセンス: Link先を確認
Giannis Karamanolakis, Jun Ma, Xin Luna Dong(参考訳) 製品プロファイルから構造化知識を抽出することは、電子商取引における様々なアプリケーションにとって不可欠である。 知識抽出に関する最先端のアプローチは、それぞれ1つのカテゴリの製品のために設計されているため、数千のカテゴリを含む現実のeコマースシナリオには適用されない。 本稿では,分類学的に整理された何千もの製品カテゴリに適用可能な分類学的知識抽出モデルであるtxtractを提案する。 カテゴリ条件付き自己アテンションとマルチタスク学習を通じて、数千のカテゴリに対して単一のモデルをトレーニングし、カテゴリ固有の属性値を抽出し、効果的なアプローチもスケーラブルです。 4000のカテゴリーを持つ分類学からの製品に関する実験では、TXtractはF1における最先端のアプローチを最大10%、全カテゴリにわたって15%上回っている。

Extracting structured knowledge from product profiles is crucial for various applications in e-Commerce. State-of-the-art approaches for knowledge extraction were each designed for a single category of product, and thus do not apply to real-life e-Commerce scenarios, which often contain thousands of diverse categories. This paper proposes TXtract, a taxonomy-aware knowledge extraction model that applies to thousands of product categories organized in a hierarchical taxonomy. Through category conditional self-attention and multi-task learning, our approach is both scalable, as it trains a single model for thousands of categories, and effective, as it extracts category-specific attribute values. Experiments on products from a taxonomy with 4,000 categories show that TXtract outperforms state-of-the-art approaches by up to 10% in F1 and 15% in coverage across all categories.
翻訳日:2022-12-13 02:37:34 公開日:2020-05-01
# 階層的に公正な学習

Hierarchically Fair Federated Learning ( http://arxiv.org/abs/2004.10386v2 )

ライセンス: Link先を確認
Jingfeng Zhang, Cheng Li, Antonio Robles-Kelly and Mohan Kankanhalli(参考訳) サイロ化されたデータセットを持つ競合エージェントにフェデレーション学習が採用されると、エージェントは自己関心を持ち、十分な報酬が与えられた場合にのみ参加する。 フェデレーション学習の応用を促進するために,本稿では,より多くの貢献がより多くの報酬につながるという管理戦略を採用する。 本稿では,階層的に公正な連合学習(HFFL)フレームワークを提案する。 この枠組みの下では、エージェントは事前に交渉された貢献水準に比例して報酬を受ける。 HFFL+はこれを拡張して異種モデルを組み込む。 いくつかのデータセットに関する理論的分析と経験的評価は、公平性を維持するためのフレームワークの有効性を確認し、競争環境での連合学習を促進する。

When the federated learning is adopted among competitive agents with siloed datasets, agents are self-interested and participate only if they are fairly rewarded. To encourage the application of federated learning, this paper employs a management strategy, i.e., more contributions should lead to more rewards. We propose a novel hierarchically fair federated learning (HFFL) framework. Under this framework, agents are rewarded in proportion to their pre-negotiated contribution levels. HFFL+ extends this to incorporate heterogeneous models. Theoretical analysis and empirical evaluation on several datasets confirm the efficacy of our frameworks in upholding fairness and thus facilitating federated learning in the competitive settings.
翻訳日:2022-12-10 17:03:33 公開日:2020-05-01
# ニューロモルフィック視覚センサとイベントストリームデータセットを用いたイベントベースロボットグラフプ検出

Event-based Robotic Grasping Detection with Neuromorphic Vision Sensor and Event-Stream Dataset ( http://arxiv.org/abs/2004.13652v2 )

ライセンス: Link先を確認
Bin Li, Hu Cao, Zhongnan Qu, Yingbai Hu, Zhenke Wang, and Zichen Liang(参考訳) ロボットの把持はロボティクスの分野で重要な役割を担っている。 現在の最先端のロボット把握検出システムは、通常、RGB-Dカメラのような従来のビジョンに基づいて構築されている。 従来のフレームベースのコンピュータビジョンと比較して、ニューロモルフィックビジョンは小さく若い研究コミュニティである。 現在、非同期イベントストリームの面倒なアノテーションのため、イベントベースのデータセットは限られている。 大規模ビジョンデータセットの注釈付けには多くの計算リソース、特にビデオレベルのアノテーションの厄介なデータが必要となることが多い。 本研究では,物体を含むシーンの移動カメラビューにおけるロボット把持検出の問題点について考察する。 より機敏なロボット知覚を得るために、ロボットグリップに装着されたニューロモルフィック視覚センサ(DAVIS)を導入して、検出の潜在的な使用法を探る。 91個のオブジェクトからなるイベントストリームデータセットという,ロボットによる把持データセットを構築する。 物体毎に単一の把持矩形をビデオレベルでアノテーションできるledベースの把持矩形を追跡するために,時空間混合粒子フィルタ(smpフィルタ)を提案する。 ledが高周波で点滅すると、イベントストリームデータセットは1khzの高周波でアノテートされる。 Event-Streamデータセットに基づいて,角度学習問題を回帰ではなく分類とみなす検出を把握するためのディープニューラルネットワークを開発した。 本手法は,オブジェクトレベルで93%の精度で,イベントストリームデータセット上で高い検出精度を実現する。 この研究は、大規模でよくアノテーションされたデータセットを提供し、アジャイルロボットにおける神経形態的ビジョンアプリケーションを促進する。

Robotic grasping plays an important role in the field of robotics. The current state-of-the-art robotic grasping detection systems are usually built on the conventional vision, such as RGB-D camera. Compared to traditional frame-based computer vision, neuromorphic vision is a small and young community of research. Currently, there are limited event-based datasets due to the troublesome annotation of the asynchronous event stream. Annotating large scale vision dataset often takes lots of computation resources, especially the troublesome data for video-level annotation. In this work, we consider the problem of detecting robotic grasps in a moving camera view of a scene containing objects. To obtain more agile robotic perception, a neuromorphic vision sensor (DAVIS) attaching to the robot gripper is introduced to explore the potential usage in grasping detection. We construct a robotic grasping dataset named Event-Stream Dataset with 91 objects. A spatio-temporal mixed particle filter (SMP Filter) is proposed to track the led-based grasp rectangles which enables video-level annotation of a single grasp rectangle per object. As leds blink at high frequency, the Event-Stream dataset is annotated in a high frequency of 1 kHz. Based on the Event-Stream dataset, we develop a deep neural network for grasping detection which consider the angle learning problem as classification instead of regression. The method performs high detection accuracy on our Event-Stream dataset with 93% precision at object-wise level. This work provides a large-scale and well-annotated dataset, and promotes the neuromorphic vision applications in agile robot.
翻訳日:2022-12-08 23:27:30 公開日:2020-05-01
# ソーシャルメディアにおける政治パロディの分析

Analyzing Political Parody in Social Media ( http://arxiv.org/abs/2004.13878v2 )

ライセンス: Link先を確認
Antonis Maronikolakis, Danae Sanchez Villegas, Daniel Preotiuc-Pietro, Nikolaos Aletras(参考訳) パロディ(英: parody)は、コメディや批判的な目的のためにある実体を模倣するために用いられる表現装置であり、多くのパロディアカウントを通じてソーシャルメディアで広く見られる現象を表している。 本稿では,最初のパロディの計算的研究について述べる。 我々は、実際の政治家とそのパロディアカウントからのツイートの新しい公開データセットを紹介します。 トレーニング中に見つからないアカウントからのツイート、性別、国毎にテストすることで、ロバスト性を重視したパロディツイートを自動的に検出する教師付き機械学習モデルを実行しています。 その結果,政治パロディのツイートは90%の精度で予測できることがわかった。 最後に,言語分析によりパロディのマーカーを同定する。 言語学や政治コミュニケーションの研究以外にも、パロディの正確かつ自動検出はジャーナリストの事実チェックや感情分析などの分析を改善する上で重要である。

Parody is a figurative device used to imitate an entity for comedic or critical purposes and represents a widespread phenomenon in social media through many popular parody accounts. In this paper, we present the first computational study of parody. We introduce a new publicly available data set of tweets from real politicians and their corresponding parody accounts. We run a battery of supervised machine learning models for automatically detecting parody tweets with an emphasis on robustness by testing on tweets from accounts unseen in training, across different genders and across countries. Our results show that political parody tweets can be predicted with an accuracy up to 90%. Finally, we identify the markers of parody through a linguistic analysis. Beyond research in linguistics and political communication, accurately and automatically detecting parody is important to improving fact checking for journalists and analytics such as sentiment analysis through filtering out parodical utterances.
翻訳日:2022-12-08 23:07:57 公開日:2020-05-01
# 丁寧さの伝達:タグと生成アプローチ

Politeness Transfer: A Tag and Generate Approach ( http://arxiv.org/abs/2004.14257v2 )

ライセンス: Link先を確認
Aman Madaan, Amrith Setlur, Tanmay Parekh, Barnabas Poczos, Graham Neubig, Yiming Yang, Ruslan Salakhutdinov, Alan W Black, Shrimai Prabhumoye(参考訳) 本稿では,意味を保ちながら,非ポリト文を丁寧な文に変換する新しい丁寧さ伝達課題を提案する。 この新しいタスクのベンチマーク評価を促進するために、礼儀正しくラベル付けされた1.39以上のインスタンスのデータセットも提供しています。 我々はタグを設計し、スタイル属性を識別するパイプラインを生成し、その後、ほとんどのソースコンテンツを保存しながら、ターゲットスタイルで文を生成する。 丁寧さと他の5つの転送タスクに対して、我々のモデルは、コンテンツ保存のための自動メトリクスにおける最先端の手法よりも優れており、スタイル転送精度に匹敵するあるいは優れた性能がある。 さらに,従来の文法性評価手法を上回っており,6つのスタイル転送タスクの保存・転送精度が向上している。 データとコードはhttps://github.com/tag-and-generateにある。

This paper introduces a new task of politeness transfer which involves converting non-polite sentences to polite sentences while preserving the meaning. We also provide a dataset of more than 1.39 instances automatically labeled for politeness to encourage benchmark evaluations on this new task. We design a tag and generate pipeline that identifies stylistic attributes and subsequently generates a sentence in the target style while preserving most of the source content. For politeness as well as five other transfer tasks, our model outperforms the state-of-the-art methods on automatic metrics for content preservation, with a comparable or better performance on style transfer accuracy. Additionally, our model surpasses existing methods on human evaluations for grammaticality, meaning preservation and transfer accuracy across all the six style transfer tasks. The data and code is located at https://github.com/tag-and-generate.
翻訳日:2022-12-08 13:52:35 公開日:2020-05-01
# 文分類作業における後方校正訓練

Posterior Calibrated Training on Sentence Classification Tasks ( http://arxiv.org/abs/2004.14500v2 )

ライセンス: Link先を確認
Taehee Jung, Dongyeop Kang, Hua Cheng, Lucas Mentch, Thomas Schaaf(参考訳) ほとんどの分類モデルは、まずすべてのクラスにわたる後続確率分布を予測し、次に最大の推定確率を持つクラスを選択することで機能する。 しかし、多くの設定において、後部確率自体の品質(例えば糖尿病の65%の確率)は、最終予測クラス単独よりも信頼性の高い情報を与える。 これらの方法の校正が不十分であることが示されると、ほとんどの修正は後方校正に依存しており、予測された確率を再スケールするが、最終的な分類にはほとんど影響しない。 そこで本研究では,PosCalがキャリブレーション誤差の低減に寄与するだけでなく,両目標の性能低下によるタスクパフォーマンスの向上にも寄与することを示すとともに,予測と経験的後部確率の差を最小化しながら,目的を直接最適化する,PosCalトレーニングと呼ばれるエンドツーエンドのトレーニング手順を提案する。 提案手法は, タスク性能向上率の約2.5%, 接着剤のキャリブレーション誤差の16.1% (wang et al., 2018) を達成している。 我々はxSLUE(Kang and Hovy, 2019)の13.2%のキャリブレーション誤差削減で同等のタスク性能を達成したが、2段キャリブレーションベースラインを上回りませんでした。 PosCalトレーニングは、正規化項の形式として、任意のタイプの分類タスクに容易に拡張できる。 また、PosCalは、トレーニングプロセス中にキャリブレーションの目的に必要な統計を段階的に追跡し、大規模なトレーニングセットを効率的に利用するという利点がある。

Most classification models work by first predicting a posterior probability distribution over all classes and then selecting that class with the largest estimated probability. In many settings however, the quality of posterior probability itself (e.g., 65% chance having diabetes), gives more reliable information than the final predicted class alone. When these methods are shown to be poorly calibrated, most fixes to date have relied on posterior calibration, which rescales the predicted probabilities but often has little impact on final classifications. Here we propose an end-to-end training procedure called posterior calibrated (PosCal) training that directly optimizes the objective while minimizing the difference between the predicted and empirical posterior probabilities.We show that PosCal not only helps reduce the calibration error but also improve task performance by penalizing drops in performance of both objectives. Our PosCal achieves about 2.5% of task performance gain and 16.1% of calibration error reduction on GLUE (Wang et al., 2018) compared to the baseline. We achieved the comparable task performance with 13.2% calibration error reduction on xSLUE (Kang and Hovy, 2019), but not outperforming the two-stage calibration baseline. PosCal training can be easily extendable to any types of classification tasks as a form of regularization term. Also, PosCal has the advantage that it incrementally tracks needed statistics for the calibration objective during the training process, making efficient use of large training sets.
翻訳日:2022-12-08 10:07:02 公開日:2020-05-01
# 拡散強調mriによる外傷性脳損傷患者のてんかん発生予測

Prediction of Epilepsy Development in Traumatic Brain Injury Patients from Diffusion Weighted MRI ( http://arxiv.org/abs/2004.14580v2 )

ライセンス: Link先を確認
Md Navid Akbar, Marianna La Rocca, Rachael Garner, Dominique Duncan, Deniz Erdo\u{g}mu\c{s}(参考訳) 外傷後てんかん(英: Post-traumatic epilepsy, PTE)は、外傷性脳損傷(TBI)の長期にわたる合併症であり、TBIの重症度に応じて2%から50%の範囲で推定される公衆衛生上の問題である。 現在、TBI患者のてんかんを誘発する病態は明確ではなく、てんかんコミュニティにおける最も困難な目標の1つは、どのTBI患者がてんかんを発症するかを予測することである。 本研究では,抗てんかん剤療法(EpiBioS4Rx)を施行した14名のTBI患者の拡散強調画像(DWI)を用いて,トラクションベース空間統計学(TBSS)分析から得られた分画異方性(FA)の測定と解析を行った。 次にこれらの測定値を用いて2つのサポートベクターマシン(svm)モデルを訓練し、どのtbi患者がてんかんを発症したかを予測する。 以上より, PTEの早期評価に期待できる可能性が示唆され, これらの14症例を対象に, 精度0.857$\pm$0.18(95%信頼度)を得ることができた。

Post-traumatic epilepsy (PTE) is a life-long complication of traumatic brain injury (TBI) and is a major public health problem that has an estimated incidence that ranges from 2%-50%, depending on the severity of the TBI. Currently, the pathomechanism that in-duces epileptogenesis in TBI patients is unclear, and one of the most challenging goals in the epilepsy community is to predict which TBI patients will develop epilepsy. In this work, we used diffusion-weighted imaging (DWI) of 14 TBI patients recruited in the Epilepsy Bioinformatics Study for Antiepileptogenic Therapy (EpiBioS4Rx)to measure and analyze fractional anisotropy (FA), obtained from tract-based spatial statistic (TBSS) analysis. Then we used these measurements to train two support vector machine (SVM) models to predict which TBI patients have developed epilepsy. Our approach, tested on these 14 patients with a leave-two-out cross-validation, allowed us to obtain an accuracy of 0.857 $\pm$ 0.18 (with a 95% level of confidence), demonstrating it to be potentially promising for the early characterization of PTE.
翻訳日:2022-12-08 05:45:35 公開日:2020-05-01
# masked sequence-to-sequence generation によるアスペクト項抽出のための条件付き拡張

Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Generation ( http://arxiv.org/abs/2004.14769v2 )

ライセンス: Link先を確認
Kun Li, Chengbo Chen, Xiaojun Quan, Qing Ling, and Yan Song(参考訳) アスペクト項抽出は、感情分析のための意見対象として、レビューテキストからアスペクト項を抽出することを目的としている。 このタスクの大きな課題のひとつは、十分な注釈付きデータがないことだ。 データ拡張は上記の問題に対処するための効果的な手法であるが、アスペクトワードやアスペクトラベルを予期せず変更する可能性があるため、制御不能である。 本稿では,データ拡張を条件付き生成タスクとして定式化し,元の意見目標とラベルを維持しながら新しい文を生成する。 本稿では,アスペクト項抽出の条件付き拡張のためのマスキングシーケンストシーケンス法を提案する。 既存の拡張アプローチとは異なり、我々は制御可能であり、より多様な文を生成することができる。 実験の結果,本手法はデータの不足を著しく軽減することを確認した。 また、アスペクト項抽出のためのいくつかの現行モデルの性能を効果的に向上させる。

Aspect term extraction aims to extract aspect terms from review texts as opinion targets for sentiment analysis. One of the big challenges with this task is the lack of sufficient annotated data. While data augmentation is potentially an effective technique to address the above issue, it is uncontrollable as it may change aspect words and aspect labels unexpectedly. In this paper, we formulate the data augmentation as a conditional generation task: generating a new sentence while preserving the original opinion targets and labels. We propose a masked sequence-to-sequence method for conditional augmentation of aspect term extraction. Unlike existing augmentation approaches, ours is controllable and allows us to generate more diversified sentences. Experimental results confirm that our method alleviates the data scarcity problem significantly. It also effectively boosts the performances of several current models for aspect term extraction.
翻訳日:2022-12-08 04:14:55 公開日:2020-05-01
# インフォメーション・ボトルネック問題とその機械学習への応用

The Information Bottleneck Problem and Its Applications in Machine Learning ( http://arxiv.org/abs/2004.14941v2 )

ライセンス: Link先を確認
Ziv Goldfeld and Yury Polyanskiy(参考訳) 近年,機械学習(ML)システムの推論能力が急上昇し,社会の様々な側面において重要な役割を担っている。 統計学習の目標は、データを使用して、相関観測値$x$から確率変数$y$を予測する単純なアルゴリズムを得ることである。 x$ の次元は通常巨大であるため、計算可能な解はそれを低次元の特徴ベクトル $t$ にまとめ、そこから $y$ が予測される。 このアルゴリズムは、前述の次元還元にもかかわらず、もし$t$が$y$の優れたプロキシであるなら、うまく予測する。 現実世界のデータに基づいて、そのような表現を見つけるためのMLアルゴリズム(主にディープラーニング(DL))が多数提供されている。 これらの手法はしばしば実践に有効であるが、それらの成功はそれを説明する包括的な理論の欠如によって妨げられている。 情報ボトルネック(IB)理論は近年,DLシステム解析のための大胆な情報理論パラダイムとして登場した。 相互情報のメリットの図式として、最高の表現である$t$は最大で$y$に関する情報であり、相互情報の最小化は$x$である。 本稿では,この抽象原理の情報理論的起源と最近のdlへの影響について概説する。 後者では、DL理論におけるIB問題の影響と、それにインスパイアされた実用的なアルゴリズムについて述べる。 私たちの目標は統一的で団結的な説明を提供することです。 現在の知識の明確な見方は、IDBや他の情報理論のアイデアをDLモデル研究に活用するために特に重要である。

Inference capabilities of machine learning (ML) systems skyrocketed in recent years, now playing a pivotal role in various aspect of society. The goal in statistical learning is to use data to obtain simple algorithms for predicting a random variable $Y$ from a correlated observation $X$. Since the dimension of $X$ is typically huge, computationally feasible solutions should summarize it into a lower-dimensional feature vector $T$, from which $Y$ is predicted. The algorithm will successfully make the prediction if $T$ is a good proxy of $Y$, despite the said dimensionality-reduction. A myriad of ML algorithms (mostly employing deep learning (DL)) for finding such representations $T$ based on real-world data are now available. While these methods are often effective in practice, their success is hindered by the lack of a comprehensive theory to explain it. The information bottleneck (IB) theory recently emerged as a bold information-theoretic paradigm for analyzing DL systems. Adopting mutual information as the figure of merit, it suggests that the best representation $T$ should be maximally informative about $Y$ while minimizing the mutual information with $X$. In this tutorial we survey the information-theoretic origins of this abstract principle, and its recent impact on DL. For the latter, we cover implications of the IB problem on DL theory, as well as practical algorithms inspired by it. Our goal is to provide a unified and cohesive description. A clear view of current knowledge is particularly important for further leveraging IB and other information-theoretic ideas to study DL models.
翻訳日:2022-12-08 03:21:10 公開日:2020-05-01
# ロストランニケーションによる自然言語生成の改善

Improved Natural Language Generation via Loss Truncation ( http://arxiv.org/abs/2004.14589v2 )

ライセンス: Link先を確認
Daniel Kang and Tatsunori Hashimoto(参考訳) ニューラルネットワークモデルは通常、ログ損失を最小限に抑えて大規模コーパスの分布特性に適合するように訓練される。 このアプローチは簡単に最適化できるが、ノイズや不正な参照(誤記や幻覚的な事実など)を含むデータセットのすべてのバリエーションをモデルに再現させる。 さらに悪いことに、一般的に使用されるログロスはそのような現象に過度に敏感であり、ノイズの少ないデータでもパフォーマンスが低下する可能性がある。 本研究では,モデルと参照の識別性が,無効参照を扱うための原則的かつ堅牢な代替手段であることを示す。 識別性を最適化するために,学習中の高損失例を適応的に除去する損失トランケーションを提案する。 これは、ログの損失やノイズ下での識別性を厳格に制限するのと同じくらい簡単に最適化できることを示している。 実験により、損失トランケーションは、既存のベースラインよりも、要約タスクにおける識別可能性に優れており、損失トランケーションモデルによって生成されたサンプルが、ベースラインを超え、人間の参照にマッチする事実的精度評価を有することを示す。

Neural language models are usually trained to match the distributional properties of a large-scale corpus by minimizing the log loss. While straightforward to optimize, this approach forces the model to reproduce all variations in the dataset, including noisy and invalid references (e.g., misannotation and hallucinated facts). Worse, the commonly used log loss is overly sensitive to such phenomena and even a small fraction of noisy data can degrade performance. In this work, we show that the distinguishability of the models and reference serves as a principled and robust alternative for handling invalid references. To optimize distinguishability, we propose loss truncation, which adaptively removes high loss examples during training. We show this is as easy to optimize as log loss and tightly bounds distinguishability under noise. Empirically, we demonstrate that loss truncation outperforms existing baselines on distinguishability on a summarization task, and show that samples generated by the loss truncation model have factual accuracy ratings that exceed those of baselines and match human references.
翻訳日:2022-12-08 03:03:26 公開日:2020-05-01
# NUBIA:テキスト生成のためのNeUralベースのインターチェンジビリティアセスメント

NUBIA: NeUral Based Interchangeability Assessor for Text Generation ( http://arxiv.org/abs/2004.14667v2 )

ライセンス: Link先を確認
Hassan Kane, Muhammed Yusuf Kocyigit, Ali Abdalla, Pelkins Ajanoh, Mohamed Coulibali(参考訳) 機械学習モデルのみをコアコンポーネントとして使用する,テキスト生成のための自動評価メトリクス構築手法であるnubiaを提案する。 典型的なNUBIAモデルは、ニューラル特徴抽出器、アグリゲータ、キャリブレータの3つのモジュールで構成されている。 我々は,WMTセグメントレベルのダイレクトアセスメントタスク,文レベルのランク付け,画像キャプション評価において,人間の判断と相関して,機械翻訳,要約,技術メトリクスのわずかに上回り/一致状態を評価するために現在使用されている指標を上回り,NUBIAの実装を示す。 実装されたモデルはモジュール化され、説明可能で、時間とともに継続的に改善される。

We present NUBIA, a methodology to build automatic evaluation metrics for text generation using only machine learning models as core components. A typical NUBIA model is composed of three modules: a neural feature extractor, an aggregator and a calibrator. We demonstrate an implementation of NUBIA which outperforms metrics currently used to evaluate machine translation, summaries and slightly exceeds/matches state of the art metrics on correlation with human judgement on the WMT segment-level Direct Assessment task, sentence-level ranking and image captioning evaluation. The model implemented is modular, explainable and set to continuously improve over time.
翻訳日:2022-12-08 03:03:06 公開日:2020-05-01
# 構成木に対するスパンベース線形化

A Span-based Linearization for Constituent Trees ( http://arxiv.org/abs/2004.14704v2 )

ライセンス: Link先を確認
Yang Wei, Yuanbin Wu, and Man Lan(参考訳) 本稿では,新しい局所正規化モデルとともに構成木の線形化を提案する。 文の各スプリットポイントに対して、我々のモデルはスプリットポイントで終わるすべてのスパンの正規化子を計算し、そのスパンからツリースパンを予測する。 グローバルモデルと比較すると,我々のモデルは高速かつ並列化可能である。 従来の局所モデルと異なり,線形化手法はスパンに直接依存し,スパン予測を行う際により局所的な特徴を考慮し,より解釈可能かつ効果的である。 PTB (95.8 F1) と CTB (92.4 F1) の実験は、我々のモデルが既存のローカルモデルを大幅に上回り、グローバルモデルとの競合性を効果的に達成していることを示している。

We propose a novel linearization of a constituent tree, together with a new locally normalized model. For each split point in a sentence, our model computes the normalizer on all spans ending with that split point, and then predicts a tree span from them. Compared with global models, our model is fast and parallelizable. Different from previous local models, our linearization method is tied on the spans directly and considers more local features when performing span prediction, which is more interpretable and effective. Experiments on PTB (95.8 F1) and CTB (92.4 F1) show that our model significantly outperforms existing local models and efficiently achieves competitive results with global models.
翻訳日:2022-12-08 03:02:52 公開日:2020-05-01
# 自己監督型および制御型マルチドキュメントオピニオン要約

Self-Supervised and Controlled Multi-Document Opinion Summarization ( http://arxiv.org/abs/2004.14754v2 )

ライセンス: Link先を確認
Hady Elsahar, Maximin Coavoux, Matthias Gall\'e, Jos Rozen(参考訳) 本稿では,自己監督と制御によるユーザ生成レビューの集合の教師なし抽象的要約の問題に対処する。 そこで本稿では,個々の文書を類似文書の集合のターゲット要約とする自己教師型セットアップを提案する。 この設定は、標準的なログライクな損失にのみ依存することで、従来のアプローチよりも簡単なトレーニングを実現する。 我々は,制御符号の使用による幻覚の問題に対処し,よりコヒーレントで関連する要約を生成に向ける。最後に,複数のレビューを入力として,トランスフォーマーアーキテクチャを拡張する。 グラフベースおよび近年のニューラル抽象的非教師付きモデルに対する2つのデータセットに対するベンチマークでは,提案手法が優れた品質と妥当性を持つ要約を生成することを示すとともに,生成された要約の忠実性に着目した人間評価において,幻覚制御における制御設定の重要性を示し,要約と入力レビューの高感とトピックアライメントを実現する。

We address the problem of unsupervised abstractive summarization of collections of user generated reviews with self-supervision and control. We propose a self-supervised setup that considers an individual document as a target summary for a set of similar documents. This setting makes training simpler than previous approaches by relying only on standard log-likelihood loss. We address the problem of hallucinations through the use of control codes, to steer the generation towards more coherent and relevant summaries.Finally, we extend the Transformer architecture to allow for multiple reviews as input. Our benchmarks on two datasets against graph-based and recent neural abstractive unsupervised models show that our proposed method generates summaries with a superior quality and relevance.This is confirmed in our human evaluation which focuses explicitly on the faithfulness of generated summaries We also provide an ablation study, which shows the importance of the control setup in controlling hallucinations and achieve high sentiment and topic alignment of the summaries with the input reviews.
翻訳日:2022-12-08 03:02:39 公開日:2020-05-01
# webからの画像テキストペアによる視覚・言語ナビゲーションの改善

Improving Vision-and-Language Navigation with Image-Text Pairs from the Web ( http://arxiv.org/abs/2004.14973v2 )

ライセンス: Link先を確認
Arjun Majumdar, Ayush Shrivastava, Stefan Lee, Peter Anderson, Devi Parikh, Dhruv Batra(参考訳) 階段を降りて茶色のソファで立ち止まる」などのナビゲーション指示に従い、aiエージェントは、言語(例えば「階段」)を介して参照されるシーン要素を、環境(「階」に対応するピクセル)の視覚コンテンツに配置する必要がある。 視覚的グラウンディング(「階段」はどんなものか?)を学習し、比較的データスタベッドな具体的知覚タスク(視覚と言語ナビゲーション)の性能を向上させるために、豊富な'disembodied'Web-scraped Vision-and-Language corpora(例:概念キャプション)を利用できるか? 具体的には,視覚言語変換モデルであるVLN-BERTと,エージェントが取得したパノラマRGB画像との整合性を評価する。 具体的パスインストラクションデータを微調整する前に、Webから画像テキストペア上でVLN-BERTを事前学習することにより、VLNの性能が大幅に向上することを示した。 事前学習カリキュラムのアブレーションは、それぞれのステージが影響を受けており、それらの組み合わせによってさらに肯定的な相乗効果がもたらされることを示している。

Following a navigation instruction such as 'Walk down the stairs and stop at the brown sofa' requires embodied AI agents to ground scene elements referenced via language (e.g. 'stairs') to visual content in the environment (pixels corresponding to 'stairs'). We ask the following question -- can we leverage abundant 'disembodied' web-scraped vision-and-language corpora (e.g. Conceptual Captions) to learn visual groundings (what do 'stairs' look like?) that improve performance on a relatively data-starved embodied perception task (Vision-and-Language Navigation)? Specifically, we develop VLN-BERT, a visiolinguistic transformer-based model for scoring the compatibility between an instruction ('...stop at the brown sofa') and a sequence of panoramic RGB images captured by the agent. We demonstrate that pretraining VLN-BERT on image-text pairs from the web before fine-tuning on embodied path-instruction data significantly improves performance on VLN -- outperforming the prior state-of-the-art in the fully-observed setting by 4 absolute percentage points on success rate. Ablations of our pretraining curriculum show each stage to be impactful -- with their combination resulting in further positive synergistic effects.
翻訳日:2022-12-08 02:47:12 公開日:2020-05-01
# irサーモグラフィによる電子・フォトニック集積回路の熱的脆弱性検出

Thermal vulnerability detection in integrated electronic and photonic circuits using IR thermography ( http://arxiv.org/abs/2006.12201v1 )

ライセンス: Link先を確認
Bilal Hussain, Bushra Jalil, Maria Antonietta Pascali, Muhammad Imran, Giovanni Serafino, Davide Moroni and Paolo Ghelfi(参考訳) 電気・光学部品の故障予測は、運用寿命の推定に不可欠である。 高温動作寿命試験(HTOL)を用いて集積回路の故障機構をモデル化することが可能である。 従来のHTOL標準は、熱光学効果への機能的依存のため、フォトニック成分の寿命予測には適していない。 本研究は、フォトニックおよび電子部品に適した赤外線支援熱脆弱性検出技術を提案する。 集積回路の熱プロファイルを応力条件下で正確にマッピングすることにより、テスト中のデバイス内の長期動作障害を予測するためのヒートセンタを正確に特定することができる。 信頼性試験は、従来の赤外線サーモグラフィを用いて完全に機能するマイクロ波フォトニックシステムに初めて拡張された。 マルチモーダル取得にアフィン変換を用いた画像融合を適用することで,irプロファイルとgdsiiレイアウトを比較することで,成分の種類に関する空間情報とともに熱中心を正確に特定できることを示した。 光と電気部品と回路の複数のIRプロファイルを取得し、レイアウトファイルにマッピングした。 提案手法の有効性の度合いを確認するため,CMOS RFとディジタル回路のIRプロファイルも解析した。 提案手法は回路/システム内の熱スポットの信頼性の高い自動識別を提供する。

Failure prediction of any electrical/optical component is crucial for estimating its operating life. Using high temperature operating life (HTOL) tests, it is possible to model the failure mechanisms for integrated circuits. Conventional HTOL standards are not suitable for operating life prediction of photonic components owing to their functional dependence on thermo-optic effect. This work presents an IR-assisted thermal vulnerability detection technique suitable for photonic as well as electronic components. By accurately mapping the thermal profile of an integrated circuit under a stress condition, it is possible to precisely locate the heat center for predicting the long-term operational failures within the device under test. For the first time, the reliability testing is extended to a fully functional microwave photonic system using conventional IR thermography. By applying image fusion using affine transformation on multimodal acquisition, it was demonstrated that by comparing the IR profile and GDSII layout, it is possible to accurately locate the heat centers along with spatial information on the type of component. Multiple IR profiles of optical as well as electrical components/circuits were acquired and mapped onto the layout files. In order to ascertain the degree of effectiveness of the proposed technique, IR profiles of CMOS RF and digital circuits were also analyzed. The presented technique offers a reliable automated identification of heat spots within a circuit/system.
翻訳日:2022-12-08 00:32:06 公開日:2020-05-01
# ベイジアン論理回帰に対する新しいアルゴリズム的アプローチ」の議論への回答

Rejoinder for the discussion of the paper "A novel algorithmic approach to Bayesian Logic Regression" ( http://arxiv.org/abs/2005.00605v1 )

ライセンス: Link先を確認
Aliaksandr Hubin, Geir Storvik, Florian Frommlet(参考訳) 本稿では,論文 "a novel algorithmic approach to bayesian logic regression" のコメント,質問,コメントを議論者から要約する。 次に、これらのコメント、質問、発言に回答し、元のモデルのいくつかの拡張を提供し、RパッケージEMJMC(http://aliaksah.github.io/EMJMC2016/)のチュートリアルを提供します。

In this rejoinder we summarize the comments, questions and remarks on the paper "A novel algorithmic approach to Bayesian Logic Regression" from the discussants. We then respond to those comments, questions and remarks, provide several extensions of the original model and give a tutorial on our R-package EMJMCMC (http://aliaksah.github.io/EMJMCMC2016/)
翻訳日:2022-12-08 00:31:31 公開日:2020-05-01
# コンタクトリッチマニピュレーションにおける学習コンプライアンス適応

Learning Compliance Adaptation in Contact-Rich Manipulation ( http://arxiv.org/abs/2005.00227v1 )

ライセンス: Link先を確認
Jianfeng Gao and You Zhou and Tamim Asfour(参考訳) 協調したロボットの動作は、接触の多い操作タスクの実現に不可欠である。 このようなタスクでは、正常なタスク実行中に高い剛性と力追跡精度を確保し、異常な状況や変化に対応するために、迅速な適応と苦情行動を行うことが重要である。 本稿では,接触の多いタスクに必要な力プロファイルの予測モデルを学ぶための新しい手法を提案する。 このようなモデルは予期せぬ状況を検出し、適応制御を容易にする。 このアプローチは、双方向Gated Recurrent Units (Bi-GRU) に基づく異常検出と適応力/インピーダンス制御を組み合わせたものである。 本研究は,ヒューマノイドロボットのシミュレーションおよび実世界実験において,所望の動作と力プロファイルの追従精度と,人間の身体的相互作用による力の摂動への適応を両立させる手法であることを示す。

Compliant robot behavior is crucial for the realization of contact-rich manipulation tasks. In such tasks, it is important to ensure a high stiffness and force tracking accuracy during normal task execution as well as rapid adaptation and complaint behavior to react to abnormal situations and changes. In this paper, we propose a novel approach for learning predictive models of force profiles required for contact-rich tasks. Such models allow detecting unexpected situations and facilitates better adaptive control. The approach combines an anomaly detection based on Bidirectional Gated Recurrent Units (Bi-GRU) and an adaptive force/impedance controller. We evaluated the approach in simulated and real world experiments on a humanoid robot.The results show that the approach allow simultaneous high tracking accuracy of desired motions and force profile as well as the adaptation to force perturbations due to physical human interaction.
翻訳日:2022-12-08 00:31:22 公開日:2020-05-01
# ネステッド名前付きエンティティ認識のための二部グラフネットワーク

Bipartite Flat-Graph Network for Nested Named Entity Recognition ( http://arxiv.org/abs/2005.00436v1 )

ライセンス: Link先を確認
Ying Luo and Hai Zhao(参考訳) 本論文では、ネストされた名前付きエンティティ認識(NER)のための新しいバイパート・フラットグラフ・ネットワーク(BiFlaG)を提案し、最外側のエンティティのためのフラットNERモジュールと、内層にあるすべてのエンティティのためのグラフモジュールの2つのサブグラフ・モジュールを含む。 双方向LSTM (BiLSTM) とグラフ畳み込みネットワーク (GCN) を用いてフラットエンティティとその内部依存性を共同学習する。 内部層から外部層(または外部層)への情報の一方向配信のみを考慮した従来のモデルとは異なり、我々のモデルはそれらの双方向相互作用を効果的に捉えている。 まず、フラットなNERモジュールによって認識されるエンティティを使用してエンティティグラフを構築し、それを次のグラフモジュールに供給する。 グラフモジュールから学んだよりリッチな表現は内部エンティティの依存関係を持ち、最も外側のエンティティ予測を改善するために活用できる。 3つの標準ネストNERデータセットの実験結果から、我々のBiFlaGが従来の最先端モデルより優れていることが示された。

In this paper, we propose a novel bipartite flat-graph network (BiFlaG) for nested named entity recognition (NER), which contains two subgraph modules: a flat NER module for outermost entities and a graph module for all the entities located in inner layers. Bidirectional LSTM (BiLSTM) and graph convolutional network (GCN) are adopted to jointly learn flat entities and their inner dependencies. Different from previous models, which only consider the unidirectional delivery of information from innermost layers to outer ones (or outside-to-inside), our model effectively captures the bidirectional interaction between them. We first use the entities recognized by the flat NER module to construct an entity graph, which is fed to the next graph module. The richer representation learned from graph module carries the dependencies of inner entities and can be exploited to improve outermost entity predictions. Experimental results on three standard nested NER datasets demonstrate that our BiFlaG outperforms previous state-of-the-art models.
翻訳日:2022-12-08 00:23:27 公開日:2020-05-01
# 談話の自動セグメンテーション:レビューと展望

Automatic Discourse Segmentation: Review and Perspectives ( http://arxiv.org/abs/2005.00468v1 )

ライセンス: Link先を確認
Iria da Cunha, Juan-Manuel Torres-Moreno(参考訳) 多言語会話構文解析は、非常に顕著な研究テーマである。 談話パースの第1段階は談話セグメンテーションである。 本論文で報告された研究は、オンラインで利用可能な2つの談話セグメンタ(英語とポルトガル語)のレビューを扱っている。 同様の談話セグメンタをスペイン語、フランス語、アフリカ語で開発する可能性を評価する。

Multilingual discourse parsing is a very prominent research topic. The first stage for discourse parsing is discourse segmentation. The study reported in this article addresses a review of two on-line available discourse segmenters (for English and Portuguese). We evaluate the possibility of developing similar discourse segmenters for Spanish, French and African languages.
翻訳日:2022-12-08 00:23:08 公開日:2020-05-01
# RNNトランスデューサを用いたエンドツーエンド音声認識のためのアライメントによる事前学習の検討

Exploring Pre-training with Alignments for RNN Transducer based End-to-End Speech Recognition ( http://arxiv.org/abs/2005.00572v1 )

ライセンス: Link先を確認
Hu Hu, Rui Zhao, Jinyu Li, Liang Lu, Yifan Gong(参考訳) 近年,リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは,オンライン・ストリーミング音声認識の利点から,エンドツーエンドの自動音声認識研究において新たなトレンドとなっている。 しかし、RNN-Tトレーニングは、巨大なメモリ要件と複雑な神経構造によって困難である。 RNN-Tのトレーニングを容易にするための一般的な解決策は、接続型時間分類(CTC)モデルとRNN言語モデル(RNNLM)を用いて、RNN-Tパラメータを初期化することである。 本研究では,RNN-Tモデルをシードするために外部アライメントを利用する。 エンコーダプリトレーニングと呼ばれる2つの異なるプリトレーニングソリューションと、ネットワーク全体のプリトレーニングが検討されている。 Microsoft 65,000時間の匿名化生産データから個人識別可能な情報を取り除いた結果,提案手法は大幅な改善が得られた。 特に,ランダム初期化および広く用いられているctc+rnnlm初期化戦略と比較して,エンコーダ事前学習溶液は10%と8%の単語誤り率削減を達成した。 我々のソリューションは、ベースラインからRNN-Tモデルの遅延を著しく低減します。

Recently, the recurrent neural network transducer (RNN-T) architecture has become an emerging trend in end-to-end automatic speech recognition research due to its advantages of being capable for online streaming speech recognition. However, RNN-T training is made difficult by the huge memory requirements, and complicated neural structure. A common solution to ease the RNN-T training is to employ connectionist temporal classification (CTC) model along with RNN language model (RNNLM) to initialize the RNN-T parameters. In this work, we conversely leverage external alignments to seed the RNN-T model. Two different pre-training solutions are explored, referred to as encoder pre-training, and whole-network pre-training respectively. Evaluated on Microsoft 65,000 hours anonymized production data with personally identifiable information removed, our proposed methods can obtain significant improvement. In particular, the encoder pre-training solution achieved a 10% and a 8% relative word error rate reduction when compared with random initialization and the widely used CTC+RNNLM initialization strategy, respectively. Our solutions also significantly reduce the RNN-T model latency from the baseline.
翻訳日:2022-12-08 00:23:03 公開日:2020-05-01
# オンライン音声認識のためのマルチヘッドモノトニックチャンクワイズアテンション

Multi-head Monotonic Chunkwise Attention For Online Speech Recognition ( http://arxiv.org/abs/2005.00205v1 )

ライセンス: Link先を確認
Baiji Liu and Songjun Cao and Sining Sun and Weibin Zhang and Long Ma(参考訳) listen, attend and spell(las)モデルの注意機構は、注意コンテキストを計算するために入力シーケンス全体を必要とするため、オンライン音声認識には適さない。 そこで本研究では,MoChAの改良版であるMTH-MoChAを提案する。 MTH-MoChAは入力シーケンスを小さなチャンクに分割し、チャンク上のマルチヘッドアテンションを計算する。 また,MLT-MoChAの性能向上のために,LSTMプーリング,最小世界誤差率トレーニング,SpecAugmentなどの有用なトレーニング戦略についても検討する。 AISHELL-1データの実験では、提案されたモデルとトレーニング戦略により、MoChAの文字誤り率(CER)がテストセットで8.96%から7.68%に改善された。 MTH-MoChAは18000時間の車載音声データセットで7.28%のCERを取得でき、これは最先端のハイブリッドシステムよりもはるかに優れている。

The attention mechanism of the Listen, Attend and Spell (LAS) model requires the whole input sequence to calculate the attention context and thus is not suitable for online speech recognition. To deal with this problem, we propose multi-head monotonic chunk-wise attention (MTH-MoChA), an improved version of MoChA. MTH-MoChA splits the input sequence into small chunks and computes multi-head attentions over the chunks. We also explore useful training strategies such as LSTM pooling, minimum world error rate training and SpecAugment to further improve the performance of MTH-MoChA. Experiments on AISHELL-1 data show that the proposed model, along with the training strategies, improve the character error rate (CER) of MoChA from 8.96% to 7.68% on test set. On another 18000 hours in-car speech data set, MTH-MoChA obtains 7.28% CER, which is significantly better than a state-of-the-art hybrid system.
翻訳日:2022-12-08 00:22:12 公開日:2020-05-01
# デジタル歯科x線位置分類のための適応強化型ハイブリッドcnnモデル

An Adaptive Enhancement Based Hybrid CNN Model for Digital Dental X-ray Positions Classification ( http://arxiv.org/abs/2005.01509v1 )

ライセンス: Link先を確認
Yaqi Wang, Lingling Sun, Yifang Zhang, Dailin Lv, Zhixing Li, Wuteng Qi(参考訳) 歯科用X線写真解析は日常臨床における診断過程の重要な部分である。 専門家による解釈には、歯の検出と番号が含まれる。 本研究では, 歯科用x線を自動処理する適応型ヒストグラム等化・畳み込みニューラルネットワーク(cnn)を用いた新しい解法を提案する。 検出精度を向上させるために,事前知識に基づいてcnnのベースラインを補完する3つの前処理手法を提案する。 まず、画像のシャープ化と中央値フィルタリングを用いてインパルスノイズを除去し、エッジをある程度拡張する。 次に、HEの過度増幅ノイズの問題を克服するために適応ヒストグラム等化を用いる。 最後に, 歯科用スライスの6つの異なる部位を分類するマルチcnnハイブリッドモデルを提案する。 その結果,テストセットの精度と特異性は90%以上であり,AUCは0.97に達した。 さらに4名の歯科医が手動でテストデータセットに注釈を付け(独立して),提案アルゴリズムによって得られたラベルと比較した。 その結果,歯のX線位置を効果的に同定できることがわかった。

Analysis of dental radiographs is an important part of the diagnostic process in daily clinical practice. Interpretation by an expert includes teeth detection and numbering. In this project, a novel solution based on adaptive histogram equalization and convolution neural network (CNN) is proposed, which automatically performs the task for dental x-rays. In order to improve the detection accuracy, we propose three pre-processing techniques to supplement the baseline CNN based on some prior domain knowledge. Firstly, image sharpening and median filtering are used to remove impulse noise, and the edge is enhanced to some extent. Next, adaptive histogram equalization is used to overcome the problem of excessive amplification noise of HE. Finally, a multi-CNN hybrid model is proposed to classify six different locations of dental slices. The results showed that the accuracy and specificity of the test set exceeded 90\%, and the AUC reached 0.97. In addition, four dentists were invited to manually annotate the test data set (independently) and then compare it with the labels obtained by our proposed algorithm. The results show that our method can effectively identify the X-ray location of teeth.
翻訳日:2022-12-08 00:20:54 公開日:2020-05-01
# 衣服ランドマーク検出のための集合と微細化

Aggregation and Finetuning for Clothes Landmark Detection ( http://arxiv.org/abs/2005.00419v1 )

ライセンス: Link先を確認
Tzu-Heng Lin(参考訳) 衣服のランドマーク検出は多くの用途において基本的な問題である。 本稿では,衣服のランドマーク検出のための新しいトレーニング手法である$\textit{Aggregation and Finetuning}$を提案する。 衣服の種類によって異なるランドマーク間の均質性を考察し,それをトレーニング手順の設計に活用する。 大規模な実験により,本手法は最先端の手法よりも高い性能を示した。 また,deepfashion2 challenge 2020 - clothing landmark estimation trackにおいて,テストセットのapが0.590,検証セットが0.615という1位を獲得した。 コードはhttps://github.com/lzhbrian/deepfashion2-kps-agg-finetuneで公開される。

Landmark detection for clothes is a fundamental problem for many applications. In this paper, a new training scheme for clothes landmark detection: $\textit{Aggregation and Finetuning}$, is proposed. We investigate the homogeneity among landmarks of different categories of clothes, and utilize it to design the procedure of training. Extensive experiments show that our method outperforms current state-of-the-art methods by a large margin. Our method also won the 1st place in the DeepFashion2 Challenge 2020 - Clothes Landmark Estimation Track with an AP of 0.590 on the test set, and 0.615 on the validation set. Code will be publicly available at https://github.com/lzhbrian/deepfashion2-kps-agg-finetune .
翻訳日:2022-12-08 00:13:48 公開日:2020-05-01
# 多ラベル分類問題におけるクラスレベルの困難要因の検討

Investigating Class-level Difficulty Factors in Multi-label Classification Problems ( http://arxiv.org/abs/2005.00430v1 )

ライセンス: Link先を確認
Mark Marsden, Kevin McGuinness, Joseph Antony, Haolin Wei, Milan Redzic, Jian Tang, Zhilan Hu, Alan Smeaton, Noel E O'Connor(参考訳) 本研究は,マルチラベル分類問題におけるクラスレベルの難易度を初めて検討する。 クラスレベルの難易度には,頻度,視覚変動,意味的抽象化,クラス共起という4つの要因が提案されている。 与えられたマルチラベル分類データセットに対して計算すると、これらの困難因子は、データセット間のクラスレベルのパフォーマンスの予測や、重み付け最適化による予測性能の改善など、いくつかの潜在的な応用があることが示される。 重み付け最適化が困難である2つの挑戦的マルチラベルデータセット(WWW CrowdとVisual Genome)では、mAPとAUCのパフォーマンスが大幅に改善されている。 提案手法は, 学習や推論において, 余分な計算複雑性を伴わず, クラスレベルの難易度を考慮し, 時間とともに拡張することができる。

This work investigates the use of class-level difficulty factors in multi-label classification problems for the first time. Four class-level difficulty factors are proposed: frequency, visual variation, semantic abstraction, and class co-occurrence. Once computed for a given multi-label classification dataset, these difficulty factors are shown to have several potential applications including the prediction of class-level performance across datasets and the improvement of predictive performance through difficulty weighted optimisation. Significant improvements to mAP and AUC performance are observed for two challenging multi-label datasets (WWW Crowd and Visual Genome) with the inclusion of difficulty weighted optimisation. The proposed technique does not require any additional computational complexity during training or inference and can be extended over time with inclusion of other class-level difficulty factors.
翻訳日:2022-12-08 00:13:36 公開日:2020-05-01
# テストセットなしでテストエラーを計算する

Computing the Testing Error without a Testing Set ( http://arxiv.org/abs/2005.00450v1 )

ライセンス: Link先を確認
Ciprian Corneanu, Meysam Madadi, Sergio Escalera, Aleix Martinez(参考訳) ディープニューラルネットワーク(DNN)はコンピュータビジョンに革命をもたらした。 現在、オブジェクト認識、表情分析、セマンティックセグメンテーションなど、最高の(パフォーマンス)結果を達成するDNNがいくつかありますが、いくつかあります。 しかし、上位結果を達成するDNNの設計は、非自明で、ほとんどは後続とエラーによって行われる。 つまり、研究者は多くのDNNアーキテクチャ(トポロジ)を導き、複数のデータセットでそれらをテストする。 しかし、選択したDNNが現実世界でうまく機能する保証はない。 テストセットを使用してトレーニングとテストセットのパフォーマンスギャップを見積もることができるが、テストデータへの過度な適合を避けることはほとんど不可能である。 分離テストデータセットを使用するとこの問題に対処できるが、これは非常に高価なベンチャーであるデータセットを常に更新する必要がある。 ここでは,テストデータセットを必要としないトレーニングとテスト間のパフォーマンスギャップを推定するアルゴリズムを導出する。 具体的には、DNNが未知のサンプルに一般化することを学んでいることを識別する、永続的なトポロジー尺度を多数導出する。 これにより、たとえそれらにアクセスできない場合でも、未発見のサンプルでdnnのテストエラーを計算できます。 本稿では,提案手法の実現可能性を示すために,複数ネットワークとデータセットの広範な実験検証を行う。

Deep Neural Networks (DNNs) have revolutionized computer vision. We now have DNNs that achieve top (performance) results in many problems, including object recognition, facial expression analysis, and semantic segmentation, to name but a few. The design of the DNNs that achieve top results is, however, non-trivial and mostly done by trail-and-error. That is, typically, researchers will derive many DNN architectures (i.e., topologies) and then test them on multiple datasets. However, there are no guarantees that the selected DNN will perform well in the real world. One can use a testing set to estimate the performance gap between the training and testing sets, but avoiding overfitting-to-the-testing-data is almost impossible. Using a sequestered testing dataset may address this problem, but this requires a constant update of the dataset, a very expensive venture. Here, we derive an algorithm to estimate the performance gap between training and testing that does not require any testing dataset. Specifically, we derive a number of persistent topology measures that identify when a DNN is learning to generalize to unseen samples. This allows us to compute the DNN's testing error on unseen samples, even when we do not have access to them. We provide extensive experimental validation on multiple networks and datasets to demonstrate the feasibility of the proposed approach.
翻訳日:2022-12-08 00:13:24 公開日:2020-05-01
# 顔の表情伝達と合成のための遠方注意表現と同一性特徴の効率的な統合

An Efficient Integration of Disentangled Attended Expression and Identity FeaturesFor Facial Expression Transfer andSynthesis ( http://arxiv.org/abs/2005.00499v1 )

ライセンス: Link先を確認
Kamran Ali and Charles E. Hughes(参考訳) 本稿では,顔画像から生成した顔画像への同一性漏洩問題を克服するために,aip-gan(ententent-based identity preservation generative adversarial network)を提案する。 私たちのキーとなる洞察は、アイデンティティ保存ネットワークは、効率的な表情の転送と合成のために、形状、外観、表現情報を分離して構成できるべきであるということです。 具体的には、AIP-GANの表現エンコーダは、空間的およびチャネル的注意モジュールを用いて顔のランドマークを予測することにより、入力元画像から表現情報を切り離す。 同様に、入力対象画像から、その内在的形状と、我々の自己監督的空間的・チャネル的注意変調を用いた外観像を推定することにより、不整合表現非依存性特徴を抽出する。 2つのエンコーダの中間層によってエンコードされる表現とアイデンティティ情報を活用するために、これらの特徴と、クロスエンコーダバイリニアプーリング操作を用いてデコーダの中間層によって学習された特徴を組み合わせる。 実験の結果, AIP-GAN に基づく手法の有望な性能を示した。

In this paper, we present an Attention-based Identity Preserving Generative Adversarial Network (AIP-GAN) to overcome the identity leakage problem from a source image to a generated face image, an issue that is encountered in a cross-subject facial expression transfer and synthesis process. Our key insight is that the identity preserving network should be able to disentangle and compose shape, appearance, and expression information for efficient facial expression transfer and synthesis. Specifically, the expression encoder of our AIP-GAN disentangles the expression information from the input source image by predicting its facial landmarks using our supervised spatial and channel-wise attention module. Similarly, the disentangled expression-agnostic identity features are extracted from the input target image by inferring its combined intrinsic-shape and appearance image employing our self-supervised spatial and channel-wise attention mod-ule. To leverage the expression and identity information encoded by the intermediate layers of both of our encoders, we combine these features with the features learned by the intermediate layers of our decoder using a cross-encoder bilinear pooling operation. Experimental results show the promising performance of our AIP-GAN based technique.
翻訳日:2022-12-08 00:13:02 公開日:2020-05-01
# ゼロからヒーローへ:多言語トランスフォーマーを用いたゼロショットクロスリンガルトランスファーの限界について

From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual Transfer with Multilingual Transformers ( http://arxiv.org/abs/2005.00633v1 )

ライセンス: Link先を確認
Anne Lauscher and Vinit Ravishankar and Ivan Vuli\'c and Goran Glava\v{s}(参考訳) 言語モデリングの目的(例えば、mbert、xlm-r)で事前学習された超多言語トランスフォーマーは、nlpにおけるゼロショットクロスリンガル転送のデファクトのデフォルト転送パラダイムとなり、一致しない転送性能を提供している。 しかし、現在の下流評価では、十分な事前学習データを持つ言語と、語彙的およびタイプ的に近い言語を含む転送設定において、その有効性を主に検証している。 本研究では,その限界を分析し,多言語トランスフォーマーによる言語間伝達は,言語間埋め込みによるトランスフォーマーと同様に,リソース指向のシナリオや遠方言語では実質的に効果的でないことを示す。 我々の実験では,3つの低レベルタスク(POSタグ付け,依存性解析,NER)と2つの高レベルセマンティックタスク(NLI, QA)を包含し,ソース言語とターゲット言語の言語的類似性に加えて,対象言語の事前学習コーパスのサイズも比較検討した。 また、基板全体にわたる安価な小ショット転送(例えば、ソースの微調整後のいくつかのターゲット言語インスタンスの微調整)の驚くべき効果を示す。 これは、ゼロショット条件の制限を超えて、さらなる研究努力を投資すべきであることを示唆している。

Massively multilingual transformers pretrained with language modeling objectives (e.g., mBERT, XLM-R) have become a de facto default transfer paradigm for zero-shot cross-lingual transfer in NLP, offering unmatched transfer performance. Current downstream evaluations, however, verify their efficacy predominantly in transfer settings involving languages with sufficient amounts of pretraining data, and with lexically and typologically close languages. In this work, we analyze their limitations and show that cross-lingual transfer via massively multilingual transformers, much like transfer via cross-lingual word embeddings, is substantially less effective in resource-lean scenarios and for distant languages. Our experiments, encompassing three lower-level tasks (POS tagging, dependency parsing, NER), as well as two high-level semantic tasks (NLI, QA), empirically correlate transfer performance with linguistic similarity between the source and target languages, but also with the size of pretraining corpora of target languages. We also demonstrate a surprising effectiveness of inexpensive few-shot transfer (i.e., fine-tuning on a few target-language instances after fine-tuning in the source) across the board. This suggests that additional research efforts should be invested to reach beyond the limiting zero-shot conditions.
翻訳日:2022-12-08 00:05:56 公開日:2020-05-01
# テキストと因果推論: 因果推定から反響を除去するためのテキストの利用のレビュー

Text and Causal Inference: A Review of Using Text to Remove Confounding from Causal Estimates ( http://arxiv.org/abs/2005.00649v1 )

ライセンス: Link先を確認
Katherine A. Keith, David Jensen, Brendan O'Connor(参考訳) 計算社会科学の多くの応用は、非実験データから因果的結論を推測することを目的としている。 このような観測データには、しばしば共同設立者、潜在的な原因と潜在的な影響の両方に影響を与える変数が含まれる。 測定されていない、または潜在している共同ファウンダーは因果推定に偏る可能性がある。 例えば、個人のソーシャルメディア投稿の歴史全体やニュース記事の内容は、複数の共同ファウンダーの豊富な測定結果を提供することができる。 しかし、この問題の方法や応用は異なるコミュニティに分散しており、評価実践は矛盾している。 このレビューは、これらのサンプルを収集して分類し、データ処理と評価決定のガイドを提供する最初のものです。 テキストによるコンファウンディングの調整に注目が集まっているが,まだ多くの問題があり,本稿ではその点を強調する。

Many applications of computational social science aim to infer causal conclusions from non-experimental data. Such observational data often contains confounders, variables that influence both potential causes and potential effects. Unmeasured or latent confounders can bias causal estimates, and this has motivated interest in measuring potential confounders from observed text. For example, an individual's entire history of social media posts or the content of a news article could provide a rich measurement of multiple confounders. Yet, methods and applications for this problem are scattered across different communities and evaluation practices are inconsistent. This review is the first to gather and categorize these examples and provide a guide to data-processing and evaluation decisions. Despite increased attention on adjusting for confounding using text, there are still many open problems, which we highlight in this paper.
翻訳日:2022-12-08 00:05:05 公開日:2020-05-01
# マルチタスク画像処理のための深いカスケードU-Net

Deeply Cascaded U-Net for Multi-Task Image Processing ( http://arxiv.org/abs/2005.00225v1 )

ライセンス: Link先を確認
Ilja Gubins, Remco C. Veltkamp(参考訳) 現在の作業では、多くの画像処理タスクが順次実行される(例えば、デノイング、デハジング、そしてセマンティックセグメンテーション)。 本稿では,シーケンシャルな画像処理タスクを組み合わせるために設計された,新しいマルチタスクニューラルネットワークアーキテクチャを提案する。 個々のタスク毎に追加のデコーディングパスによってu-netを拡張し、出力と接続の深いカスケードをある経路から別の経路へ探索する。 提案手法は,提案手法の有効性を実証し,学習可能なパラメータの少ない複数の個別ネットワークや共同学習ネットワークよりも優れた性能を実現する。

In current practice, many image processing tasks are done sequentially (e.g. denoising, dehazing, followed by semantic segmentation). In this paper, we propose a novel multi-task neural network architecture designed for combining sequential image processing tasks. We extend U-Net by additional decoding pathways for each individual task, and explore deep cascading of outputs and connectivity from one pathway to another. We demonstrate effectiveness of the proposed approach on denoising and semantic segmentation, as well as on progressive coarse-to-fine semantic segmentation, and achieve better performance than multiple individual or jointly-trained networks, with lower number of trainable parameters.
翻訳日:2022-12-08 00:04:51 公開日:2020-05-01
# リカレントニューラルネットワークを用いたディープフェイク鑑定

Deepfake Forensics Using Recurrent Neural Networks ( http://arxiv.org/abs/2005.00229v1 )

ライセンス: Link先を確認
Rahul U, Ragul M, Raja Vignesh K, Tejeswinee K(参考訳) 最近になって、AIベースの無料プログラムデバイスは、記録にほとんど制御のヒントを残しない、真正な顔スワップを、"deepfake"と呼ばれる記録で簡単に作成できるようになった。 これらの真真正な偽造記録を利用して政治的苦痛を生じさせ、誰かを歪ませたり、恐怖に基づく弾圧事件を効果的に想像する。 本稿では,ディープフェイク記録を自動認識する過渡マインドフルパイプラインを提案する。 本フレームワークは畳み込みニューラルネットワーク(cnn)を用いてアウトラインレベルのハイライトを除去する。 これらのハイライトは、ビデオが制御するためのサブオブジェクトであったかどうかを識別する繰り返しニューラルネットワーク(RNN)を作成するために使用される。 我々は,異なるビデオサイトから収集した大量のディープフェイク録音に対して,我々の手法を評価する。 我々は,この課題において,我々のフレームワークが基本設計を生かしながら積極的成果を達成できることを示す。

As of late an AI based free programming device has made it simple to make authentic face swaps in recordings that leaves barely any hints of control, in what are known as "deepfake" recordings. Situations where these genuine istic counterfeit recordings are utilized to make political pain, extort somebody or phony fear based oppression occasions are effectively imagined. This paper proposes a transient mindful pipeline to automat-ically recognize deepfake recordings. Our framework utilizes a convolutional neural system (CNN) to remove outline level highlights. These highlights are then used to prepare a repetitive neural net-work (RNN) that figures out how to characterize if a video has been sub-ject to control or not. We assess our technique against a huge arrangement of deepfake recordings gathered from different video sites. We show how our framework can accomplish aggressive outcomes in this assignment while utilizing a basic design.
翻訳日:2022-12-08 00:04:39 公開日:2020-05-01
# 連続ビデオにおけるアメリカ手話非マニュアル信号文法誤差の認識

Recognizing American Sign Language Nonmanual Signal Grammar Errors in Continuous Videos ( http://arxiv.org/abs/2005.00253v1 )

ライセンス: Link先を確認
Elahe Vahdani, Longlong Jing, Yingli Tian, Matt Huenerfauth(参考訳) 本稿では,アメリカ手話(ASL, American Sign Language, ASL, ASL)の流布を即時フィードバックで支援する教育ツールの開発の一環として,連続署名ビデオにおける文法的誤りを必ずしも識別することなく,ほぼリアルタイムに認識するシステムを提案する。 ASL 文のパフォーマンスが ASL 学生の文法的誤りを含むかどうかを自動的に認識する。 3D-ResNetネットワークにより,手動ジェスチャーと非手動信号を含むASLの文法的要素を複数のモーダル(手動ジェスチャー,表情,頭部運動)から独立に認識する。 そこで, 異なる様相からの文法的要素の時間的境界について検討し, スライドウインドウに基づくアプローチを用いてASL文法的誤りを検出する。 我々は,連続手話のデータセットであるASL-HW-RGBDを収集し,ASL文法の学習とテストのさまざまな側面を網羅した。 ASL-HW-RGBDの文法的要素を手動ジェスチャー,表情,頭部動作から認識し,8つのASL文法的誤りを検出する。

As part of the development of an educational tool that can help students achieve fluency in American Sign Language (ASL) through independent and interactive practice with immediate feedback, this paper introduces a near real-time system to recognize grammatical errors in continuous signing videos without necessarily identifying the entire sequence of signs. Our system automatically recognizes if performance of ASL sentences contains grammatical errors made by ASL students. We first recognize the ASL grammatical elements including both manual gestures and nonmanual signals independently from multiple modalities (i.e. hand gestures, facial expressions, and head movements) by 3D-ResNet networks. Then the temporal boundaries of grammatical elements from different modalities are examined to detect ASL grammatical mistakes by using a sliding window-based approach. We have collected a dataset of continuous sign language, ASL-HW-RGBD, covering different aspects of ASL grammars for training and testing. Our system is able to recognize grammatical elements on ASL-HW-RGBD from manual gestures, facial expressions, and head movements and successfully detect 8 ASL grammatical mistakes.
翻訳日:2022-12-08 00:04:25 公開日:2020-05-01
# マルチカメラ軌道予測:カメラネットワークにおける歩行者軌道予測

Multi-Camera Trajectory Forecasting: Pedestrian Trajectory Prediction in a Network of Cameras ( http://arxiv.org/abs/2005.00282v1 )

ライセンス: Link先を確認
Olly Styles and Tanaya Guha and Victor Sanchez and Alex Kot(参考訳) 本稿では,物体の将来の軌跡をカメラネットワークで予測するマルチカメラ軌道予測(MCTF)の課題を紹介する。 先行研究では、単一のカメラビューで軌道を予測することを検討する。 私たちの研究は、複数の重複しないカメラビューにまたがって予測する難しいシナリオを最初に検討したものです。 これは再識別やマルチターゲットマルチカメラ追跡といったタスクに広く適用可能である。 この新分野の研究を容易にするために,15台の同期カメラのネットワークから,マルチカメラ歩行者追跡のユニークなデータセットであるwnmf(warwick-ntu multi-camera forecasting database)をリリースする。 この大規模なデータセット(600時間のビデオ映像)を正確にラベル付けするために,半自動アノテーション法も開発した。 効果的なMCTFモデルは、人がカメラネットワークに再び現れる場所と時期を積極的に予測するべきである。 本稿では、歩行者が他のカメラの視界を離れた後に再び現れるであろう次のカメラを予測するタスクについて考察し、これに対するいくつかのベースラインアプローチを提案する。 ラベル付きデータベースはオンラインで入手できる: https://github.com/olly-styles/Multi-Camera-Trajectory-Forecasting。

We introduce the task of multi-camera trajectory forecasting (MCTF), where the future trajectory of an object is predicted in a network of cameras. Prior works consider forecasting trajectories in a single camera view. Our work is the first to consider the challenging scenario of forecasting across multiple non-overlapping camera views. This has wide applicability in tasks such as re-identification and multi-target multi-camera tracking. To facilitate research in this new area, we release the Warwick-NTU Multi-camera Forecasting Database (WNMF), a unique dataset of multi-camera pedestrian trajectories from a network of 15 synchronized cameras. To accurately label this large dataset (600 hours of video footage), we also develop a semi-automated annotation method. An effective MCTF model should proactively anticipate where and when a person will re-appear in the camera network. In this paper, we consider the task of predicting the next camera a pedestrian will re-appear after leaving the view of another camera, and present several baseline approaches for this. The labeled database is available online: https://github.com/olly-styles/Multi-Camera-Trajectory-Forecasting.
翻訳日:2022-12-08 00:04:03 公開日:2020-05-01
# ACCL: 医用画像の低監督化のための対向的制約-CNN損失

ACCL: Adversarial constrained-CNN loss for weakly supervised medical image segmentation ( http://arxiv.org/abs/2005.00328v1 )

ライセンス: Link先を確認
Pengyi Zhang, Yunxin Zhong, Xiaoqiong Li(参考訳) 本稿では, 医用画像の弱いセグメント化のための新しい制約付きCNN損失法である, 対向的制約付きCNN損失を提案する。 新しいパラダイムでは、事前知識は参照マスクによってエンコードされ、さらに参照マスクによる逆学習を通じてセグメンテーションアウトプットに制約を課すために用いられる。 弱い教師付きセグメンテーションのための擬似ラベル法とは異なり、そのような参照マスクはセグメンテーションネットワークよりも識別器を訓練するために用いられ、そのため特定の画像と組み合わせる必要はない。 我々の新しいパラダイムは、ネットワークの出力に対する事前知識の付与を大いに促進するだけでなく、より強固で高次制約、すなわち分布近似を敵対的学習を通じて提供する。 accl法を評価するために,様々な医学的モダリティ,異なる解剖学的構造,関心対象の異なるトポロジ,異なる事前知識のレベル,異なるアノテーション比率の弱い教師付きアノテーションを含む広範囲な実験を行った。 サイズ制約付きCNN損失法よりも連続的に優れたセグメンテーション結果が得られ,その一部は全監督の結果に近く,本手法の有効性と一般化を十分に検証している。 具体的には、平均diceスコアが75.4%、平均アノテーション比率が0.65%であり、先行技術、すなわちサイズ制約付きcnn損失法を11.4%大きく上回っていることを報告した。 私たちのコードはhttps://github.com/pengyizhang/acclで公開されています。

We propose adversarial constrained-CNN loss, a new paradigm of constrained-CNN loss methods, for weakly supervised medical image segmentation. In the new paradigm, prior knowledge is encoded and depicted by reference masks, and is further employed to impose constraints on segmentation outputs through adversarial learning with reference masks. Unlike pseudo label methods for weakly supervised segmentation, such reference masks are used to train a discriminator rather than a segmentation network, and thus are not required to be paired with specific images. Our new paradigm not only greatly facilitates imposing prior knowledge on network's outputs, but also provides stronger and higher-order constraints, i.e., distribution approximation, through adversarial learning. Extensive experiments involving different medical modalities, different anatomical structures, different topologies of the object of interest, different levels of prior knowledge and weakly supervised annotations with different annotation ratios is conducted to evaluate our ACCL method. Consistently superior segmentation results over the size constrained-CNN loss method have been achieved, some of which are close to the results of full supervision, thus fully verifying the effectiveness and generalization of our method. Specifically, we report an average Dice score of 75.4% with an average annotation ratio of 0.65%, surpassing the prior art, i.e., the size constrained-CNN loss method, by a large margin of 11.4%. Our codes are made publicly available at https://github.com/PengyiZhang/ACCL.
翻訳日:2022-12-08 00:03:23 公開日:2020-05-01
# ASSET:複数書き換え変換を用いた文単純化モデルのチューニングと評価のためのデータセット

ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations ( http://arxiv.org/abs/2005.00481v1 )

ライセンス: Link先を確認
Fernando Alva-Manchego, Louis Martin, Antoine Bordes, Carolina Scarton, Beno\^it Sagot, Lucia Specia(参考訳) 文章を単純化するために、人間の編集者は複数の書き直し変換を行い、複数の短い文、パラフレーズ語(複雑な単語やフレーズを単純な同義語で置き換える)、部品の並べ替え、不要と考えられる情報の削除を行う。 テキスト変更の可能な範囲は様々であるが、現在の自動文単純化モデルは、語彙パラフレーズや分割のような単一の変換に焦点を絞ったデータセットを用いて評価される。 これにより、より現実的な設定でモデルを単純化する能力を理解することが不可能になる。 この制限を緩和するために、英語で文の単純化を評価するための新しいデータセットであるASSETを導入する。 ASSETはクラウドソースのマルチ参照コーパスで、複数の書き換え変換を実行することで各単純化が実現された。 定量的・定性的な実験により,アセットの単純化は,タスクの他の標準評価データセットと比較して,単純さの特徴を捉えるのに優れていることを示した。 さらに,複数の簡易化変換を行う場合には,現在普及しているメトリクスが適さないことを示すため,アセットを用いた自動評価のためのより良い手法の開発を動機付ける。

In order to simplify a sentence, human editors perform multiple rewriting transformations: they split it into several shorter sentences, paraphrase words (i.e. replacing complex words or phrases by simpler synonyms), reorder components, and/or delete information deemed unnecessary. Despite these varied range of possible text alterations, current models for automatic sentence simplification are evaluated using datasets that are focused on a single transformation, such as lexical paraphrasing or splitting. This makes it impossible to understand the ability of simplification models in more realistic settings. To alleviate this limitation, this paper introduces ASSET, a new dataset for assessing sentence simplification in English. ASSET is a crowdsourced multi-reference corpus where each simplification was produced by executing several rewriting transformations. Through quantitative and qualitative experiments, we show that simplifications in ASSET are better at capturing characteristics of simplicity when compared to other standard evaluation datasets for the task. Furthermore, we motivate the need for developing better methods for automatic evaluation using ASSET, since we show that current popular metrics may not be suitable when multiple simplification transformations are performed.
翻訳日:2022-12-07 23:56:49 公開日:2020-05-01
# 臨床読解の理解: EmrQA データセットの詳細な分析

Clinical Reading Comprehension: A Thorough Analysis of the emrQA Dataset ( http://arxiv.org/abs/2005.00574v1 )

ライセンス: Link先を確認
Xiang Yue, Bernal Jimenez Gutierrez and Huan Sun(参考訳) 近年、大規模な注釈付きデータセットによって機械読解は大きな進歩を遂げている。 しかし、臨床領域では、アノテーションに必要なドメインの専門知識のため、このようなデータセットの作成は極めて困難である。 最近、Pampari et al. (EMNLP'18) は、専門家注釈付き質問テンプレートと既存のi2b2アノテーションを使用して、臨床ノートに基づいた質問応答のための最初の大規模データセットである emrQA を作成し、この問題に対処している。 本稿では,本データセットの詳細な分析と臨床読解(CliniRC)課題について述べる。 質的な分析から、私たちはそれを発見します。 (i) emrQA 答はしばしば不完全であり、 (ii)emrqaの質問はしばしばドメインの知識を使わずに答えられる。 私たちの定量的実験から 驚くべき結果は (iii)小さなサンプルサブセット(5%-20%)を用いて、データセット全体のトレーニングモデルと比較してほぼ同等のパフォーマンスを得ることができる。 (iv)この演技は、人間の専門家の演奏に近いもので、 (v)BERTモデルは、最高のパフォーマンスベースモデルを超えない。 EmrQAの分析に続き、臨床領域知識を活用する能力と、目に見えない質問や文脈に一般化する能力という、CliniRCシステムの2つの望ましい側面について検討する。 我々は、どちらも将来のデータセットを作成する際に考慮すべきであると主張している。

Machine reading comprehension has made great progress in recent years owing to large-scale annotated datasets. In the clinical domain, however, creating such datasets is quite difficult due to the domain expertise required for annotation. Recently, Pampari et al. (EMNLP'18) tackled this issue by using expert-annotated question templates and existing i2b2 annotations to create emrQA, the first large-scale dataset for question answering (QA) based on clinical notes. In this paper, we provide an in-depth analysis of this dataset and the clinical reading comprehension (CliniRC) task. From our qualitative analysis, we find that (i) emrQA answers are often incomplete, and (ii) emrQA questions are often answerable without using domain knowledge. From our quantitative experiments, surprising results include that (iii) using a small sampled subset (5%-20%), we can obtain roughly equal performance compared to the model trained on the entire dataset, (iv) this performance is close to human expert's performance, and (v) BERT models do not beat the best performing base model. Following our analysis of the emrQA, we further explore two desired aspects of CliniRC systems: the ability to utilize clinical domain knowledge and to generalize to unseen questions and contexts. We argue that both should be considered when creating future datasets.
翻訳日:2022-12-07 23:56:02 公開日:2020-05-01
# ニューラルネットワーク翻訳における入力摂動に対するロバスト性の評価

Evaluating Robustness to Input Perturbations for Neural Machine Translation ( http://arxiv.org/abs/2005.00580v1 )

ライセンス: Link先を確認
Xing Niu, Prashant Mathur, Georgiana Dinu, Yaser Al-Onaizan(参考訳) ニューラル機械翻訳(NMT)モデルは入力の小さな摂動に敏感である。 このような摂動に対するロバスト性は、通常、騒がしい入力に対するbleuなどの翻訳品質指標を用いて測定される。 本稿では,入力に小さな摂動を加えた場合の相対的劣化と変換の変化を計測する追加指標を提案する。 提案するロバスト性尺度を用いて,ロバスト性に対処するためにサブワード正則化を用いたモデル群に着目し,モデルの広範な評価を行う。 その結果,提案手法は,単語正規化手法を用いた場合の摂動に対するロバスト性向上の傾向を明らかにした。

Neural Machine Translation (NMT) models are sensitive to small perturbations in the input. Robustness to such perturbations is typically measured using translation quality metrics such as BLEU on the noisy input. This paper proposes additional metrics which measure the relative degradation and changes in translation when small perturbations are added to the input. We focus on a class of models employing subword regularization to address robustness and perform extensive evaluations of these models using the robustness measures proposed. Results show that our proposed metrics reveal a clear trend of improved robustness to perturbations when subword regularization methods are used.
翻訳日:2022-12-07 23:55:26 公開日:2020-05-01
# 多次元ジェンダーバイアス分類

Multi-Dimensional Gender Bias Classification ( http://arxiv.org/abs/2005.00614v1 )

ライセンス: Link先を確認
Emily Dinan, Angela Fan, Ledell Wu, Jason Weston, Douwe Kiela, Adina Williams(参考訳) 機械学習モデルは、データのパターンを見つけるために訓練される。 NLPモデルは、性別バイアスのあるテキストのトレーニングにおいて、社会的に望ましくないパターンを不注意に学習することができる。 本研究では,話し相手の性別からのバイアス,話し相手の性別からのバイアス,話し相手の性別からのバイアス,話者の性別からのバイアスという,いくつかの実用的・意味的な次元に沿ってテキスト中の性別のバイアスを分解する一般的な枠組みを提案する。 このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。 さらに,発話レベルの性書き直しに関する新たなクラウドソース評価ベンチマークも収集した。 複数の次元に沿って性別バイアスを識別することは重要であり、よりきめ細かい性別バイアス分類器を訓練することができる。 例えば、生成モデルにおけるジェンダーバイアスの制御、任意のテキストにおけるジェンダーバイアスの検出、性的指向の観点から攻撃的な言語に光を当てることなどである。

Machine learning models are trained to find patterns in data. NLP models can inadvertently learn socially undesirable patterns when training on gender biased text. In this work, we propose a general framework that decomposes gender bias in text along several pragmatic and semantic dimensions: bias from the gender of the person being spoken about, bias from the gender of the person being spoken to, and bias from the gender of the speaker. Using this fine-grained framework, we automatically annotate eight large scale datasets with gender information. In addition, we collect a novel, crowdsourced evaluation benchmark of utterance-level gender rewrites. Distinguishing between gender bias along multiple dimensions is important, as it enables us to train finer-grained gender bias classifiers. We show our classifiers prove valuable for a variety of important applications, such as controlling for gender bias in generative models, detecting gender bias in arbitrary text, and shed light on offensive language in terms of genderedness.
翻訳日:2022-12-07 23:54:53 公開日:2020-05-01
# KLEJ: ポーランド語理解のための総合ベンチマーク

KLEJ: Comprehensive Benchmark for Polish Language Understanding ( http://arxiv.org/abs/2005.00630v1 )

ライセンス: Link先を確認
Piotr Rybak, Robert Mroczkowski, Janusz Tracz, Ireneusz Gawlik(参考訳) 近年、Transformerベースのモデルによって、自然言語理解(NLU)タスクが大幅に改善されている。 このような高速な研究は一般のNLUベンチマークがなければ不可能であり、提案手法を公平に比較することができる。 しかし、このようなベンチマークは少数の言語でしか利用できない。 この問題を軽減するため,ポーランド語理解のための包括的マルチタスクベンチマークをオンラインリーダボードとともに紹介する。 さまざまなタスクセットで構成されており、名前付きエンティティ認識、質問応答、テキストの補足など、既存のデータセットから採用されている。 また,電子商取引分野における新たな感情分析タスクであるAllegro Reviews (AR)を紹介した。 共通評価スキームを確保し、異なるNLUタスクに一般化するモデルを促進するため、ベンチマークにはさまざまなドメインやアプリケーションのデータセットが含まれている。 さらに,ポーランド語用にトレーニングされたトランスフォーマーベースのモデルであるherbertをリリースする。平均性能は最高で,9タスク中3タスクで最高の結果を得る。 最後に、いくつかの標準ベースラインと最近提案された多言語トランスフォーマーモデルを含む広範な評価を提供する。

In recent years, a series of Transformer-based models unlocked major improvements in general natural language understanding (NLU) tasks. Such a fast pace of research would not be possible without general NLU benchmarks, which allow for a fair comparison of the proposed methods. However, such benchmarks are available only for a handful of languages. To alleviate this issue, we introduce a comprehensive multi-task benchmark for the Polish language understanding, accompanied by an online leaderboard. It consists of a diverse set of tasks, adopted from existing datasets for named entity recognition, question-answering, textual entailment, and others. We also introduce a new sentiment analysis task for the e-commerce domain, named Allegro Reviews (AR). To ensure a common evaluation scheme and promote models that generalize to different NLU tasks, the benchmark includes datasets from varying domains and applications. Additionally, we release HerBERT, a Transformer-based model trained specifically for the Polish language, which has the best average performance and obtains the best results for three out of nine tasks. Finally, we provide an extensive evaluation, including several standard baselines and recently proposed, multilingual Transformer-based models.
翻訳日:2022-12-07 23:54:01 公開日:2020-05-01
# ニューラルマシン翻訳による多言語COVID-19情報へのアクセス促進

Facilitating Access to Multilingual COVID-19 Information via Neural Machine Translation ( http://arxiv.org/abs/2005.00283v1 )

ライセンス: Link先を確認
Andy Way, Rejwanul Haque, Guodong Xie, Federico Gaspari, Maja Popovic, Alberto Poncelas(参考訳) 毎日、新型コロナウイルスに感染して死亡する人が増えている。 スペイン、フランス、イギリス、イタリアなどのヨーロッパの一部の国では、特にウイルスに苦しめられている。 他のドイツのような国は、非常にうまく対処したようである。 医療専門家と一般市民は、ウイルスの効果や効果が証明された治療について最新の情報を受け取ることを熱望している。 言語が関連する情報にアクセスする障壁である場合、機械翻訳(MT)は、異なる言語で公開された情報を同化するのに役立ちます。 新型コロナウイルス(COVID-19)のデータに基づいてトレーニングされたMTシステムは、ドイツ語、フランス語、イタリア語、スペイン語などの情報を英語に翻訳するのに、誰でも自由に利用できる。

Every day, more people are becoming infected and dying from exposure to COVID-19. Some countries in Europe like Spain, France, the UK and Italy have suffered particularly badly from the virus. Others such as Germany appear to have coped extremely well. Both health professionals and the general public are keen to receive up-to-date information on the effects of the virus, as well as treatments that have proven to be effective. In cases where language is a barrier to access of pertinent information, machine translation (MT) may help people assimilate information published in different languages. Our MT systems trained on COVID-19 data are freely available for anyone to use to help translate information published in German, French, Italian, Spanish into English, as well as the reverse direction.
翻訳日:2022-12-07 23:47:17 公開日:2020-05-01
# 改良ニューラルマシン翻訳のための複数ソースからの逆変換データの選択

Selecting Backtranslated Data from Multiple Sources for Improved Neural Machine Translation ( http://arxiv.org/abs/2005.00308v1 )

ライセンス: Link先を確認
Xabier Soto, Dimitar Shterionov, Alberto Poncelas, Andy Way(参考訳) 機械翻訳(MT)は、モノリンガルコーパスの翻訳に由来する合成訓練データを使用することで恩恵を受けている。 異なるソースからの逆変換データを組み合わせることで、独立したデータを使用する場合よりも優れた結果が得られる。 本研究では,ルールベース,フレーズベース統計システム,ニューラルMTシステムが新しいMTシステムに与える影響を解析する。 実世界の低リソースのユースケース(臨床領域ではバスク語とスペイン語)と高リソースの言語ペア(ドイツ語と英語)を使用して、バックトランスレーションでさまざまなシナリオをテストし、データ選択を使用して合成コーパスを最適化します。 我々は,高品質なmtシステムを維持すると同時に,使用するデータ量を削減するために,異なるデータ選択戦略を利用する。 得られたコーパスの後方翻訳や語彙の多様性に使用されるMTシステムの品質を考慮したデータ選択法をさらに調整する。 実験の結果,異なるソースからの逆変換データを取り込むことは有益であり,データ選択による性能向上が期待できることがわかった。

Machine translation (MT) has benefited from using synthetic training data originating from translating monolingual corpora, a technique known as backtranslation. Combining backtranslated data from different sources has led to better results than when using such data in isolation. In this work we analyse the impact that data translated with rule-based, phrase-based statistical and neural MT systems has on new MT systems. We use a real-world low-resource use-case (Basque-to-Spanish in the clinical domain) as well as a high-resource language pair (German-to-English) to test different scenarios with backtranslation and employ data selection to optimise the synthetic corpora. We exploit different data selection strategies in order to reduce the amount of data used, while at the same time maintaining high-quality MT systems. We further tune the data selection method by taking into account the quality of the MT systems used for backtranslation and lexical diversity of the resulting corpora. Our experiments show that incorporating backtranslated data from different sources can be beneficial, and that availing of data selection can yield improved performance.
翻訳日:2022-12-07 23:47:06 公開日:2020-05-01
# トレードオフを忘れる - 分散性能を損なうことなくNLUモデルを損なう

Mind the Trade-off: Debiasing NLU Models without Degrading the In-distribution Performance ( http://arxiv.org/abs/2005.00315v1 )

ライセンス: Link先を確認
Prasetya Ajie Utama, Nafise Sadat Moosavi, Iryna Gurevych(参考訳) 自然言語理解(NLU)タスクのモデルは、しばしばデータセットの慣用的バイアスに依存するため、トレーニング分布外のテストケースに対して脆弱である。 近年, 分散性能向上に有効な脱バイアス法がいくつか提案されている。 しかし、その改善は、より多様性のある例を含む分散データ上でモデルが評価されると、パフォーマンス低下の犠牲になる。 この一見避けられないトレードオフは、アウト・オブ・ディストリビューション・データで表現された小さなサブセットを超えて、より広いタイプの例における結果モデルの推論と理解能力の変更についてはあまり教えてくれないかもしれない。 本稿では,モデルがバイアスを悪用し,トレーニング例から十分なインセンティブを得られるようにする,信頼度正規化と呼ばれる新しいデバイアス手法を導入することで,このトレードオフに対処する。 提案手法を3つのNLUタスクで評価し,前者とは対照的に,従来の分布内精度を維持しつつ,分布外データセット(HANSデータセットの7ppゲインなど)の性能を向上させることを示す。

Models for natural language understanding (NLU) tasks often rely on the idiosyncratic biases of the dataset, which make them brittle against test cases outside the training distribution. Recently, several proposed debiasing methods are shown to be very effective in improving out-of-distribution performance. However, their improvements come at the expense of performance drop when models are evaluated on the in-distribution data, which contain examples with higher diversity. This seemingly inevitable trade-off may not tell us much about the changes in the reasoning and understanding capabilities of the resulting models on broader types of examples beyond the small subset represented in the out-of-distribution data. In this paper, we address this trade-off by introducing a novel debiasing method, called confidence regularization, which discourage models from exploiting biases while enabling them to receive enough incentive to learn from all the training examples. We evaluate our method on three NLU tasks and show that, in contrast to its predecessors, it improves the performance on out-of-distribution datasets (e.g., 7pp gain on HANS dataset) while maintaining the original in-distribution accuracy.
翻訳日:2022-12-07 23:46:44 公開日:2020-05-01
# Will-They-Won't-They:Twitter上のスタンス検出のための膨大なデータセット

Will-They-Won't-They: A Very Large Dataset for Stance Detection on Twitter ( http://arxiv.org/abs/2005.00388v1 )

ライセンス: Link先を確認
Costanza Conforti and Jakob Berndt and Mohammad Taher Pilehvar and Chryssi Giannitsarou and Flavio Toxvaerd and Nigel Collier(参考訳) Will-They-Won't-They (WT-WT)と呼ばれる、英語で51,284のつぶやきを含む、新しい挑戦的なスタンス検出データセットを提案する。 すべてのアノテーションは専門家によって実行されるため、データセットは将来のスタンス検出研究のための高品質で信頼性の高いベンチマークを構成する。 最近の最先端のスタンス検出システムを用いた実験により,この領域の既存モデルに対して,データセットが強い課題となることが示された。

We present a new challenging stance detection dataset, called Will-They-Won't-They (WT-WT), which contains 51,284 tweets in English, making it by far the largest available dataset of the type. All the annotations are carried out by experts; therefore, the dataset constitutes a high-quality and reliable benchmark for future research in stance detection. Our experiments with a wide range of recent state-of-the-art stance detection systems show that the dataset poses a strong challenge to existing models in this domain.
翻訳日:2022-12-07 23:46:04 公開日:2020-05-01
# 文順序付けのためのトポロジカルソート

Topological Sort for Sentence Ordering ( http://arxiv.org/abs/2005.00432v1 )

ライセンス: Link先を確認
Shrimai Prabhumoye, Ruslan Salakhutdinov, Alan W Black(参考訳) 文順序付けは、与えられたテキストの文を正しい順序でアレンジするタスクである。 このタスクにディープニューラルネットワークを用いた最近の研究で、シーケンス予測問題として扱われている。 本稿では,制約解決問題として新たなフレーミング法を提案し,それを解決するための新しい手法を提案する。 また,この課題に対する人間による評価を提案する。 4つの異なるデータセットにまたがる自動測定と人的計測の結果から、この新しい手法は文書のコヒーレンスを捉えるのに優れていることが分かる。

Sentence ordering is the task of arranging the sentences of a given text in the correct order. Recent work using deep neural networks for this task has framed it as a sequence prediction problem. In this paper, we propose a new framing of this task as a constraint solving problem and introduce a new technique to solve it. Additionally, we propose a human evaluation for this task. The results on both automatic and human metrics across four different datasets show that this new technique is better at capturing coherence in documents.
翻訳日:2022-12-07 23:45:38 公開日:2020-05-01
# コード切り換えの先駆点としてのスタイル変化

Style Variation as a Vantage Point for Code-Switching ( http://arxiv.org/abs/2005.00458v1 )

ライセンス: Link先を確認
Khyathi Raghavi Chandu, Alan W Black(参考訳) コードスイッチング(cs)は、複数のバイリンガルおよび多言語コミュニティで見られる一般的な現象であり、デジタルおよびソーシャルメディアプラットフォームで普及する。 この増加傾向は、重要な下流タスクのためにCS言語をモデル化する必要がある。 この領域で大きな問題は、注釈付きデータと大規模ニューラルネットワークモデルをトレーニングするためのかなりのコーパスの欠如である。 大量の品質テキストを生成することは、音声認識や音声合成など、言語モデリングに大きく依存するいくつかのダウンストリームタスクを支援する。 両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提案する。 私たちのアプローチでは、語彙言語IDのような外部アノテーションは不要です。 パラレルアライメントやCS文の制限のない、容易に入手可能な単言語コーパスに依存している。 本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。 我々はスペイン語、マンダリン英語、ヒンディー語、アラビア語の2つの言語について実験を行った。 生成したCSのメトリクスの傾向は、上記の各言語ペアの実際のCSデータに近づき、デュアルステージのトレーニングプロセスを通してその傾向を示す。 スタイルのバリエーションとしてのCSのこの視点は、CSテキストで様々なタスクをモデル化するための新しい視点を開きます。

Code-Switching (CS) is a common phenomenon observed in several bilingual and multilingual communities, thereby attaining prevalence in digital and social media platforms. This increasing prominence demands the need to model CS languages for critical downstream tasks. A major problem in this domain is the dearth of annotated data and a substantial corpora to train large scale neural models. Generating vast amounts of quality text assists several down stream tasks that heavily rely on language modeling such as speech recognition, text-to-speech synthesis etc,. We present a novel vantage point of CS to be style variations between both the participating languages. Our approach does not need any external annotations such as lexical language ids. It mainly relies on easily obtainable monolingual corpora without any parallel alignment and a limited set of naturally CS sentences. We propose a two-stage generative adversarial training approach where the first stage generates competitive negative examples for CS and the second stage generates more realistic CS sentences. We present our experiments on the following pairs of languages: Spanish-English, Mandarin-English, Hindi-English and Arabic-French. We show that the trends in metrics for generated CS move closer to real CS data in each of the above language pairs through the dual stage training process. We believe this viewpoint of CS as style variations opens new perspectives for modeling various tasks in CS text.
翻訳日:2022-12-07 23:45:29 公開日:2020-05-01
# 雑音入力と逆攻撃に対するニューラルネットワーク理解モデルロバスト性の評価

Evaluating Neural Machine Comprehension Model Robustness to Noisy Inputs and Adversarial Attacks ( http://arxiv.org/abs/2005.00190v1 )

ライセンス: Link先を確認
Winston Wu, Dustin Arendt, Svitlana Volkova(参考訳) 我々は,文字,単語,文レベルで新しい摂動を実行することで,機械理解モデルによる雑音や敵対攻撃に対する頑健さを評価する。 モデル信頼度と誤分類率,コントラストモデルの性能を,2つのベンチマークデータセットに異なる埋め込み型を用いた対向訓練で検証するために,様々な摂動実験を行った。 アンサンブルによるモデル性能の向上を示す。 最後に,攻撃訓練中のモデル行動に影響を及ぼす要因を分析し,攻撃時のモデルエラーを予測するモデルを開発した。

We evaluate machine comprehension models' robustness to noise and adversarial attacks by performing novel perturbations at the character, word, and sentence level. We experiment with different amounts of perturbations to examine model confidence and misclassification rate, and contrast model performance in adversarial training with different embedding types on two benchmark datasets. We demonstrate improving model performance with ensembling. Finally, we analyze factors that effect model behavior under adversarial training and develop a model to predict model errors during adversarial attacks.
翻訳日:2022-12-07 23:36:41 公開日:2020-05-01
# 低リソースマルチタスクシーケンスタグ -動的条件ランダムフィールドの再検討-

Low Resource Multi-Task Sequence Tagging -- Revisiting Dynamic Conditional Random Fields ( http://arxiv.org/abs/2005.00250v1 )

ライセンス: Link先を確認
Jonas Pfeiffer, Edwin Simpson, Iryna Gurevych(参考訳) 異なるタスクに対するラベルシーケンス間の依存関係を利用する低リソースマルチタスクシーケンスタグの異なるモデルを比較した。 分析は、各サンプルが複数のタスクのラベルを持つデータセットを対象としている。 現在のアプローチでは、各タスクに別々のモデルを使うか、あるいは標準的なマルチタスク学習を使って共有機能表現を学ぶ。 しかし、これらのアプローチはラベルシーケンス間の相関を無視し、小さなトレーニングデータセットを持つ設定で重要な情報を提供できる。 異なるタスクにおけるラベル間の依存関係のモデリングから得られるシナリオを分析するために、動的条件付きランダムフィールド(CRF)を再検討し、それらをディープニューラルネットワークと組み合わせる。 我々は、英語とドイツ語の低リソースシナリオにおいて、文レベルと文書レベルで3つの多様なデータセットに対して、シングルタスク、マルチタスク、動的crfの設定を比較する。 本稿では,事前訓練された音声タグの銀ラベルを補助タスクとして含めることで,下流タスクの性能向上が期待できることを示す。 特に低リソースシナリオでは,タスク予測間の依存性の明示的モデリングが単一タスクや標準マルチタスクモデルよりも優れていることが判明した。

We compare different models for low resource multi-task sequence tagging that leverage dependencies between label sequences for different tasks. Our analysis is aimed at datasets where each example has labels for multiple tasks. Current approaches use either a separate model for each task or standard multi-task learning to learn shared feature representations. However, these approaches ignore correlations between label sequences, which can provide important information in settings with small training datasets. To analyze which scenarios can profit from modeling dependencies between labels in different tasks, we revisit dynamic conditional random fields (CRFs) and combine them with deep neural networks. We compare single-task, multi-task and dynamic CRF setups for three diverse datasets at both sentence and document levels in English and German low resource scenarios. We show that including silver labels from pretrained part-of-speech taggers as auxiliary tasks can improve performance on downstream tasks. We find that especially in low-resource scenarios, the explicit modeling of inter-dependencies between task predictions outperforms single-task as well as standard multi-task models.
翻訳日:2022-12-07 23:35:45 公開日:2020-05-01
# 時系列要約と予測アルゴリズムの統合化とCOVID-19データマイニングへの応用

Integrated Time Series Summarization and Prediction Algorithm and its Application to COVID-19 Data Mining ( http://arxiv.org/abs/2005.00592v1 )

ライセンス: Link先を確認
Mogens Graf Plessen(参考訳) 本稿では,時系列全体の統計に基づいて,時系列毎に複数の関連した時系列a圧縮表現の集合から簡易な抽出手法を提案する。 これは、クラスタ化されたデータに対するセンタロイドのセグメンテーションに基づいて最初にシェープレットのアルファベットを生成する階層的アルゴリズムによって実現され、これらのシェープレットのラベルは、非拘束動的時間ウォーピングを距離測度として、非一様でない時系列レントを扱うために、近接探索によって各時系列のセグメンテーションに割り当てられる。 これにより、各時系列にラベルのシーケンスが割り当てられる。 最後のラベルシーケンスの完了は、個々の時系列の予測を可能にする。 提案手法は,2020年4月27日現在で1日当たりの感染者数(毎日の感染回復率を低下させる)と1日当たりの死亡数(2020年4月27日現在)の2つのグローバルなデータセットで評価されている。 最初のデータセットは、長さ96の異なる国で249の時系列を含む。 第2のデータセットは長さ96の264の時系列を含む。 利用可能なデータの異常検出に基づいて、ロックダウンからの分散出口戦略を提唱する。

This paper proposes a simple method to extract from a set of multiple related time series a compressed representation for each time series based on statistics for the entire set of all time series. This is achieved by a hierarchical algorithm that first generates an alphabet of shapelets based on the segmentation of centroids for clustered data, before labels of these shapelets are assigned to the segmentation of each single time series via nearest neighbor search using unconstrained dynamic time warping as distance measure to deal with non-uniform time series lenghts. Thereby, a sequence of labels is assigned for each time series. Completion of the last label sequence permits prediction of individual time series. Proposed method is evaluated on two global COVID-19 datasets, first, for the number of daily net cases (daily new infections minus daily recoveries), and, second, for the number of daily deaths attributed to COVID-19 as of April 27, 2020. The first dataset involves 249 time series for different countries, each of length 96. The second dataset involves 264 time series, each of length 96. Based on detected anomalies in available data a decentralized exit strategy from lockdowns is advocated.
翻訳日:2022-12-07 23:29:53 公開日:2020-05-01
# 最適制御としての頑健なディープラーニング:洞察と収束保証

Robust Deep Learning as Optimal Control: Insights and Convergence Guarantees ( http://arxiv.org/abs/2005.00616v1 )

ライセンス: Link先を確認
Jacob H. Seidman, Mahyar Fazlyab, Victor M. Preciado, George J. Pappas(参考訳) 逆方向の入力に対するディープニューラルネットワークの脆弱さは、ディープラーニングアルゴリズムを再検討する必要性を動機付けている。 訓練中の敵の例を含むことは、敵の攻撃に対する一般的な防御メカニズムである。 このメカニズムは、学習者が最小化を試みながら反復的な一階法アルゴリズムを用いて損失関数を最大化しようとするmin-max最適化問題として定式化することができる。 しかし、このような逆例を見つけることは、訓練中に過剰な計算オーバーヘッドを引き起こす。 近年, min-max問題を最適制御問題として解釈することにより, 最適化問題におけるニューラルネットワークの構成構造を利用して, トレーニング時間を大幅に改善できることが示されている。 本稿では、ロバストな最適制御法と不正確なオラクル法を併用して、この逆学習アルゴリズムの最初の収束解析を行う。 解析の結果、アルゴリズムのハイパーパラメータが安定性と収束にどのように影響するかが明らかになった。 我々は、ロバストな分類問題に関する実験で洞察を支持する。

The fragility of deep neural networks to adversarially-chosen inputs has motivated the need to revisit deep learning algorithms. Including adversarial examples during training is a popular defense mechanism against adversarial attacks. This mechanism can be formulated as a min-max optimization problem, where the adversary seeks to maximize the loss function using an iterative first-order algorithm while the learner attempts to minimize it. However, finding adversarial examples in this way causes excessive computational overhead during training. By interpreting the min-max problem as an optimal control problem, it has recently been shown that one can exploit the compositional structure of neural networks in the optimization problem to improve the training time significantly. In this paper, we provide the first convergence analysis of this adversarial training algorithm by combining techniques from robust optimal control and inexact oracle methods in optimization. Our analysis sheds light on how the hyperparameters of the algorithm affect the its stability and convergence. We support our insights with experiments on a robust classification problem.
翻訳日:2022-12-07 23:29:31 公開日:2020-05-01
# TRIPDECODER:スマートカードデータを用いたメトロシステムの走行時間属性と経路推定に関する研究

TRIPDECODER: Study Travel Time Attributes and Route Preferences of Metro Systems from Smart Card Data ( http://arxiv.org/abs/2005.01492v1 )

ライセンス: Link先を確認
Xiancai Tian, Baihua Zheng, Yazhe Wang, Hsiao-Ting Huang, Chih-Chieh Hung(参考訳) 本稿では,afc(automated fare collection)システムでは捉えられていない地下鉄内の通勤者による正確な経路の復元を目標とし,そのため不明である。 我々は,2つの推定タスクを戦略的に提案する。1つは,メトロネットワーク内の旅行のトータル持続時間に寄与する各旅行リンクの走行時間を推定し,もう1つは過去の推論タスクで推定された各旅行リンクの走行時間と履歴記録に基づく経路嗜好を推定する。 これら2つの推論タスクには相互関係があるため、既存の作業の多くはこれらの2つのタスクを同時に実行する。 しかし、私たちのソリューションTripDecoderadoptは全く異なるアプローチです。 われわれの知る限りでは、TripDecoderisは最初のモデルで、1つの実用的なルートしか持たない地下鉄の内側に旅行があるという事実を指摘し、完全に活用している。 2つの推論タスクを戦略的に分離し、旅行時間の最初の推論タスクの入力として、これらのトリップレコードだけを1つの実用的なルートで取得し、推定された旅行時間を第2の推論タスクに供給することで、精度を向上させるだけでなく、両方の推論タスクの複雑さを効果的に低減する。 シンガポールと台北のAFCシステムによる都市規模の実走行記録に基づいて,TripDecoderandの精度と効率を比較検討した。 予想通り、tripdecoderhasは両方のデータセットで最高の精度を達成し、その優れた効率性とスケーラビリティを実証している。

In this paper, we target at recovering the exact routes taken by commuters inside a metro system that arenot captured by an Automated Fare Collection (AFC) system and hence remain unknown. We strategicallypropose two inference tasks to handle the recovering, one to infer the travel time of each travel link thatcontributes to the total duration of any trip inside a metro network and the other to infer the route preferencesbased on historical trip records and the travel time of each travel link inferred in the previous inferencetask. As these two inference tasks have interrelationship, most of existing works perform these two taskssimultaneously. However, our solutionTripDecoderadopts a totally different approach. To the best of ourknowledge,TripDecoderis the first model that points out and fully utilizes the fact that there are some tripsinside a metro system with only one practical route available. It strategically decouples these two inferencetasks by only taking those trip records with only one practical route as the input for the first inference taskof travel time and feeding the inferred travel time to the second inference task as an additional input whichnot only improves the accuracy but also effectively reduces the complexity of both inference tasks. Twocase studies have been performed based on the city-scale real trip records captured by the AFC systems inSingapore and Taipei to compare the accuracy and efficiency ofTripDecoderand its competitors. As expected,TripDecoderhas achieved the best accuracy in both datasets, and it also demonstrates its superior efficiencyand scalability.
翻訳日:2022-12-07 23:29:02 公開日:2020-05-01
# all trades, masters of none: 透過的パッチ攻撃による分布的シフトと妨害性に対処する

Jacks of All Trades, Masters Of None: Addressing Distributional Shift and Obtrusiveness via Transparent Patch Attacks ( http://arxiv.org/abs/2005.00656v1 )

ライセンス: Link先を確認
Neil Fendley, Max Lennon, I-Jeng Wang, Philippe Burlina, Nathan Drenkow(参考訳) 我々は,効果的な敵パッチ攻撃の開発に焦点をあて,新たな半透明パッチの設計を通じて,攻撃の成功と強迫性という敵意的な目標に,初めて対処する。 この研究は、幾何学的変換に関するパッチアタックロバストネスの系統的性能解析を追求することによるものである。 具体的には 私たちはまず a)パッチ攻撃の成功を支える重要な要因 b) トランスフォーメーション(EoT)の定式化を期待した場合のトレーニングとテスト・デプロイの分散シフトの影響 我々の分析は,3種類の変換(回転,スケール,位置)に焦点をあてることで,有効なパッチアタックの設計に関する定量的知見を提供し,すべての要因において,スケールがパッチアタックの成功に大きな影響を及ぼすことを示した。 これらの結果から,実際の物理的環境でのアタックの展開において,スケールの限界を克服する方法,すなわち大規模パッチの遮蔽性に着目する。 提案手法は,不規則な形状の半透明部分パッチを新たに設計し,閉塞性軽減と有効性の最大化という敵意的目標を協調的に解決する新しい最適化プロセスによって構築するものである。 私たちの研究は、パッチ攻撃の強迫性、スケール、成功といった問題にコミュニティがより注力することを願っています。

We focus on the development of effective adversarial patch attacks and -- for the first time -- jointly address the antagonistic objectives of attack success and obtrusiveness via the design of novel semi-transparent patches. This work is motivated by our pursuit of a systematic performance analysis of patch attack robustness with regard to geometric transformations. Specifically, we first elucidate a) key factors underpinning patch attack success and b) the impact of distributional shift between training and testing/deployment when cast under the Expectation over Transformation (EoT) formalism. By focusing our analysis on three principal classes of transformations (rotation, scale, and location), our findings provide quantifiable insights into the design of effective patch attacks and demonstrate that scale, among all factors, significantly impacts patch attack success. Working from these findings, we then focus on addressing how to overcome the principal limitations of scale for the deployment of attacks in real physical settings: namely the obtrusiveness of large patches. Our strategy is to turn to the novel design of irregularly-shaped, semi-transparent partial patches which we construct via a new optimization process that jointly addresses the antagonistic goals of mitigating obtrusiveness and maximizing effectiveness. Our study -- we hope -- will help encourage more focus in the community on the issues of obtrusiveness, scale, and success in patch attacks.
翻訳日:2022-12-07 23:28:19 公開日:2020-05-01
# 胸部x線を用いたcovid-19検出のためのカスケードネットワーク

A cascade network for Detecting COVID-19 using chest x-rays ( http://arxiv.org/abs/2005.01468v1 )

ライセンス: Link先を確認
Dailin Lv, Wuteng Qi, Yunxiang Li, Lingling Sun, Yaqi Wang(参考訳) 新型コロナウイルスの世界的な感染拡大は、世界の医療資源や予防対策に先例のない課題となっている。 新型コロナウイルス(covid-19)は肺だけでなく、呼吸や生命を脅かすのも難しく、心臓、腎臓、脳、その他の生体器官も襲う。 現在、逆転写-ポリメラーゼ連鎖反応(RT-PCR)により、COVID-19の検出が実現する必要がある。 しかし、多くの国が流行の流行期にあり、医療資源は非常に限られている。 十分な数の遺伝子配列を検出できないため、多くの患者は時間内に単離や治療を受けられない。 胸部X線写真における深層学習の分析と診断能力について検討し,SEME-ResNet50とSEME-DenseNet169を併用したCascade-SEMEnetを提案する。 カスケード-SEMEnetの2つのカスケードネットワークは大きな入力サイズとSE構造を採用し、データを強化するためにMoExとヒストグラムの等化を利用する。 胸部X線検査にSEME-ResNet50を用い,正常,細菌,ウイルス性肺炎と診断した。 ウイルス性肺炎の詳細な分類にはSEME-DenseNet169を用いた。 ネットワーク上の非病理学的特徴の影響を排除するため,SEME-DenseNet169のトレーニング中に,U-Netで事前処理を行った。 以上の結果から,本ネットワークは肺炎の型別で85.6\%,細粒度で97.1\%の精度を示した。 我々はGrad-CAMを用いて、モデルに基づいて判断を可視化し、医師が効果を確認しながら胸部X線写真を理解するのを助ける。

The worldwide spread of pneumonia caused by a novel coronavirus poses an unprecedented challenge to the world's medical resources and prevention and control measures. Covid-19 attacks not only the lungs, making it difficult to breathe and life-threatening, but also the heart, kidneys, brain and other vital organs of the body, with possible sequela. At present, the detection of COVID-19 needs to be realized by the reverse transcription-polymerase Chain Reaction (RT-PCR). However, many countries are in the outbreak period of the epidemic, and the medical resources are very limited. They cannot provide sufficient numbers of gene sequence detection, and many patients may not be isolated and treated in time. Given this situation, we researched the analytical and diagnostic capabilities of deep learning on chest radiographs and proposed Cascade-SEMEnet which is cascaded with SEME-ResNet50 and SEME-DenseNet169. The two cascade networks of Cascade - SEMEnet both adopt large input sizes and SE-Structure and use MoEx and histogram equalization to enhance the data. We first used SEME-ResNet50 to screen chest X-ray and diagnosed three classes: normal, bacterial, and viral pneumonia. Then we used SEME-DenseNet169 for fine-grained classification of viral pneumonia and determined if it is caused by COVID-19. To exclude the influence of non-pathological features on the network, we preprocessed the data with U-Net during the training of SEME-DenseNet169. The results showed that our network achieved an accuracy of 85.6\% in determining the type of pneumonia infection and 97.1\% in the fine-grained classification of COVID-19. We used Grad-CAM to visualize the judgment based on the model and help doctors understand the chest radiograph while verifying the effectivene.
翻訳日:2022-12-07 23:27:52 公開日:2020-05-01
# 医学オントロジーへの期待:臨床抽象的要約のためのコンテンツ選択

Attend to Medical Ontologies: Content Selection for Clinical Abstractive Summarization ( http://arxiv.org/abs/2005.00163v1 )

ライセンス: Link先を確認
Sajad Sotudeh and Nazli Goharian and Ross W. Filice(参考訳) sequence-to-sequence (seq2seq) ネットワークはテキスト要約タスクのための確立されたモデルである。 可読性のあるコンテンツを作成することを学べるが、ソースの重要な領域を効果的に識別することは困難である。 本稿では,臨床抽象的要約のためのコンテンツ選択問題に対して,有能な存在論的用語を要約器に拡張することでアプローチする。 公衆に入手可能な2つの臨床データセット(muse-cxrの107,372報告、openiの3,366報告)に関する実験では、このモデルがルージュ指標(改善点:2.9% rg-1,2.5% rg-2,1.9% rg-l)によって、患者の福祉に影響を及ぼす医療領域において、統計的に最先端の結果が著しく向上していることが示されました。

Sequence-to-sequence (seq2seq) network is a well-established model for text summarization task. It can learn to produce readable content; however, it falls short in effectively identifying key regions of the source. In this paper, we approach the content selection problem for clinical abstractive summarization by augmenting salient ontological terms into the summarizer. Our experiments on two publicly available clinical data sets (107,372 reports of MIMIC-CXR, and 3,366 reports of OpenI) show that our model statistically significantly boosts state-of-the-art results in terms of Rouge metrics (with improvements: 2.9% RG-1, 2.5% RG-2, 1.9% RG-L), in the healthcare domain where any range of improvement impacts patients' welfare.
翻訳日:2022-12-07 23:27:18 公開日:2020-05-01
# リスク逆分布強化学習によるロバスト性向上

Improving Robustness via Risk Averse Distributional Reinforcement Learning ( http://arxiv.org/abs/2005.00585v1 )

ライセンス: Link先を確認
Rahul Singh, Qinsheng Zhang, Yongxin Chen(参考訳) 現実世界の応用において強化学習の成功を妨げる大きな障害の1つは、訓練された政策の不確実性や外乱をモデル化するための堅牢性の欠如である。 ポリシーが実環境ではなくシミュレーションで訓練される場合、堅牢性は重要です。 本研究では,シミュレーション学習と実世界実装のギャップを埋めるため,堅牢なポリシを学習するためのリスク対応アルゴリズムを提案する。 このアルゴリズムは、最近発見された分散RLフレームワークに基づいている。 CVaRリスク尺度をサンプルベース分散政策勾配(SDPG)に組み込んでリスク回避政策を学習し,システム障害に対する堅牢性を実現する。 複数の環境におけるリスク認識型SDPGの堅牢性を検証する。

One major obstacle that precludes the success of reinforcement learning in real-world applications is the lack of robustness, either to model uncertainties or external disturbances, of the trained policies. Robustness is critical when the policies are trained in simulations instead of real world environment. In this work, we propose a risk-aware algorithm to learn robust policies in order to bridge the gap between simulation training and real-world implementation. Our algorithm is based on recently discovered distributional RL framework. We incorporate CVaR risk measure in sample based distributional policy gradients (SDPG) for learning risk-averse policies to achieve robustness against a range of system disturbances. We validate the robustness of risk-aware SDPG on multiple environments.
翻訳日:2022-12-07 23:20:42 公開日:2020-05-01
# SciREX: ドキュメントレベル情報抽出のためのチャレンジデータセット

SciREX: A Challenge Dataset for Document-Level Information Extraction ( http://arxiv.org/abs/2005.00512v1 )

ライセンス: Link先を確認
Sarthak Jain, Madeleine van Zuylen, Hannaneh Hajishirzi, Iz Beltagy(参考訳) 完全文書から情報を抽出することは、多くの領域において重要な問題であるが、それまでの作業は文や段落内の関係の特定に重点を置いていた。 文書全体に関する理解が必要となるため、文書レベルでは大規模な情報抽出(ie)データセットを作成することは困難である。 本稿では,複数のieタスクを包含する文書レベルのieデータセットであるscirexについて紹介する。 自動アノテーションと人的アノテーションを統合し、既存の科学的知識リソースを活用することで、データセットに注釈を付ける。 従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとしてニューラルモデルを開発する。 モデルパフォーマンスの分析は、人間のパフォーマンスと現在のベースラインの間に大きなギャップがあることを示し、コミュニティがドキュメントレベルのIEモデルを開発する上での課題として私たちのデータセットを使用するように促します。 私たちのデータとコードはhttps://github.com/allenai/SciREXで公開されています。

Extracting information from full documents is an important problem in many domains, but most previous work focus on identifying relationships within a sentence or a paragraph. It is challenging to create a large-scale information extraction (IE) dataset at the document level since it requires an understanding of the whole document to annotate entities and their document-level relationships that usually span beyond sentences or even sections. In this paper, we introduce SciREX, a document level IE dataset that encompasses multiple IE tasks, including salient entity identification and document level $N$-ary relation identification from scientific articles. We annotate our dataset by integrating automatic and human annotations, leveraging existing scientific knowledge resources. We develop a neural model as a strong baseline that extends previous state-of-the-art IE models to document-level IE. Analyzing the model performance shows a significant gap between human performance and current baselines, inviting the community to use our dataset as a challenge to develop document-level IE models. Our data and code are publicly available at https://github.com/allenai/SciREX
翻訳日:2022-12-07 23:20:01 公開日:2020-05-01
# バイディング能力を持つスマートコンテナ - 半協調学習のためのポリシー勾配アルゴリズム

Smart Containers With Bidding Capacity: A Policy Gradient Algorithm for Semi-Cooperative Learning ( http://arxiv.org/abs/2005.00565v1 )

ライセンス: Link先を確認
Wouter van Heeswijk(参考訳) スマートモジュールの貨物コンテナは、物理インターネットパラダイムで普及している。センサー、データストレージ機能、インテリジェンスを備えており、手動による介入や中央管理なしに、自分自身を目的地から目的地へとルーティングすることができる。 この自己組織的な環境では、コンテナはスポット市場における交通サービスへの入札を自律的に行うことができる。 しかし、個々のコンテナにとって、観測が限られているため、適切な入札ポリシーを学ぶのは難しいかもしれない。 情報とコストを互いに共有することにより、スマートコンテナは、同じトランスポート容量を同時に競合しながら、入札ポリシーを共同で学習することができる。 半協力型マルチエージェント設定で確率的入札ポリシーを学習することで,この挙動を再現する。 この目的のために,ポリシー勾配フレームワークに基づく強化学習アルゴリズムを開発した。 数値実験により、共有入札と受諾決定のみが安定した入札政策につながることが示されている。 追加のシステム情報は性能をわずかに改善するだけであり、個々のジョブプロパティは適切な入札を行うのに十分である。 さらに、キャリアがスマートコンテナと情報を共有しないインセンティブがあることもわかりました。 この実験はフォローアップ研究、特に自己組織型ロジスティクスにおけるスマートコンテナとトランスポートサービスとのインタラクションのいくつかの方向性を生み出している。

Smart modular freight containers -- as propagated in the Physical Internet paradigm -- are equipped with sensors, data storage capability and intelligence that enable them to route themselves from origin to destination without manual intervention or central governance. In this self-organizing setting, containers can autonomously place bids on transport services in a spot market setting. However, for individual containers it may be difficult to learn good bidding policies due to limited observations. By sharing information and costs between one another, smart containers can jointly learn bidding policies, even though simultaneously competing for the same transport capacity. We replicate this behavior by learning stochastic bidding policies in a semi-cooperative multi agent setting. To this end, we develop a reinforcement learning algorithm based on the policy gradient framework. Numerical experiments show that sharing solely bids and acceptance decisions leads to stable bidding policies. Additional system information only marginally improves performance; individual job properties suffice to place appropriate bids. Furthermore, we find that carriers may have incentives not to share information with the smart containers. The experiments give rise to several directions for follow-up research, in particular the interaction between smart containers and transport services in self-organizing logistics.
翻訳日:2022-12-07 23:19:44 公開日:2020-05-01
# 人間を補完する学習

Learning to Complement Humans ( http://arxiv.org/abs/2005.00582v1 )

ライセンス: Link先を確認
Bryan Wilder, Eric Horvitz, Ece Kamar(参考訳) オープンワールドにおけるAIに対するビジョンの高まりは、知覚、診断、推論タスクのために人間を補完できるシステムの開発に焦点を当てている。 これまで、人々のスキルを補完することを目的としたシステムは、可能な限り正確に訓練されたモデルを採用してきた。 人や機械の異なる能力を考慮することで、エンド・ツー・エンドの学習戦略を用いて、人間と機械の複合的なパフォーマンスを最適化する方法を実証する。 目標は、機械にとって難しいインスタンスを認識し、人間の入力を求める一方で、人間にとって難しい問題インスタンスに機械学習を集中させることだ。 2つの現実世界の領域(科学的発見と医療診断)において、これらの方法で構築された人間と機械のチームが、機械と人間の個々のパフォーマンスを上回っていることを実証する。 そして、この相補性が最も強い条件を分析し、どの訓練方法がそれを増幅するか分析する。 私たちの研究は、人間の推論を補完するために機械学習システムをいかに訓練するかに関する、最初の体系的な研究を提供する。

A rising vision for AI in the open world centers on the development of systems that can complement humans for perceptual, diagnostic, and reasoning tasks. To date, systems aimed at complementing the skills of people have employed models trained to be as accurate as possible in isolation. We demonstrate how an end-to-end learning strategy can be harnessed to optimize the combined performance of human-machine teams by considering the distinct abilities of people and machines. The goal is to focus machine learning on problem instances that are difficult for humans, while recognizing instances that are difficult for the machine and seeking human input on them. We demonstrate in two real-world domains (scientific discovery and medical diagnosis) that human-machine teams built via these methods outperform the individual performance of machines and people. We then analyze conditions under which this complementarity is strongest, and which training methods amplify it. Taken together, our work provides the first systematic investigation of how machine learning systems can be trained to complement human reasoning.
翻訳日:2022-12-07 23:10:45 公開日:2020-05-01
# ニューラルネットワークにおける不変性の利点について

On the Benefits of Invariance in Neural Networks ( http://arxiv.org/abs/2005.00178v1 )

ライセンス: Link先を確認
Clare Lyle, Mark van der Wilk, Marta Kwiatkowska, Yarin Gal, Benjamin Bloem-Reddy(参考訳) 多くの現実世界のデータ分析問題は不変構造を示し、この構造を利用するモデルは特にディープラーニングにおいて印象的な経験的性能を示している。 論文にはモデルに不変性を組み込む様々な方法が含まれているが、理論的理解は乏しく、ある方法が他の方法よりも好まれるかどうかを評価する方法はない。 本研究では,不変性の存在下でのディープラーニングにおける2つの広く使われているアプローチの利点と限界について分析する。 データ拡張によるトレーニングはリスクと勾配のより良い推定につながることを証明し、データ拡張を訓練したモデルに対してpac-bayes一般化を提供する。 また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。 データ拡張によるトレーニングによって一般化が改善されない理由の実証を含む、これらの理論的な結果に対する実証的なサポートを提供する。

Many real world data analysis problems exhibit invariant structure, and models that take advantage of this structure have shown impressive empirical performance, particularly in deep learning. While the literature contains a variety of methods to incorporate invariance into models, theoretical understanding is poor and there is no way to assess when one method should be preferred over another. In this work, we analyze the benefits and limitations of two widely used approaches in deep learning in the presence of invariance: data augmentation and feature averaging. We prove that training with data augmentation leads to better estimates of risk and gradients thereof, and we provide a PAC-Bayes generalization bound for models trained with data augmentation. We also show that compared to data augmentation, feature averaging reduces generalization error when used with convex losses, and tightens PAC-Bayes bounds. We provide empirical support of these theoretical results, including a demonstration of why generalization may not improve by training with data augmentation: the `learned invariance' fails outside of the training distribution.
翻訳日:2022-12-07 23:10:29 公開日:2020-05-01
# 高次元における一般化線形モデルの一般化誤差

Generalization Error of Generalized Linear Models in High Dimensions ( http://arxiv.org/abs/2005.00180v1 )

ライセンス: Link先を確認
Melikasadat Emami, Mojtaba Sahraee-Ardakan, Parthe Pandit, Sundeep Rangan, Alyson K. Fletcher(参考訳) 機械学習の核心は、これまで目に見えないデータよりも学習ルールの一般化性にある。 ニューラルネットワークに基づく過剰パラメータモデルは現在、機械学習アプリケーションにおいてユビキタスだが、その一般化能力に対する我々の理解は不完全である。 このタスクは、基礎となる学習問題の非凸性によって難しくなる。 我々は、任意の非線形性を持つ単層ニューラルネットワーク(一般化線形モデル)の漸近一般化誤差を特徴付ける一般的なフレームワークを提供し、回帰や分類問題に適用できる。 このフレームワークは効果を分析することができる (i)モデリング中の過パラメータ化及び非線形性 (ii)学習中の損失関数、初期化、正規化の選択。 私たちのモデルは、トレーニングとテスト分布のミスマッチもキャプチャします。 例として、線形回帰とロジスティック回帰という特殊な事例をいくつか分析する。 また,一般化線形モデルにおいて,emph{double descend}現象を厳密かつ解析的に説明することができる。

At the heart of machine learning lies the question of generalizability of learned rules over previously unseen data. While over-parameterized models based on neural networks are now ubiquitous in machine learning applications, our understanding of their generalization capabilities is incomplete. This task is made harder by the non-convexity of the underlying learning problems. We provide a general framework to characterize the asymptotic generalization error for single-layer neural networks (i.e., generalized linear models) with arbitrary non-linearities, making it applicable to regression as well as classification problems. This framework enables analyzing the effect of (i) over-parameterization and non-linearity during modeling; and (ii) choices of loss function, initialization, and regularizer during learning. Our model also captures mismatch between training and test distributions. As examples, we analyze a few special cases, namely linear regression and logistic regression. We are also able to rigorously and analytically explain the \emph{double descent} phenomenon in generalized linear models.
翻訳日:2022-12-07 23:10:15 公開日:2020-05-01
# 特徴抽出を伴わない多変量時系列の教師付き特徴集合選択と特徴ランク付け

Supervised Feature Subset Selection and Feature Ranking for Multivariate Time Series without Feature Extraction ( http://arxiv.org/abs/2005.00259v1 )

ライセンス: Link先を確認
Shuchu Han, Alexandru Niculescu-Mizil(参考訳) 多変量時系列(MTS)分類のための教師付き特徴ランキングと特徴サブセット選択アルゴリズムを導入する。 MTSの既存の教師なし特徴選択アルゴリズムとは異なり、我々の手法は時系列から一次元特徴ベクトルを生成するために特徴抽出ステップを必要としない。 代わりに、個々の時系列間の類似性を直接計算し、結果のクラスタ構造がラベルとどの程度うまく一致しているかを評価する。 これらの手法は、時系列測定が異なるサンプリング解像度を持つかもしれない異種MSSデータや、マルチモーダルデータに対して有効である。

We introduce supervised feature ranking and feature subset selection algorithms for multivariate time series (MTS) classification. Unlike most existing supervised/unsupervised feature selection algorithms for MTS our techniques do not require a feature extraction step to generate a one-dimensional feature vector from the time series. Instead it is based on directly computing similarity between individual time series and assessing how well the resulting cluster structure matches the labels. The techniques are amenable to heterogeneous MTS data, where the time series measurements may have different sampling resolutions, and to multi-modal data.
翻訳日:2022-12-07 23:09:33 公開日:2020-05-01
# オーバーフィットが必ずしも悪いことではない理由: 辞書への言語間埋め込みを補足する

Why Overfitting Isn't Always Bad: Retrofitting Cross-Lingual Word Embeddings to Dictionaries ( http://arxiv.org/abs/2005.00524v1 )

ライセンス: Link先を確認
Mozhi Zhang, Yoshinari Fujinuma, Michael J. Paul, Jordan Boyd-Graber(参考訳) 言語間単語埋め込み(CLWE)はしばしばバイリンガル語彙誘導(BLI)に基づいて評価される。 最近のCLWE法では、トレーニング辞書に不適合な線形射影を用いてBLIを一般化している。 しかし、不適合は、訓練辞書の単語に依存する他の下流タスクへの一般化を妨げる可能性がある。 CLWEをトレーニング辞書に再適合させることにより、この制限に対処し、学習用翻訳ペアを埋め込み空間に近づけ、トレーニング用辞書に過度に適合させる。 この単純な後処理ステップは、BLIテストの精度が低下しているにもかかわらず、2つの下流タスクの精度を向上する。 また, 学習辞書とclweから誘導される合成辞書の両方を改良し, 時として下流タスクを一般化する。 その結果、下流作業における学習辞書の活用の重要性が確認され、BLIがCLWE評価に欠陥がある理由が説明できる。

Cross-lingual word embeddings (CLWE) are often evaluated on bilingual lexicon induction (BLI). Recent CLWE methods use linear projections, which underfit the training dictionary, to generalize on BLI. However, underfitting can hinder generalization to other downstream tasks that rely on words from the training dictionary. We address this limitation by retrofitting CLWE to the training dictionary, which pulls training translation pairs closer in the embedding space and overfits the training dictionary. This simple post-processing step often improves accuracy on two downstream tasks, despite lowering BLI test accuracy. We also retrofit to both the training dictionary and a synthetic dictionary induced from CLWE, which sometimes generalizes even better on downstream tasks. Our results confirm the importance of fully exploiting training dictionary in downstream tasks and explains why BLI is a flawed CLWE evaluation.
翻訳日:2022-12-07 23:01:39 公開日:2020-05-01
# マルチスケールトランスフォーマー言語モデル

Multi-scale Transformer Language Models ( http://arxiv.org/abs/2005.00581v1 )

ライセンス: Link先を確認
Sandeep Subramanian, Ronan Collobert, Marc'Aurelio Ranzato, Y-Lan Boureau(参考訳) 本研究では,複数スケールのテキスト表現を学習するマルチスケールトランスフォーマー言語モデルを調査し,言語の階層的性質を扱うための帰納的バイアスを持つ3つの異なるアーキテクチャを提案する。 例えば、トロント・ブックコーパスのバニラトランスに比べて、メモリフットプリントが23%小さく、パープレキシティが向上した30層からなる階層型変種をトレーニングできることが示されている。 本稿では, メモリフットプリント, 計算時間, パープレキシティの観点から, 複数のスケールでの学習表現の利点を解析し, シークエンス長に対するトランスフォーマーの実行時間とメモリ使用量の2次スケーリングを考えると, 特に魅力的である。

We investigate multi-scale transformer language models that learn representations of text at multiple scales, and present three different architectures that have an inductive bias to handle the hierarchical nature of language. Experiments on large-scale language modeling benchmarks empirically demonstrate favorable likelihood vs memory footprint trade-offs, e.g. we show that it is possible to train a hierarchical variant with 30 layers that has 23% smaller memory footprint and better perplexity, compared to a vanilla transformer with less than half the number of layers, on the Toronto BookCorpus. We analyze the advantages of learned representations at multiple scales in terms of memory footprint, compute time, and perplexity, which are particularly appealing given the quadratic scaling of transformers' run time and memory usage with respect to sequence length.
翻訳日:2022-12-07 23:01:09 公開日:2020-05-01
# オンライン対話評価のための非参照メトリクスの学習

Learning an Unreferenced Metric for Online Dialogue Evaluation ( http://arxiv.org/abs/2005.00583v1 )

ライセンス: Link先を確認
Koustuv Sinha, Prasanna Parthasarathi, Jasmine Wang, Ryan Lowe, William L. Hamilton, Joelle Pineau(参考訳) 2つのエージェント間の対話の質を評価することは、特にオープンドメインのチャットスタイルの対話において難しい課題である。 近年, 自動対話評価尺度の開発が試みられているが, ほとんどは見当たらないデータセットに一般化せず, 推論中に人為的な参照応答を必要とするため, オンライン評価では不可能である。 本稿では,大規模事前学習された言語モデルを用いて発話の潜在表現を抽出し,それらの間に存在する時間的遷移を活用する非参照自動評価指標を提案する。 提案手法は,オンライン環境での人間のアノテーションとの相関性を高めつつ,推論中の比較に真の応答を必要としないことを示す。

Evaluating the quality of a dialogue interaction between two agents is a difficult task, especially in open-domain chit-chat style dialogue. There have been recent efforts to develop automatic dialogue evaluation metrics, but most of them do not generalize to unseen datasets and/or need a human-generated reference response during inference, making it infeasible for online evaluation. Here, we propose an unreferenced automated evaluation metric that uses large pre-trained language models to extract latent representations of utterances, and leverages the temporal transitions that exist between them. We show that our model achieves higher correlation with human annotations in an online setting, while not requiring true responses for comparison during inference.
翻訳日:2022-12-07 23:00:54 公開日:2020-05-01
# データ・スカース・セマンティック・パーシングのための構文的質問抽象化と検索

Syntactic Question Abstraction and Retrieval for Data-Scarce Semantic Parsing ( http://arxiv.org/abs/2005.00644v1 )

ライセンス: Link先を確認
Wonseok Hwang, Jinyeong Yim, Seunghyun Park, Minjoon Seo(参考訳) 意味解析への深層学習アプローチは大量のラベル付きデータを必要とするが、複雑な論理形式を注釈付けすることはコストがかかる。 本稿では、自然言語(NL)クエリを1000例未満の注釈付き例でSQL論理形式(LF)に変換するニューラルセマンティックパーサを構築するためのSQAR(Syntactic Question Abstraction and Retrieval)を提案する。 sqarは、まず、nlクエリ間の類似度を計算して、列車データから論理パターンを検索し、その後、検索されたパターンの語彙情報に基づいて最終的なlfを生成する。 我々は、WikiSQLテストセットの以前の最先端モデルと比較して、LF精度を最大4.9%向上させるWikiSQLトレインデータの様々な小さなサブセットを用いて、トレーニングモデルを用いてSQARを検証する。 また,SQARは論理パターンの検索にクエリ類似性を用いることで,WikiSQLデータのみを用いてSQARを訓練した場合と比較して,LF精度が最大5.9%向上するパラフレーズデータセットを利用できることを示す。 単純なパターン分類アプローチとは対照的に、SQARはモデルを再トレーニングすることなく、新しい例を追加することで、目に見えない論理パターンを生成することができる。 また,データヒングリー設定の下でデータ分布を近似できる場合,コスト効率が高くロバストなトレインデータセットを作成するための理想的な方法についても論じる。

Deep learning approaches to semantic parsing require a large amount of labeled data, but annotating complex logical forms is costly. Here, we propose Syntactic Question Abstraction and Retrieval (SQAR), a method to build a neural semantic parser that translates a natural language (NL) query to a SQL logical form (LF) with less than 1,000 annotated examples. SQAR first retrieves a logical pattern from the train data by computing the similarity between NL queries and then grounds a lexical information on the retrieved pattern in order to generate the final LF. We validate SQAR by training models using various small subsets of WikiSQL train data achieving up to 4.9% higher LF accuracy compared to the previous state-of-the-art models on WikiSQL test set. We also show that by using query-similarity to retrieve logical pattern, SQAR can leverage a paraphrasing dataset achieving up to 5.9% higher LF accuracy compared to the case where SQAR is trained by using only WikiSQL data. In contrast to a simple pattern classification approach, SQAR can generate unseen logical patterns upon the addition of new examples without re-training the model. We also discuss an ideal way to create cost efficient and robust train datasets when the data distribution can be approximated under a data-hungry setting.
翻訳日:2022-12-07 23:00:06 公開日:2020-05-01
# 同義語による生物医学的実体表現

Biomedical Entity Representations with Synonym Marginalization ( http://arxiv.org/abs/2005.00239v1 )

ライセンス: Link先を確認
Mujeen Sung, Hwisang Jeon, Jinhyuk Lee, Jaewoo Kang(参考訳) 多くのバイオメディカルテキストマイニングツールにおいて、バイオメディカル名のエンティティが重要な役割を果たすことが多い。 しかし、提供された同義語の不完全性や表面形態の様々なバリエーションにより、生物医学的な実体の正規化は非常に困難である。 本稿では,生物医学的実体の表現を,実体の同義語のみに基づいて学習することに焦点を当てる。 不完全同義語から学ぶために、モデルに基づく候補選択を使い、最上位候補に存在する同義語の限界確率を最大化する。 モデルベースの候補は、モデルが進化するにつれてより難しい負のサンプルを含むように反復的に更新されます。 このようにして、400K以上の候補からの負のサンプルの明確な事前選択は避ける。 生物医学的実体正規化データセットの3つの異なる実体型(分解, 化学, 有害反応)において, われわれのモデルであるBioSynは, 従来の最先端モデルよりも常に上界にほぼ達している。

Biomedical named entities often play important roles in many biomedical text mining tools. However, due to the incompleteness of provided synonyms and numerous variations in their surface forms, normalization of biomedical entities is very challenging. In this paper, we focus on learning representations of biomedical entities solely based on the synonyms of entities. To learn from the incomplete synonyms, we use a model-based candidate selection and maximize the marginal likelihood of the synonyms present in top candidates. Our model-based candidates are iteratively updated to contain more difficult negative samples as our model evolves. In this way, we avoid the explicit pre-selection of negative samples from more than 400K candidates. On four biomedical entity normalization datasets having three different entity types (disease, chemical, adverse reaction), our model BioSyn consistently outperforms previous state-of-the-art models almost reaching the upper bound on each dataset.
翻訳日:2022-12-07 22:52:50 公開日:2020-05-01
# SemEval-2020 Task 12: 統計的サンプリングと後処理を用いた雑音ラベルによる攻撃的言語識別

Hitachi at SemEval-2020 Task 12: Offensive Language Identification with Noisy Labels using Statistical Sampling and Post-Processing ( http://arxiv.org/abs/2005.00295v1 )

ライセンス: Link先を確認
Manikandan Ravikiran, Amin Ekant Muljibhai, Toshinori Miyoshi, Hiroaki Ozaki, Yuta Koreeda and Sakata Masayuki(参考訳) 本稿では,雑音ラベルからの攻撃的言語識別に焦点を当てたSemEval-2020 Task-12 Subtask-A(英語)への参加について述べる。 そこで我々は,統計的サンプリングアルゴリズム (sa) とポストプロセス (pp) で選択したツイートを訓練したbert分類器を用いたハイブリッドシステムを開発した。 本システムでは攻撃性および非攻撃性の両方に対して平均F1スコア(Macro-F1)を0.90913で34位とした。 さらに,ノイズラベルを用いた攻撃的言語識別における今後の研究を支援するため,総合的な結果と誤り解析を行う。

In this paper, we present our participation in SemEval-2020 Task-12 Subtask-A (English Language) which focuses on offensive language identification from noisy labels. To this end, we developed a hybrid system with the BERT classifier trained with tweets selected using Statistical Sampling Algorithm (SA) and Post-Processed (PP) using an offensive wordlist. Our developed system achieved 34 th position with Macro-averaged F1-score (Macro-F1) of 0.90913 over both offensive and non-offensive classes. We further show comprehensive results and error analysis to assist future research in offensive language identification with noisy labels.
翻訳日:2022-12-07 22:52:02 公開日:2020-05-01
# 多言語モデルが未知の方言に移行できるか? 北アフリカアラビジの事例研究

Can Multilingual Language Models Transfer to an Unseen Dialect? A Case Study on North African Arabizi ( http://arxiv.org/abs/2005.00318v1 )

ライセンス: Link先を確認
Benjamin Muller and Benoit Sagot and Djam\'e Seddah(参考訳) 非標準化および低リソース言語のための自然言語処理システムの構築は難しい課題である。 最近の大規模多言語事前訓練言語モデルの成功は、これに対処するための新しいモデリングツールを提供する。 本研究では,多言語言語モデルによる未知の方言処理能力について検討する。 アラビア語とフランス語を頻繁に混同し、アラビア文字からラテン文字への非標準翻訳であるアラビア語で書かれた、資源が乏しいアラビア語の方言である。 音声タグ付けと依存性解析という2つのタスクに焦点をあてて、特に2つの極端な場合において、多言語言語モデルがそのような見当たらない方言に移行できるゼロショットおよび教師なし適応シナリオを示す。 (i)スクリプトをまたいで、現代標準アラビア語をソース言語として使用し、 (ii) 遠縁の言語で、事前訓練中に見えなくなる、すなわちマルタ語から。 本研究は,この方言における最初のトランスファー実験であり,資源スカルス,非標準言語,高可変言語のためのnlpエコシステムの開発に向けた方法である。

Building natural language processing systems for non standardized and low resource languages is a difficult challenge. The recent success of large-scale multilingual pretrained language models provides new modeling tools to tackle this. In this work, we study the ability of multilingual language models to process an unseen dialect. We take user generated North-African Arabic as our case study, a resource-poor dialectal variety of Arabic with frequent code-mixing with French and written in Arabizi, a non-standardized transliteration of Arabic to Latin script. Focusing on two tasks, part-of-speech tagging and dependency parsing, we show in zero-shot and unsupervised adaptation scenarios that multilingual language models are able to transfer to such an unseen dialect, specifically in two extreme cases: (i) across scripts, using Modern Standard Arabic as a source language, and (ii) from a distantly related language, unseen during pretraining, namely Maltese. Our results constitute the first successful transfer experiments on this dialect, paving thus the way for the development of an NLP ecosystem for resource-scarce, non-standardized and highly variable vernacular languages.
翻訳日:2022-12-07 22:51:38 公開日:2020-05-01
# usr: 対話生成のための教師なしおよび参照フリー評価指標

USR: An Unsupervised and Reference Free Evaluation Metric for Dialog Generation ( http://arxiv.org/abs/2005.00456v1 )

ライセンス: Link先を確認
Shikib Mehri and Maxine Eskenazi(参考訳) ダイアログに対する有意義な自動評価指標の欠如は、オープンドメインダイアログ研究を妨げている。 標準言語生成メトリクスは、ダイアログモデルの評価に効果がないことが示されている。 そこで本稿では,UnSupervised and Reference-free Evaluation metricであるUSRについて述べる。 USRは、いくつかの望ましいダイアログの質を測定するために教師なしモデルを訓練する参照なしメトリックである。 USRは、Topical-Chat(ターンレベル:0.42、システムレベル:1.0)とPersonaChat(ターンレベル:0.48、システムレベル:1.0)の両方の人間の判断と強く相関している。 USRはまた、いくつかの望ましいダイアログ特性の解釈可能な尺度も生成する。

The lack of meaningful automatic evaluation metrics for dialog has impeded open-domain dialog research. Standard language generation metrics have been shown to be ineffective for evaluating dialog models. To this end, this paper presents USR, an UnSupervised and Reference-free evaluation metric for dialog. USR is a reference-free metric that trains unsupervised models to measure several desirable qualities of dialog. USR is shown to strongly correlate with human judgment on both Topical-Chat (turn-level: 0.42, system-level: 1.0) and PersonaChat (turn-level: 0.48 and system-level: 1.0). USR additionally produces interpretable measures for several desirable properties of dialog.
翻訳日:2022-12-07 22:50:50 公開日:2020-05-01
# トランスフォーマーを用いたソースコード要約手法

A Transformer-based Approach for Source Code Summarization ( http://arxiv.org/abs/2005.00653v1 )

ライセンス: Link先を確認
Wasi Uddin Ahmad and Saikat Chakraborty and Baishakhi Ray and Kai-Wei Chang(参考訳) プログラムの機能を記述する読みやすい要約を生成することは、ソースコード要約として知られている。 このタスクでは、コードトークン間のペア関係をモデル化してコード表現を学習し、長距離依存関係をキャプチャすることが重要です。 要約のためのコード表現を学ぶために,自己着脱機構を用いたトランスフォーマーモデルを探索し,長距離依存性の把握に有効であることを示した。 本研究は,アプローチが単純であるにもかかわらず,最先端技術よりも顕著に優れていることを示す。 我々は、ソースコードトークンの位置を絶対的に符号化することが障害となるなど、いくつかの重要な発見を示す広範囲な解析とアブレーション研究を行い、相対的符号化は要約性能を著しく向上させる。 私たちは将来の研究を促進するためにコードを公開しました。

Generating a readable summary that describes the functionality of a program is known as source code summarization. In this task, learning code representation by modeling the pairwise relationship between code tokens to capture their long-range dependencies is crucial. To learn code representation for summarization, we explore the Transformer model that uses a self-attention mechanism and has shown to be effective in capturing long-range dependencies. In this work, we show that despite the approach is simple, it outperforms the state-of-the-art techniques by a significant margin. We perform extensive analysis and ablation studies that reveal several important findings, e.g., the absolute encoding of source code tokens' position hinders, while relative encoding significantly improves the summarization performance. We have made our code publicly available to facilitate future research.
翻訳日:2022-12-07 22:45:09 公開日:2020-05-01
# Webスケール言語被覆のためのPivot安定化を用いたクロスモーダル言語生成

Cross-modal Language Generation using Pivot Stabilization for Web-scale Language Coverage ( http://arxiv.org/abs/2005.00246v1 )

ライセンス: Link先を確認
Ashish V. Thapliyal and Radu Soricut(参考訳) 画像キャプションなどのモーダル言語生成タスクは、非英語アノテーションの欠如と組み合わさったデータハングリーモデルの傾向によって、非英語言語をサポートする能力を損なう。 英語の既存の言語生成アノテーションと翻訳機能を組み合わせた潜在的なソリューションを調査し、webスケールでドメインと言語の両方をカバーするソリューションを作成する。 既存の英語アノテーション(ゴールドデータ)と機械翻訳バージョン(シルバーデータ)の両方をトレーニング時に直接利用するpivot-language generation stabilization (plugs) というアプローチを,実行時に最初に英語キャプションを生成し,対応するターゲット言語キャプションを生成する。 PLuGSモデルは,Open Imagesデータセットの画像を用いた大領域テストセットの下で,5つの異なるターゲット言語上で実行された評価において,他の候補ソリューションよりも優れていることを示す。 さらに、PLuGSモデルによって生成された英語キャプションが、元のモノリンガル英語モデルによって生成されたキャプションよりも優れているという興味深い効果を見出した。

Cross-modal language generation tasks such as image captioning are directly hurt in their ability to support non-English languages by the trend of data-hungry models combined with the lack of non-English annotations. We investigate potential solutions for combining existing language-generation annotations in English with translation capabilities in order to create solutions at web-scale in both domain and language coverage. We describe an approach called Pivot-Language Generation Stabilization (PLuGS), which leverages directly at training time both existing English annotations (gold data) as well as their machine-translated versions (silver data); at run-time, it generates first an English caption and then a corresponding target-language caption. We show that PLuGS models outperform other candidate solutions in evaluations performed over 5 different target languages, under a large-domain testset using images from the Open Images dataset. Furthermore, we find an interesting effect where the English captions generated by the PLuGS models are better than the captions generated by the original, monolingual English model.
翻訳日:2022-12-07 22:44:15 公開日:2020-05-01
# 小型モデルの組み立ては単一大モデルよりも効率的である

When Ensembling Smaller Models is More Efficient than Single Large Models ( http://arxiv.org/abs/2005.00570v1 )

ライセンス: Link先を確認
Dan Kondratyuk, Mingxing Tan, Matthew Brown, and Boqing Gong(参考訳) ensemblingは、複数のモデル(例えば、異なる初期化)をトレーニングし、それらの予測を集約することで、評価パフォーマンスを高めるためのシンプルで人気のあるテクニックである。 このアプローチは一般に最大のモデルに限られており、モデルのサイズが大きくなることで、より小さなモデルを組み立てるよりもエラーが大幅に減少すると考えられている。 しかし,CIFAR-10 と ImageNet を用いた実験の結果,個々のモデルの重みやハイパーパラメータが高度に最適化された場合でも,アンサンブルは高い精度で単一モデルより優れ,計算に要する総FLOPは少ないことがわかった。 さらに、モデルが大きくなるにつれて、改善のギャップが拡大する。 これは、特にモデルがデータセットが生み出すサイズに近づくと、アンサンブルの出力の多様性がより大きなモデルをトレーニングするよりも効率的になる、という興味深い観察結果を示す。 単一の大きなモデルをチューニングする一般的なプラクティスの代わりに、モデルの推論速度と精度の間のより柔軟なトレードオフとしてアンサンブルを使用することができる。 これはまた、ハードウェア設計を容易にし、例えば、リアルタイムまたは分散推論のために複数のワーカー間でモデルを並列化する簡単な方法である。

Ensembling is a simple and popular technique for boosting evaluation performance by training multiple models (e.g., with different initializations) and aggregating their predictions. This approach is commonly reserved for the largest models, as it is commonly held that increasing the model size provides a more substantial reduction in error than ensembling smaller models. However, we show results from experiments on CIFAR-10 and ImageNet that ensembles can outperform single models with both higher accuracy and requiring fewer total FLOPs to compute, even when those individual models' weights and hyperparameters are highly optimized. Furthermore, this gap in improvement widens as models become large. This presents an interesting observation that output diversity in ensembling can often be more efficient than training larger models, especially when the models approach the size of what their dataset can foster. Instead of using the common practice of tuning a single large model, one can use ensembles as a more flexible trade-off between a model's inference speed and accuracy. This also potentially eases hardware design, e.g., an easier way to parallelize the model across multiple workers for real-time or distributed inference.
翻訳日:2022-12-07 22:43:35 公開日:2020-05-01
# ノイズモデリングネットワークを用いた雑音ラベルからの学習

Learning from Noisy Labels with Noise Modeling Network ( http://arxiv.org/abs/2005.00596v1 )

ライセンス: Link先を確認
Zhuolin Jiang, Jan Silovsky, Man-Hung Siu, William Hartmann, Herbert Gish, Sancar Adali(参考訳) マルチラベル画像分類は近年大きな関心を集めており、そのようなシステムの性能はトレーニングデータにおける不正確なラベルや欠落ラベルの頻度の低い発生に悩まされることが多い。 本稿では,両形態の誤りデータを扱うために,訓練用分類器の最先端技術を拡張する。 我々は、畳み込みニューラルネットワーク(CNN)に続く新しいノイズモデリングネットワーク(NMN)により、マルチラベル画像のノイズやラベルの欠落をモデル化し、それを統合し、エンドツーエンドのディープラーニングシステムを構築し、ノイズ分布とCNNパラメータを共同で学習する。 NMNは、クリーンなトレーニングデータを必要とせずに、ノイズデータから直接ノイズパターンの分布を学習する。 NMNは、真のラベルに依存するか、画像の特徴に依存するラベルノイズをモデル化することができる。 統合NMN/CNN学習システムは,MSR-COCOデータセットとMSR-VTTデータセットにおいて,ラベルノイズのレベルが異なる場合の分類性能を一貫して向上することを示す。 また,複数のインスタンス学習手法を用いた場合,ノイズパフォーマンスが向上することを示す。

Multi-label image classification has generated significant interest in recent years and the performance of such systems often suffers from the not so infrequent occurrence of incorrect or missing labels in the training data. In this paper, we extend the state-of the-art of training classifiers to jointly deal with both forms of errorful data. We accomplish this by modeling noisy and missing labels in multi-label images with a new Noise Modeling Network (NMN) that follows our convolutional neural network (CNN), integrates with it, forming an end-to-end deep learning system, which can jointly learn the noise distribution and CNN parameters. The NMN learns the distribution of noise patterns directly from the noisy data without the need for any clean training data. The NMN can model label noise that depends only on the true label or is also dependent on the image features. We show that the integrated NMN/CNN learning system consistently improves the classification performance, for different levels of label noise, on the MSR-COCO dataset and MSR-VTT dataset. We also show that noise performance improvements are obtained when multiple instance learning methods are used.
翻訳日:2022-12-07 22:43:14 公開日:2020-05-01
# 蒸留スパイク:スパイクニューラルネットワークにおける知識蒸留

Distilling Spikes: Knowledge Distillation in Spiking Neural Networks ( http://arxiv.org/abs/2005.00288v1 )

ライセンス: Link先を確認
Ravi Kumar Kushawaha, Saurabh Kumar, Biplab Banerjee, Rajbabu Velmurugan(参考訳) スパイキングニューラルネットワーク(SNN)は、古典的ニューラルネットワーク(ANN)とは異なり、情報処理のためにスパイクを交換するエネルギー効率の高いコンピューティングアーキテクチャである。 このため、SNNは実際のデプロイメントに適している。 しかし、ANNと同様、SNNもより深いアーキテクチャの恩恵を受け、パフォーマンスが向上する。 さらに、深層ANNと同様に、SNNのメモリ、計算、電力要求もモデルサイズとともに増加し、モデル圧縮が必須となる。 知識蒸留は、大きな機械学習モデルの学習を最小限の性能を失う小さなモデルに転送できるモデル圧縮技術である。 本稿では,画像分類作業のためのスパイキングニューラルネットワークにおける知識蒸留手法を提案する。 我々は、より大規模なSNN(教師ネットワーク)からより小さなSNN(学生ネットワーク)にスパイクを蒸留する方法を提案し、分類精度に最小限の影響を与えている。 本稿では,新しい蒸留法と損失関数を提案しながら,3つの標準データセットに関する詳細な実験を行い,提案手法の有効性を実証する。 また,学生ネットワークから高い性能を得るために,中間ネットワークを用いたSNNの多段階知識蒸留手法を提案する。 我々のアプローチは、リソース制約のあるハードウェアプラットフォーム上で、高性能な大規模SNNモデルをデプロイするための新たな道を開くことが期待されている。

Spiking Neural Networks (SNN) are energy-efficient computing architectures that exchange spikes for processing information, unlike classical Artificial Neural Networks (ANN). Due to this, SNNs are better suited for real-life deployments. However, similar to ANNs, SNNs also benefit from deeper architectures to obtain improved performance. Furthermore, like the deep ANNs, the memory, compute and power requirements of SNNs also increase with model size, and model compression becomes a necessity. Knowledge distillation is a model compression technique that enables transferring the learning of a large machine learning model to a smaller model with minimal loss in performance. In this paper, we propose techniques for knowledge distillation in spiking neural networks for the task of image classification. We present ways to distill spikes from a larger SNN, also called the teacher network, to a smaller one, also called the student network, while minimally impacting the classification accuracy. We demonstrate the effectiveness of the proposed method with detailed experiments on three standard datasets while proposing novel distillation methodologies and loss functions. We also present a multi-stage knowledge distillation technique for SNNs using an intermediate network to obtain higher performance from the student network. Our approach is expected to open up new avenues for deploying high performing large SNN models on resource-constrained hardware platforms.
翻訳日:2022-12-07 22:42:52 公開日:2020-05-01
# gpの膨れあがりと闘うための新しい視点の時だ

It is Time for New Perspectives on How to Fight Bloat in GP ( http://arxiv.org/abs/2005.00603v1 )

ライセンス: Link先を確認
Francisco Fern\'andez de Vega, Gustavo Olague, Francisco Ch\'avez, Daniel Lanza, Wolfgang Banzhaf, and Erik Goodman(参考訳) 進化的アルゴリズムの現在と未来は、現代の並列分散コンピューティングインフラの適切な利用に依存している。 シーケンシャルなアプローチがランドスケープを支配しているが、利用可能なマルチコア、マルチコア、分散システムによって、ユーザと研究者は、アルゴリズムの並列バージョンをより頻繁にデプロイすることができる。 このようなシナリオでは、個人の並列評価を行う際に節約される時間に関して新たな可能性が生じる。 そして、今回の貯蓄は特に遺伝的プログラミングに関係している。 本研究は, 並列分散システムにおける解法時間だけでなく, 個体群の大きさ変化にも影響し, 最終的に肥大現象のGP特性を減少させる可能性について検討する。 本稿では,より自然に戦う方法を考え出す際に,時間と空間を1枚の硬貨の2つの側面として捉える。 この新たな視点により,新しいブロア制御法が導出可能であることを理解し,その方法の第一に説明とテストを行うことができる。 個人の複雑さの尺度として計算時間を使用することで、遺伝的プログラミングの個人の大きさの増大を制御することができる。

The present and future of evolutionary algorithms depends on the proper use of modern parallel and distributed computing infrastructures. Although still sequential approaches dominate the landscape, available multi-core, many-core and distributed systems will make users and researchers to more frequently deploy parallel version of the algorithms. In such a scenario, new possibilities arise regarding the time saved when parallel evaluation of individuals are performed. And this time saving is particularly relevant in Genetic Programming. This paper studies how evaluation time influences not only time to solution in parallel/distributed systems, but may also affect size evolution of individuals in the population, and eventually will reduce the bloat phenomenon GP features. This paper considers time and space as two sides of a single coin when devising a more natural method for fighting bloat. This new perspective allows us to understand that new methods for bloat control can be derived, and the first of such a method is described and tested. Experimental data confirms the strength of the approach: using computing time as a measure of individuals' complexity allows to control the growth in size of genetic programming individuals.
翻訳日:2022-12-07 22:42:31 公開日:2020-05-01
# TransOMCS:言語グラフから常識知識へ

TransOMCS: From Linguistic Graphs to Commonsense Knowledge ( http://arxiv.org/abs/2005.00206v1 )

ライセンス: Link先を確認
Hongming Zhang, Daniel Khashabi, Yangqiu Song, Dan Roth(参考訳) 常識知識の獲得は人工知能の重要な問題である。 従来のコモンセンス知識の取得方法は、一般に、大規模では実現不可能な、手間とコストのかかる人間の注釈を必要とする。 本稿では,言語パターンから得られた安価な知識を高価なコモンセンス知識に変換することを目的として,言語グラフからコモンセンス知識をマイニングする実践的な方法を検討する。 その結果,大規模な選好知識資源であるASER (Zhang et al., 2020) を,ConceptNet (Liu and Singh, 2004) と同じ表現のTransOMCSに変換することができた。 実験の結果,コモンセンス知識への言語知識の伝達可能性と量,新規性,品質の観点から提案手法の有効性が示された。 TransOMCSはhttps://github.com/HKUST-KnowComp/TransOMCSで公開されている。

Commonsense knowledge acquisition is a key problem for artificial intelligence. Conventional methods of acquiring commonsense knowledge generally require laborious and costly human annotations, which are not feasible on a large scale. In this paper, we explore a practical way of mining commonsense knowledge from linguistic graphs, with the goal of transferring cheap knowledge obtained with linguistic patterns into expensive commonsense knowledge. The result is a conversion of ASER [Zhang et al., 2020], a large-scale selectional preference knowledge resource, into TransOMCS, of the same representation as ConceptNet [Liu and Singh, 2004] but two orders of magnitude larger. Experimental results demonstrate the transferability of linguistic knowledge to commonsense knowledge and the effectiveness of the proposed approach in terms of quantity, novelty, and quality. TransOMCS is publicly available at: https://github.com/HKUST-KnowComp/TransOMCS.
翻訳日:2022-12-07 22:42:14 公開日:2020-05-01
# 低次元双曲的知識グラフ埋め込み

Low-Dimensional Hyperbolic Knowledge Graph Embeddings ( http://arxiv.org/abs/2005.00545v1 )

ライセンス: Link先を確認
Ines Chami, Adva Wolf, Da-Cheng Juan, Frederic Sala, Sujith Ravi and Christopher R\'e(参考訳) 知識グラフ(kg)埋め込みは、欠落した事実を予測するために実体と関係の低次元表現を学ぶ。 KGは階層的かつ論理的なパターンをしばしば示し、埋め込み空間で保存しなければならない。 階層的データでは、双曲埋め込みメソッドは高忠実性と控えめな表現を約束している。 しかし、既存の双曲的埋め込み法はKGの豊かな論理パターンを考慮しない。 本稿では,階層的および論理的パターンを同時に捉えた双曲型kg埋め込みモデルを提案する。 このアプローチは双曲反射と回転を組み合わせ、複雑な関係パターンをモデル化する。 標準KGベンチマークによる実験結果から, 従来のユークリッド法および双曲型法よりも, 低次元の平均相互ランク (MRR) が最大6.1%向上することが示唆された。 さらに,異なる幾何学的変換が異なる関係を捉え,注意に基づく変換が複数の関係に一般化することを観察する。 高次元では、WN18RRでは49.6%、YAGO3-10では57.7%の新しい最先端MRRが得られる。

Knowledge graph (KG) embeddings learn low-dimensional representations of entities and relations to predict missing facts. KGs often exhibit hierarchical and logical patterns which must be preserved in the embedding space. For hierarchical data, hyperbolic embedding methods have shown promise for high-fidelity and parsimonious representations. However, existing hyperbolic embedding methods do not account for the rich logical patterns in KGs. In this work, we introduce a class of hyperbolic KG embedding models that simultaneously capture hierarchical and logical patterns. Our approach combines hyperbolic reflections and rotations with attention to model complex relational patterns. Experimental results on standard KG benchmarks show that our method improves over previous Euclidean- and hyperbolic-based efforts by up to 6.1% in mean reciprocal rank (MRR) in low dimensions. Furthermore, we observe that different geometric transformations capture different types of relations while attention-based transformations generalize to multiple relations. In high dimensions, our approach yields new state-of-the-art MRRs of 49.6% on WN18RR and 57.7% on YAGO3-10.
翻訳日:2022-12-07 22:35:45 公開日:2020-05-01
# hlvu : 映画を人間のように深く理解するための新たな挑戦

HLVU : A New Challenge to Test Deep Understanding of Movies the Way Humans do ( http://arxiv.org/abs/2005.00463v1 )

ライセンス: Link先を確認
Keith Curtis, George Awad, Shahzad Rajput, and Ian Soboroff(参考訳) 本稿では,高レベル映像理解分野における新たな評価課題と方向性を提案する。 私たちが提案している課題は、自動ビデオ分析と理解のテストと、アクター、エンティティ、イベント、そしてそれらの関係について、いかに正確に映画を理解できるかをテストすることである。 オープンソース映画のパイロットハイレベルビデオ理解(HLVU)データセットが収集され、人間の評価者がそれぞれを表す知識グラフを構築した。 クエリのセットは、知識グラフから派生し、アクター間の関係を検索するシステムをテストするとともに、非視覚的概念の推論と検索を行う。 目的は、人間が同じ映画を観ているときと同じように、コンピュータシステムが「不可解だが明白な関係を理解」できるかどうかをベンチマークすることである。 これはテキストドメインで解決されている長年の問題であり、このプロジェクトは同様の研究をビデオドメインに移している。 この性質の働きは、将来のビデオ分析とビデオ理解技術の基礎となる。 この仕事は、顧客がビデオコンテンツと対話したり、消費したりするための、より直感的な方法を提供するストリーミングサービスやブロードキャスターにとって興味深い。

In this paper we propose a new evaluation challenge and direction in the area of High-level Video Understanding. The challenge we are proposing is designed to test automatic video analysis and understanding, and how accurately systems can comprehend a movie in terms of actors, entities, events and their relationship to each other. A pilot High-Level Video Understanding (HLVU) dataset of open source movies were collected for human assessors to build a knowledge graph representing each of them. A set of queries will be derived from the knowledge graph to test systems on retrieving relationships among actors, as well as reasoning and retrieving non-visual concepts. The objective is to benchmark if a computer system can "understand" non-explicit but obvious relationships the same way humans do when they watch the same movies. This is long-standing problem that is being addressed in the text domain and this project moves similar research to the video domain. Work of this nature is foundational to future video analytics and video understanding technologies. This work can be of interest to streaming services and broadcasters hoping to provide more intuitive ways for their customers to interact with and consume video content.
翻訳日:2022-12-07 22:35:06 公開日:2020-05-01
# 部分型NERデータセット統合:実践と理論を結びつける

Partially-Typed NER Datasets Integration: Connecting Practice to Theory ( http://arxiv.org/abs/2005.00502v1 )

ライセンス: Link先を確認
Shi Zhi and Liyuan Liu and Yu Zhang and Shiyin Wang and Qi Li and Chao Zhang and Jiawei Han(参考訳) 典型的な名前付きエンティティ認識(NER)モデルは、トレーニングセットにすべてのターゲットタイプにアノテートする必要があるが、利用可能なデータセットは、その一部のみをカバーすることができる。 完全に型付けされたNERデータセットに頼る代わりに、トレーニングのために複数の部分型データセットを活用し、結果としてモデルが完全な型セットをカバーするように多くの取り組みがなされている。 しかし、統合データセットの品質は保証されておらず、トレーニングアルゴリズムの設計に関するガイダンスもない。 そこで我々は,部分的に型付けされたNERデータセットと完全型付けされたデータセットを理論的および実証的な方法で体系的に分析し,比較する。 まず、部分的に型付けされたアノテーションでトレーニングされたモデルが、完全に型付けされたアノテーションでトレーニングされたモデルと同じようなパフォーマンスを達成できることを示す。 さらに、制御実験を行い、部分型データセットは、同じ量の完全型アノテーションで訓練されたモデルと同じようなパフォーマンスをもたらすことを示す。

While typical named entity recognition (NER) models require the training set to be annotated with all target types, each available datasets may only cover a part of them. Instead of relying on fully-typed NER datasets, many efforts have been made to leverage multiple partially-typed ones for training and allow the resulting model to cover a full type set. However, there is neither guarantee on the quality of integrated datasets, nor guidance on the design of training algorithms. Here, we conduct a systematic analysis and comparison between partially-typed NER datasets and fully-typed ones, in both theoretical and empirical manner. Firstly, we derive a bound to establish that models trained with partially-typed annotations can reach a similar performance with the ones trained with fully-typed annotations, which also provides guidance on the algorithm design. Moreover, we conduct controlled experiments, which shows partially-typed datasets leads to similar performance with the model trained with the same amount of fully-typed annotations
翻訳日:2022-12-07 22:33:45 公開日:2020-05-01
# 特徴量に基づくモデル記述の評価と集約

Evaluating and Aggregating Feature-based Model Explanations ( http://arxiv.org/abs/2005.00631v1 )

ライセンス: Link先を確認
Umang Bhatt, Adrian Weller, and Jos\'e M. F. Moura(参考訳) 特徴に基づくモデル説明は、各入力特徴が与えられたデータポイントに対するモデルの出力にどの程度貢献するかを示す。 提案する説明関数の数が増えるにつれて,どの説明関数を使うかを知るための定量的評価基準が欠如している。 本稿では,低感度,高忠実度,低複雑性といった特徴に基づく説明の定量的評価基準を提案する。 説明関数を集約するフレームワークを考案する。 本研究では,複雑性の低い集合的説明関数を学習する手法を開発し,感度を最小化する新しい集合的シャプリー値説明関数を導出する。

A feature-based model explanation denotes how much each input feature contributes to a model's output for a given data point. As the number of proposed explanation functions grows, we lack quantitative evaluation criteria to help practitioners know when to use which explanation function. This paper proposes quantitative evaluation criteria for feature-based explanations: low sensitivity, high faithfulness, and low complexity. We devise a framework for aggregating explanation functions. We develop a procedure for learning an aggregate explanation function with lower complexity and then derive a new aggregate Shapley value explanation function that minimizes sensitivity.
翻訳日:2022-12-07 22:32:56 公開日:2020-05-01