論文の概要: Improving Robustness and Generality of NLP Models Using Disentangled
Representations
- arxiv url: http://arxiv.org/abs/2009.09587v1
- Date: Mon, 21 Sep 2020 02:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:40:37.342432
- Title: Improving Robustness and Generality of NLP Models Using Disentangled
Representations
- Title(参考訳): アンタングル表現を用いたNLPモデルのロバスト性および一般性の向上
- Authors: Jiawei Wu, Xiaoya Li, Xiang Ao, Yuxian Meng, Fei Wu and Jiwei Li
- Abstract要約: スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
- 参考スコア(独自算出の注目度): 62.08794500431367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised neural networks, which first map an input $x$ to a single
representation $z$, and then map $z$ to the output label $y$, have achieved
remarkable success in a wide range of natural language processing (NLP) tasks.
Despite their success, neural models lack for both robustness and generality:
small perturbations to inputs can result in absolutely different outputs; the
performance of a model trained on one domain drops drastically when tested on
another domain.
In this paper, we present methods to improve robustness and generality of NLP
models from the standpoint of disentangled representation learning. Instead of
mapping $x$ to a single representation $z$, the proposed strategy maps $x$ to a
set of representations $\{z_1,z_2,...,z_K\}$ while forcing them to be
disentangled. These representations are then mapped to different logits $l$s,
the ensemble of which is used to make the final prediction $y$. We propose
different methods to incorporate this idea into currently widely-used models,
including adding an $L$2 regularizer on $z$s or adding Total Correlation (TC)
under the framework of variational information bottleneck (VIB). We show that
models trained with the proposed criteria provide better robustness and domain
adaptation ability in a wide range of supervised learning tasks.
- Abstract(参考訳): 教師付きニューラルネットワークは、最初に入力$x$を単一の表現$z$にマップし、次に$z$を出力ラベル$y$にマップし、幅広い自然言語処理(nlp)タスクで驚くべき成功を収めた。
入力に対する小さな摂動は、まったく異なる出力をもたらす可能性がある; あるドメインでトレーニングされたモデルの性能は、別のドメインでテストされると劇的に低下する。
本稿では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案された戦略は、$x$ を 1 つの表現 $z$ にマッピングする代わりに、$x$ を $\{z_1,z_2,...,z_K\}$ の表現の集合にマッピングする。
これらの表現は異なるロジット$l$sにマッピングされ、そのアンサンブルは最終的な予測$y$に使用される。
例えば、$z$sに$L$2正規化器を追加したり、変動情報ボトルネック(VIB)の枠組みの下にTotal correlation(TC)を追加したりして、このアイデアを現在広く使われているモデルに組み込む方法を提案する。
提案手法を用いて学習したモデルが,様々な教師付き学習タスクにおいてより頑健性とドメイン適応性をもたらすことを示す。
関連論文リスト
- IT$^3$: Idempotent Test-Time Training [95.78053599609044]
本稿では,分散シフトの課題に対処する新しいアプローチであるIdempotent Test-Time Training (IT$3$)を紹介する。
IT$3$は、イデオロジェンスの普遍性に基づいている。
画像分類の劣化など,様々なタスクにまたがるアプローチの汎用性を実証する。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models [22.425339110551743]
我々は,テストタイムの欲求検索として,大規模言語モデルのアライメントをフレーミングする,$textitweak-to-strong検索を導入する。
制御された知覚生成と要約では、チューニングされていない$textttgpt2$sを使用して、追加のトレーニングなしで大規模モデルのアライメントを改善する。
より難しい命令追従ベンチマークでは、市販の小型モデルの再利用により、ホワイトボックスモデルとブラックボックスモデルの両方の長制御された勝利率を改善することが示されている。
論文 参考訳(メタデータ) (2024-05-29T16:55:32Z) - One-shot Active Learning Based on Lewis Weight Sampling for Multiple Deep Models [39.582100727546816]
複数のターゲットモデルに対するアクティブラーニング(AL)は、ラベル付きデータクエリの削減と、複数のモデルを並列に効果的にトレーニングすることを目的としている。
既存のALアルゴリズムは、しばしば計算コストのかかる反復的なモデルトレーニングに依存している。
本稿では,この課題に対処する一発AL手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:48:16Z) - Supervised Contrastive Prototype Learning: Augmentation Free Robust
Neural Network [17.10753224600936]
ディープニューラルネットワーク(DNN)の入力空間における変換は、特徴空間の意図しない変化をもたらす。
我々は、SCPL (textbfd Contrastive Prototype Learning$) というトレーニングフレームワークを提案する。
同じクラスと反対クラスのプロトタイプでNペアの対照的な損失を使用し、分類ヘッドを$textbfPrototype Classification Head(PCH)で置き換える。
私たちのアプローチは、$textitsample efficient$、$textitsample mining$、既存のどのDNNでも変更せずに実装できます。
論文 参考訳(メタデータ) (2022-11-26T01:17:15Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Towards Alternative Techniques for Improving Adversarial Robustness:
Analysis of Adversarial Training at a Spectrum of Perturbations [5.18694590238069]
逆行訓練(AT)とその変種は、逆行性摂動に対するニューラルネットワークの堅牢性を改善する進歩を先導している。
私たちは、$epsilon$の値のスペクトルに基づいてトレーニングされたモデルに焦点を当てています。
ATの代替改善は、そうでなければ1ドル(約1万2000円)も出なかったでしょう。
論文 参考訳(メタデータ) (2022-06-13T22:01:21Z) - On the Power of Multitask Representation Learning in Linear MDP [61.58929164172968]
本稿では,線形マルコフ決定過程(MDP)におけるマルチタスク表現学習の統計的メリットについて分析する。
簡単な最小二乗アルゴリズムが $tildeO(H2sqrtfrackappa MathcalC(Phi)2 kappa dNT+frackappa dn) というポリシーを学ぶことを証明した。
論文 参考訳(メタデータ) (2021-06-15T11:21:06Z) - On the Theory of Transfer Learning: The Importance of Task Diversity [114.656572506859]
一般的な関数クラス$mathcalF circ MathcalH$において、$f_j circ h$という形の関数によってパラメータ化される$t+1$タスクを考える。
多様なトレーニングタスクに対して、最初の$t$のトレーニングタスク間で共有表現を学ぶのに必要なサンプルの複雑さが、$C(mathcalH) + t C(mathcalF)$であることを示す。
論文 参考訳(メタデータ) (2020-06-20T20:33:59Z) - Few-Shot Learning via Learning the Representation, Provably [115.7367053639605]
本稿では,表現学習による少数ショット学習について検討する。
1つのタスクは、ターゲットタスクのサンプルの複雑さを減らすために、$T$ソースタスクと$n_1$データを使用して表現を学習する。
論文 参考訳(メタデータ) (2020-02-21T17:30:00Z) - LAVA NAT: A Non-Autoregressive Translation Model with Look-Around
Decoding and Vocabulary Attention [54.18121922040521]
非自己回帰翻訳(NAT)モデルは、1つの前方通過で複数のトークンを生成する。
これらのNATモデルは、しばしば多重性の問題に悩まされ、重複トークンや欠落トークンを生成する。
本稿では,この問題を解決するための新しい方法として,Look-Around(LA)戦略とVocabulary Attention(VA)メカニズムを提案する。
論文 参考訳(メタデータ) (2020-02-08T04:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。