論文の概要: Multitasking Models are Robust to Structural Failure: A Neural Model for
Bilingual Cognitive Reserve
- arxiv url: http://arxiv.org/abs/2210.11618v1
- Date: Thu, 20 Oct 2022 22:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:15:07.754902
- Title: Multitasking Models are Robust to Structural Failure: A Neural Model for
Bilingual Cognitive Reserve
- Title(参考訳): マルチタスクモデルは構造的障害にロバスト:バイリンガル認知予備のためのニューラルモデル
- Authors: Giannis Daras, Negin Raoof, Zoi Gkalitsiou, Alexandros G. Dimakis
- Abstract要約: マルチタスク学習とニューロン障害に対する堅牢性との間には,驚くべき関連性がある。
実験の結果,バイリンガル言語モデルは様々なニューロン摂動下で高い性能を維持していることがわかった。
線形表現学習を数学的に解析することにより,このロバスト性を理論的に正当化する。
- 参考スコア(独自算出の注目度): 78.3500985535601
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We find a surprising connection between multitask learning and robustness to
neuron failures. Our experiments show that bilingual language models retain
higher performance under various neuron perturbations, such as random
deletions, magnitude pruning and weight noise compared to equivalent
monolingual ones. We provide a theoretical justification for this robustness by
mathematically analyzing linear representation learning and showing that
multitasking creates more robust representations. Our analysis connects
robustness to spectral properties of the learned representation and proves that
multitasking leads to higher robustness for diverse task vectors. We
open-source our code and models:
https://github.com/giannisdaras/multilingual_robustness
- Abstract(参考訳): マルチタスク学習とニューロン障害に対する堅牢性との間には,驚くべき関連性がある。
両言語モデルでは, ランダム削除, マグニチュードプルーニング, 重み雑音など, ニューロンの摂動下では等価な単言語モデルに比べて高い性能を保っている。
線形表現学習を数学的に解析し、マルチタスクがより堅牢な表現を生み出すことを示すことにより、このロバスト性を理論的に正当化する。
本解析は,学習表現のスペクトル特性とロバスト性を結び,マルチタスクが多様なタスクベクトルに対して高いロバスト性をもたらすことを証明した。
私たちはコードとモデルをオープンソースにしています。
関連論文リスト
- LOLA -- An Open-Source Massively Multilingual Large Language Model [1.5704590739448838]
LOLAは160以上の言語で訓練された多言語大言語モデルである。
私たちのアーキテクチャと実装の選択は、言語多様性を活用するという課題に対処します。
学習したエキスパート・ルーティング機構は、暗黙の系統パターンを利用して、多言語性の呪いを和らげる可能性があることを示す。
論文 参考訳(メタデータ) (2024-09-17T15:23:08Z) - FonMTL: Towards Multitask Learning for the Fon Language [1.9370453715137865]
本稿では,Fon言語のための自然言語処理におけるモデル機能向上のための,マルチタスク学習のための最初の爆発的アプローチを提案する。
我々は2つの言語モデルヘッドをエンコーダとして利用して入力の共有表現を構築し,各タスクに対して線形層ブロックを用いて分類する。
Fon の NER および POS タスクの結果は,複数言語で事前訓練された言語モデルに対して,単一タスクで微調整された言語モデルと比較して,競争力(あるいはより優れた)性能を示す。
論文 参考訳(メタデータ) (2023-08-28T03:26:21Z) - Learning an Artificial Language for Knowledge-Sharing in Multilingual
Translation [15.32063273544696]
コードブック内のエントリにエンコーダ状態を割り当てることで,多言語モデルの潜伏空間を識別する。
我々は,現実的なデータ量と領域を用いた大規模実験へのアプローチを検証する。
また、学習した人工言語を用いてモデル行動を分析し、類似のブリッジ言語を使用することで、残りの言語間での知識共有が向上することを発見した。
論文 参考訳(メタデータ) (2022-11-02T17:14:42Z) - Causal Analysis of Syntactic Agreement Neurons in Multilingual Language
Models [28.036233760742125]
我々は多言語言語モデル(XGLMと多言語BERT)を様々な言語で因果的に探索する。
自己回帰型多言語言語モデルでは、言語間で大きなニューロンオーバーラップが見られるが、マスキング言語モデルではない。
論文 参考訳(メタデータ) (2022-10-25T20:43:36Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Multi-task Learning of Negation and Speculation for Targeted Sentiment
Classification [15.85111852764517]
対象の感情モデルが言語現象、特に否定や憶測に対して堅牢ではないことを示す。
本稿では,否定や投機的スコープ検出など,構文的・意味的補助的タスクからの情報を組み込むマルチタスク学習手法を提案する。
否定的サンプルと投機的サンプルのモデル性能を評価するために、2つの課題データセットを作成します。
論文 参考訳(メタデータ) (2020-10-16T11:20:03Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。