論文の概要: Approximating How Single Head Attention Learns
- arxiv url: http://arxiv.org/abs/2103.07601v1
- Date: Sat, 13 Mar 2021 02:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 06:24:10.966942
- Title: Approximating How Single Head Attention Learns
- Title(参考訳): シングルヘッドアテンションの学習方法の近似
- Authors: Charlie Snell, Ruiqi Zhong, Dan Klein, Jacob Steinhardt
- Abstract要約: 2段階のプロセスとしてモデルトレーニングを近似する。
早い段階で、モデルは個々の入力単語iをoに翻訳することを学習する。
後にモデルが i に出席することを学習し、正しい出力は o に翻訳されるのを知っているため $o$ となる。
- 参考スコア(独自算出の注目度): 38.64433236359172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why do models often attend to salient words, and how does this evolve
throughout training? We approximate model training as a two stage process:
early on in training when the attention weights are uniform, the model learns
to translate individual input word `i` to `o` if they co-occur frequently.
Later, the model learns to attend to `i` while the correct output is $o$
because it knows `i` translates to `o`. To formalize, we define a model
property, Knowledge to Translate Individual Words (KTIW) (e.g. knowing that `i`
translates to `o`), and claim that it drives the learning of the attention.
This claim is supported by the fact that before the attention mechanism is
learned, KTIW can be learned from word co-occurrence statistics, but not the
other way around. Particularly, we can construct a training distribution that
makes KTIW hard to learn, the learning of the attention fails, and the model
cannot even learn the simple task of copying the input words to the output. Our
approximation explains why models sometimes attend to salient words, and
inspires a toy example where a multi-head attention model can overcome the
above hard training distribution by improving learning dynamics rather than
expressiveness.
- Abstract(参考訳): なぜモデルは敬語にしばしば出席するのか、トレーニングを通じてどのように進化するのか?
2段階のプロセスとしてモデルトレーニングを近似する: 注意重みが一様であれば、トレーニングの早い段階でモデルが個々の入力語 `i` を ‘o' に変換することを学習する。
その後、モデルは `i` に出席することを学習し、正しい出力は `i` が `o` に翻訳されるので $o$ となる。
形式化するために、モデルプロパティ、KTIW(Knowledge to Translate Individual Words)を定義する(例)。
i` が `o` に翻訳されていることを知り、注意の学習を促進すると主張している。
この主張は、注意機構が学習される前に、KTIWは単語共起統計から学習できるが、その逆ではないという事実に裏付けられている。
特に、ktiwを学習しにくくし、注意の学習が失敗し、モデルが入力語を出力にコピーする簡単なタスクさえも学習できないトレーニング分布を構築することができる。
我々の近似は、モデルが有能な単語に付随する理由を説明し、マルチヘッドアテンションモデルが、表現性よりも学習力学を改善することで、上記のハードトレーニング分布を克服できるおもちゃの例を刺激する。
関連論文リスト
- Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Characterizing Learning Curves During Language Model Pre-Training: Learning, Forgetting, and Stability [25.52470575274251]
より長く一貫性のあるテキストを生成するために学習する前に、言語モデルが短い反復句を生成するのを観察する。
個々のトークンは、トレーニング前のランニングで驚くほど一貫性のある、突然の増減または損失の減少を示すことが多い。
より頻繁なトークンは最終段階の低い値に到達し、事前トレーニング実行中の変動が少なく、早期に学習され、事前トレーニング中に「忘れられる」可能性が低い。
論文 参考訳(メタデータ) (2023-08-29T16:24:09Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Understanding How Model Size Affects Few-shot Instruction Prompting [0.0]
モデルのサイズが与えられた文脈における単語の意味を識別するモデルの能力にどのように影響するかを検討する。
我々はDeltaWordsと呼ばれるデータセットを導入し、モデルが指示に従う能力を評価する。
モデルのサイズが大きくなるにつれてタスクの精度が低下する、弱い逆スケーリング傾向を示す。
論文 参考訳(メタデータ) (2022-12-04T19:59:52Z) - Memorization Without Overfitting: Analyzing the Training Dynamics of
Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。
驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文 参考訳(メタデータ) (2022-05-22T07:43:50Z) - Natural Language Inference with a Human Touch: Using Human Explanations
to Guide Model Attention [39.41947934589526]
人間の説明によるトレーニングは、モデルが文章全体に広く参加することを奨励する。
教師付きモデルは、人間が信じている言葉に付随し、より堅牢でより優れたNLIモデルを生成する。
論文 参考訳(メタデータ) (2021-04-16T14:45:35Z) - What is Learned in Visually Grounded Neural Syntax Acquisition [118.6461386981381]
本稿では,視覚的接地型ニューラルシンタクス学習者のケーススタディについて考察する。
モデルの簡易バージョンを構築することにより、モデルの強い性能をもたらすコアファクタを分離する。
名詞具象性の単純な語彙信号がモデルの予測に主要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2020-05-04T17:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。