論文の概要: CausalLM is not optimal for in-context learning
- arxiv url: http://arxiv.org/abs/2308.06912v2
- Date: Sun, 3 Sep 2023 00:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 03:25:33.813227
- Title: CausalLM is not optimal for in-context learning
- Title(参考訳): CausalLMは文脈内学習に最適ではない
- Authors: Nan Ding, Tomer Levinboim, Jialin Wu, Sebastian Goodman, Radu Soricut
- Abstract要約: 最近の経験的証拠は、プレフィックス言語モデル(LM)を用いる場合、コンテクスト内学習に基づくトランスフォーマーがより優れていることを示している。
この結果は直感的であるが、理論的には理解されていない。
本研究では,あるパラメータ構成の下で,プレフィックスLMと因果LMの収束挙動を理論的に解析する。
- 参考スコア(独自算出の注目度): 21.591451511589693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent empirical evidence indicates that transformer based in-context
learning performs better when using a prefix language model (prefixLM), in
which in-context samples can all attend to each other, compared to causal
language models (causalLM), which use auto-regressive attention that prohibits
in-context samples to attend to future samples. While this result is intuitive,
it is not understood from a theoretical perspective. In this paper we take a
theoretical approach and analyze the convergence behavior of prefixLM and
causalLM under a certain parameter construction. Our analysis shows that both
LM types converge to their stationary points at a linear rate, but that while
prefixLM converges to the optimal solution of linear regression, causalLM
convergence dynamics follows that of an online gradient descent algorithm,
which is not guaranteed to be optimal even as the number of samples grows
infinitely. We supplement our theoretical claims with empirical experiments
over synthetic and real tasks and using various types of transformers. Our
experiments verify that causalLM consistently underperforms prefixLM in all
settings.
- Abstract(参考訳): 最近の実証的証拠は、インコンテキストサンプルが互いに参加できるプレフィックス言語モデル(prefixlm)を使用する場合、トランスフォーマティブベースのインコンテキスト学習が、インコンテキストサンプルが将来のサンプルに出席することを禁止する自己回帰的注意を使用する因果言語モデル(causallm)よりも優れていることを示している。
この結果は直感的であるが、理論的には理解されていない。
本稿では,あるパラメータ構成の下で,プレフィックスLMと因果LMの収束挙動を理論的に解析する。
解析の結果、両方のLM型は線形速度で定常点に収束するが、プレフィックスLMは線形回帰の最適解に収束するが、因果LM収束ダイナミクスはオンライン勾配降下アルゴリズムに従う。
我々は, 合成および実タスクおよび各種変圧器を用いた実証実験により, 理論的主張を補足する。
実験では,すべての設定において,因果LMがプレフィックスLMを一貫して過小評価することを確認した。
関連論文リスト
- Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - Surgical Feature-Space Decomposition of LLMs: Why, When and How? [8.826164604720738]
トランス言語モデルにおける重みと特徴空間の分解の有効性を実験的に検討する。
本稿では, 外科的切除が, 圧縮と言語モデリング性能のトレードオフに関する重要な洞察を与えることを示す。
モデルバイアスに対する低ランク近似の影響について検討する。
論文 参考訳(メタデータ) (2024-05-17T07:34:03Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers [52.88268942796418]
内部言語モデル(ILM)のサブトラクションは、RNN-Transducerの性能向上に広く応用されている。
列識別訓練は, 理論的, 経験的両面からILMサブトラクションと強く相関していることを示す。
論文 参考訳(メタデータ) (2023-09-25T13:35:28Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Rethinking Neural vs. Matrix-Factorization Collaborative Filtering: the
Theoretical Perspectives [18.204325860752768]
最近の研究は、行列分解協調フィルタリング(MCF)がニューラルコラボレーティブフィルタリング(NCF)と好意的に比較していると主張している。
本稿では,以下の質問に答えることで,比較を厳格に解決する。
論文 参考訳(メタデータ) (2021-10-23T04:55:21Z) - On Language Model Integration for RNN Transducer based Speech
Recognition [49.84285563767935]
共通RNN-Tフレームワークで構成された様々なILM補正に基づくLM積分法について検討する。
ILM補正による性能改善の2つの主な理由を復号化解釈する。
また,ハイブリッド自己回帰変換器の証明を拡張することで,正確なILMトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:30:46Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。