Fugu-MT 論文翻訳(概要): Born a Transformer -- Always a Transformer?

論文の概要: Born a Transformer -- Always a Transformer?

arxiv url: http://arxiv.org/abs/2505.21785v1
Date: Tue, 27 May 2025 21:36:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.304911
Title: Born a Transformer -- Always a Transformer?
Title（参考訳）: Born a Transformer - Always a Transformer?
Authors: Yana Veitsman, Mayank Jobanputra, Yash Sarrof, Aleksandra Bakalova, Vera Demberg, Ellie Pavlick, Michael Hahn,
Abstract要約: We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。メカニスティック解析により、この非対称性は、事前訓練されたトランスフォーマー内のインダクションの強度と反インダクション回路の強度の違いに関係していることが明らかになった。
参考スコア（独自算出の注目度）: 57.37263095476691
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have theoretical limitations in modeling certain sequence-to-sequence tasks, yet it remains largely unclear if these limitations play a role in large-scale pretrained LLMs, or whether LLMs might effectively overcome these constraints in practice due to the scale of both the models themselves and their pretraining data. We explore how these architectural constraints manifest after pretraining, by studying a family of $\textit{retrieval}$ and $\textit{copying}$ tasks inspired by Liu et al. [2024]. We use the recently proposed C-RASP framework for studying length generalization [Huang et al., 2025b] to provide guarantees for each of our settings. Empirically, we observe an $\textit{induction-versus-anti-induction}$ asymmetry, where pretrained models are better at retrieving tokens to the right (induction) rather than the left (anti-induction) of a query token. This asymmetry disappears upon targeted fine-tuning if length-generalization is guaranteed by theory. Mechanistic analysis reveals that this asymmetry is connected to the differences in the strength of induction versus anti-induction circuits within pretrained Transformers. We validate our findings through practical experiments on real-world tasks demonstrating reliability risks. Our results highlight that pretraining selectively enhances certain Transformer capabilities, but does not overcome fundamental length-generalization limits.
Abstract（参考訳）: トランスフォーマーは、あるシーケンス・ツー・シーケンスのタスクをモデル化する理論上の制限があるが、これらの制限が大規模事前学習のLLMにおいて重要な役割を果たしているのか、あるいはLLMが実際にこれらの制約を克服できるかどうかは、モデル自体とその事前学習データのスケールのため、ほとんど不明である。我々は、これらのアーキテクチャ制約が事前トレーニング後にどのように現れるかを、Liuらにインスパイアされた$\textit{retrieval}$と$\textit{copying}$タスクのファミリーを研究することによって検討する。我々は、最近提案されたC-RASPフレームワークを長さ一般化の研究 [Huang et al , 2025b] に使用し、各設定の保証を提供します。経験的に、$\textit{induction-versus-anti-induction}$ asymmetric, ここでは、事前訓練されたモデルは、クエリトークンの左(アンチインダクション)ではなく、右(インダクション)へのトークンの検索がより優れている。この非対称性は、理論によって長さ一般化が保証される場合、標的となる微調整によって消失する。メカニスティック解析により、この非対称性は、事前訓練されたトランスフォーマー内のインダクションの強度と反インダクション回路の強度の違いに関係していることが明らかになった。本研究は,信頼性リスクを実証する実世界の課題に関する実践的な実験を通じて検証する。以上の結果から,事前学習は特定のトランスフォーマー能力を選択的に向上させるが,基本的長さ一般化限界を克服するものではないことが示唆された。

関連論文リスト

Transformers Don't In-Context Learn Least Squares Regression [5.648229654902264]
In-context Learning (ICL) は、大規模な事前学習型トランスフォーマーの強力な能力として登場した。我々は、トランスフォーマーが推論時に学習をどのように実装するかを研究する。 ICLの行動形成におけるプレトレーニングコーパスの役割を強調した。
論文参考訳（メタデータ） (2025-07-13T01:09:26Z)
One-Layer Transformers are Provably Optimal for In-context Reasoning and Distributional Association Learning in Next-Token Prediction Tasks [11.06955946904705]
そこで本研究では,一層変圧器の非雑音・雑音環境における近似能力と収束挙動について検討した。我々の研究は、線形およびReLUの両方の注意を払って、確実にベイズ最適である一層変圧器のクラスが存在することを示すことによってギャップに対処する。
論文参考訳（メタデータ） (2025-05-21T01:26:44Z)
Counting Ability of Large Language Models and Impact of Tokenization [17.53620419920189]
大規模言語モデル(LLM)の数え上げ能力に及ぼすトークン化の影響について検討する。本研究は, LLMのカウント能力に及ぼすトークン化の影響について検討し, 入力トークン化差に基づく性能変化を明らかにする。
論文参考訳（メタデータ） (2024-10-25T17:56:24Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。 CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文参考訳（メタデータ） (2024-10-03T03:12:51Z)
A Theoretical Understanding of Self-Correction through In-context Alignment [51.622068973630796]
大規模言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる。 LLMが比較的正確な自己評価を報酬として与える場合、文脈内応答を補充できることを示す。これらの知見に触発されて,LLMジェイルブレイクに対する防御などの自己補正の応用についても解説した。
論文参考訳（メタデータ） (2024-05-28T22:33:02Z)
On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文参考訳（メタデータ） (2024-05-27T05:41:06Z)
Trained Transformers Learn Linear Models In-Context [39.56636898650966]
トランスフォーマーとしての注意に基づくニューラルネットワークは、意図的学習(ICL)を示す顕著な能力を示した線形回帰問題のランダムな例に対する変圧器の訓練において、これらのモデルの予測は通常の正方形の非線形性を模倣することを示した。
論文参考訳（メタデータ） (2023-06-16T15:50:03Z)
Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文参考訳（メタデータ） (2020-04-17T13:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。