論文の概要: Provable In-Context Vector Arithmetic via Retrieving Task Concepts
- arxiv url: http://arxiv.org/abs/2508.09820v1
- Date: Wed, 13 Aug 2025 13:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.914826
- Title: Provable In-Context Vector Arithmetic via Retrieving Task Concepts
- Title(参考訳): タスク概念の検索による確率的インコンテキストベクトル算術
- Authors: Dake Bu, Wei Huang, Andi Han, Atsushi Nitanda, Qingfu Zhang, Hau-San Wong, Taiji Suzuki,
- Abstract要約: クロスエントロピー損失に対する勾配降下による非線形残差変圧器の訓練は,ベクトル演算による実-リコールICLタスクをいかに行うかを示す。
これらの結果は、静的埋め込み前駆体よりもトランスフォーマーの利点を解明する。
- 参考スコア(独自算出の注目度): 53.685764040547625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) has garnered significant attention for its ability to grasp functions/tasks from demonstrations. Recent studies suggest the presence of a latent task/function vector in LLMs during ICL. Merullo et al. (2024) showed that LLMs leverage this vector alongside the residual stream for Word2Vec-like vector arithmetic, solving factual-recall ICL tasks. Additionally, recent work empirically highlighted the key role of Question-Answer data in enhancing factual-recall capabilities. Despite these insights, a theoretical explanation remains elusive. To move one step forward, we propose a theoretical framework building on empirically grounded hierarchical concept modeling. We develop an optimization theory, showing how nonlinear residual transformers trained via gradient descent on cross-entropy loss perform factual-recall ICL tasks via vector arithmetic. We prove 0-1 loss convergence and show the strong generalization, including robustness to concept recombination and distribution shifts. These results elucidate the advantages of transformers over static embedding predecessors. Empirical simulations corroborate our theoretical insights.
- Abstract(参考訳): In-context Learning (ICL)は、デモから関数やタスクを把握できることに対して、大きな注目を集めている。
近年の研究では、ICL中にLCMに潜在タスク/関数ベクトルが存在することが示唆されている。
Merullo et al (2024) は、LLM がこのベクトルを Word2Vec のようなベクトル演算の残差ストリームと共に利用し、実際の ICL タスクを解くことを示した。
さらに、最近の研究は、事実のリコール能力を高める上での質問応答データの役割を実証的に強調した。
これらの知見にもかかわらず、理論的な説明はいまだに明白である。
本稿では,経験的基盤を持つ階層的概念モデリングに基づく理論的枠組みを提案する。
クロスエントロピー損失の勾配降下による非線形残差変圧器のベクトル演算による実-リコール ICL タスクの実行方法を示す最適化理論を開発した。
我々は0-1損失収束を証明し、概念の再結合や分布シフトに対する堅牢性を含む強い一般化を示す。
これらの結果は、静的埋め込み前駆体よりもトランスフォーマーの利点を解明する。
経験的シミュレーションは我々の理論的な洞察を裏付ける。
関連論文リスト
- Understanding Task Vectors in In-Context Learning: Emergence, Functionality, and Limitations [19.539276425108987]
この研究は線形結合導出法を提案し、タスクベクトルは元のベクトルの線形結合によって形成された単一のコンテキスト内実証として機能することを示した。
本研究では,三重項型プロンプトを訓練した線形変圧器において,タスクベクトルが自然に現れることを示す。
本研究では,高階マッピングにおけるタスクベクトルの故障を予測し,実用的なLCM上で確認する。
論文 参考訳(メタデータ) (2025-06-10T17:59:31Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。