論文の概要: Optimal Attention Temperature Enhances In-Context Learning under Distribution Shift
- arxiv url: http://arxiv.org/abs/2511.01292v1
- Date: Mon, 03 Nov 2025 07:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.153077
- Title: Optimal Attention Temperature Enhances In-Context Learning under Distribution Shift
- Title(参考訳): 最適注意温度は分布シフト下での文脈学習を促進する
- Authors: Samet Demir, Zafer Dogan,
- Abstract要約: 本論文は,分布シフト中のICLの注意温度に関する最初の理論的,実証的研究である。
入力共分散やラベルノイズのシフトはICLを著しく損なうが、この誤差を最小限に抑える最適な注意温度が存在することを証明した。
本研究は,プリトレーニングトランスにおけるICLのロバスト性向上のための原理的かつ強力な機構として,注目温度を確立した。
- 参考スコア(独自算出の注目度): 8.135786025034626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained Transformers excel at in-context learning (ICL), inferring new tasks from only a handful of examples. Yet, their ICL performance can degrade sharply under distribution shift between pretraining and test data, a regime increasingly common in real-world deployments. While recent empirical work hints that adjusting the attention temperature in the softmax can enhance Transformer performance, the attention temperature's role in ICL under distribution shift remains unexplored. This paper provides the first theoretical and empirical study of attention temperature for ICL under distribution shift. Using a simplified but expressive "linearized softmax" framework, we derive closed-form generalization error expressions and prove that shifts in input covariance or label noise substantially impair ICL, but that an optimal attention temperature exists which minimizes this error. We then validate our predictions through extensive simulations on linear regression tasks and large-scale experiments with GPT-2 and LLaMA2-7B on question-answering benchmarks. Our results establish attention temperature as a principled and powerful mechanism for improving the robustness of ICL in pretrained Transformers, advancing theoretical understanding and providing actionable guidance for selecting attention temperature in practice.
- Abstract(参考訳): 事前訓練されたトランスフォーマーはインコンテキストラーニング(ICL)に優れ、少数の例から新しいタスクを推測する。
しかし、そのICLパフォーマンスは、事前トレーニングとテストデータの間の分散シフトによって大幅に低下する可能性がある。
近年、ソフトマックスにおける注意温度の調整はトランスフォーマーの性能を向上させることが実証されているが、分布シフト時のICLにおける注意温度の役割は未解明のままである。
本稿では,分布シフト中のICLの注意温度に関する最初の理論的,実証的研究を行う。
単純化された「線形化ソフトマックス」フレームワークを用いて、閉形式一般化誤差式を導出し、入力共分散やラベルノイズの変化がICLを著しく損なうことを証明するが、この誤差を最小限に抑える最適な注意温度が存在する。
次に,線形回帰タスクの広範囲なシミュレーションと,質問応答ベンチマークによる GPT-2 と LLaMA2-7B を用いた大規模実験により,予測を検証した。
本研究は,事前学習したトランスフォーマーにおけるICLのロバスト性向上のための原理的かつ強力な機構として,注意温度を確立し,理論的理解を進め,実際に注意温度を選択するための実用的なガイダンスを提供する。
関連論文リスト
- CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Exploring the Impact of Temperature Scaling in Softmax for Classification and Adversarial Robustness [8.934328206473456]
この研究は「温度」として知られるソフトマックス関数内でしばしば見過ごされるパラメータを掘り下げる。
畳み込みニューラルネットワークとトランスフォーマーを採用した我々の実証研究は、温暖化によって全体的なパフォーマンスが向上することを示した。
一般的な腐敗に対するモデルロバスト性の向上、自然摂動、そして投影されたグラディエント・ダイスンのような非標的の敵攻撃などです。
論文 参考訳(メタデータ) (2025-02-28T00:07:45Z) - Technical Debt in In-Context Learning: Diminishing Efficiency in Long Context [24.905102026459428]
トランスフォーマーは、パラメータを更新せずに簡単に実演を条件付けることで、新しいタスクに適応し、目覚ましいコンテキスト内学習能力を示した。
トランスフォーマーが、原則付き学習アルゴリズムと比較して、いかに文脈内学習を最適に行うかは、いまだに不明である。
論文 参考訳(メタデータ) (2025-02-07T00:26:45Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - On the Limitations of Temperature Scaling for Distributions with
Overlaps [8.486166869140929]
一般的な分布集合に対する経験的リスク最小化器の場合, 温度スケーリング性能は, クラス間の重なり合いによって低下することを示す。
そこで本研究では,Mixupデータ拡張手法によって引き起こされる経験的リスクの修正形式を最適化することで,キャリブレーション性能が良好であることが実証された。
論文 参考訳(メタデータ) (2023-06-01T14:35:28Z) - How Can Increased Randomness in Stochastic Gradient Descent Improve
Generalization? [0.0]
一般化におけるSGD学習率とバッチサイズの役割について検討する。
SGD温度の上昇は局所的微小腫の曲率低下を助長することを示した。
論文 参考訳(メタデータ) (2021-08-21T13:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。