論文の概要: ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training
- arxiv url: http://arxiv.org/abs/2505.11739v1
- Date: Fri, 16 May 2025 22:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.814679
- Title: ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training
- Title(参考訳): ZeroTuning:トレーニングなしで大規模言語モデルを拡張できる最初のTokenのパワーを解き放つ
- Authors: Feijiang Han, Xiaodong Yu, Jianheng Tang, Lyle Ungar,
- Abstract要約: 初期トークンの注意の調整は、その後のトークンよりも注意分布を鋭くしたり、平らにすることを示す。
我々は、この特別なトークンに頭部特異的な注意調整を適用することにより、LCMの性能を向上させる訓練不要のアプローチであるZeroTuningを提案する。
- 参考スコア(独自算出の注目度): 8.486942657544825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, training-free methods for improving large language models (LLMs) have attracted growing interest, with token-level attention tuning emerging as a promising and interpretable direction. However, existing methods typically rely on auxiliary mechanisms to identify important or irrelevant task-specific tokens, introducing potential bias and limiting applicability. In this paper, we uncover a surprising and elegant alternative: the semantically empty initial token is a powerful and underexplored control point for optimizing model behavior. Through theoretical analysis, we show that tuning the initial token's attention sharpens or flattens the attention distribution over subsequent tokens, and its role as an attention sink amplifies this effect. Empirically, we find that: (1) tuning its attention improves LLM performance more effectively than tuning other task-specific tokens; (2) the effect follows a consistent trend across layers, with earlier layers having greater impact, but varies across attention heads, with different heads showing distinct preferences in how they attend to this token. Based on these findings, we propose ZeroTuning, a training-free approach that improves LLM performance by applying head-specific attention adjustments to this special token. Despite tuning only one token, ZeroTuning achieves higher performance on text classification, multiple-choice, and multi-turn conversation tasks across models such as Llama, Qwen, and DeepSeek. For example, ZeroTuning improves Llama-3.1-8B by 11.71% on classification, 2.64% on QA tasks, and raises its multi-turn score from 7.804 to 7.966. The method is also robust to limited resources, few-shot settings, long contexts, quantization, decoding strategies, and prompt variations. Our work sheds light on a previously overlooked control point in LLMs, offering new insights into both inference-time tuning and model interpretability.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)を改善するためのトレーニングフリーな手法が注目され,トークンレベルのアテンションチューニングが有望かつ解釈可能な方向として出現している。
しかし、既存の手法は通常、重要または無関係なタスク固有のトークンを識別するための補助的なメカニズムに依存し、潜在的なバイアスを導入し、適用性を制限する。
セマンティックな空のイニシャルトークンは、モデル動作を最適化するための強力で未探索の制御ポイントである。
理論的解析により、初期トークンの注意の調整は、その後のトークンに対する注意分布を鋭くまたは平坦にし、注意シンクとしての役割は、この効果を増幅することを示します。
実験により,(1)注意の調整は,他のタスク固有のトークンをチューニングするよりも,LCMのパフォーマンスを効果的に向上させる。(2)その効果は,各レイヤ間の一貫した傾向に従う。
これらの知見に基づき、この特別なトークンに頭部特異的注意調整を適用することにより、LCMの性能を向上させる訓練不要のアプローチであるZeroTuningを提案する。
1つのトークンだけをチューニングしても、ZeroTuningはテキスト分類、複数選択、Llama、Qwen、DeepSeekといったモデル間のマルチターン会話タスクで高いパフォーマンスを達成する。
例えば、ZeroTuningはLlama-3.1-8Bを11.71%改善し、QAタスクは2.64%、マルチターンスコアは7.804から7.966に向上した。
また、限られたリソース、少数のショット設定、長いコンテキスト、量子化、復号化戦略、迅速なバリエーションに対して堅牢である。
私たちの作業は、LLMのこれまで見過ごされていたコントロールポイントに光を当て、推論時間チューニングとモデル解釈可能性の両方に関する新たな洞察を提供します。
関連論文リスト
- Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-06-22T07:00:43Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Prompting classes: Exploring the Power of Prompt Class Learning in
Weakly Supervised Semantic Segmentation [15.467510304266883]
本稿では,プロンプトチューニングが弱教師付きセマンティックセグメンテーションに与える影響について検討する。
PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを提案する。
我々は、よく知られたWSSSベンチマークにおいて、シンプルで効率的なアプローチがSOTA性能を達成することを実証する。
論文 参考訳(メタデータ) (2023-06-30T19:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。