論文の概要: ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training
- arxiv url: http://arxiv.org/abs/2505.11739v1
- Date: Fri, 16 May 2025 22:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.814679
- Title: ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training
- Title(参考訳): ZeroTuning:トレーニングなしで大規模言語モデルを拡張できる最初のTokenのパワーを解き放つ
- Authors: Feijiang Han, Xiaodong Yu, Jianheng Tang, Lyle Ungar,
- Abstract要約: 初期トークンの注意の調整は、その後のトークンよりも注意分布を鋭くしたり、平らにすることを示す。
我々は、この特別なトークンに頭部特異的な注意調整を適用することにより、LCMの性能を向上させる訓練不要のアプローチであるZeroTuningを提案する。
- 参考スコア(独自算出の注目度): 8.486942657544825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, training-free methods for improving large language models (LLMs) have attracted growing interest, with token-level attention tuning emerging as a promising and interpretable direction. However, existing methods typically rely on auxiliary mechanisms to identify important or irrelevant task-specific tokens, introducing potential bias and limiting applicability. In this paper, we uncover a surprising and elegant alternative: the semantically empty initial token is a powerful and underexplored control point for optimizing model behavior. Through theoretical analysis, we show that tuning the initial token's attention sharpens or flattens the attention distribution over subsequent tokens, and its role as an attention sink amplifies this effect. Empirically, we find that: (1) tuning its attention improves LLM performance more effectively than tuning other task-specific tokens; (2) the effect follows a consistent trend across layers, with earlier layers having greater impact, but varies across attention heads, with different heads showing distinct preferences in how they attend to this token. Based on these findings, we propose ZeroTuning, a training-free approach that improves LLM performance by applying head-specific attention adjustments to this special token. Despite tuning only one token, ZeroTuning achieves higher performance on text classification, multiple-choice, and multi-turn conversation tasks across models such as Llama, Qwen, and DeepSeek. For example, ZeroTuning improves Llama-3.1-8B by 11.71% on classification, 2.64% on QA tasks, and raises its multi-turn score from 7.804 to 7.966. The method is also robust to limited resources, few-shot settings, long contexts, quantization, decoding strategies, and prompt variations. Our work sheds light on a previously overlooked control point in LLMs, offering new insights into both inference-time tuning and model interpretability.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)を改善するためのトレーニングフリーな手法が注目され,トークンレベルのアテンションチューニングが有望かつ解釈可能な方向として出現している。
しかし、既存の手法は通常、重要または無関係なタスク固有のトークンを識別するための補助的なメカニズムに依存し、潜在的なバイアスを導入し、適用性を制限する。
セマンティックな空のイニシャルトークンは、モデル動作を最適化するための強力で未探索の制御ポイントである。
理論的解析により、初期トークンの注意の調整は、その後のトークンに対する注意分布を鋭くまたは平坦にし、注意シンクとしての役割は、この効果を増幅することを示します。
実験により,(1)注意の調整は,他のタスク固有のトークンをチューニングするよりも,LCMのパフォーマンスを効果的に向上させる。(2)その効果は,各レイヤ間の一貫した傾向に従う。
これらの知見に基づき、この特別なトークンに頭部特異的注意調整を適用することにより、LCMの性能を向上させる訓練不要のアプローチであるZeroTuningを提案する。
1つのトークンだけをチューニングしても、ZeroTuningはテキスト分類、複数選択、Llama、Qwen、DeepSeekといったモデル間のマルチターン会話タスクで高いパフォーマンスを達成する。
例えば、ZeroTuningはLlama-3.1-8Bを11.71%改善し、QAタスクは2.64%、マルチターンスコアは7.804から7.966に向上した。
また、限られたリソース、少数のショット設定、長いコンテキスト、量子化、復号化戦略、迅速なバリエーションに対して堅牢である。
私たちの作業は、LLMのこれまで見過ごされていたコントロールポイントに光を当て、推論時間チューニングとモデル解釈可能性の両方に関する新たな洞察を提供します。
関連論文リスト
- Decomposing and Composing: Towards Efficient Vision-Language Continual Learning via Rank-1 Expert Pool in a Single LoRA [50.97792275353563]
単一低ランク適応 (LoRA) モジュールを分解可能な Rank-1 エキスパートプールとして再構成する,新しいフレームワークを提案する。
本手法では,このエキスパートプールから[Guided]トークンのセマンティクスに導かれて,疎結合でタスク固有の更新を動的に作成することを学ぶ。
論文 参考訳(メタデータ) (2026-01-30T10:54:51Z) - All You Need is One: Capsule Prompt Tuning with a Single Vector [86.68105855537762]
現在のプロンプトベースの学習手法は、最適なプロンプトの長さを探索する努力的なグリッドに依存しており、典型的にはかなりの数のプロンプトを必要とする。
本稿では,Capsule Prompt-Tuning(CaPT)を紹介した。
提案手法は,インスタンス認識情報とタスク認識情報の両方をほぼパラメータフリーな方法で革新的に統合する。
論文 参考訳(メタデータ) (2025-10-19T00:02:59Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - Informed Routing in LLMs: Smarter Token-Level Computation for Faster Inference [7.690958366125321]
本稿では,これらの問題に積極的に対処する新しいパラダイムであるインフォメーションルーティングを紹介する。
我々は、ルーティング決定を行う前に、ユニットの出力を推定する小さな予測モジュールである軽量特徴予測器(LFF)を提案する。
言語モデリングと推論タスクの両方の実験は、情報ルーティングが最先端の効率と性能のトレードオフを達成することを示す。
論文 参考訳(メタデータ) (2025-10-10T09:59:36Z) - Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models [16.540220733551823]
VLM(Large Vision-Language Models)は、強力なマルチモーダル推論を実現するが、冗長な視覚トークンから重い推論コストを発生させる。
注意に基づく手法は、しばしばレイヤやヘッド間で不安定な生の注意スコアに依存する。
簡単な直感に基づいて構築されたトレーニング不要のフレームワークとして,我々の提案する。
論文 参考訳(メタデータ) (2025-09-29T14:20:05Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - IGD: Token Decisiveness Modeling via Information Gain in LLMs for Personalized Recommendation [70.2753541780788]
我々は,トークン決定性をチューニングと復号の両方に統合する情報ゲインに基づく決定性対応トークンハンドリング(IGD)戦略を導入する。
IGDはリコメンデーションの精度を一貫して改善し、強力なベースラインに比べて広く使われているランキングの指標で顕著に向上した。
論文 参考訳(メタデータ) (2025-06-16T08:28:19Z) - ALPS: Attention Localization and Pruning Strategy for Efficient Alignment of Large Language Models [14.657194214702473]
本稿では,最もタスクに敏感なアテンションヘッドをローカライズし,これらのヘッドに対するアテンショントレーニングの更新を制限したアルゴリズムを提案する。
実験の結果,3つのタスクのベースラインよりも2%の性能向上を実現しつつ,微調整中に注目パラメータの10%しか活性化しないことがわかった。
論文 参考訳(メタデータ) (2025-05-24T17:19:34Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-06-22T07:00:43Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Prompting classes: Exploring the Power of Prompt Class Learning in
Weakly Supervised Semantic Segmentation [15.467510304266883]
本稿では,プロンプトチューニングが弱教師付きセマンティックセグメンテーションに与える影響について検討する。
PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを提案する。
我々は、よく知られたWSSSベンチマークにおいて、シンプルで効率的なアプローチがSOTA性能を達成することを実証する。
論文 参考訳(メタデータ) (2023-06-30T19:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。