論文の概要: Meaningless Tokens, Meaningful Gains: How Activation Shifts Enhance LLM Reasoning
- arxiv url: http://arxiv.org/abs/2510.01032v1
- Date: Wed, 01 Oct 2025 15:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.649325
- Title: Meaningless Tokens, Meaningful Gains: How Activation Shifts Enhance LLM Reasoning
- Title(参考訳): 無意味な利得と無意味な利得: アクティベーションがLDM推論をどう変えるか
- Authors: Zeru Shi, Yingjia Wan, Zhenting Wang, Qifan Wang, Fan Yang, Elisa Kreiss, Ruixiang Tang,
- Abstract要約: 問合せプロンプトの前に無意味なトークンの長いシーケンスを挿入することで、LCM性能の推論を継続的に強化できるというファズリング観測により、本研究は、この現象を駆動する基盤となるメカニズムを解析する。
その結果,LLM層における活性化の再分配により,大きな活性化が増大するにつれて,ほぼゼロに近い活性化頻度が低下することが判明した。
本稿では,入力シーケンスを変更することなく,アクティベーションを直接修正する軽量な推論時間手法を提案する。
- 参考スコア(独自算出の注目度): 53.35553353785948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the puzzling observation that inserting long sequences of meaningless tokens before the query prompt can consistently enhance LLM reasoning performance, this work analyzes the underlying mechanism driving this phenomenon and based on these insights proposes a more principled method that allows for similar performance gains. First, we find that the improvements arise from a redistribution of activations in the LLM's MLP layers, where near zero activations become less frequent while large magnitude activations increase. This redistribution enhances the model's representational capacity by suppressing weak signals and promoting stronger, more informative ones. Building on this insight, we propose the Activation Redistribution Module (ARM), a lightweight inference-time technique that modifies activations directly without altering the input sequence. ARM adaptively identifies near-zero activations after the non-linear function and shifts them outward, implicitly reproducing the beneficial effects of meaningless tokens in a controlled manner. Extensive experiments across diverse benchmarks and model architectures clearly show that ARM consistently improves LLM performance on reasoning tasks while requiring only a few lines of simple code to implement. Our findings deliver both a clear mechanistic explanation for the unexpected benefits of meaningless tokens and a simple yet effective technique that harnesses activation redistribution to further improve LLM performance.
- Abstract(参考訳): クエリプロンプトの前に無意味なトークンの長いシーケンスを挿入することでLCM推論性能を継続的に向上させるというファズリング観測に触発されたこの研究は、この現象を駆動するメカニズムを解析し、これらの知見に基づいて、同様のパフォーマンス向上を可能にする、より原則化された方法を提案する。
まず, LLM の MLP 層における活性化の再分配により, 大容量の活性化が増大するにつれて, ほぼゼロに近い活性化の頻度が低下することが判明した。
この再分配は、弱い信号を抑制し、より強く、より情報的な信号を促進することによって、モデルの表現能力を高める。
この知見に基づいて、入力シーケンスを変更することなくアクティベーションを直接変更する軽量な推論時間技術であるActivation Redistribution Module (ARM)を提案する。
ARMは、非線形関数の後、ほぼゼロに近いアクティベーションを適応的に識別し、それらを外側にシフトさせ、コントロールされた方法で無意味なトークンの有益な効果を暗黙的に再現する。
さまざまなベンチマークやモデルアーキテクチャにわたる大規模な実験により、ARMは推論タスクにおいてLLMのパフォーマンスを一貫して改善し、実装に数行の単純なコードしか必要としないことが明らかになった。
本研究は,無意味トークンの予期せぬ利点に関する機械的説明と,LCMの性能向上のために,活性化再分配を利用した簡易かつ効果的な手法の両方を提供する。
関連論文リスト
- Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Activation Control for Efficiently Eliciting Long Chain-of-thought Ability of Language Models [45.938663388013445]
本報告では,最後の数層における高影響活性化の小さなセットが,長大な推論特性を支配していることを示す。
これらのアクティベーションを増幅し、"待機"トークンを挿入することで、トレーニングなしで長いCoT機能を呼び出すことができます。
論文 参考訳(メタデータ) (2025-05-23T10:07:18Z) - Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [64.15238674475619]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification [7.8430836312711465]
本稿では,アクティベーションスペーシフィケーション問題を修正し,アクティベーションスペーシビリティとモデル性能の関係を明確に把握する。
本稿では,Channel-wise thrEsholding と Selective Sparsification による一般的な活性化スカラー化手法であるCHESSを提案する。
実験の結果,提案したCHESSは,既存の手法よりも少ないパラメータを活性化しながら,8つの下流タスクよりも低い性能劣化を実現することがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:41:44Z) - Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。
LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。
本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-22T03:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。