論文の概要: Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation
- arxiv url: http://arxiv.org/abs/2603.11067v1
- Date: Tue, 10 Mar 2026 06:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.492838
- Title: Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation
- Title(参考訳): ARACHで話す前に要約:グローバルアテンション・アロケーションによるLLMの強化のためのトレーニング不要推論時間プラグイン
- Authors: Jingtao Wang, Yucong Wang, Jun Ding, Rui Cai, Xun Wang,
- Abstract要約: 大規模言語モデル(LLM)は優れたパフォーマンスを達成するが、さらなる向上にはコストのかかるトレーニングが必要になることが多い。
これは、トレーニング後のテクニック、特にウェイトを更新せずに推論時にモデルを改善するトレーニングなしのアプローチへの関心の高まりを動機付けている。
本稿では,適応型文脈ハブを用いた学習自由推論時プラグインであるARACH(Attention Reallocation via an Adaptive Context Hub)を提案する。
- 参考スコア(独自算出の注目度): 9.508727214134106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve remarkable performance, yet further gains often require costly training. This has motivated growing interest in post-training techniques-especially training-free approaches that improve models at inference time without updating weights. Most training-free methods treat the model as a black box and improve outputs via input/output-level interventions, such as prompt design and test-time scaling through repeated sampling, reranking/verification, or search. In contrast, they rarely offer a plug-and-play mechanism to intervene in a model's internal computation. We propose ARACH(Attention Reallocation via an Adaptive Context Hub), a training-free inference-time plug-in that augments LLMs with an adaptive context hub to aggregate context and reallocate attention. Extensive experiments across multiple language modeling tasks show consistent improvements with modest inference overhead and no parameter updates. Attention analyses further suggest that ARACH mitigates the attention sink phenomenon. These results indicate that engineering a model's internal computation offers a distinct inference-time strategy, fundamentally different from both prompt-based test-time methods and training-based post-training approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)は優れたパフォーマンスを達成するが、さらなる向上にはコストのかかるトレーニングが必要になることが多い。
これは、トレーニング後のテクニック、特にウェイトを更新せずに推論時にモデルを改善するトレーニングなしのアプローチへの関心の高まりを動機付けている。
トレーニングなしのほとんどのメソッドは、モデルをブラックボックスとして扱い、インプット/アウトプットレベルの介入によって出力を改善する。
対照的に、モデルの内部計算に介入するプラグイン・アンド・プレイ機構はめったに提供されない。
本稿では,適応型文脈ハブを用いた学習自由推論時プラグインであるARACH(Attention Reallocation via an Adaptive Context Hub)を提案する。
複数の言語モデリングタスクにわたる大規模な実験は、控えめな推論オーバーヘッドとパラメータ更新のない一貫した改善を示している。
注意分析により、ARACHはアテンションシンク現象を緩和することを示唆している。
これらの結果は、モデルの内部計算のエンジニアリングが、プロンプトベースのテストタイム手法とトレーニングベースのポストトレーニングアプローチの両方と根本的に異なる、推論時戦略を提供することを示している。
関連論文リスト
- Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。
本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。
本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T15:45:08Z) - DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - LoRE-Merging: Exploring Low-Rank Estimation For Large Language Model Merging [10.33844295243509]
基本モデルであるtextscLoRE-Merging へのアクセスを必要とせず,タスクベクトルの低ランク推定に基づくモデルマージのための統一フレームワークを提案する。
我々のアプローチは、細調整されたモデルからのタスクベクトルは、しばしば支配的な特異値の限られた数しか示さず、低ランク推定が干渉しにくくなるという観察に動機づけられている。
論文 参考訳(メタデータ) (2025-02-15T10:18:46Z) - ChameleonLLM: Batch-Aware Dynamic Low-Rank Adaptation via Inference-Time Clusters [3.729242965449096]
本稿では,大規模言語モデルの推論時間適応を可能にする新しいフレームワークであるChameleonLLMを紹介する。
Low-Rank Adaptation (LoRA)のような従来の微調整手法とは異なり、本手法はデコーダ重みに対する適応的な修正を動的に生成する。
同様の入力をインテリジェントにグループ化し、ハイパーネットワーク経由でコンテキスト対応の低ランク更新を演算することで、ChameleonLLMは大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-02-06T18:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。