論文の概要: Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training
- arxiv url: http://arxiv.org/abs/2603.09253v1
- Date: Tue, 10 Mar 2026 06:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.102319
- Title: Efficient Reasoning at Fixed Test-Time Cost via Length-Aware Attention Priors and Gain-Aware Training
- Title(参考訳): 長期意識と利得意識訓練によるテスト時間固定コストの効率的な推論
- Authors: Rian Atri,
- Abstract要約: テストにかかる時間を増やすことなく、どのように構造化され、正しい意思決定をするかを尋ねます。
第一に、ファジィ状態位置アライメントを介して予め構築された長さ認識注意。
第二に、RPAコントローラは、検証の改善が保証された場合にのみ注意を鋭くする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study efficient reasoning under tight compute. We ask how to make structured, correct decisions without increasing test time cost. We add two training only components to small and medium Transformers that also transfer to broader differentiable optimizers. First, a length aware attention prior built via fuzzy regime position alignment, RPA, yields a normalized pre softmax bias that guides attention like a structured regularizer while adding no new inference parameters. Second, a minimal gain aware controller, Guardian, nudges attention sharpness only when validation improvements warrant it, following a two timescale policy gradient view of nonconvex optimization. It is disabled at inference. A KL perspective shows softmax of z plus log pi as MAP with KL regularization, grounding the prior in a principled objective. Under strict compute parity on WikiText 2, we reduce validation cross entropy while matching baseline latency and memory. At inference, we add a precomputed, cached prior B of T as a single additive bias per head. The controller does not run. In practice, this incurs negligible overhead, a cached bias add per head, with no measurable p50 latency shift. Our results suggest that length aware priors and late phase gain control preserve scarce improvements, especially in long span, noisy logit regimes, while keeping test time costs effectively unchanged.
- Abstract(参考訳): 我々は、厳密な計算の下で効率的な推論を研究する。
テストにかかる時間を増やすことなく、どのように構造化され、正しい意思決定をするかを尋ねます。
中小のトランスフォーマーに2つのトレーニングのみのコンポーネントを追加し、より広範な差別化可能なオプティマイザに転送します。
第一に、ファジィ状態位置アライメント(英語版) (RPA) によって以前に構築された長さ認識の注意は、構造化正則化器のように注意を誘導する正規化前のソフトマックスバイアスをもたらすが、新しい推論パラメータは追加しない。
第2に、最小限の利得対応コントローラであるGuardianは、非凸最適化の2つの時間スケールポリシー勾配ビューに従って、検証の改善が保証された場合にのみ、注意の鋭さを判断する。
推論では無効である。
KLパースペクティブは、KL正則化によるMAPとしてz + log pi のソフトマックスを示し、その事前を原理化された目的に定めている。
WikiText 2の厳密な計算精度の下では,ベースラインのレイテンシとメモリを一致させながら,検証のクロスエントロピーを低減する。
推論において、あらかじめ計算された、T の前 B を頭当たりの単加法バイアスとして追加する。
コントローラは動かない。
実際には、これは無視できるオーバーヘッドを発生させ、キャッシュされたバイアスがヘッド毎に加算され、測定可能なp50レイテンシシフトがない。
以上の結果から, 長期化にともなって, 長期化にともなって, 長期化にともなう長期化, 長期化, 長期化, 長期化, 長期化, 長期化, 長期化, 長期化が期待できる。
関連論文リスト
- Precedent-Informed Reasoning: Mitigating Overthinking in Large Reasoning Models via Test-Time Precedent Learning [37.40951956513094]
大規模言語モデル(LLM)における推論は、しばしば、冗長な自己探索と検証を伴う非効率な長い連鎖トレースに悩まされる。
過去の事例を利用して検索空間を制約し、試行錯誤を減らすという人間の推論パターンに着想を得て、先行インフォームド推論(PIR)を提案する。
PIRは、LEMの推論パラダイムを、徹底的な自己探索から、前例からの指導的学習に転換する。
論文 参考訳(メタデータ) (2026-02-16T04:17:46Z) - TARG: Training-Free Adaptive Retrieval Gating for Efficient RAG [46.122203287541005]
トレーニングフリーのAdaptive Retrieval Gating (TARG) は、ベースモデルからの短い非遅延ドラフトのみを使用していつ取得するかを決定する、単発のポリシーである。
NQ-Open、TriviaQA、PopQAでは、TARGは一貫して精度と効率のフロンティアをシフトさせる。
論文 参考訳(メタデータ) (2025-11-12T23:09:52Z) - Diagnosing Shortcut-Induced Rigidity in Continual Learning: The Einstellung Rigidity Index (ERI) [7.587193411022608]
ショートカット機能は、分散シフト時の堅牢性を損なうとともに、信頼性を低下させる。
連続学習(CL)では、ショートカットによる搾取の結果が持続し、強化される。
CLでは、ショートカットによって引き起こされる剛性は、新規なものの獲得を阻害する。
論文 参考訳(メタデータ) (2025-10-01T03:52:40Z) - Centaur: Robust End-to-End Autonomous Driving with Test-Time Training [84.78837437133234]
我々は,手作業によるルールやコスト関数に頼ることなく,テストタイムトレーニングを通じてプランナーの行動を更新するCentaurを提案する。
本稿では,クラスタ・エントロピー(Cluster Entropy,クラスタ・エントロピー)と呼ばれる新しい不確実性尺度を開発した。
論文 参考訳(メタデータ) (2025-03-14T17:59:41Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Sketchy: Memory-efficient Adaptive Regularization with Frequent
Directions [22.09320263962004]
ディープラーニング(DL)学習タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、小さなリード固有空間に集中している。
本稿では,行列プレコンディショナを維持するためのメモリと計算要求を低減させる汎用的手法について述べる。
ShampooやAdamと競合する手法で、第2の瞬間を追跡するにはサブ線形メモリしか必要ありません。
論文 参考訳(メタデータ) (2023-02-07T21:50:06Z) - Selective Network Linearization for Efficient Private Inference [49.937470642033155]
本稿では,予測精度を維持しつつReLUを選択的に線形化する勾配に基づくアルゴリズムを提案する。
その結果、現在の技術よりも4.25%$の精度(so-ReLUは50K)、または2.2times$のレイテンシ(so-accuracyは70%)が低いことがわかった。
論文 参考訳(メタデータ) (2022-02-04T19:00:24Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。