論文の概要: ATLAS: Adaptive Test-Time Latent Steering with External Verifiers for Enhancing LLMs Reasoning
- arxiv url: http://arxiv.org/abs/2601.03093v1
- Date: Tue, 06 Jan 2026 15:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.989806
- Title: ATLAS: Adaptive Test-Time Latent Steering with External Verifiers for Enhancing LLMs Reasoning
- Title(参考訳): ATLAS: LLM推論の強化のための外部検証器付き適応テスト時間遅延ステアリング
- Authors: Tuc Nguyen, Thai Le,
- Abstract要約: 我々はATLAS(Adaptive Test-Time Latent Steering)を提案する。
ATLASは外部の軽量潜伏検証器を用いて推論時のステアリング決定を動的に制御する。
複数の数学的推論ベンチマークの実験は、ATLASがバニラ復号化と固定ステアリングベースラインの両方を一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 13.073472989807675
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent work on activation and latent steering has demonstrated that modifying internal representations can effectively guide large language models (LLMs) toward improved reasoning and efficiency without additional training. However, most existing approaches rely on fixed steering policies and static intervention strengths, which limit their robustness across problem instances and often result in over- or under-steering. We propose Adaptive Test-time Latent Steering, called (ATLAS), a task- specific framework that dynamically controls steering decisions at inference time using an external, lightweight latent verifier. Given intermediate hidden states, the verifier predicts the quality of ongoing reasoning and adaptively selects whether and how strongly to apply steering, enabling per-example and per-step adjustment with minimal overhead. To our knowledge, ATLAS is the first method to integrate learned latent verification into test-time steering for enhancing LLMs reasoning. Experiments on multiple mathematical reasoning benchmarks show that ATLAS consistently outperforms both vanilla decoding and fixed steering baselines, achieving higher accuracy while substantially reducing test-time token usage. These results demonstrate that verifier-guided latent adaptation provides an effective and scalable mechanism for controlling reasoning efficiency without sacrificing solution quality. All source code will be publicly available.
- Abstract(参考訳): 近年のアクティベーションと潜在的ステアリングの研究により、内部表現の修正は、推論と効率を改善するために、追加のトレーニングをすることなく、大きな言語モデル(LLM)を効果的にガイドできることが示されている。
しかし、既存のほとんどのアプローチは、固定されたステアリングポリシーと静的な介入の強度に依存しており、問題インスタンス間の堅牢性を制限し、多くの場合、オーバーステアリングやアンダーステアリングをもたらす。
本稿では,タスク固有のフレームワークであるATLAS(Adaptive Test-time Latent Steering)を提案する。
中間隠れ状態が与えられた場合、検証者は進行中の推論の品質を予測し、ステアリングをどの程度強く適用するかを適応的に選択し、最小限のオーバーヘッドでサンプルごとの調整とステップごとの調整を可能にする。
我々の知る限り、ATLASはLLM推論を強化するためのテストタイムステアリングに学習された潜時検証を統合する最初の方法である。
複数の数学的推論ベンチマークの実験により、ATLASはバニラ復号化と固定ステアリングベースラインの両方を一貫して上回り、高い精度を達成し、テスト時間トークンの使用を大幅に削減した。
これらの結果から, 検証器誘導型潜伏適応は, 溶液品質を犠牲にすることなく推論効率を効果的かつスケーラブルに制御する機構を提供することが示された。
すべてのソースコードが公開されている。
関連論文リスト
- Activation Steering with a Feedback Controller [4.609594868699996]
Proportional-Integral-Derivative (PID) Steeringは、大きな言語モデルにおけるアクティベーションステアリングに完全なPIDコントローラを利用する、原則化されたフレームワークである。
PIDステアリングは既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現する。
論文 参考訳(メタデータ) (2025-10-05T18:05:28Z) - EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。
我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:59:07Z) - Steering When Necessary: Flexible Steering Large Language Models with Backtracking [16.23081952791394]
大規模言語モデル(LLM)は多くの世代で顕著な性能を達成している。
アクティベーションステアリング(Activation steering)は、推論段階においてLSMのアクティベーションを直接変更する効果的で費用効率のよいアプローチである。
本稿では,介入の必要性と強度の両方を動的に決定するフレキシブル・アクティベーション・ステアリング・アット・バックトラッキング(FASB)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-25T03:01:30Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint [49.641959856967276]
提案手法はAlphaSteerと呼ばれる,理論的に基礎的かつ実験的に有効なアクティベーションステアリング法である。
ユーティリティ保存のために、Null-space制約を使って、良性データのステアリングのためのほぼゼロベクトルを構築することを学ぶ。
複数のjailbreak攻撃とユーティリティベンチマークの実験は、AlphaSteerの有効性を示している。
論文 参考訳(メタデータ) (2025-06-08T07:03:28Z) - Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs [8.085475675888045]
アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T01:48:38Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。