論文の概要: Same Signal, Opposite Meaning: Direction-Informed Adaptive Learning for LLM Agents
- arxiv url: http://arxiv.org/abs/2605.06908v1
- Date: Thu, 07 May 2026 20:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.598854
- Title: Same Signal, Opposite Meaning: Direction-Informed Adaptive Learning for LLM Agents
- Title(参考訳): LLMエージェントの方向性インフォームド適応学習
- Authors: Ziming Li, Jiatan Huang, Xiaoguang Guo, Guilin Wang, Chuxu Zhang,
- Abstract要約: LLMエージェントは、性能改善時にのみ余分な計算を実行することを目標としている。
既存の手法では、計算の計算に必要なゲーティング信号から計算の値への一定の方向を仮定して、信頼性、不確実性、難易度に基づくゲートを用いるのが一般的である。
このアライメントは不安定であり、タスクが修正された場合でも環境やバックボーンをまたいで逆転する。
DIAL(Direction-Informed Adaptive Learning)は、信号に依存しない対実探索から訓練されたスパースゲートであり、各状態特徴の実用方向を学習する。
- 参考スコア(独自算出の注目度): 24.71914991820339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive test-time compute for LLM agents aims to invoke extra computation only when it improves performance. Existing methods typically use confidence-, uncertainty-, or difficulty-based gates, assuming a fixed direction from the gating signal through compute need to the value of computation. This makes gating a utility-calibration problem: gating signals should align with whether extra computation improves the final outcome over the base policy. We show that this alignment is unstable: the same signal predicts rollout benefit in one setting and rollout harm in another, with reversals across environments and backbones even when the task is fixed. Wrong-direction gates can therefore worsen performance by precisely selecting harmful states. This reversal reflects a deeper distinction between compute need and compute suitability: a high uncertainty signal may indicate decision-difficult states where rollouts help compare alternatives, or intervention-unsuitable states where the current context does not support useful rollout-based improvement. Under this two-source model, fixed-direction gates are unreliable across heterogeneous settings. To address this, we propose DIAL (Direction-Informed Adaptive Learning), a sparse gate trained from signal-agnostic counterfactual exploration to learn the utility direction of state features per (environment, backbone). Across six environments and three backbones, DIAL yields a stronger overall success-cost trade-off than fixed-direction baselines.
- Abstract(参考訳): LLMエージェントのアダプティブテスト時間計算は、性能改善時にのみ余分な計算を実行することを目的としている。
既存の手法では、計算の計算に必要なゲーティング信号から計算の値への一定の方向を仮定して、信頼性、不確実性、難易度に基づくゲートを用いるのが一般的である。
これにより、ゲーティングはユーティリティ校正の問題となり、ゲーティング信号は、基本方針よりも計算が最終的な結果を改善するかどうかに一致すべきである。
我々は、このアライメントが不安定であることを示し、同じ信号が、ある設定でロールアウトの利点を予測し、別の設定でロールアウトの害を予測し、タスクが修正された場合でも、環境やバックボーンをまたいでリバーサルする。
したがって、誤った方向ゲートは、有害な状態を正確に選択することで、性能を悪化させる可能性がある。
高い不確実性信号は、ロールアウトが代替品の比較に役立つ決定が難しい状態や、現在のコンテキストがロールアウトベースの改善を有効にサポートしていない介入に不適な状態を示す可能性がある。
この2ソースモデルでは、固定方向ゲートは不均一な設定で信頼性が低い。
そこで我々は,DIAL (Direction-Informed Adaptive Learning) を提案する。これは信号に依存しない逆ファクト探索から訓練されたスパースゲートで,各状態特徴(環境,バックボーン)の実用方向を学習する。
6つの環境と3つのバックボーンにまたがって、DIALは固定方向ベースラインよりも全体的な成功とコストのトレードオフを得る。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Zero-Order Optimization for LLM Fine-Tuning via Learnable Direction Sampling [40.94400211806987]
摂動方向のサンプリング分布を学習可能なポリシとして扱う政策駆動型ZOフレームワークを提案する。
学習したサンプリングは、品質勾配情報を改善し、$d$の収束境界への明示的な依存を緩和することを示す。
以上の結果から,適応方向サンプリングはZOの微調整を大規模に実現する上で有望な方法であることが示唆された。
論文 参考訳(メタデータ) (2026-02-14T08:01:41Z) - Think When Needed: Model-Aware Reasoning Routing for LLM-based Ranking [25.69863022367215]
推論プロンプトはランキングユーティリティを向上させることができるが、その利点は一貫性がなく、かなりの計算コストがかかる。
本稿では, 直接推論 (Non-Think) と推論 (Think) を用いるかを決定するために, 軽量なプラグアンドプレイルータヘッドを用いた推論ルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-26T05:09:07Z) - Learning to Ponder: Adaptive Reasoning in Latent Space [2.8835557003761747]
我々は、潜時ステアリングによるインスタンス適応推論計算を割り当てる単一グラフのバックボーン学習自由フレームワークFR-Ponderを提案する。
GSM8KとMATH500では、FR-Ponderは計算精度のフロンティアを改善し、一致した精度で低いFLOPを提供し、早期出力ベースラインと比較する。
論文 参考訳(メタデータ) (2025-09-29T03:21:42Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Reinforcement learning with non-ergodic reward increments: robustness via ergodicity transformations [8.44491527275706]
強化学習の応用分野は、自律運転、精密農業、金融などである。
特に、RL の焦点は典型的には戻り値の期待値である。
我々は,RLエージェントが個々の軌道の長期的性能を最適化するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-17T15:13:33Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。