論文の概要: Experience-Guided Adaptation of Inference-Time Reasoning Strategies
- arxiv url: http://arxiv.org/abs/2511.11519v1
- Date: Fri, 14 Nov 2025 17:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.751286
- Title: Experience-Guided Adaptation of Inference-Time Reasoning Strategies
- Title(参考訳): 推論時間推論手法のエクスペリエンスガイド適応
- Authors: Adam Stein, Matthew Trager, Benjamin Bowman, Michael Kleinman, Aditya Chattopadhyay, Wei Xia, Stefano Soatto,
- Abstract要約: Experience-Guided Reasoner (EGuR) は蓄積された経験に基づいて推論時に調整された戦略を生成する。
EGuRは最強のベースラインに対して最大14%の精度向上を実現し、計算コストを最大111倍に削減する。
- 参考スコア(独自算出の注目度): 49.954515048847874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling agentic AI systems to adapt their problem-solving approaches based on post-training interactions remains a fundamental challenge. While systems that update and maintain a memory at inference time have been proposed, existing designs only steer the system by modifying textual input to a language model or agent, which means that they cannot change sampling parameters, remove tools, modify system prompts, or switch between agentic and workflow paradigms. On the other hand, systems that adapt more flexibly require offline optimization and remain static once deployed. We present Experience-Guided Reasoner (EGuR), which generates tailored strategies -- complete computational procedures involving LLM calls, tools, sampling parameters, and control logic -- dynamically at inference time based on accumulated experience. We achieve this using an LLM-based meta-strategy -- a strategy that outputs strategies -- enabling adaptation of all strategy components (prompts, sampling parameters, tool configurations, and control logic). EGuR operates through two components: a Guide generates multiple candidate strategies conditioned on the current problem and structured memory of past experiences, while a Consolidator integrates execution feedback to improve future strategy generation. This produces complete, ready-to-run strategies optimized for each problem, which can be cached, retrieved, and executed as needed without wasting resources. Across five challenging benchmarks (AIME 2025, 3-SAT, and three Big Bench Extra Hard tasks), EGuR achieves up to 14% accuracy improvements over the strongest baselines while reducing computational costs by up to 111x, with both metrics improving as the system gains experience.
- Abstract(参考訳): エージェントAIシステムを導入して、トレーニング後のインタラクションに基づいた問題解決アプローチを適用することは、依然として根本的な課題である。
既存の設計では、推論時にメモリを更新、維持するシステムが提案されているが、既存の設計では、テキスト入力を言語モデルやエージェントに修正するだけで、サンプリングパラメータを変更したり、ツールを削除したり、システムプロンプトを変更したり、エージェントとワークフローのパラダイムを切り替えたりすることはできない。
一方、より柔軟に適応するシステムはオフラインの最適化を必要とし、デプロイ後は静的のままである。
本稿では, LLMコール, ツール, サンプリングパラメータ, 制御ロジックを含む完全な計算手順を, 蓄積した経験に基づいて動的に推論時に生成するEGuR(Experience-Guided Reasoner)を提案する。
LLMベースのメタストラテジー -- 戦略を出力する戦略 -- を使用してこれを実現することで、すべての戦略コンポーネント(プロンプト、サンプリングパラメータ、ツール構成、制御ロジック)の適応を可能にします。
EGuRは2つのコンポーネントを通して動作する: Guideは現在の問題と過去の体験の構造化されたメモリに条件付き複数の候補戦略を生成し、Consolidatorは実行フィードバックを統合して将来の戦略生成を改善する。
これにより、リソースを浪費することなく、必要に応じてキャッシュ、検索、実行が可能な、各問題に最適化された完全な実行可能な戦略が生成される。
5つの挑戦的なベンチマーク(AIME 2025、 3-SAT、および3つのBig Bench Extra Hardタスク)で、EGuRは最強のベースラインに対して最大14%の精度向上を実現し、計算コストを最大111倍に削減し、両方のメトリクスは、システムが経験を積むにつれて改善されている。
関連論文リスト
- Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search [58.116954449750544]
多様な最適化問題を解決するために,テスト時間スケーリングを活用したトレーニング不要のフレームワークを導入する。
直接的に解くのではなく、数学的定式化を生成し、新しいモンテカルロ木探索戦略によって導かれる解法対応のコードに変換する。
論文 参考訳(メタデータ) (2025-10-19T16:21:19Z) - Reflection-Enhanced Meta-Optimization Integrating TextGrad-style Prompt Optimization with Memory-Driven Self-Evolution [0.0]
本稿では,メモリ拡張リフレクションRetrievalRAGモジュールと自己適応型メタコントローラを統合するフレームワークを提案する。
REMOは、計算オーバーヘッドの増加にもかかわらず、より安定で堅牢なチューニングを実現する。
論文 参考訳(メタデータ) (2025-08-26T07:25:45Z) - PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-25T17:58:50Z) - Scaling Test-Time Inference with Policy-Optimized, Dynamic Retrieval-Augmented Generation via KV Caching and Decoding [2.368662284133926]
本稿では,動的検索戦略と強化微調整により,RAG(Retrieval-Augmented Generation)システムを強化する枠組みを提案する。
我々のフレームワークは2つの補完手法を統合している: Policy-d Retrieval Augmented Generation (PORAG)とAdaptive Token-Layer Attention Scoring (ATLAS)。
我々のフレームワークは幻覚を減らし、ドメイン固有の推論を強化し、従来のRAGシステムよりも優れた効率とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2025-04-02T01:16:10Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。