論文の概要: Decocted Experience Improves Test-Time Inference in LLM Agents
- arxiv url: http://arxiv.org/abs/2604.04373v1
- Date: Mon, 06 Apr 2026 02:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.069715
- Title: Decocted Experience Improves Test-Time Inference in LLM Agents
- Title(参考訳): LLMエージェントのテスト時間推論を改善するDeccted Experience
- Authors: Maohao Shen, Kaiwen Zha, Zexue He, Zhang-Wei Hong, Siru Ouyang, J. Jon Ryu, Prasanna Sattigeri, Suhas Diggavi, Gregory Wornell,
- Abstract要約: 実効的な文脈構築は、経験に大きく依存することを示す。
我々は、効率的なコンテキスト構築の鍵となるメカニズムとして、表現された経験を識別する。
我々は、数学推論、Webブラウジング、ソフトウェア工学など、推論やエージェント的タスクにまたがる結果を検証する。
- 参考スコア(独自算出の注目度): 30.56835805919089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is growing interest in improving LLMs without updating model parameters. One well-established direction is test-time scaling, where increased inference-time computation (e.g., longer reasoning, sampling, or search) is used to improve performance. However, for complex reasoning and agentic tasks, naively scaling test-time compute can substantially increase cost and still lead to wasted budget on suboptimal exploration. In this paper, we explore \emph{context} as a complementary scaling axis for improving LLM performance, and systematically study how to construct better inputs that guide reasoning through \emph{experience}. We show that effective context construction critically depends on \emph{decocted experience}. We present a detailed analysis of experience-augmented agents, studying how to derive context from experience, how performance scales with accumulated experience, what characterizes good context, and which data structures best support context construction. We identify \emph{decocted experience} as a key mechanism for effective context construction: extracting essence from experience, organizing it coherently, and retrieving salient information to build effective context. We validate our findings across reasoning and agentic tasks, including math reasoning, web browsing, and software engineering.
- Abstract(参考訳): モデルパラメータを更新せずにLLMを改善することへの関心が高まっている。
良く確立された方向の1つはテスト時間スケーリングであり、パフォーマンスを向上させるために推論時間(例えば、より長い推論、サンプリング、探索)が増加する。
しかし、複雑な推論やエージェントタスクでは、テストタイムの計算を段階的にスケールすることはコストを大幅に増加させ、なおも最適下探索の予算を無駄にしてしまう。
本稿では,LLM性能向上のための相補的スケーリング軸として \emph{context} を探索し, \emph{experience} による推論を導くためのより良いインプットの構築方法を体系的に研究する。
実効的な文脈構築は,emph{decocted experience}に依存することを示す。
本稿では、経験強化エージェントの詳細な分析、経験からコンテキストを導出する方法、経験の蓄積によるパフォーマンスのスケール方法、良いコンテキストを特徴付けるもの、コンテキスト構築を支援するデータ構造について述べる。
我々は,経験から本質を抽出し,それらを一貫性を持って整理し,健全な情報を抽出し,効果的な文脈を構築するという,効果的な文脈構築の鍵となるメカニズムとして \emph{decocted experience} を同定する。
我々は、数学推論、Webブラウジング、ソフトウェア工学など、推論やエージェント的タスクにまたがる結果を検証する。
関連論文リスト
- Retrieval-Augmented LLM Agents: Learning to Learn from Experience [16.248836438253814]
本研究では,検索対象のLLMエージェントを学習し,検索したトラジェクトリをコンテキスト内で活用する方法について検討する。
最先端のエージェントトレーニングパイプラインよりも優れたロラを用いた,堅牢な教師付き微調整(SFT)レシピを確立した。
その結果,この組み合わせによるタスクの一般化が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2026-03-18T20:45:04Z) - Predicting Task Performance with Context-aware Scaling Laws [56.6850444554434]
本稿では、トレーニング計算と提供されたコンテキストの関数として、下流のパフォーマンスを協調的にモデル化する、単純かつ解釈可能なフレームワークを提案する。
我々は,Llama-2-7BおよびLlama-2-13Bの拡張コンテキスト変種について,観測された下流性能に適合させることで,我々の枠組みを実証的に検証した。
以上の結果から,我々のフレームワークは,配信中のダウンストリーム性能を正確にモデル化し,トレーニング計算において3桁の規模で一般化し,コンテキストの増大とともに性能を確実に外挿することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:35:18Z) - Pushing LLMs to Their Logical Reasoning Bound: The Role of Data Reasoning Intensity [59.27594125465172]
データ推論強度 (Data Reasoning Intensity, DRI) は, サンプルの潜在論理的推論複雑性を定量化する新しい指標である。
次に、学習データの論理的推論強度を体系的に強化する再認識最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-09-29T14:20:04Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - Improving Context Fidelity via Native Retrieval-Augmented Reasoning [35.50952279309109]
大規模言語モデル(LLM)は、しばしば文脈の忠実さと闘い、提供された情報に基づいて質問に答えるときに矛盾する答えを生み出す。
提案するCAREは, LLMに対して, モデル独自の検索機能を用いて, 推論プロセス内での文脈内証拠を明示的に統合するように教える, 新たなネイティブ検索拡張推論フレームワークである。
提案手法では,限定ラベル付きエビデンスデータが必要であり,推論チェーン内の戦略的に検索されたインコンテキストトークンを通じて,検索精度と回答生成性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-17T04:28:07Z) - Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。
テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。
我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文 参考訳(メタデータ) (2025-06-10T18:36:31Z) - Toward Structured Knowledge Reasoning: Contrastive Retrieval-Augmented Generation on Experience [8.270615745804557]
大規模言語モデル(LLM)は、平易なテキストタスクでは高いパフォーマンスを達成するが、テーブルやデータベースのような構造化データでは性能が低い。
本稿では,体験記憶表現を構築するフレームワークであるContrastive Retrieval-Augmented Generation on Experience (CoRE)を紹介する。
実験の結果、CoREはパフォーマンスを著しく改善し、平均利得は3.44%と4.24%となり、挑戦的なタスクは最大17.2%向上した。
論文 参考訳(メタデータ) (2025-06-01T05:22:00Z) - Eliciting Causal Abilities in Large Language Models for Reasoning Tasks [14.512834333917414]
我々は,LLMが高品質で低品質な観測データを生成することができる自己因果的指導強化法(SCIE)を導入する。
SCIEでは、命令は治療として扱われ、自然言語を処理するためにテキストの特徴が使用される。
提案手法は,プロンプトのトレーニングコストを削減し,推論性能を向上させる命令を効果的に生成する。
論文 参考訳(メタデータ) (2024-12-19T17:03:02Z) - CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。