論文の概要: The Context Gathering Decision Process: A POMDP Framework for Agentic Search
- arxiv url: http://arxiv.org/abs/2605.07042v1
- Date: Thu, 07 May 2026 23:45:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.678461
- Title: The Context Gathering Decision Process: A POMDP Framework for Agentic Search
- Title(参考訳): 文脈収集決定プロセス:エージェント検索のためのPOMDPフレームワーク
- Authors: Chinmaya Kausik, Adith Swaminathan, Nathan Kallus,
- Abstract要約: 大規模言語モデル(LLM)エージェントは複雑な環境にデプロイされる。
明示的なインフラストラクチャがなければ、エージェントの動作メモリは、検索状態の損失のある表現に分解される可能性がある。
我々はこの課題をコンテキスト収集決定プロセス(CGDP)として定式化する。
反復LDM剤に対する2つのプラグ・アンド・プレイ介入法を導出する。
- 参考スコア(独自算出の注目度): 38.92972416925679
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) agents are deployed in complex environments -- such as massive codebases, enterprise databases, and conversational histories -- where the relevant state far exceeds their context windows. To navigate these spaces, an agent must iteratively explore the environment to find relevant information. However, without explicit infrastructure, an agent's working memory can degrade into lossy representations of the search state, resulting in redundant work (e.g. repetitive looping) and premature stopping. In this work, we formalize this challenge as the Context Gathering Decision Process (CGDP), a specialized Partially Observable Markov Decision Process, where an agent's objective is to adaptively refine its belief state to isolate the necessary information for a task. We model an LLM's behavior as approximate Thompson Sampling within this CGDP, and introduce a predicate-based method that decomposes an LLM's implicit search into explicit and modular operations. We then derive two plug-and-play interventions for iterative LLM agents: a persistent, predicate-based belief state that bounds context while preserving multi-hop reasoning, and a programmatic exhaustion gate that halts unproductive search without premature stopping. Across four methods and three question-answering domains, we empirically validate that replacing an LLM's implicit state with our CGDP-motivated belief state improves multi-hop reasoning by up to $11.4\%$; while the modular programmatic exhaustion detection saves up to $39\%$ of tokens without any degradation in agent performance. Ultimately, we argue that framing the LLM agent loop as a CGDP can guide the design of modular, non-interfering improvements to agentic search harnesses.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは、巨大なコードベース、エンタープライズデータベース、会話履歴など、複雑な環境にデプロイされます。
これらの空間をナビゲートするには、エージェントは関連する情報を見つけるために環境を反復的に探索する必要がある。
しかし、明示的なインフラストラクチャがなければ、エージェントの動作メモリは検索状態の損失のある表現に分解され、冗長な処理(繰り返しループなど)と早めに停止する。
本研究では、この課題を、専門的に観察可能なマルコフ決定プロセスであるコンテキスト収集決定プロセス(CGDP)として定式化し、エージェントの目的は、タスクに必要な情報を分離するために、その信念状態を適応的に洗練することである。
我々は, LLMの振る舞いを近似トンプソンサンプリングとしてモデル化し, LLMの暗黙的な探索を明示的かつモジュラーな操作に分解する述語に基づく手法を提案する。
次に,反復的LLMエージェントに対する2つのプラグ・アンド・プレイ介入を導出する: マルチホップ推論を保ちながらコンテキストを束縛する永続的述語的信念状態と,未熟な停止を伴わずに非生産的探索を停止するプログラム的消耗ゲートである。
4つの方法と3つの問合せ領域にまたがって、LCMの暗黙の状態をCGDPに動機づけられた信念状態に置き換えることで、マルチホップ推論が最大11.4\%のコストで改善できることを実証的に検証した。
究極的には、LLMエージェントループをCGDPとしてフレーミングすることは、エージェント検索ハーネスに対するモジュラーで非干渉的な改善の設計を導くことができると論じる。
関連論文リスト
- FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments [60.3427704389541]
大規模言語モデルは、自律エージェントの意思決定コアとして、ますます多くデプロイされている。
しかし、会話のベンチマークでは、誤った意思決定のカスケード効果のために、これらのエージェントは頻繁に失敗する。
これらの課題に対処するために、Failure-Aware Meta-Agenticフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T02:21:53Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - Learning to Refine: An Agentic RL Approach for Iterative SPARQL Query Construction [0.18907108368038208]
現在のメソッドでは、リアルタイム実行フィードバックに基づいてクエリを動的にデバッグするために必要なアダプティブポリシーが欠如している。
本稿では,LLMが繰り返しSPARQL構築のシーケンシャルなプロセスに対してレジリエントなポリシーを学習する,新しいエージェント・フレームワークを提案する。
結果駆動型強化学習(GRPO)によってのみ訓練されたコンパクトな3B-パラメータモデルが,このタスクの効果的なポリシを学習可能であることを示す。
論文 参考訳(メタデータ) (2025-11-14T08:44:58Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Where to Search: Measure the Prior-Structured Search Space of LLM Agents [0.8249180979158818]
本稿では、LLM支援反復探索をドメイン先導で記述し、評価するコンパクトな形式理論を提案する。
エージェントをファジィ関係演算子として入力と出力を表現し、実現可能な遷移をキャプチャする。
最も単純なテスト可能な推論を提供し、それらを2つのインスタンス化によって検証する。
論文 参考訳(メタデータ) (2025-10-16T16:18:37Z) - Rationale-Augmented Retrieval with Constrained LLM Re-Ranking for Task Discovery [4.061135251278187]
GoEngageを利用するヘッドスタートプログラムは、新しいスタッフやローテーションスタッフがプラットフォームホームページで適切なタスクを見つけようとすると、重大な課題に直面します。
これらの困難は、ドメイン固有の用語、システム固有の命名法、およびタイポスや様々な単語順序を扱う際の語彙探索の固有の制限から生じる。
本稿では, 軽量な型付き語彙検索, 埋め込み型ベクトル類似性, 制約付き大言語モデル(LLM)を組み合わさった, 実用的なハイブリッド意味検索システムを提案する。
論文 参考訳(メタデータ) (2025-10-01T01:28:59Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。