論文の概要: Do LLM Agents Know How to Ground, Recover, and Assess? A Benchmark for Epistemic Competence in Information-Seeking Agents
- arxiv url: http://arxiv.org/abs/2509.22391v1
- Date: Fri, 26 Sep 2025 14:18:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.494493
- Title: Do LLM Agents Know How to Ground, Recover, and Assess? A Benchmark for Epistemic Competence in Information-Seeking Agents
- Title(参考訳): LLMエージェントは、どのようにグラウンド、リカバー、アセスメントを知っていますか? : 情報探索エージェントにおける認識能力のベンチマーク
- Authors: Jiaqi Shao, Yuxiang Lin, Munish Prasad Lohani, Yufeng Miao, Bing Luo,
- Abstract要約: 本稿では,Large Language Model (LLM) 検索エージェントの能力を評価する最初のベンチマークであるSeekBenchを紹介する。
SeekBenchは、190のエキスパートアノテーション付きトレースで構成され、1,800以上のレスポンスステップがLLM検索エージェントによって生成される。
- 参考スコア(独自算出の注目度): 7.874934781458826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has explored training Large Language Model (LLM) search agents with reinforcement learning (RL) for open-domain question answering (QA). However, most evaluations focus solely on final answer accuracy, overlooking how these agents reason with and act on external evidence. We introduce SeekBench, the first benchmark for evaluating the \textit{epistemic competence} of LLM search agents through step-level analysis of their response traces. SeekBench comprises 190 expert-annotated traces with over 1,800 response steps generated by LLM search agents, each enriched with evidence annotations for granular analysis of whether agents (1) generate reasoning steps grounded in observed evidence, (2) adaptively reformulate searches to recover from low-quality results, and (3) have proper calibration to correctly assess whether the current evidence is sufficient for providing an answer.
- Abstract(参考訳): 近年,オープンドメイン質問応答(QA)のための強化学習(RL)を用いた大規模言語モデル(LLM)探索エージェントの訓練について検討している。
しかし、ほとんどの評価は最終回答の正確さにのみ焦点を合わせ、これらのエージェントがどのように外部の証拠を推論し、どのように行動するかを見下ろしている。
SeekBench は LLM 検索エージェントの <textit{epistemic competence} を評価するための最初のベンチマークである。
SeekBenchは、LSM検索エージェントが生成した1,800以上の応答ステップを持つ190のエキスパート注釈付きトレースで構成され、各エージェントは、(1)観察された証拠に基づく推論ステップを生成するか、(2)低品質の結果から検索を適応的に修正し、(3)現在の証拠が答えを提供するのに十分なかどうかを正しく判定する適切な校正を行うかの、詳細な分析のためのエビデンスアノテーションを富んだ。
関連論文リスト
- MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research [45.13919034931968]
MLR-Benchは、オープンエンド機械学習研究においてAIエージェントを評価するための包括的なベンチマークである。
MLR-Benchは,(1)NeurIPS, ICLR, ICMLのさまざまなMLトピックを対象としたワークショップから得られた201のリサーチタスク,(2)LLMベースのレビュアーと慎重に設計されたレビュールーリックを組み合わせた自動評価フレームワーク,(3)MLR-Agent,研究タスクを4段階(アイデア生成,提案定式化,実験,論文執筆)で完了するモジュールエージェントの足場である。
論文 参考訳(メタデータ) (2025-05-26T13:18:37Z) - Search and Refine During Think: Facilitating Knowledge Refinement for Improved Retrieval-Augmented Reasoning [35.35813310224967]
大きな言語モデルは印象的な推論能力を示してきたが、本質的には知識貯水池によって制限されている。
Retrieval-augmented reasoningは、LCMが外部リソースをクエリできるようにすることによって、この制限を緩和する。
本稿では,新しい「探索・復調思考」パラダイムを取り入れた強化学習フレームワークであるAutoRefineを提案する。
論文 参考訳(メタデータ) (2025-05-16T14:11:29Z) - ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [74.65632662894086]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Alchemy: A structured task distribution for meta-reinforcement learning [52.75769317355963]
本稿では,構造的リッチネスと構造的透明性を組み合わせたメタRL研究のための新しいベンチマークを提案する。
Alchemyは3Dビデオゲームで、エピソードからエピソードまで手続き的に再サンプリングされる潜伏した因果構造を含んでいる。
本稿では,アルケミーの強力なRL剤について検討し,その1つについて詳細な分析を行った。
論文 参考訳(メタデータ) (2021-02-04T23:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。