論文の概要: Information Seeking for Robust Decision Making under Partial Observability
- arxiv url: http://arxiv.org/abs/2510.01531v1
- Date: Thu, 02 Oct 2025 00:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.911833
- Title: Information Seeking for Robust Decision Making under Partial Observability
- Title(参考訳): 部分観測可能性を考慮したロバスト意思決定のための情報探索
- Authors: Djengo Cyun-Jyun Fang, Tsung-Wei Ke,
- Abstract要約: InfoSeekerは、タスク指向の計画と内部のダイナミクスを整合させ、不確実性の下で最適な決定を行う情報を統合する計画フレームワークである。
InfoSeekerは、サンプル効率を犠牲にすることなく、以前のメソッドよりも74%の絶対的なパフォーマンス向上を実現している。
これらの知見は、部分的に観測可能な環境での堅牢な行動を求める計画と情報の統合の重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 4.722684644310843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explicit information seeking is essential to human problem-solving in practical environments characterized by incomplete information and noisy dynamics. When the true environmental state is not directly observable, humans seek information to update their internal dynamics and inform future decision-making. Although existing Large Language Model (LLM) planning agents have addressed observational uncertainty, they often overlook discrepancies between their internal dynamics and the actual environment. We introduce Information Seeking Decision Planner (InfoSeeker), an LLM decision-making framework that integrates task-oriented planning with information seeking to align internal dynamics and make optimal decisions under uncertainty in both agent observations and environmental dynamics. InfoSeeker prompts an LLM to actively gather information by planning actions to validate its understanding, detect environmental changes, or test hypotheses before generating or revising task-oriented plans. To evaluate InfoSeeker, we introduce a novel benchmark suite featuring partially observable environments with incomplete observations and uncertain dynamics. Experiments demonstrate that InfoSeeker achieves a 74% absolute performance gain over prior methods without sacrificing sample efficiency. Moreover, InfoSeeker generalizes across LLMs and outperforms baselines on established benchmarks such as robotic manipulation and web navigation. These findings underscore the importance of tightly integrating planning and information seeking for robust behavior in partially observable environments. The project page is available at https://infoseekerllm.github.io
- Abstract(参考訳): 不完全な情報と雑音のダイナミクスを特徴とする実用環境では、人間の問題解決には明示的な情報探索が不可欠である。
真の環境状態が直接観察できない場合、人間は内部のダイナミクスを更新し、将来の意思決定を知らせるために情報を求めます。
既存のLarge Language Model (LLM) 計画エージェントは観測の不確実性に対処してきたが、しばしば内部力学と実際の環境との相違点を見落としている。
本稿では,情報探索決定計画(Information Seeking Decision Planner,InfoSeeker)について紹介する。内部力学の整合性を求める情報とタスク指向計画を統合し,エージェント観測と環境力学の両面において不確実性の下で最適な意思決定を行う。
InfoSeeker は LLM に対して,その理解の検証,環境変化の検出,あるいは仮説の検証を行うための計画行動による情報収集を積極的に行うように促す。
InfoSeekerを評価するために、不完全な観測と不確実なダイナミクスを備えた部分的に観測可能な環境を備えた新しいベンチマークスイートを提案する。
実験では、InfoSeekerは、サンプル効率を犠牲にすることなく、以前のメソッドよりも74%の絶対的なパフォーマンス向上を実現している。
さらに、InfoSeekerはLLMをまたいで一般化し、ロボット操作やWebナビゲーションといった確立したベンチマークでベースラインを上回ります。
これらの知見は、部分的に観測可能な環境での堅牢な行動を求める計画と情報の統合の重要性を浮き彫りにした。
プロジェクトページはhttps://infoseekerllm.github.ioで公開されている。
関連論文リスト
- InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Adaptive Elicitation of Latent Information Using Natural Language [6.162198958758635]
本稿では,潜在エンティティの不確かさを積極的に軽減する適応型エレクテーションフレームワークを提案する。
我々のフレームワークは,メタ学習言語モデルを用いて将来の観測をシミュレートし,不確実性を予測する。
20の質問ゲーム、動的世論ポーリング、適応的学生評価の実験において、本手法は批判的未知を識別する基準線を一貫して上回っている。
論文 参考訳(メタデータ) (2025-04-05T15:18:55Z) - Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。
OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。
OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-27T22:52:23Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。