論文の概要: Align While Search: Belief-Guided Exploratory Inference for World-Grounded Embodied Agents
- arxiv url: http://arxiv.org/abs/2512.24461v1
- Date: Tue, 30 Dec 2025 20:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.489672
- Title: Align While Search: Belief-Guided Exploratory Inference for World-Grounded Embodied Agents
- Title(参考訳): アライグ・イン・サーチ:世界規模の身体的エージェントの探索的推測
- Authors: Seohui Bae, Jeonghye Kim, Youngchul Sung, Woohyung Lim,
- Abstract要約: 後部誘導的信念改善による探索的推論を行うテスト時適応エージェントを提案する。
エージェントは、環境状態に対する外部構造的信念を維持し、行動条件付き観測を通して反復的に更新し、予測情報ゲインを最大化して行動を選択する。
- 参考スコア(独自算出の注目度): 21.282520693137275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a test-time adaptive agent that performs exploratory inference through posterior-guided belief refinement without relying on gradient-based updates or additional training for LLM agent operating under partial observability. Our agent maintains an external structured belief over the environment state, iteratively updates it via action-conditioned observations, and selects actions by maximizing predicted information gain over the belief space. We estimate information gain using a lightweight LLM-based surrogate and assess world alignment through a novel reward that quantifies the consistency between posterior belief and ground-truth environment configuration. Experiments show that our method outperforms inference-time scaling baselines such as prompt-augmented or retrieval-enhanced LLMs, in aligning with latent world states with significantly lower integration overhead.
- Abstract(参考訳): 本稿では, 部分観測可能条件下でのLCMエージェントの勾配に基づく更新や追加訓練に頼ることなく, 後部誘導的信念改善による探索的推論を行うテスト時適応エージェントを提案する。
エージェントは, 環境状態に対する外部構造的信念を維持し, 行動条件付き観測を通して反復的に更新し, 信念空間上の予測情報ゲインを最大化して行動を選択する。
我々は,軽量なLLMサロゲートを用いて情報ゲインを推定し,後部信念と地層構造との整合性を定量化する新たな報奨によって世界アライメントを評価する。
実験により,本手法は,統合オーバヘッドを著しく低減した潜在世界状態と整合して,プロンプト拡張や検索強化LDMなどの推論時スケーリングベースラインよりも優れた性能を示した。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - RADIANT: Retrieval AugmenteD entIty-context AligNmenT -- Introducing RAG-ability and Entity-Context Divergence [18.268335797537983]
Retrieval-Augmented Generation (RAG) は、外部知識を生成プロセスに統合することにより、事実の精度を高める技術である。
本稿では,得られた証拠と生成されたコンテンツとの相互作用を最適化するために,RAGとアライメントを組み合わせたフレームワークであるRadiantを紹介する。
論文 参考訳(メタデータ) (2025-06-28T21:40:35Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Generalization Across Observation Shifts in Reinforcement Learning [13.136140831757189]
バイシミュレーションフレームワークを拡張して、コンテキスト依存の観察シフトを考慮します。
具体的には,シミュレータに基づく学習設定に焦点をあて,代替観測を用いて表現空間を学習する。
これにより、テスト期間中にエージェントをさまざまな監視設定にデプロイし、目に見えないシナリオに一般化することができます。
論文 参考訳(メタデータ) (2023-06-07T16:49:03Z) - Modulation of viability signals for self-regulatory control [1.370633147306388]
適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。
強化学習タスクでは、好みの分布が報酬の概念に取って代わる。
論文 参考訳(メタデータ) (2020-07-18T01:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。