論文の概要: Bridging Values and Behavior: A Hierarchical Framework for Proactive Embodied Agents
- arxiv url: http://arxiv.org/abs/2604.27699v1
- Date: Thu, 30 Apr 2026 10:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.047503
- Title: Bridging Values and Behavior: A Hierarchical Framework for Proactive Embodied Agents
- Title(参考訳): ブリッジングの価値と振舞い:プロアクティブ・エボダイド・エージェントの階層的枠組み
- Authors: Chunhui Zhang, Yuxuan Wang, Aoyang Qin, Yi-Long Lu, Kunlun Wu, Yizhou Wang, Wei Wang,
- Abstract要約: textitValuePlannerは階層的な認知アーキテクチャで、低レベルのアクション実行から高レベルの値スケジューリングを分離する。
我々の研究は、内在的価値をブリッジする構造的なアプローチと、自律的エージェントに対する接地行動を提供する。
- 参考スコア(独自算出の注目度): 26.613956143957548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current embodied agents are often limited to passive instruction-following or reactive need-satisfaction, lacking a stable, high-order value framework essential for long-term, self-directed behavior and resolving motivational conflicts. We introduce \textit{ValuePlanner}, a hierarchical cognitive architecture that decouples high-level value scheduling from low-level action execution. \textit{ValuePlanner} employs an LLM-based cognitive module to generate symbolic subgoals by reasoning through abstract value trade-offs, which are then translated into executable action plans by a classical PDDL planner. This process is refined via a closed-loop feedback mechanism. Evaluating such autonomy requires methods beyond task-success rates, and we therefore propose a value-centric evaluation suite measuring cumulative value gain, preference alignment, and behavioral diversity. Experiments in the TongSim household environment demonstrate that \textit{ValuePlanner} arbitrates competing values to generate coherent, long-horizon, self-directed behavior absent from instruction-following and needs-driven baselines. Our work offers a structured approach to bridging intrinsic values and grounded behavior for autonomous agents.
- Abstract(参考訳): 現在のインボディードエージェントは、しばしば受動的な命令追従または反応性の要求充足に制限され、長期的、自己指向的な行動に不可欠な安定で高次価値の枠組みが欠如し、モチベーションの対立を解消する。
低レベルのアクション実行から高レベルの値スケジューリングを分離する階層型認知アーキテクチャである‘textit{ValuePlanner} を導入する。
\textit{ValuePlanner} は LLM ベースの認知モジュールを使用して抽象値トレードオフを通じてシンボル的なサブゴールを生成し、古典的なPDDLプランナーによって実行可能なアクションプランに変換する。
このプロセスはクローズドループフィードバック機構によって洗練される。
このような自律性を評価するには,タスク・サクセス・レートを超える手法が必要であり,累積値ゲイン,嗜好アライメント,行動多様性を計測する価値中心評価スイートを提案する。
TongSimの家庭環境の実験では、 \textit{ValuePlanner} が競合する値を仲裁して、コヒーレントで長い水平で自己指向的な振る舞いを生成する。
我々の研究は、内在的価値をブリッジする構造的アプローチと、自律的エージェントに対する接地行動を提供する。
関連論文リスト
- PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations [66.94988600664574]
我々は,目標達成型強化学習を通じて事前学習を再構築するVLA基盤モデルであるtextbfPRTS(textbfPrimitive textbfReasoning and textbfTasking textbfSystem)を提案する。
論文 参考訳(メタデータ) (2026-04-30T06:14:02Z) - RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents [4.07447364754644]
本稿では,LLM ベースの RPA の性能を客観的に評価する多段階自動評価フレームワーク RPA-Check を紹介する。
我々は,この枠組みを,いくつかの定量化ローカルモデルを含む法医学的な訓練のための真剣なゲームであるLLM Courtに適用することで検証する。
論文 参考訳(メタデータ) (2026-04-13T16:08:03Z) - HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents [36.77027704958893]
HiPERは階層的計画実行(Hierarchical Plan-Execute RL)フレームワークで、高レベルの計画と低レベルの実行を分離する。
HiPER は ALFWorld で97.4%、Qwen2.5-7B-Instruct で WebShop で83.3% を達成している。
論文 参考訳(メタデータ) (2026-02-18T03:31:34Z) - Action-Sufficient Goal Representations [18.88691169447082]
本稿では,最適な行動選択に必要な目標表現条件である行動充足度を定義する情報理論フレームワークを提案する。
我々は、値飽和度がアクション飽和度を含まないことを証明し、後者が離散環境での制御成功とより強く結びついていることを実証的に検証する。
論文 参考訳(メタデータ) (2026-01-30T03:08:37Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Active Inference and Behavior Trees for Reactive Action Planning and
Execution in Robotics [2.040132783511305]
本研究では,動的環境における動的行動計画と実行のための活性推論と行動木(BT)の組み合わせを提案する。
提案手法により、部分的に観測可能な初期状態を扱うことができ、予期せぬ事態に対する古典的なBTの堅牢性を向上させることができる。
論文 参考訳(メタデータ) (2020-11-19T10:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。