Fugu-MT 論文翻訳(概要): HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

論文の概要: HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

arxiv url: http://arxiv.org/abs/2508.02629v1
Date: Mon, 04 Aug 2025 17:18:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-05 18:25:22.451835
Title: HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents
Title（参考訳）: HyCodePolicy: エージェントのマルチモーダルモニタリングと決定のためのハイブリッド言語コントローラ
Authors: Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu,
Abstract要約: HyCodePolicyは、エンボディエージェントのための言語ベースの制御フレームワークである。コード合成、幾何学的接地、知覚的モニタリング、反復的修復をクローズドループプログラミングサイクルに統合する。その結果,HyCodePolicyはロボット操作ポリシーの堅牢性とサンプル効率を大幅に向上させることがわかった。
参考スコア（独自算出の注目度）: 6.861838493263133
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in multimodal large language models (MLLMs) have enabled richer perceptual grounding for code policy generation in embodied agents. However, most existing systems lack effective mechanisms to adaptively monitor policy execution and repair codes during task completion. In this work, we introduce HyCodePolicy, a hybrid language-based control framework that systematically integrates code synthesis, geometric grounding, perceptual monitoring, and iterative repair into a closed-loop programming cycle for embodied agents. Technically, given a natural language instruction, our system first decomposes it into subgoals and generates an initial executable program grounded in object-centric geometric primitives. The program is then executed in simulation, while a vision-language model (VLM) observes selected checkpoints to detect and localize execution failures and infer failure reasons. By fusing structured execution traces capturing program-level events with VLM-based perceptual feedback, HyCodePolicy infers failure causes and repairs programs. This hybrid dual feedback mechanism enables self-correcting program synthesis with minimal human supervision. Our results demonstrate that HyCodePolicy significantly improves the robustness and sample efficiency of robot manipulation policies, offering a scalable strategy for integrating multimodal reasoning into autonomous decision-making pipelines.
Abstract（参考訳）: マルチモーダル大規模言語モデル(MLLM)の最近の進歩により、エンボディエージェントにおけるコードポリシー生成のためのより豊かな知覚的基盤が実現されている。しかし、既存のシステムの多くは、タスク完了時のポリシー実行とコード修復を適応的に監視する効果的なメカニズムを欠いている。本稿では,HyCodePolicyについて紹介する。HyCodePolicyは,コード合成,幾何学的接地,知覚的モニタリング,反復的修復を,エンボディエージェントのためのクローズドループプログラミングサイクルに体系的に統合する,ハイブリッド言語ベースの制御フレームワークである。技術的には、自然言語命令が与えられたら、まずそれをサブゴールに分解し、オブジェクト中心の幾何学的プリミティブに基づく初期実行プログラムを生成する。プログラムはシミュレーションで実行され、視覚言語モデル(VLM)は選択したチェックポイントを観察して、実行障害を検出してローカライズし、失敗の原因を推測する。 VLMベースの知覚フィードバックでプログラムレベルのイベントをキャプチャする構造化実行トレースを融合することにより、HyCodePolicyは障害の原因を推測し、プログラムを修復する。このハイブリッド二重フィードバック機構は、人間の監督を最小限にして自己修正プログラムの合成を可能にする。その結果,HyCodePolicyはロボット操作ポリシーの堅牢性とサンプル効率を大幅に向上させ,自律的な意思決定パイプラインにマルチモーダル推論を統合するためのスケーラブルな戦略を提供することを示した。

関連論文リスト

AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework [4.782965804438204]
大規模言語モデル(LLM)は、科学的コード生成を自動化する可能性を示しているが、信頼性、エラーの伝播、評価において課題に直面している。我々は,AI for Science(AI4S)タスクを低符号プラットフォーム(LCP)の形で特別に設計したベイズ対向型マルチエージェントフレームワークを提案する。ユーザ入力を実行可能な計画と適応テストケースに構造化するタスクマネージャ、候補ソリューションを生成するコードジェネレータ、包括的なフィードバックを提供する評価器である。
論文参考訳（メタデータ） (2026-03-03T18:25:00Z)
ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文参考訳（メタデータ） (2026-01-27T13:43:59Z)
ALRM: Agentic LLM for Robotic Manipulation [3.7473235317736058]
大規模言語モデル(LLM)は最近、高度な推論と計画能力を示すためにエージェントフレームワークに権限を与えた。大規模言語モデル(LLM)は最近、高度な推論と計画能力を示すためにエージェントフレームワークに権限を与えた。
論文参考訳（メタデータ） (2026-01-27T11:54:14Z)
Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文参考訳（メタデータ） (2025-12-24T07:42:10Z)
Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。 ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文参考訳（メタデータ） (2025-10-11T18:11:09Z)
Discovering Interpretable Programmatic Policies via Multimodal LLM-assisted Evolutionary Search [21.02398143073197]
解釈可能性と高い性能は、特に安全クリティカルなタスクにおいて、制御ポリシーを設計する上で必須の目標である。本研究は,MLES (Multimodal Large Language Model-Assisted Search) と呼ばれる,プログラム型ポリシー発見のための新しいアプローチを導入する。 MLESはマルチモーダルな大言語モデルをポリシージェネレータとして利用し、自動ポリシー最適化のための進化的メカニズムと組み合わせている。
論文参考訳（メタデータ） (2025-08-07T14:24:03Z)
Autonomous Control Leveraging LLMs: An Agentic Framework for Next-Generation Industrial Automation [0.0]
本稿では,大規模言語モデル(LLM)を個別のフォールトリカバリ計画と継続的プロセス制御の両方に活用する統合エージェントフレームワークを提案する。その結果、構造化されたフィードバックとモジュラーエージェントにより、LLMは高レベルな記号計画と低レベルな連続制御を統一できることを示した。
論文参考訳（メタデータ） (2025-07-03T11:20:22Z)
Execution Guided Line-by-Line Code Generation [49.1574468325115]
本稿では,言語モデル生成プロセスにリアルタイム実行信号を組み込んだニューラルコード生成手法を提案する。提案手法であるExecutionGuidedFree Guidance (EGCFG) は,実行信号をモデルが生成するコードとして組み込む。
論文参考訳（メタデータ） (2025-06-12T17:50:05Z)
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文参考訳（メタデータ） (2024-12-05T18:58:27Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。 PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文参考訳（メタデータ） (2023-01-31T18:02:26Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文参考訳（メタデータ） (2022-07-05T02:42:15Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。