論文の概要: PhysiAgent: An Embodied Agent Framework in Physical World
- arxiv url: http://arxiv.org/abs/2509.24524v1
- Date: Mon, 29 Sep 2025 09:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.903067
- Title: PhysiAgent: An Embodied Agent Framework in Physical World
- Title(参考訳): PhysiAgent:物理世界での身体的エージェントフレームワーク
- Authors: Zhihao Wang, Jianxiong Li, Jinliang Zheng, Wencong Zhang, Dongxiu Liu, Yinan Zheng, Haoyi Niu, Junzhi Yu, Xianyuan Zhan,
- Abstract要約: VLA(Vision-Language-Action)モデルは顕著な成功を収めたが、しばしば限定的な一般化に苦戦している。
現在のアプローチはしばしばこれらのモデルを厳密でシーケンシャルな構造に組み合わせる。
本研究では,物理環境において効果的に動作するように調整された物理エージェントフレームワークであるPhysorAgentを提案する。
- 参考スコア(独自算出の注目度): 33.821400205384144
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have achieved notable success but often struggle with limited generalizations. To address this, integrating generalized Vision-Language Models (VLMs) as assistants to VLAs has emerged as a popular solution. However, current approaches often combine these models in rigid, sequential structures: using VLMs primarily for high-level scene understanding and task planning, and VLAs merely as executors of lower-level actions, leading to ineffective collaboration and poor grounding challenges. In this paper, we propose an embodied agent framework, PhysiAgent, tailored to operate effectively in physical environments. By incorporating monitor, memory, self-reflection mechanisms, and lightweight off-the-shelf toolboxes, PhysiAgent offers an autonomous scaffolding framework to prompt VLMs to organize different components based on real-time proficiency feedback from VLAs to maximally exploit VLAs' capabilities. Experimental results demonstrate significant improvements in task-solving performance on complex real-world robotic tasks, showcasing effective self-regulation of VLMs, coherent tool collaboration, and adaptive evolution of the framework during execution. PhysiAgent makes practical and pioneering efforts to integrate VLMs and VLAs, effectively grounding embodied agent frameworks in real-world settings.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは顕著な成功を収めているが、しばしば限定的な一般化に苦戦している。
これを解決するため、一般化された視覚言語モデル(VLM)をVLAのアシスタントとして統合することが一般的なソリューションとして現れている。
しかしながら、現在のアプローチでは、これらのモデルを厳密でシーケンシャルな構造に結合することが多く、VLMを主に高レベルのシーン理解とタスク計画に使用し、VLAを単に低レベルのアクションの実行者として使用することで、非効率なコラボレーションと粗末な基盤的課題につながります。
本稿では,物理環境において効果的に動作するように調整された物理エージェントフレームワークであるPhysorAgentを提案する。
モニター、メモリ、自己回帰機構、軽量のオフザシェルフツールボックスを組み込むことで、PhysorAgentは、VLMにVLAからのリアルタイムの熟練度フィードバックに基づいて異なるコンポーネントを組織化させ、VLAの能力を最大限に活用する、自律的な足場フレームワークを提供する。
実験により,複雑な実世界のロボット作業におけるタスク解決性能の向上,VLMの効率的な自己制御,コヒーレントツールコラボレーション,実行時のフレームワークの適応的進化が示された。
PhysiAgentは、VLMとVLAを統合するための実用的で先駆的な取り組みを行い、実世界の環境において、効果的に組み込まれたエージェントフレームワークを構築している。
関連論文リスト
- SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control [38.81034547191083]
マルチエージェントシステム用に設計されたインターリーブ強化学習のための段階的ワークフローであるSWIRLを紹介する。
SWIRLは、MARLを一連の単エージェント強化学習タスクに再構成し、一方のエージェントを一度に更新し、他方のエージェントを固定する。
モバイルGUI制御への応用において、SWIRLは言語とスクリーンコンテキストを構造化されたプランに変換するナビゲータと、これらのプランを実行可能なアトミックアクションに変換するインターアクターをインスタンス化する。
論文 参考訳(メタデータ) (2025-08-27T16:27:19Z) - Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。
本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。
タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文 参考訳(メタデータ) (2025-07-22T09:26:00Z) - Aime: Towards Fully-Autonomous Multi-Agent Framework [13.494469496862534]
大規模言語モデル(LLM)を利用したマルチエージェントシステム(MAS)は、複雑で多面的な問題を解決するための強力なパラダイムとして浮上している。
これらのシステムのポテンシャルは、しばしば、臨界的な制限に悩まされる一般的なプラン・アンド・エグゼクティブ・フレームワークによって制約される。
本稿では、動的でリアクティブな計画と実行を通じてこれらの課題を克服するために設計された、新しいマルチエージェントフレームワークであるAimeを紹介する。
論文 参考訳(メタデータ) (2025-07-16T07:38:28Z) - EMAC+: Embodied Multimodal Agent for Collaborative Planning with VLM+LLM [8.3321872381107]
我々は,LLMとVLMを協調的に統合するEmbodied Multimodal AgentであるEMAC+を紹介する。
既存の方法とは異なり、EMAC+は低レベルの視覚制御タスクを実行するVLMからのリアルタイムフィードバックを使用して、高レベルのテキストプランを動的に洗練する。
EMAC+は、ノイズの多い観察と効率的な学習に対して優れたタスクパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-26T12:34:16Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Coalitions of Large Language Models Increase the Robustness of AI Agents [3.216132991084434]
大規模言語モデル(LLM)は、私たちがデジタルシステムと対話する方法を根本的に変えました。
LLMは強力で、いくつかの創発的な特性を示すことができるが、AIエージェントによって実行されるすべてのサブタスクでうまく機能するのに苦労する。
個別のサブタスクで特別性能を示す事前訓練されたLLMの連立系が,単一モデルエージェントの性能に適合するかどうかを評価する。
論文 参考訳(メタデータ) (2024-08-02T16:37:44Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。