論文の概要: OmniActor: A Generalist GUI and Embodied Agent for 2D&3D Worlds
- arxiv url: http://arxiv.org/abs/2509.02322v1
- Date: Tue, 02 Sep 2025 13:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.047424
- Title: OmniActor: A Generalist GUI and Embodied Agent for 2D&3D Worlds
- Title(参考訳): OmniActor:2D&3DワールドのためのジェネラリストGUIとエボダイドエージェント
- Authors: Longrong Yang, Zhixiong Zeng, Yufeng Zhong, Jing Huang, Liming Zheng, Lei Chen, Haibo Qiu, Zequn Qin, Lin Ma, Xi Li,
- Abstract要約: マルチモーダルな言語モデルは、タスクを積極的に実行できるマルチモーダルエージェントへと進化している。
エージェント研究の多くはGUIやエンボディ化されたシナリオに焦点を合わせており、それらはそれぞれ2次元仮想世界や3次元現実世界と相互作用するエージェントに対応している。
構造とデータの観点から設計した高性能汎用エージェントOmniActorを提案する。
- 参考スコア(独自算出の注目度): 21.902626737678286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models are evolving toward multimodal agents capable of proactively executing tasks. Most agent research focuses on GUI or embodied scenarios, which correspond to agents interacting with 2D virtual worlds or 3D real worlds, respectively. However, many complex tasks typically require agents to interleavely interact with these two types of environment. We initially mix GUI and embodied data to train, but find the performance degeneration brought by the data conflict. Further analysis reveals that GUI and embodied data exhibit synergy and conflict at the shallow and deep layers, respectively, which resembles the cerebrum-cerebellum mechanism in the human brain. To this end, we propose a high-performance generalist agent OmniActor, designed from both structural and data perspectives. First, we propose Layer-heterogeneity MoE to eliminate the conflict between GUI and embodied data by separating deep-layer parameters, while leverage their synergy by sharing shallow-layer parameters. By successfully leveraging the synergy and eliminating the conflict, OmniActor outperforms agents only trained by GUI or embodied data in GUI or embodied tasks. Furthermore, we unify the action spaces of GUI and embodied tasks, and collect large-scale GUI and embodied data from various sources for training. This significantly improves OmniActor under different scenarios, especially in GUI tasks. The code will be publicly available.
- Abstract(参考訳): マルチモーダルな言語モデルは、タスクを積極的に実行できるマルチモーダルエージェントへと進化している。
エージェント研究の多くはGUIやエンボディ化されたシナリオに焦点を合わせており、それらはそれぞれ2次元仮想世界や3次元現実世界と相互作用するエージェントに対応している。
しかし、多くの複雑なタスクは、通常、エージェントがこれらの2種類の環境とインターリーブに相互作用する必要がある。
最初はGUIと具体化されたデータをトレーニングに混ぜましたが、データ競合によるパフォーマンス劣化を見つけました。
さらなる分析により、GUIとエンボディドデータは、それぞれ浅い層と深い層に相乗効果と衝突を示すことが明らかとなり、これはヒト脳の脳小脳機構に類似している。
そこで本研究では,構造とデータの観点から設計した高性能汎用エージェントOmniActorを提案する。
まず、深い層パラメータを分離し、浅い層パラメータを共有することでそれらの相乗効果を活用することにより、GUIと具体化データの衝突を解消する層異質性MoEを提案する。
シナジーの活用と競合の排除に成功して、OmniActorはGUIで訓練されたエージェントやGUIで具現化されたデータ、あるいは具現化されたタスクでのみ訓練されたエージェントより優れている。
さらに,GUIと具体化タスクのアクション空間を統一し,大規模GUIと具体化データを各種ソースから収集し,トレーニングを行う。
これにより、特にGUIタスクにおいて、異なるシナリオ下でOmniActorが大幅に改善される。
コードは公開されます。
関連論文リスト
- MagicGUI: A Foundational Mobile GUI Agent with Scalable Data Pipeline and Reinforcement Fine-tuning [83.81404871748438]
MagicGUIは、現実のモバイルGUI環境における認識、接地、推論における重要な課題に対処するために設計された、基本的なモバイルGUIエージェントである。
フレームワークには、包括的で正確なデータセット、知覚と接地能力の強化、包括的で統一されたアクション空間、計画指向の推論メカニズムを含む6つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2025-07-19T12:33:43Z) - InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection [38.833925781308665]
MLLMベースのGUIエージェントである textitInfiGUIAgent を2段階の教師付き微調整パイプラインでトレーニングした。
ステージ1はGUIの理解や接地といった基本的なスキルを強化し、ステージ2は階層的推論と予測反射推論のスキルを統合する。
textitInfiGUIAgentは、いくつかのGUIベンチマークで競合するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-08T15:45:21Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Ponder & Press: Advancing Visual GUI Agent towards General Computer Control [13.39115823642937]
Ponder & Press(ポンダー・アンド・プレス)は、視覚的入力のみを使用する汎用コンピュータ制御のための分断型フレームワークである。
我々のエージェントは、幅広い応用に適用可能な、多目的で人間のような相互作用パラダイムを提供する。
論文 参考訳(メタデータ) (2024-12-02T08:35:31Z) - Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents [20.08996257335876]
環境を視覚的に完全に認識し,GUI上でピクセルレベルの操作を直接実行する,GUIエージェントのためのヒューマンライクなエボディメントを提唱する。
これまでに10MのGUI要素と参照式を1.3Mのスクリーンショット上に収めた、GUIの視覚的接地のための最大のデータセットを収集しました。
ウェブベースの合成データとLLaVAアーキテクチャの若干の適応を含む簡単なレシピは、このような視覚的接地モデルのトレーニングに驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-07T17:47:50Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。