論文の概要: See-Control: A Multimodal Agent Framework for Smartphone Interaction with a Robotic Arm
- arxiv url: http://arxiv.org/abs/2512.08629v1
- Date: Tue, 09 Dec 2025 14:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.992784
- Title: See-Control: A Multimodal Agent Framework for Smartphone Interaction with a Robotic Arm
- Title(参考訳): See-Control:ロボットアームとスマートフォンインタラクションのためのマルチモーダルエージェントフレームワーク
- Authors: Haoyu Zhao, Weizhong Ding, Yuhao Yang, Zheng Tian, Linyi Yang, Kun Shao, Jun Wang,
- Abstract要約: See-Controlは、ローDoFロボットアームとの直接物理的相互作用を通じてスマートフォン操作を可能にするフレームワークである。
デジタルエージェントと物理世界のギャップを埋めることによって、See-Controlは、ホームロボットがスマートフォンに依存したタスクを実行できるようにするための具体的なステップを提供する。
- 参考スコア(独自算出の注目度): 32.48378916350775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have enabled their use as intelligent agents for smartphone operation. However, existing methods depend on the Android Debug Bridge (ADB) for data transmission and action execution, limiting their applicability to Android devices. In this work, we introduce the novel Embodied Smartphone Operation (ESO) task and present See-Control, a framework that enables smartphone operation via direct physical interaction with a low-DoF robotic arm, offering a platform-agnostic solution. See-Control comprises three key components: (1) an ESO benchmark with 155 tasks and corresponding evaluation metrics; (2) an MLLM-based embodied agent that generates robotic control commands without requiring ADB or system back-end access; and (3) a richly annotated dataset of operation episodes, offering valuable resources for future research. By bridging the gap between digital agents and the physical world, See-Control provides a concrete step toward enabling home robots to perform smartphone-dependent tasks in realistic environments.
- Abstract(参考訳): 近年のMLLM(Multimodal Large Language Models)は,スマートフォン操作のインテリジェントエージェントとしての利用を可能にしている。
しかし、既存のメソッドはデータ転送とアクション実行にAndroid Debug Bridge(ADB)に依存しており、Androidデバイスへの適用性が制限されている。
本研究では,新しいEmbodied smartphone Operation (ESO)タスクと,低DoFロボットアームとの直接的物理的相互作用によるスマートフォン操作を実現するフレームワークであるSee-Controlを紹介し,プラットフォームに依存しないソリューションを提案する。
See-Control は,(1) タスクとそれに対応する評価指標を備えた ESO ベンチマーク,(2) ADB やシステムバックエンドアクセスを必要とせずにロボット制御コマンドを生成する MLLM ベースの実施エージェント,(3) 操作エピソードの豊富な注釈付きデータセット,そして将来の研究に有用なリソースを提供する。
デジタルエージェントと物理世界のギャップを埋めることによって、See-Controlは、現実的な環境でスマートフォンに依存したタスクをホームロボットが実行できるようにするための具体的なステップを提供する。
関連論文リスト
- OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments [11.97783742296183]
Embodied Mobile Manipulation in Open Environmentsは、エージェントがユーザーの指示を解釈し、連続した空間で長時間の日常的なタスクを実行する必要があるベンチマークである。
Open EnvironmentsにおけるEmbodied Mobile Manipulationは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合します。
We design model, a sophisticated agent system, a LLM with Direct Preference Optimization (DPO), light weighted navigation and operation model, and multiple error detection mechanism。
論文 参考訳(メタデータ) (2025-03-11T16:42:36Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Learning Multi-Arm Manipulation Through Collaborative Teleoperation [63.35924708783826]
模倣学習(il)はロボットに操作タスクを実行するための強力なパラダイムである。
多くの現実世界のタスクは、重い物体を持ち上げる、デスクを組み立てるなど、複数のアームを必要とする。
複数のリモートユーザが同時にロボットアームを遠隔操作できるマルチユーザデータ収集プラットフォームであるMulti-Arm RoboTurk(MART)を紹介した。
論文 参考訳(メタデータ) (2020-12-12T05:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。