論文の概要: Robot Operation of Home Appliances by Reading User Manuals
- arxiv url: http://arxiv.org/abs/2505.20424v1
- Date: Mon, 26 May 2025 18:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.238684
- Title: Robot Operation of Home Appliances by Reading User Manuals
- Title(参考訳): ユーザマニュアル読解による家電機器のロボット操作
- Authors: Jian Zhang, Hanbo Zhang, Anxing Xiao, David Hsu,
- Abstract要約: ApBotは、ユーザーマニュアルを「読む」ことで家電を操作できるロボットシステムである。
これらの課題に対処するため、ApBotはそのマニュアルからアプライアンスの構造化された象徴的なモデルを構築している。
試行によると、ApBotはタスク成功率の一貫性と統計的に有意な改善を達成している。
- 参考スコア(独自算出の注目度): 22.635290117482143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Operating home appliances, among the most common tools in every household, is a critical capability for assistive home robots. This paper presents ApBot, a robot system that operates novel household appliances by "reading" their user manuals. ApBot faces multiple challenges: (i) infer goal-conditioned partial policies from their unstructured, textual descriptions in a user manual document, (ii) ground the policies to the appliance in the physical world, and (iii) execute the policies reliably over potentially many steps, despite compounding errors. To tackle these challenges, ApBot constructs a structured, symbolic model of an appliance from its manual, with the help of a large vision-language model (VLM). It grounds the symbolic actions visually to control panel elements. Finally, ApBot closes the loop by updating the model based on visual feedback. Our experiments show that across a wide range of simulated and real-world appliances, ApBot achieves consistent and statistically significant improvements in task success rate, compared with state-of-the-art large VLMs used directly as control policies. These results suggest that a structured internal representations plays an important role in robust robot operation of home appliances, especially, complex ones.
- Abstract(参考訳): 家電の操作は、家庭でもっとも一般的な道具の1つであり、補助的なホームロボットにとって重要な能力である。
本稿では,ユーザマニュアルを読み取ることで,新しい家電を動作させるロボットシステムであるApBotについて述べる。
ApBotはいくつかの課題に直面している。
一 ユーザマニュアルの非構造化文書から目標条件の部分的方針を推測すること。
二 物理界の家電に方針を定め、
(三)複雑な誤りにもかかわらず、潜在的に多くのステップで確実に政策を実行すること。
これらの課題に対処するため、ApBotは、大きな視覚言語モデル(VLM)の助けを借りて、そのマニュアルからアプライアンスの構造化された象徴的なモデルを構築している。
パネル要素を制御するために、象徴的なアクションを視覚的にグラウンドする。
最後に、ApBotは視覚的なフィードバックに基づいてモデルを更新することでループを閉じる。
実験の結果,ApBotはタスク成功率の安定的かつ統計的に有意な改善を実現し,制御ポリシとして直接使用される最先端の大規模VLMと比較した。
これらの結果から, 構造された内部表現は家電機器, 特に複雑な機器のロバストなロボット操作において重要な役割を担っていることが示唆された。
関連論文リスト
- RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。
大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。
強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2025-05-03T06:17:18Z) - Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models [21.72355258499675]
我々は,ロボットが高レベルの手動指示で案内される複雑な組み立てタスクを実行できる新しいフレームワークであるManual2Skillを提案する。
提案手法では,視覚言語モデル(VLM)を用いて,教師画像から構造化情報を抽出する。
実世界のIKEA家具の組み立てに成功して, Manual2Skillの有効性を実証した。
論文 参考訳(メタデータ) (2025-02-14T11:25:24Z) - $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [37.952398683031895]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。
本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。
提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文 参考訳(メタデータ) (2023-12-22T06:15:03Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - PLEX: Making the Most of the Available Data for Robotic Manipulation
Pretraining [28.504762473732296]
本稿では,タスク非依存のビジュモータトラジェクトリから学習するトランスフォーマーに基づくアーキテクチャを提案する。
特に、コンプレックスのトランスフォーマーにおける相対的な位置エンコーディングを使用することは、人間が編集したデモから学習する低データ体制において大いに役立ちます。
論文 参考訳(メタデータ) (2023-03-15T17:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。