論文の概要: CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation
- arxiv url: http://arxiv.org/abs/2506.09343v1
- Date: Wed, 11 Jun 2025 02:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.244229
- Title: CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation
- Title(参考訳): Check Manual: マニュアルベースのアプライアンス操作のための新しい課題とベンチマーク
- Authors: Yuxing Long, Jiyao Zhang, Mingjie Pan, Tianshu Wu, Taewhan Kim, Hao Dong,
- Abstract要約: そこで本研究では,手作業によるアプライアンス操作ベンチマークであるCheckManualを提案する。
具体的には、CADアプライアンスモデルに基づくマニュアルを作成するために、大規模なモデル支援による人為的なデータ生成パイプラインを設計する。
モデル性能評価のための新しいマニュアルベースの操作課題,メトリクス,シミュレータ環境を確立する。
- 参考スコア(独自算出の注目度): 4.820702758616031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Correct use of electrical appliances has significantly improved human life quality. Unlike simple tools that can be manipulated with common sense, different parts of electrical appliances have specific functions defined by manufacturers. If we want the robot to heat bread by microwave, we should enable them to review the microwave manual first. From the manual, it can learn about component functions, interaction methods, and representative task steps about appliances. However, previous manual-related works remain limited to question-answering tasks while existing manipulation researchers ignore the manual's important role and fail to comprehend multi-page manuals. In this paper, we propose the first manual-based appliance manipulation benchmark CheckManual. Specifically, we design a large model-assisted human-revised data generation pipeline to create manuals based on CAD appliance models. With these manuals, we establish novel manual-based manipulation challenges, metrics, and simulator environments for model performance evaluation. Furthermore, we propose the first manual-based manipulation planning model ManualPlan to set up a group of baselines for the CheckManual benchmark.
- Abstract(参考訳): 電気機器の正確な使用は、人間の生活の質を著しく改善した。
一般的な感覚で操作できる単純なツールとは異なり、電気機器の様々な部分にはメーカーによって定義された特定の機能がある。
ロボットに電子レンジでパンを加熱させたいなら、まずは電子レンジのマニュアルをレビューする必要がある。
マニュアルから、コンポーネント機能、インタラクションメソッド、アプライアンスに関する代表タスクステップについて学ぶことができる。
しかし、既存の操作研究者はマニュアルの重要な役割を無視し、複数のページのマニュアルを理解するのに失敗している。
本稿では,手動によるアプライアンス操作ベンチマークであるCheckManualを提案する。
具体的には、CADアプライアンスモデルに基づくマニュアルを作成するために、大規模なモデル支援による人為的なデータ生成パイプラインを設計する。
これらのマニュアルを用いて、モデル性能評価のための新しいマニュアルベースの操作課題、メトリクス、シミュレータ環境を確立する。
さらに,手作業による操作計画モデルManualPlanを提案する。
関連論文リスト
- Robot Operation of Home Appliances by Reading User Manuals [22.635290117482143]
ApBotは、ユーザーマニュアルを「読む」ことで家電を操作できるロボットシステムである。
これらの課題に対処するため、ApBotはそのマニュアルからアプライアンスの構造化された象徴的なモデルを構築している。
試行によると、ApBotはタスク成功率の一貫性と統計的に有意な改善を達成している。
論文 参考訳(メタデータ) (2025-05-26T18:17:07Z) - Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models [21.72355258499675]
我々は,ロボットが高レベルの手動指示で案内される複雑な組み立てタスクを実行できる新しいフレームワークであるManual2Skillを提案する。
提案手法では、視覚言語モデル(VLM)を用いて、命令画像から構造化された情報を抽出し、この情報を用いて階層的なアセンブリグラフを構築する。
実世界のIKEA家具の組み立てに成功して, Manual2Skillの有効性を実証した。
論文 参考訳(メタデータ) (2025-02-14T11:25:24Z) - AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation [15.44403761987512]
本稿では,AnyBimanualというプラグイン・アンド・プレイ方式を提案する。
我々は、AnyBimanualが12のシミュレートされたタスクに対して、従来の方法よりも12.67%改善したことを示す。
論文 参考訳(メタデータ) (2024-12-09T18:58:43Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Dexterous Manipulation from Images: Autonomous Real-World RL via Substep
Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。
本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。
実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文 参考訳(メタデータ) (2022-12-19T22:50:40Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - On the Evaluation of Vision-and-Language Navigation Instructions [76.92085026018427]
自動的に生成されたナビゲーション命令を利用することで、視覚・言語ナビゲーションのウェイフィングエージェントを強化することができる。
既存の命令生成装置は包括的に評価されていない。
BLEU、ROUGE、METEORおよびCIDErは接地ナビゲーションの指示を評価するために有効ではないです。
論文 参考訳(メタデータ) (2021-01-26T01:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。