Fugu-MT 論文翻訳(概要): CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation

論文の概要: CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation

arxiv url: http://arxiv.org/abs/2506.09343v1
Date: Wed, 11 Jun 2025 02:50:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:02.244229
Title: CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation
Title（参考訳）: Check Manual: マニュアルベースのアプライアンス操作のための新しい課題とベンチマーク
Authors: Yuxing Long, Jiyao Zhang, Mingjie Pan, Tianshu Wu, Taewhan Kim, Hao Dong,
Abstract要約: そこで本研究では,手作業によるアプライアンス操作ベンチマークであるCheckManualを提案する。具体的には、CADアプライアンスモデルに基づくマニュアルを作成するために、大規模なモデル支援による人為的なデータ生成パイプラインを設計する。モデル性能評価のための新しいマニュアルベースの操作課題,メトリクス,シミュレータ環境を確立する。
参考スコア（独自算出の注目度）: 4.820702758616031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Correct use of electrical appliances has significantly improved human life quality. Unlike simple tools that can be manipulated with common sense, different parts of electrical appliances have specific functions defined by manufacturers. If we want the robot to heat bread by microwave, we should enable them to review the microwave manual first. From the manual, it can learn about component functions, interaction methods, and representative task steps about appliances. However, previous manual-related works remain limited to question-answering tasks while existing manipulation researchers ignore the manual's important role and fail to comprehend multi-page manuals. In this paper, we propose the first manual-based appliance manipulation benchmark CheckManual. Specifically, we design a large model-assisted human-revised data generation pipeline to create manuals based on CAD appliance models. With these manuals, we establish novel manual-based manipulation challenges, metrics, and simulator environments for model performance evaluation. Furthermore, we propose the first manual-based manipulation planning model ManualPlan to set up a group of baselines for the CheckManual benchmark.
Abstract（参考訳）: 電気機器の正確な使用は、人間の生活の質を著しく改善した。一般的な感覚で操作できる単純なツールとは異なり、電気機器の様々な部分にはメーカーによって定義された特定の機能がある。ロボットに電子レンジでパンを加熱させたいなら、まずは電子レンジのマニュアルをレビューする必要がある。マニュアルから、コンポーネント機能、インタラクションメソッド、アプライアンスに関する代表タスクステップについて学ぶことができる。しかし、既存の操作研究者はマニュアルの重要な役割を無視し、複数のページのマニュアルを理解するのに失敗している。本稿では,手動によるアプライアンス操作ベンチマークであるCheckManualを提案する。具体的には、CADアプライアンスモデルに基づくマニュアルを作成するために、大規模なモデル支援による人為的なデータ生成パイプラインを設計する。これらのマニュアルを用いて、モデル性能評価のための新しいマニュアルベースの操作課題、メトリクス、シミュレータ環境を確立する。さらに,手作業による操作計画モデルManualPlanを提案する。

関連論文リスト

RealAppliance: Let High-fidelity Appliance Assets Controllable and Workable as Aligned Real Manuals [20.527398082686833]
既存のアプライアンス資産は、レンダリングの貧弱さ、不完全なメカニズム、マニュアルとのミスアライメントに悩まされている。本稿では,100個の高忠実度アプライアンスと完全物理,電子機構,プログラムロジックからなるRealApplianceデータセットについて紹介する。提案するRealAppliance-Benchベンチマークは,マルチモーダルな大規模言語モデルと具体的操作計画モデルを評価する。
論文参考訳（メタデータ） (2025-11-29T02:55:20Z)
No More Manual Guides: Automatic and Scalable Generation of High-Quality Excel Tutorials [63.10037761131196]
既存のチュートリアルは、専門家が手作業で作成し、ソフトウェアリリース毎に頻繁な更新が必要で、相当なコストがかかる。自然言語タスク記述から直接Excelチュートリアルを自動生成する最初のフレームワークを提案する。我々のフレームワークは、最先端のベースラインよりもタスク実行の成功率を8.5%向上させる。
論文参考訳（メタデータ） (2025-09-26T03:21:39Z)
Robot Operation of Home Appliances by Reading User Manuals [22.635290117482143]
ApBotは、ユーザーマニュアルを「読む」ことで家電を操作できるロボットシステムである。これらの課題に対処するため、ApBotはそのマニュアルからアプライアンスの構造化された象徴的なモデルを構築している。試行によると、ApBotはタスク成功率の一貫性と統計的に有意な改善を達成している。
論文参考訳（メタデータ） (2025-05-26T18:17:07Z)
Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models [21.72355258499675]
我々は,ロボットが高レベルの手動指示で案内される複雑な組み立てタスクを実行できる新しいフレームワークであるManual2Skillを提案する。提案手法では、視覚言語モデル(VLM)を用いて、命令画像から構造化された情報を抽出し、この情報を用いて階層的なアセンブリグラフを構築する。実世界のIKEA家具の組み立てに成功して, Manual2Skillの有効性を実証した。
論文参考訳（メタデータ） (2025-02-14T11:25:24Z)
AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation [15.44403761987512]
本稿では,AnyBimanualというプラグイン・アンド・プレイ方式を提案する。我々は、AnyBimanualが12のシミュレートされたタスクに対して、従来の方法よりも12.67%改善したことを示す。
論文参考訳（メタデータ） (2024-12-09T18:58:43Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
Kalib: Easy Hand-Eye Calibration with Reference Point Tracking [52.4190876409222]
カリブ (Kalib) は、視覚基礎モデルの一般化性を利用して課題を克服する手眼自動校正法である。校正中は、ロボットの後ろの空間内のカメラ座標3D座標に運動基準点を追跡する。 Kalibのユーザフレンドリな設計と最小限のセットアップ要件により、非構造化環境での継続的操作のソリューションとなり得る。
論文参考訳（メタデータ） (2024-08-20T06:03:40Z)
Proving the Potential of Skeleton Based Action Recognition to Automate the Analysis of Manual Processes [0.0]
本研究は、ビデオストリームに基づいて、手動組立プロセスにおける現在の動作クラスを検出する。現在の動きに関する情報により、KPI(Key-Performance-Indicators)を容易に導出できる。この分野では最近、機械ビジョンタスクで大きな成功を収めている。 MLパイプラインを開発し、異なる(事前)処理方法とニューラルネットの広範な研究を可能にする。
論文参考訳（メタデータ） (2023-10-12T16:11:13Z)
Knowing-how & Knowing-that: A New Task for Machine Comprehension of User Manuals [23.008244149595587]
本稿では,ユーザマニュアルに関するファクトイドスタイル,プロシージャスタイル,一貫性のない疑問に答えるために,モデルを必要とするノウハウとノウハウのタスクを紹介する。我々はこの課題を,様々な質問の統一的推論を支援するグラフTARAにおいて,ステップと事実を共同で表現することで解決する。
論文参考訳（メタデータ） (2023-06-07T06:46:56Z)
Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文参考訳（メタデータ） (2023-02-09T05:47:03Z)
Dexterous Manipulation from Images: Autonomous Real-World RL via Substep Guidance [71.36749876465618]
本稿では,ユーザが新しいタスクを定義するための"プログラミング不要"なアプローチを提供する,視覚に基づくデクスタラスな操作システムについて述べる。本システムには,最終タスクと中間タスクを画像例で定義するためのフレームワークが組み込まれている。実世界における多段階物体操作の4指ロボットハンドラーによる実験結果
論文参考訳（メタデータ） (2022-12-19T22:50:40Z)
Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。 RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文参考訳（メタデータ） (2022-09-11T16:28:25Z)
On the Evaluation of Vision-and-Language Navigation Instructions [76.92085026018427]
自動的に生成されたナビゲーション命令を利用することで、視覚・言語ナビゲーションのウェイフィングエージェントを強化することができる。既存の命令生成装置は包括的に評価されていない。 BLEU、ROUGE、METEORおよびCIDErは接地ナビゲーションの指示を評価するために有効ではないです。
論文参考訳（メタデータ） (2021-01-26T01:03:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。