Fugu-MT 論文翻訳(概要): DemoBot: Efficient Learning of Bimanual Manipulation with Dexterous Hands From Third-Person Human Videos

論文の概要: DemoBot: Efficient Learning of Bimanual Manipulation with Dexterous Hands From Third-Person Human Videos

arxiv url: http://arxiv.org/abs/2601.01651v1
Date: Sun, 04 Jan 2026 20:06:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.627048
Title: DemoBot: Efficient Learning of Bimanual Manipulation with Dexterous Hands From Third-Person Human Videos
Title（参考訳）: DemoBot: 人間の3人称ビデオから手指でバイマニピュレーションを効果的に学習する
Authors: Yucheng Xu, Xiaofeng Mao, Elle Miller, Xinyu Yi, Yang Li, Zhibin Li, Robert B. Fisher,
Abstract要約: この研究は、デュアルアームのマルチフィンガーロボットシステムが、単一の注釈のないRGB-Dビデオデモから複雑な操作スキルを取得することができる学習フレームワークであるDemoBotを提示する。生のビデオデータから手と物体の構造化された運動軌跡を抽出する。これらの軌道は、接触に富んだ相互作用を通じてそれらを洗練することを学ぶ新しい強化学習(RL)パイプラインの運動先として機能する。
参考スコア（独自算出の注目度）: 17.97841036758043
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This work presents DemoBot, a learning framework that enables a dual-arm, multi-finger robotic system to acquire complex manipulation skills from a single unannotated RGB-D video demonstration. The method extracts structured motion trajectories of both hands and objects from raw video data. These trajectories serve as motion priors for a novel reinforcement learning (RL) pipeline that learns to refine them through contact-rich interactions, thereby eliminating the need to learn from scratch. To address the challenge of learning long-horizon manipulation skills, we introduce: (1) Temporal-segment based RL to enforce temporal alignment of the current state with demonstrations; (2) Success-Gated Reset strategy to balance the refinement of readily acquired skills and the exploration of subsequent task stages; and (3) Event-Driven Reward curriculum with adaptive thresholding to guide the RL learning of high-precision manipulation. The novel video processing and RL framework successfully achieved long-horizon synchronous and asynchronous bimanual assembly tasks, offering a scalable approach for direct skill acquisition from human videos.
Abstract（参考訳）: この研究は、デュアルアームのマルチフィンガーロボットシステムが、単一の注釈のないRGB-Dビデオデモから複雑な操作スキルを取得することができる学習フレームワークであるDemoBotを提示する。生のビデオデータから手と物体の構造化された運動軌跡を抽出する。これらの軌道は、接触に富んだ相互作用を通じてそれらを洗練することを学ぶ新しい強化学習(RL)パイプラインの動作先として機能し、それによってスクラッチから学ぶ必要がなくなる。本研究では,(1)現在状態の時間的アライメントを実演で実施する時間分割型RL,(2)手軽に獲得したスキルの洗練とその後の課題段階の探索を両立させる成功型リセット戦略,(3)適応しきい値を用いたイベント駆動型リワードカリキュラムの導入について紹介する。ビデオ処理とRLフレームワークは、人間のビデオから直接のスキル獲得のためのスケーラブルなアプローチを提供することで、長距離同期および非同期双方向アセンブリタスクを成功させた。

関連論文リスト

CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。 CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-07T16:26:33Z)
Learning Skills from Action-Free Videos [20.442392109789772]
我々は,アクションフリービデオから潜在スキルを学ぶためのフレームワークであるSkill Abstraction from Optical Flow (SOF)を紹介した。 SOFは、ビデオ由来のスキルよりも高いレベルのプランニングを可能にし、これらのスキルのアクションへの翻訳を容易にする。実験により,マルチタスクとロングホライズン設定の両方において,提案手法は一貫して性能を向上することが示された。
論文参考訳（メタデータ） (2025-12-23T05:03:33Z)
Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration [21.94699075066712]
本稿では,タスクを実演する人間の1つのRGB-Dビデオのみを用いて,創発的な操作ポリシーを訓練する,新しいリアルタイム・シミュレート・トゥ・リアルフレームワークを提案する。 Human2Sim2Robotは、オブジェクト認識のリプレイを55%以上上回り、模倣学習を68%以上上回っている。
論文参考訳（メタデータ） (2025-04-17T03:15:20Z)
You Only Teach Once: Learn One-Shot Bimanual Robotic Manipulation from Video Demonstrations [38.835807227433335]
双方向ロボット操作は、インテリジェンスを具現化した長年にわたる課題である。両眼でのみ観察できるヨト(YOTO)を提案する。 YOTOは5つの複雑なロングホライゾンのバイマニュアルタスクを模倣することで、素晴らしいパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-01-24T03:26:41Z)
VTAO-BiManip: Masked Visual-Tactile-Action Pre-training with Object Understanding for Bimanual Dexterous Manipulation [8.882764358932276]
両手の DoF の高さと協調性のため、ロボット工学における両面的な操作は依然として重要な課題である。既存の片手操作技術は、人間のデモンストレーションを利用してRL法を誘導するが、複数のサブスキルを含む複雑な双対タスクに一般化できないことが多い。 VTAO-BiManipは,視覚触覚前訓練と物体理解を組み合わせた新しいフレームワークである。
論文参考訳（メタデータ） (2025-01-07T08:14:53Z)
SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文参考訳（メタデータ） (2024-10-23T17:42:07Z)
REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文参考訳（メタデータ） (2023-09-06T19:05:31Z)
Silver-Bullet-3D at ManiSkill 2021: Learning-from-Demonstrations and Heuristic Rule-based Methods for Object Manipulation [118.27432851053335]
本稿では,SAPIEN ManiSkill Challenge 2021: No Interaction Trackにおいて,以下の2つのトラックを対象としたシステムの概要と比較分析を行った。 No Interactionは、事前に収集された実証軌道からの学習ポリシーのターゲットを追跡する。このトラックでは,タスクを一連のサブタスクに分解することで,高品質なオブジェクト操作をトリガするHuristic Rule-based Method (HRM) を設計する。各サブタスクに対して、ロボットアームに適用可能なアクションを予測するために、単純なルールベースの制御戦略が採用されている。
論文参考訳（メタデータ） (2022-06-13T16:20:42Z)
Bottom-Up Skill Discovery from Unsegmented Demonstrations for Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-09-28T16:18:54Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。