論文の概要: Human-to-Robot Interaction: Learning from Video Demonstration for Robot Imitation
- arxiv url: http://arxiv.org/abs/2602.19184v1
- Date: Sun, 22 Feb 2026 13:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.632353
- Title: Human-to-Robot Interaction: Learning from Video Demonstration for Robot Imitation
- Title(参考訳): 人間とロボットのインタラクション:ロボット模倣のためのビデオデモから学ぶ
- Authors: Thanh Nguyen Canh, Thanh-Tuan Tran, Haolan Zhang, Ziyan Gao, Nak Young Chong, Xiem HoangVan,
- Abstract要約: 人間とロボットの模倣学習パイプラインは、ロボットが非構造化ビデオデモから直接操作スキルを取得することを可能にする。
鍵となる革新は、学習プロセスを2つの異なる段階に分離するモジュラーフレームワークである。
ロボット操作では,全ての動作の平均成功率は87.5%であり,タスク達成で100%,複雑なピック・アンド・プレイス操作で90%に達する。
- 参考スコア(独自算出の注目度): 5.967530183571141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from Demonstration (LfD) offers a promising paradigm for robot skill acquisition. Recent approaches attempt to extract manipulation commands directly from video demonstrations, yet face two critical challenges: (1) general video captioning models prioritize global scene features over task-relevant objects, producing descriptions unsuitable for precise robotic execution, and (2) end-to-end architectures coupling visual understanding with policy learning require extensive paired datasets and struggle to generalize across objects and scenarios. To address these limitations, we propose a novel ``Human-to-Robot'' imitation learning pipeline that enables robots to acquire manipulation skills directly from unstructured video demonstrations, inspired by the human ability to learn by watching and imitating. Our key innovation is a modular framework that decouples the learning process into two distinct stages: (1) Video Understanding, which combines Temporal Shift Modules (TSM) with Vision-Language Models (VLMs) to extract actions and identify interacted objects, and (2) Robot Imitation, which employs TD3-based deep reinforcement learning to execute the demonstrated manipulations. We validated our approach in PyBullet simulation environments with a UR5e manipulator and in a real-world experiment with a UF850 manipulator across four fundamental actions: reach, pick, move, and put. For video understanding, our method achieves 89.97% action classification accuracy and BLEU-4 scores of 0.351 on standard objects and 0.265 on novel objects, representing improvements of 76.4% and 128.4% over the best baseline, respectively. For robot manipulation, our framework achieves an average success rate of 87.5% across all actions, with 100% success on reaching tasks and up to 90% on complex pick-and-place operations. The project website is available at https://thanhnguyencanh.github.io/LfD4hri.
- Abstract(参考訳): Demonstration(LfD)からの学習は、ロボットのスキル獲得に有望なパラダイムを提供する。
最近のアプローチでは,映像のデモンストレーションから直接操作コマンドを抽出する試みがあるが,(1)タスク関連オブジェクトよりもグローバルシーンの特徴を優先する一般的なビデオキャプションモデル,(2)ロボットの正確な実行に適さない記述を生成するアーキテクチャ,(2)ポリシー学習と視覚的理解を結合するエンド・ツー・エンドアーキテクチャの2つの重要な課題に直面している。
これらの制約に対処するために,ロボットが非構造化ビデオデモから直接操作スキルを習得することを可能にする,新しい「Human-to-Robot」模倣学習パイプラインを提案する。
重要なイノベーションは,学習プロセスを2つの異なる段階に分離するモジュール・フレームワークである。(1) 時間シフトモジュール(TSM)と視覚言語モデル(VLM)を組み合わせて動作を抽出し,相互作用対象を識別するビデオ理解,(2) TD3をベースとした深層強化学習を用いたロボット模倣。
我々は, UR5eマニピュレータを用いたPyBulletシミュレーション環境と, UF850マニピュレータを用いた実世界実験において, リーチ, ピック, 移動, 配置の4つの基本動作に関するアプローチを検証した。
ビデオ理解では,標準対象では89.97%,標準対象では0.351,新規対象では0.265,それぞれ76.4%,最良基準では128.4%であった。
ロボット操作では,全ての動作の平均成功率は87.5%であり,タスク達成に100%,複雑なピック・アンド・プレイス操作に90%が成功している。
プロジェクトのWebサイトはhttps://thanhnguyencanh.github.io/LfD4hriで公開されている。
関連論文リスト
- Dexterous Manipulation Policies from RGB Human Videos via 3D Hand-Object Trajectory Reconstruction [24.49384094440561]
我々は,RGBのヒューマンビデオから直接デクスタラスな操作を学習する,デバイスフリーのフレームワークであるVIDEOMANIPを提案する。
シミュレーションでは、学習した把握モデルはインスパイアハンドを用いて20種類のオブジェクトに対して70.25%の成功率を達成する。
実世界では、RGBビデオから訓練された操作ポリシーは、LEAPハンドを使用して7つのタスクで平均62.86%の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-09T18:56:02Z) - Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration [21.94699075066712]
本稿では,タスクを実演する人間の1つのRGB-Dビデオのみを用いて,創発的な操作ポリシーを訓練する,新しいリアルタイム・シミュレート・トゥ・リアルフレームワークを提案する。
Human2Sim2Robotは、オブジェクト認識のリプレイを55%以上上回り、模倣学習を68%以上上回っている。
論文 参考訳(メタデータ) (2025-04-17T03:15:20Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Towards Generalizable Zero-Shot Manipulation via Translating Human
Interaction Plans [58.27029676638521]
我々は、人間の受動的ビデオが、そのようなジェネラリストロボットを学習するための豊富なデータ源であることを示す。
我々は、シーンの現在の画像とゴール画像から将来の手やオブジェクトの設定を予測する人間の計画予測器を学習する。
学習システムは、40個のオブジェクトに一般化する16以上の操作スキルを実現できることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:54:12Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。