Fugu-MT 論文翻訳(概要): Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

論文の概要: Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2604.24681v1
Date: Mon, 27 Apr 2026 16:42:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:08.179128
Title: Learning Human-Intention Priors from Large-Scale Human Demonstrations for Robotic Manipulation
Title（参考訳）: ロボットマニピュレーションのための大規模人間デモからの人間意図の事前学習
Authors: Yifan Xie, YuAn Wang, Guangyu Chen, Jinkun Liu, Yu Sun, Wenbo Ding,
Abstract要約: 大規模な人間のデモンストレーションから人間の意図を学習する階層型視覚言語行動フレームワークであるMoT-HRAを紹介する。我々はまず、異種ビデオから再構成した2.2Mのアクション言語データセットであるHA-2.2Mをキュレートする。ハンドモーション生成, シミュレーション操作, 実世界のロボットタスクの実験により, MoT-HRAは分布シフト下での動作の可視性とロバストな制御を改善することが示された。
参考スコア（独自算出の注目度）: 12.065449604765027
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human videos contain rich manipulation priors, but using them for robot learning remains difficult because raw observations entangle scene understanding, human motion, and embodiment-specific action. We introduce MoT-HRA, a hierarchical vision-language-action framework that learns human-intention priors from large-scale human demonstrations. We first curate HA-2.2M, a 2.2M-episode action-language dataset reconstructed from heterogeneous human videos through hand-centric filtering, spatial reconstruction, temporal segmentation, and language alignment. On top of this dataset, MoT-HRA factorizes manipulation into three coupled experts: a vision-language expert predicts an embodiment-agnostic 3D trajectory, an intention expert models MANO-style hand motion as a latent human-motion prior, and a fine expert maps the intention-aware representation to robot action chunks. A shared-attention trunk and read-only key-value transfer allow downstream control to use human priors while limiting interference with upstream representations. Experiments on hand motion generation, simulated manipulation, and real-world robot tasks show that MoT-HRA improves motion plausibility and robust control under distribution shift.
Abstract（参考訳）: 人間のビデオには豊富な操作先が含まれているが、生の観察がシーン理解、人間の動き、エンボディメント固有の動作を絡ませているため、ロボット学習に使用するのは難しい。大規模な人間のデモンストレーションから人間の意図を学習する階層型視覚言語行動フレームワークであるMoT-HRAを紹介する。我々はまず、手中心フィルタリング、空間再構成、時間分割、言語アライメントを通じて、異種ビデオから再構成された2.2Mのアクション言語データセットであるHA-2.2Mをキュレートする。このデータセットの上に、MoT-HRAは操作を3つの結合した専門家に分解する: 視覚言語の専門家は、エンボディーズ非依存の3D軌道を予測し、意図的専門家は、人間の動きに先行する動きとしてMANOスタイルの手の動きをモデル化し、詳細な専門家は、意図認識の表現をロボットアクションチャンクにマッピングする。共有アテンショントランクとリードオンリーのキー-バリュー転送により、ダウンストリーム制御は、上流表現との干渉を制限しながら、人間のプリエントを使用することができる。ハンドモーション生成, シミュレーション操作, 実世界のロボットタスクの実験により, MoT-HRAは分布シフト下での動作の可視性とロバストな制御を改善することが示された。

関連論文リスト

BridgeACT: Bridging Human Demonstrations to Robot Actions via Unified Tool-Target Affordances [11.402773793645244]
ロボットのデモデータを必要とせずに、人間のビデオから直接ロボット操作を学習するフレームワークであるBridgeACTを紹介する。私たちのキーとなるアイデアは、人間のデモンストレーションとロボットのアクションを橋渡しする、具体化に依存しない中間表現として、余暇をモデル化することです。得られた余裕は、把握モジュールと軽量閉ループモーションコントローラを介してロボット動作にマッピングされる。
論文参考訳（メタデータ） (2026-04-25T11:01:27Z)
OCRA: Object-Centric Learning with 3D and Tactile Priors for Human-to-Robot Action Transfer [84.22494391514066]
OCRAはビデオベースのヒューマン・ロボット・アクション転送のためのフレームワークである。人間のデモビデオから直接学習し、堅牢な操作を可能にする。
論文参考訳（メタデータ） (2026-03-15T14:31:03Z)
ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video [52.78703020909145]
我々は、人間中心のビデオから直接、自然なヒューマノイドビジュモータ制御ポリシーを学ぶ新しいフレームワークであるZeroWBCを紹介した。提案手法はまず視覚言語モデル(VLM)を微調整し,テキスト命令とエゴセントリックな視覚コンテキストに基づく将来の身体全体の動作を予測する。ユニツリーG1ヒューマノイドロボットの実験では,動作の自然性と汎用性において,本手法がベースラインアプローチより優れていることが示された。
論文参考訳（メタデータ） (2026-03-10T04:19:43Z)
DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos [56.64773686434068]
DexImitは、人間の操作映像を物理的に妥当なロボットデータに変換する自動フレームワークである。 DexImitは、インターネットまたはビデオ生成モデルから、人間のビデオに基づいて大規模なロボットデータを生成することができる。ツールの使用、長距離タスク、きめ細かい操作を含む多様な操作タスクを処理できる。
論文参考訳（メタデータ） (2026-02-10T18:59:02Z)
ConLA: Contrastive Latent Action Learning from Human Videos for Robotic Manipulation [27.54751123419347]
人間のビデオからロボットポリシーを学習するための教師なし事前学習フレームワークであるConLAを提案する。人間のビデオのみに事前学習を行うことで、実際のロボット軌道事前学習で得られた性能を初めて上回ります。
論文参考訳（メタデータ） (2026-01-31T06:40:57Z)
AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning [5.371855090716962]
視覚ロボットマニピュレーション(VRM)は、ロボットの状態と視覚的観察に基づいて、ロボットが自然言語の指示に従うことを可能にすることを目的としている。既存のアプローチでは、大規模データを用いた視覚言語事前学習が採用されている。我々は,大規模人間のアクションビデオデータセットから明示的な方法で学習することを提案する。
論文参考訳（メタデータ） (2025-08-11T05:09:58Z)
Vidar: Embodied Video Diffusion Model for Generalist Manipulation [28.216910600346512]
Vidarは、ほとんどのエンボディメント固有のデータを転送可能なビデオに置き換える、事前駆動のローショット適応パラダイムである。以上の結果から,強力で安価なビデオプリエントと最小限のオンロボットアライメントという,“先行的かつ多数の実施”のためのスケーラブルなレシピが示唆された。
論文参考訳（メタデータ） (2025-07-17T08:31:55Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Learning to Transfer Human Hand Skills for Robot Manipulations [12.797862020095856]
本稿では,人間の手の動きのデモから,ロボットに巧妙な操作課題を教える方法を提案する。本手法では,人間の手の動き,ロボットの手の動き,物体の動きを3Dでマッピングする関節運動多様体を学習し,ある動きを他者から推測する。
論文参考訳（メタデータ） (2025-01-07T22:33:47Z)
Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。我々の枠組みは、人間の手の動きを予測することに基づいている。トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文参考訳（メタデータ） (2023-02-03T21:39:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。