Fugu-MT 論文翻訳(概要): BridgeACT: Bridging Human Demonstrations to Robot Actions via Unified Tool-Target Affordances

論文の概要: BridgeACT: Bridging Human Demonstrations to Robot Actions via Unified Tool-Target Affordances

arxiv url: http://arxiv.org/abs/2604.23249v2
Date: Mon, 04 May 2026 07:58:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:49.396804
Title: BridgeACT: Bridging Human Demonstrations to Robot Actions via Unified Tool-Target Affordances
Title（参考訳）: BridgeACT: 統一ツールによるロボットアクションに人間によるデモを組み込む
Authors: Yifan Han, Jianxiang Liu, Haoyu Zhang, Yuqi Gu, Yunhan Guo, Wenzhao Lian,
Abstract要約: ロボットのデモデータを必要とせずに、人間のビデオから直接ロボット操作を学習するフレームワークであるBridgeACTを紹介する。私たちのキーとなるアイデアは、人間のデモンストレーションとロボットのアクションを橋渡しする、具体化に依存しない中間表現として、余暇をモデル化することです。得られた余裕は、把握モジュールと軽量閉ループモーションコントローラを介してロボット動作にマッピングされる。
参考スコア（独自算出の注目度）: 11.402773793645244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning robot manipulation from human videos is appealing due to the scale and diversity of human demonstrations, but transferring such demonstrations to executable robot behavior remains challenging. Prior work either relies on robot data for downstream adaptation or learns affordance representations that remain at the perception level and do not directly support real-world execution. We present BridgeACT, an affordance-driven framework that learns robotic manipulation directly from human videos without requiring any robot demonstration data. Our key idea is to model affordance as an embodiment-agnostic intermediate representation that bridges human demonstrations and robot actions. BridgeACT decomposes manipulation into two complementary problems: where to grasp and how to move. To this end, BridgeACT first grounds task-relevant affordance regions in the current scene, and then predicts task-conditioned 3D motion affordances from human demonstrations. The resulting affordances are mapped to robot actions through a grasping module and a lightweight closed-loop motion controller, enabling direct deployment on real robots. In addition, we represent complex manipulation tasks as compositions of affordance operations, which allows a unified treatment of diverse tasks and object-to-object interactions. Experiments on real-world manipulation tasks show that BridgeACT outperforms prior baselines and generalizes to unseen objects, scenes, and viewpoints.
Abstract（参考訳）: 人間のビデオからロボットの操作を学ぶことは、人間のデモの規模と多様性のために魅力的だが、そのようなデモを実行可能なロボットの動作に転送することは依然として困難である。従来の作業は、下流適応のためのロボットデータに頼るか、知覚レベルに留まり、実際の実行を直接サポートしていない余裕表現を学ぶかのいずれかであった。ロボットのデモデータを必要とせずに、人間のビデオから直接ロボット操作を学習する、余裕駆動のフレームワークであるBridgeACTを紹介します。私たちのキーとなるアイデアは、人間のデモンストレーションとロボットのアクションを橋渡しする、具体化に依存しない中間表現として、余暇をモデル化することです。 BridgeACTは操作を2つの相補的な問題に分解する。この目的のために、BridgeACTは、まず現在のシーンでタスク関連価格領域を置き、次に人間のデモンストレーションからタスク条件付き3Dモーションの価格を予測する。得られた余裕は、グリップモジュールと軽量のクローズドループモーションコントローラを通じてロボットの動作にマッピングされ、実際のロボットに直接展開することができる。さらに、複雑な操作タスクを、多種多様なタスクとオブジェクト間相互作用の統一的な処理を可能にする、割当操作の合成として表現する。実世界の操作タスクの実験では、BridgeACTは以前のベースラインより優れており、見えないオブジェクト、シーン、視点に一般化されている。

関連論文リスト

From Human Hands to Robot Arms: Manipulation Skills Transfer via Trajectory Alignment [36.08997778717271]
現実世界のロボットの多様な操作スキルを学ぶことは、高価でスケールの難しい遠隔操作によるデモンストレーションに依存することでボトルネックとなる。本稿では,操作終端の3次元軌跡を統一中間表現として利用することにより,この実施ギャップを橋渡しする新しいフレームワークであるTraj2Actionを紹介する。我々の方針はまず,人間とロボットの両方のデータを活用することで,高レベルの運動計画を形成する粗い軌道を生成することを学習する。
論文参考訳（メタデータ） (2025-10-01T04:21:12Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Learning to Transfer Human Hand Skills for Robot Manipulations [12.797862020095856]
本稿では,人間の手の動きのデモから,ロボットに巧妙な操作課題を教える方法を提案する。本手法では,人間の手の動き,ロボットの手の動き,物体の動きを3Dでマッピングする関節運動多様体を学習し,ある動きを他者から推測する。
論文参考訳（メタデータ） (2025-01-07T22:33:47Z)
Whole-Body Teleoperation for Mobile Manipulation at Zero Added Cost [8.71539730969424]
MoMa-Teleopは、既存のインターフェースからエンドエフェクタ動作を推測する新しい遠隔操作手法である。提案手法は,様々なロボットやタスクに対して,タスク完了時間が大幅に短縮されることを実証する。
論文参考訳（メタデータ） (2024-09-23T15:09:45Z)
Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文参考訳（メタデータ） (2023-07-12T07:04:53Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)
Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。我々の枠組みは、人間の手の動きを予測することに基づいている。トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文参考訳（メタデータ） (2023-02-03T21:39:52Z)
Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文参考訳（メタデータ） (2022-11-16T16:26:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。