Fugu-MT 論文翻訳(概要): RoboPaint: From Human Demonstration to Any Robot and Any View

論文の概要: RoboPaint: From Human Demonstration to Any Robot and Any View

arxiv url: http://arxiv.org/abs/2602.05325v2
Date: Sat, 07 Feb 2026 02:08:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.195384
Title: RoboPaint: From Human Demonstration to Any Robot and Any View
Title（参考訳）: RoboPaint:人間デモからロボット、あらゆる視点へ
Authors: Jiacheng Fan, Zhiyue Zhao, Yiqian Zhang, Chao Chen, Peide Wang, Hengdi Zhang, Zhengxue Cheng,
Abstract要約: 本研究では,人間による実演をロボットが実行可能な環境特化学習データに変換するためのリアルタイムデータ収集とデータ編集パイプラインを提案する。そこで本研究では,10種類のオブジェクト操作タスクに対して,デキスハンドトラジェクトリの再ターゲットが84%の成功率を達成することを示す。複雑なデクサラス操作のために,パフォーマンス損失を最小限に抑えた,スケーラブルで費用対効果の高い遠隔操作の代替手段を提供する。
参考スコア（独自算出の注目度）: 9.083647729839688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Acquiring large-scale, high-fidelity robot demonstration data remains a critical bottleneck for scaling Vision-Language-Action (VLA) models in dexterous manipulation. We propose a Real-Sim-Real data collection and data editing pipeline that transforms human demonstrations into robot-executable, environment-specific training data without direct robot teleoperation. Standardized data collection rooms are built to capture multimodal human demonstrations (synchronized 3 RGB-D videos, 11 RGB videos, 29-DoF glove joint angles, and 14-channel tactile signals). Based on these human demonstrations, we introduce a tactile-aware retargeting method that maps human hand states to robot dex-hand states via geometry and force-guided optimization. Then the retargeted robot trajectories are rendered in a photorealistic Isaac Sim environment to build robot training data. Real world experiments have demonstrated: (1) The retargeted dex-hand trajectories achieve an 84\% success rate across 10 diverse object manipulation tasks. (2) VLA policies (Pi0.5) trained exclusively on our generated data achieve 80\% average success rate on three representative tasks, i.e., pick-and-place, pushing and pouring. To conclude, robot training data can be efficiently "painted" from human demonstrations using our real-sim-real data pipeline. We offer a scalable, cost-effective alternative to teleoperation with minimal performance loss for complex dexterous manipulation.
Abstract（参考訳）: 大規模な高忠実度ロボットのデモデータを取得することは、デクスタス操作においてビジョン・ランゲージ・アクション(VLA)モデルをスケールする上で、依然として重要なボトルネックである。本研究では,人間の実演をロボットの遠隔操作なしに,ロボットが実行可能な環境特化訓練データに変換するリアルタイムデータ収集とデータ編集パイプラインを提案する。標準化されたデータ収集ルームは、マルチモーダルな人間のデモ(同期3RGB-Dビデオ、11RGBビデオ、29-DoFグローブ関節角、14チャンネルの触覚信号)をキャプチャするために構築されている。これらの人間の実演に基づいて,人間の手の状態とロボットのデックスハンド状態とを幾何学的・力覚的最適化によりマッピングする触覚認識リターゲティング手法を提案する。次に、再ターゲットされたロボット軌道をフォトリアリスティックなアイザック・シム環境にレンダリングして、ロボットのトレーニングデータを構築する。 1) リターゲットされたデックスハンド軌道は、10種類のオブジェクト操作タスクで84倍の成功率を達成する。 2) VLA ポリシ (Pi0.5) は, 生成データのみを訓練し, 3つの代表的なタスク,すなわち, ピック・アンド・プレイス, プッシュ・アンド・注ぐ平均成功率を80%達成する。結論として、実際のシミュレートされたデータパイプラインを使用して、人間のデモからロボットのトレーニングデータを効率的に"塗装"することができる。複雑なデクサラス操作のために,パフォーマンス損失を最小限に抑えた,スケーラブルで費用対効果の高い遠隔操作の代替手段を提供する。

関連論文リスト

DexImit: Learning Bimanual Dexterous Manipulation from Monocular Human Videos [56.64773686434068]
DexImitは、人間の操作映像を物理的に妥当なロボットデータに変換する自動フレームワークである。 DexImitは、インターネットまたはビデオ生成モデルから、人間のビデオに基づいて大規模なロボットデータを生成することができる。ツールの使用、長距離タスク、きめ細かい操作を含む多様な操作タスクを処理できる。
論文参考訳（メタデータ） (2026-02-10T18:59:02Z)
RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。 3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文参考訳（メタデータ） (2025-06-28T05:03:31Z)
Toward Aligning Human and Robot Actions via Multi-Modal Demonstration Learning [3.9738951919572827]
本稿では,Voxelized RGB-D空間におけるロボットデモを用いて,RGBビデオから人間デモを明示的にモデル化するフレームワークを提案する。本稿では,人間の意図モデリングのためのResNetベースの視覚符号化と,ボクセルに基づくロボット行動予測のためのPerceiver Transformerを組み合わせる。
論文参考訳（メタデータ） (2025-04-14T21:14:51Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文参考訳（メタデータ） (2024-10-29T17:58:13Z)
Manipulate-Anything: Automating Real-World Robots using Vision-Language Models [47.16659229389889]
実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。 Manipulate-Anythingは、特権のある状態情報や手書きのスキルなしで現実世界の環境で動作でき、静的オブジェクトを操作できる。
論文参考訳（メタデータ） (2024-06-27T06:12:01Z)
Giving Robots a Hand: Learning Generalizable Manipulation with Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文参考訳（メタデータ） (2023-07-12T07:04:53Z)
Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文参考訳（メタデータ） (2023-02-22T18:47:51Z)
Where is my hand? Deep hand segmentation for visual self-recognition in humanoid robots [129.46920552019247]
本稿では、画像からロボットの手を切り離すための畳み込みニューラルネットワーク(CNN)を提案する。ヒューマノイドロボットVizzyの手のセグメンテーションのために,Mask-RCNNネットワークを微調整した。
論文参考訳（メタデータ） (2021-02-09T10:34:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。