Fugu-MT 論文翻訳(概要): Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation

論文の概要: Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2406.14235v2
Date: Thu, 28 Nov 2024 06:40:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 01:16:39.521381
Title: Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation
Title（参考訳）: ロボットマニピュレーションのための視覚前訓練における人間-ロボット領域の相違
Authors: Jiaming Zhou, Teli Ma, Kun-Yu Lin, Zifan Wang, Ronghe Qiu, Junwei Liang,
Abstract要約: そこで本研究では,容易に利用可能な人間ロボットのビデオデータを利用して,ドメインギャップを埋める新しい適応パラダイムを提案する。提案手法では,人間とロボットのビデオのセマンティクスを整列させるために,人間ロボットのアライメント損失を用いて,事前学習したモデルをパラメータ効率よくロボット領域に適応させる。
参考スコア（独自算出の注目度）: 16.809190349155525
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning generalizable visual representations across different embodied environments is essential for effective robotic manipulation in real-world scenarios. However, the limited scale and diversity of robot demonstration data pose a significant challenge. Recent research has explored leveraging large-scale human activity data for pre-training, but the substantial morphological differences between humans and robots introduce a significant human-robot domain discrepancy, hindering the generalization of these models to downstream manipulation tasks. To overcome this, we propose a novel adaptation paradigm that leverages readily available paired human-robot video data to bridge the domain gap. Our method employs a human-robot contrastive alignment loss to align the semantics of human and robot videos, adapting pre-trained models to the robot domain in a parameter-efficient manner. Experiments on 20 simulated tasks across two different benchmarks and five real-world tasks demonstrate significant improvements. These results span both single-task and language-conditioned multi-task settings, evaluated using two different pre-trained models. Compared to existing pre-trained models, our adaptation method improves the average success rate by over $7\%$ across multiple tasks on both simulated benchmarks and real-world evaluations. We will release the code and models.
Abstract（参考訳）: 実世界のシナリオにおける効果的なロボット操作には,様々な環境にまたがる一般化可能な視覚表現の学習が不可欠である。しかし、ロボットのデモデータの規模と多様性の制限は、大きな課題となっている。近年,人間とロボットの大規模活動データを事前学習に活用する方法が研究されているが,人間とロボット間の形態的相違は大きな人間-ロボット領域の相違をもたらし,これらのモデルの下流操作タスクへの一般化を妨げている。そこで本研究では,容易に利用可能な人間ロボットのビデオデータを活用し,ドメインギャップを埋める新しい適応パラダイムを提案する。提案手法では,人間とロボットのビデオのセマンティクスを整列させるために,人間ロボットのアライメント損失を用いて,事前学習したモデルをパラメータ効率よくロボット領域に適応させる。 2つの異なるベンチマークと5つの実世界のタスクにまたがる20のシミュレーションタスクの実験は、大幅な改善を示している。これらの結果は、2つの異なる事前学習モデルを用いて評価され、単一タスクと言語条件のマルチタスク設定の両方にまたがる。既存の事前学習モデルと比較して、シミュレーションされたベンチマークと実世界の評価の両方において、複数のタスクにまたがる平均成功率を7\%以上改善する。コードとモデルをリリースします。

関連論文リスト

Toward Aligning Human and Robot Actions via Multi-Modal Demonstration Learning [3.9738951919572827]
本稿では,Voxelized RGB-D空間におけるロボットデモを用いて,RGBビデオから人間デモを明示的にモデル化するフレームワークを提案する。本稿では,人間の意図モデリングのためのResNetベースの視覚符号化と,ボクセルに基づくロボット行動予測のためのPerceiver Transformerを組み合わせる。
論文参考訳（メタデータ） (2025-04-14T21:14:51Z)
DIRIGENt: End-To-End Robotic Imitation of Human Demonstrations Based on a Diffusion Model [16.26334759935617]
本研究では,人間の実演の観察から共同価値を生成するための新しいエンドツーエンド拡散手法であるDIRIGENtを紹介する。我々は、人間がロボットを模倣するデータセットを作成し、この収集されたデータを使って、ロボットが人間を模倣できる拡散モデルを訓練する。
論文参考訳（メタデータ） (2025-01-28T09:05:03Z)
Human-Humanoid Robots Cross-Embodiment Behavior-Skill Transfer Using Decomposed Adversarial Learning from Demonstration [9.42179962375058]
本稿では,デジタル人間モデルを共通プロトタイプとして使用することにより,データのボトルネックを低減するための転送可能なフレームワークを提案する。このモデルは、人間による実演から、敵対的な模倣を通して行動プリミティブを学習し、複雑なロボット構造を機能的な構成要素に分解する。本フレームワークは,多種多様な構成のヒューマノイドロボット5体を用いて検証した。
論文参考訳（メタデータ） (2024-12-19T18:41:45Z)
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文参考訳（メタデータ） (2024-11-14T03:13:26Z)
Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文参考訳（メタデータ） (2024-10-29T17:58:13Z)
Affordance-based Robot Manipulation with Flow Matching [6.863932324631107]
本稿では,ロボット操作支援のためのフレームワークを提案する。第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文参考訳（メタデータ） (2024-09-02T09:11:28Z)
HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文参考訳（メタデータ） (2024-07-26T17:59:52Z)
InteRACT: Transformer Models for Human Intent Prediction Conditioned on Robot Actions [7.574421886354134]
InteRACTアーキテクチャは、大規模な人間と人間のデータセットと小さな人間とロボットのデータセットの微細構造に関する条件付き意図予測モデルを事前訓練する。実世界の協調的なロボット操作タスクについて評価し、条件付きモデルが様々な限界ベースラインよりも改善されていることを示す。
論文参考訳（メタデータ） (2023-11-21T19:15:17Z)
Real-time Addressee Estimation: Deployment of a Deep-Learning Model on the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文参考訳（メタデータ） (2023-11-09T13:01:21Z)
Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文参考訳（メタデータ） (2023-10-23T17:50:08Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Learning Human-to-Robot Handovers from Point Clouds [63.18127198174958]
視覚に基づく人間ロボットハンドオーバの制御ポリシーを学習する最初のフレームワークを提案する。シミュレーションベンチマーク,sim-to-sim転送,sim-to-real転送において,ベースラインよりも大きな性能向上を示した。
論文参考訳（メタデータ） (2023-03-30T17:58:36Z)
HERD: Continuous Human-to-Robot Evolution for Learning from Human Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-08T15:56:13Z)
Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文参考訳（メタデータ） (2022-11-16T16:26:48Z)
PACT: Perception-Action Causal Transformer for Autoregressive Robotics Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2022-09-22T16:20:17Z)
Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文参考訳（メタデータ） (2022-04-15T08:12:15Z)
Model Predictive Control for Fluid Human-to-Robot Handovers [50.72520769938633]
人間の快適さを考慮に入れた計画運動は、人間ロボットのハンドオーバプロセスの一部ではない。本稿では,効率的なモデル予測制御フレームワークを用いてスムーズな動きを生成することを提案する。ユーザ数名の多様なオブジェクトに対して,人間とロボットのハンドオーバ実験を行う。
論文参考訳（メタデータ） (2022-03-31T23:08:20Z)
Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文参考訳（メタデータ） (2021-03-17T15:24:02Z)
Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文参考訳（メタデータ） (2019-12-30T01:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。