Fugu-MT 論文翻訳(概要): Pre-training Auto-regressive Robotic Models with 4D Representations

論文の概要: Pre-training Auto-regressive Robotic Models with 4D Representations

arxiv url: http://arxiv.org/abs/2502.13142v1
Date: Tue, 18 Feb 2025 18:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:09.148067
Title: Pre-training Auto-regressive Robotic Models with 4D Representations
Title（参考訳）: 4次元表現による自己回帰ロボットモデルの事前学習
Authors: Dantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig,
Abstract要約: ARM4Rは、人間のビデオデータから学んだ低レベルの4D表現を利用して、より優れた事前訓練されたロボットモデルを生成する自動回帰ロボットモデルである。実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。
参考スコア（独自算出の注目度）: 43.80798244473759
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models pre-trained on massive unlabeled datasets have revolutionized natural language and computer vision, exhibiting remarkable generalization capabilities, thus highlighting the importance of pre-training. Yet, efforts in robotics have struggled to achieve similar success, limited by either the need for costly robotic annotations or the lack of representations that effectively model the physical world. In this paper, we introduce ARM4R, an Auto-regressive Robotic Model that leverages low-level 4D Representations learned from human video data to yield a better pre-trained robotic model. Specifically, we focus on utilizing 3D point tracking representations from videos derived by lifting 2D representations into 3D space via monocular depth estimation across time. These 4D representations maintain a shared geometric structure between the points and robot state representations up to a linear transformation, enabling efficient transfer learning from human video data to low-level robotic control. Our experiments show that ARM4R can transfer efficiently from human video data to robotics and consistently improves performance on tasks across various robot environments and configurations.
Abstract（参考訳）: 巨大なラベルのないデータセットで事前トレーニングされた基礎モデルは、自然言語とコンピュータビジョンに革命をもたらし、顕著な一般化能力を示し、事前トレーニングの重要性を強調している。しかし、ロボット工学における取り組みは、コストのかかるロボットアノテーションの必要性や、物理的世界を効果的にモデル化する表現の欠如によって制限された、同様の成功を達成するのに苦労してきた。本稿では,人間の映像データから得られた低レベル4次元表現を利用して,より優れた事前学習ロボットモデルを実現する自動回帰ロボットモデルARM4Rを紹介する。具体的には、2次元表現を時間的一眼的深度推定によって3次元空間に持ち上げることによって得られるビデオから3次元の点追跡表現を活用することに焦点をあてる。これらの4D表現は、人間の映像データから低レベルロボット制御への効率的な移動学習を可能にする。実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。

関連論文リスト

RobotSeg: A Model and Dataset for Segmenting Robots in Image and Video [56.9581053843815]
画像とビデオにおけるロボットセグメンテーションの基礎モデルであるRobotSegを紹介する。ロボットへの適応の欠如、手動のプロンプトへの依存、フレーム単位のトレーニングマスクアノテーションの必要性に対処する。それは、画像とビデオの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-11-28T07:51:02Z)
Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文参考訳（メタデータ） (2025-10-24T15:39:31Z)
4D Visual Pre-training for Robot Learning [71.22906081161324]
ロボット工学のためのWebスケールデータセットから得られた一般的な視覚表現は、近年大きな成功を収めている。しかし、これらの事前訓練された表現は、主に2D画像に基づいており、世界の固有の3Dの性質を無視している。代替として、すべての3D表現を改善することのできる、一般的なビジュアル事前学習フレームワークを模索しています。我々のフレームワークはFVPと呼ばれ、現実世界のロボット学習のための新しい4Dビジュアル事前学習フレームワークである。
論文参考訳（メタデータ） (2025-08-24T07:06:56Z)
H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation [27.585828712261232]
H-RDT(Human to Robotics Diffusion Transformer)は、人間の操作データを利用してロボット操作能力を向上する新しいアプローチである。私たちの重要な洞察は、大規模なエゴセントリックな人間操作ビデオとペアの3Dハンドポーズアノテーションが、自然な操作戦略を捉えたリッチな行動優先を提供するということです。本研究では,(1)大規模な人間操作データに対する事前トレーニング,(2)モジュール型アクションエンコーダとデコーダを用いたロボット固有のデータに対するクロスエボディメント微調整という2段階の訓練パラダイムを導入する。
論文参考訳（メタデータ） (2025-07-31T13:06:59Z)
Geometry-aware 4D Video Generation for Robot Manipulation [28.709339959536106]
そこで本研究では,映像の多視点3次元整合性を実現する4次元映像生成モデルを提案する。この幾何学的監督により、モデルはシーンの共有3次元表現を学習することができ、新しい視点から将来の映像シーケンスを予測することができる。既存のベースラインと比較して,本手法は複数のシミュレーションおよび実世界のロボットデータセットに対して,より視覚的に安定かつ空間的に整合した予測を生成する。
論文参考訳（メタデータ） (2025-07-01T18:01:41Z)
FP3: A 3D Foundation Policy for Robotic Manipulation [12.115347477632783]
ロボット操作のための最初の大規模3D基礎政策モデルであるFP3を紹介する。わずか80のデモで、FP3は、見えないオブジェクトを持つ新しい環境で90%以上の成功率で新しいタスクを学ぶことができる。
論文参考訳（メタデータ） (2025-03-11T23:01:08Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文参考訳（メタデータ） (2024-10-29T17:58:13Z)
Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文参考訳（メタデータ） (2024-09-26T17:57:16Z)
KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data [45.25288643161976]
本稿では,ロボット制御をスケーラブルに行うために,KALIE(Keypoint Affordance Learning from Imagined Environments)を提案する。モーターコマンドを直接生成する代わりに、KALIEはポイントベースの価格表現を予測してロボットを制御する。我々はKALIEが、50個のデータポイントしか持たない未確認オブジェクトで、新しい操作タスクを堅牢に解くことができることを実証した。
論文参考訳（メタデータ） (2024-09-21T08:45:16Z)
HRP: Human Affordances for Robotic Pre-Training [15.92416819748365]
本稿では,手,物,接触の事前学習のためのフレームワークを提案する。実世界の5つのタスクにおいて、この空き時間事前学習がパフォーマンスを最低15%向上させることを実験的に実証した(3000以上のロボット試験を用いて)。
論文参考訳（メタデータ） (2024-07-26T17:59:52Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文参考訳（メタデータ） (2022-12-13T18:55:15Z)
Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文参考訳（メタデータ） (2022-06-16T10:45:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。