論文の概要: Robot Learning from Any Images
- arxiv url: http://arxiv.org/abs/2509.22970v1
- Date: Fri, 26 Sep 2025 22:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.959111
- Title: Robot Learning from Any Images
- Title(参考訳): あらゆる画像から学習するロボット
- Authors: Siheng Zhao, Jiageng Mao, Wei Chow, Zeyu Shangguan, Tianheng Shi, Rong Xue, Yuxi Zheng, Yijia Weng, Yang You, Daniel Seita, Leonidas Guibas, Sergey Zakharov, Vitor Guizilini, Yue Wang,
- Abstract要約: このフレームワークは、任意のWildイメージを対話型で物理対応のロボット環境に変換するものだ。
従来の方法とは異なり、RoLAは追加のハードウェアやデジタルアセットを必要とせずに、単一のイメージ上で直接動作する。
我々は、スケーラブルなロボットデータ生成と拡張、インターネットイメージからのロボット学習、マニピュレータとヒューマノイドのためのシングルイメージのリアルタイムシステムなど、RoLAの汎用性を実証する。
- 参考スコア(独自算出の注目度): 33.8787444407442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce RoLA, a framework that transforms any in-the-wild image into an interactive, physics-enabled robotic environment. Unlike previous methods, RoLA operates directly on a single image without requiring additional hardware or digital assets. Our framework democratizes robotic data generation by producing massive visuomotor robotic demonstrations within minutes from a wide range of image sources, including camera captures, robotic datasets, and Internet images. At its core, our approach combines a novel method for single-view physical scene recovery with an efficient visual blending strategy for photorealistic data collection. We demonstrate RoLA's versatility across applications like scalable robotic data generation and augmentation, robot learning from Internet images, and single-image real-to-sim-to-real systems for manipulators and humanoids. Video results are available at https://sihengz02.github.io/RoLA .
- Abstract(参考訳): このフレームワークは、任意のWildイメージを対話型で物理対応のロボット環境に変換するものだ。
従来の方法とは異なり、RoLAは追加のハードウェアやデジタルアセットを必要とせずに、単一のイメージ上で直接動作する。
我々のフレームワークは、カメラキャプチャ、ロボットデータセット、インターネットイメージなど、幅広い画像ソースから、数分以内に大規模な視覚ロボットデモを作成することで、ロボットデータ生成を民主化します。
本手法の中核となるのは、単一視点の物理的シーン回復のための新しい手法と、フォトリアリスティックデータ収集のための効率的なビジュアルブレンディング戦略を組み合わせることである。
我々は、スケーラブルなロボットデータ生成と拡張、インターネットイメージからのロボット学習、マニピュレータとヒューマノイドのためのシングルイメージのリアルタイムシステムなど、RoLAの汎用性を実証する。
ビデオ結果はhttps://sihengz02.github.io/RoLA で公開されている。
関連論文リスト
- Toward Human-Robot Teaming: Learning Handover Behaviors from 3D Scenes [28.930178662944446]
本稿では,RGB画像のみから,人間とロボットのハンドオーバに着目したHRTポリシーのトレーニング手法を提案する。
ロボットグリップに装着したカメラでキャプチャした画像アクション対を含むロボットデモを生成する。
これにより、再構成シーンにおけるシミュレートされたカメラポーズ変更を直接グリップポーズ変更に変換することができる。
論文 参考訳(メタデータ) (2025-08-13T14:47:31Z) - Learning human-to-robot handovers through 3D scene reconstruction [28.930178662944446]
本稿では,RGB画像のみから教師付きロボットハンドオーバを学習する手法を提案する。
ロボットグリップに装着したカメラでキャプチャした画像アクション対を含むロボットデモを生成する。
これにより、再構成シーンにおけるシミュレートされたカメラポーズ変更を直接グリップポーズ変更に変換することができる。
論文 参考訳(メタデータ) (2025-07-11T16:26:31Z) - DreamGen: Unlocking Generalization in Robot Learning through Video World Models [120.25799361925387]
DreamGenは、ニューラルトラジェクトリを通じて行動や環境を一般化するロボットポリシーをトレーニングするためのパイプラインだ。
私たちの研究は、手作業によるデータ収集を超えて、ロボット学習をスケールするための、有望な新たな軸を確立します。
論文 参考訳(メタデータ) (2025-05-19T04:55:39Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。