論文の概要: Invariance Co-training for Robot Visual Generalization
- arxiv url: http://arxiv.org/abs/2512.05230v1
- Date: Thu, 04 Dec 2025 20:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.796348
- Title: Invariance Co-training for Robot Visual Generalization
- Title(参考訳): ロボット視覚一般化のための不変コトレーニング
- Authors: Jonathan Yang, Chelsea Finn, Dorsa Sadigh,
- Abstract要約: 多様な観察から推論することは、汎用的なロボットポリシーが幅広い環境で動作するための基本的な能力である。
多様なデータによる協調学習は,既存の生成的拡張法よりも18%向上することを示した。
- 参考スコア(独自算出の注目度): 72.88252238231269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning from diverse observations is a fundamental capability for generalist robot policies to operate in a wide range of environments. Despite recent advancements, many large-scale robotic policies still remain sensitive to key sources of observational variation such as changes in camera perspective, lighting, and the presence of distractor objects. We posit that the limited generalizability of these models arises from the substantial diversity required to robustly cover these quasistatic axes, coupled with the current scarcity of large-scale robotic datasets that exhibit rich variation across them. In this work, we propose to systematically examine what robots need to generalize across these challenging axes by introducing two key auxiliary tasks, state similarity and invariance to observational perturbations, applied to both demonstration data and static visual data. We then show that via these auxiliary tasks, leveraging both more-expensive robotic demonstration data and less-expensive, visually rich synthetic images generated from non-physics-based simulation (for example, Unreal Engine) can lead to substantial increases in generalization to unseen camera viewpoints, lighting configurations, and distractor conditions. Our results demonstrate that co-training on this diverse data improves performance by 18 percent over existing generative augmentation methods. For more information and videos, please visit https://invariance-cotraining.github.io
- Abstract(参考訳): 多様な観察から推論することは、汎用的なロボットポリシーが幅広い環境で動作するための基本的な能力である。
近年の進歩にもかかわらず、多くの大規模ロボット政策は、カメラの視点の変化、照明、邪魔物の存在など、観測上の変化の主な源泉に引き続き敏感である。
これらのモデルの限定的な一般化性は、これらの準定常軸を強固に覆うために必要なかなりの多様性と、それらにまたがる豊富な変動を示す大規模ロボットデータセットの欠如から生じると仮定する。
本研究では,実証データと静的視覚データの両方に適用した2つの重要な補助的タスク,状態類似性と観測摂動の不変性を導入することで,ロボットがこれらの課題にまたがって何を一般化すべきかを体系的に検証することを提案する。
そして、これらの補助的なタスクを通じて、非物理学に基づくシミュレーション(例えば、Unreal Engine)から生成された、より精力的なロボットデモデータと、より精力的で視覚的にリッチな合成画像の両方を活用することで、カメラの視界、照明構成、イントラクタ条件への一般化が大幅に増加することを示した。
以上の結果から, この多種多様なデータを用いた協調学習は, 既存の生成的拡張法よりも18%向上することが示された。
詳しくはhttps://invariance-cotraining.github.ioを参照してほしい。
関連論文リスト
- Semantically Controllable Augmentations for Generalizable Robot Learning [40.89398799604755]
ロボット操作の現実に見えないシナリオへの一般化には、トレーニング中にさまざまなデータセットを公開する必要がある。
本稿では,意味制御可能な拡張とロボットデータセットの高速乗算のための生成的拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-02T05:25:34Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Scaling Robot Learning with Semantically Imagined Experience [21.361979238427722]
ロボット学習の最近の進歩は、ロボットが操作タスクを実行できることを約束している。
この進歩に寄与する要因の1つは、モデルのトレーニングに使用されるロボットデータのスケールである。
本稿では,コンピュータビジョンや自然言語処理に広く用いられているテキスト・ツー・イメージ基盤モデルを利用した代替手法を提案する。
論文 参考訳(メタデータ) (2023-02-22T18:47:51Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。