論文の概要: Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets
- arxiv url: http://arxiv.org/abs/2601.09605v1
- Date: Wed, 14 Jan 2026 16:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.467776
- Title: Sim2real Image Translation Enables Viewpoint-Robust Policies from Fixed-Camera Datasets
- Title(参考訳): Sim2real Image Translationは、固定カメラデータセットから視点ロバストポリシーを可能にする
- Authors: Jeremiah Coholich, Justin Wit, Robert Azarcon, Zsolt Kira,
- Abstract要約: 本稿では,新しいセグメンテーション条件のInfoNCEロスを用いた画像翻訳手法であるMANGOを提案する。
本手法は, シミュレーション観測を翻訳することで, 多様な未知の視点を生成可能であることを示す。
MANGOによって強化されたデータに基づいてトレーニングされた模倣学習ポリシーは、拡張されていないポリシーが完全に失敗するという見解に基づいて、最大60%の成功率を達成することができる。
- 参考スコア(独自算出の注目度): 26.721609542933518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-based policies for robot manipulation have achieved significant recent success, but are still brittle to distribution shifts such as camera viewpoint variations. Robot demonstration data is scarce and often lacks appropriate variation in camera viewpoints. Simulation offers a way to collect robot demonstrations at scale with comprehensive coverage of different viewpoints, but presents a visual sim2real challenge. To bridge this gap, we propose MANGO -- an unpaired image translation method with a novel segmentation-conditioned InfoNCE loss, a highly-regularized discriminator design, and a modified PatchNCE loss. We find that these elements are crucial for maintaining viewpoint consistency during sim2real translation. When training MANGO, we only require a small amount of fixed-camera data from the real world, but show that our method can generate diverse unseen viewpoints by translating simulated observations. In this domain, MANGO outperforms all other image translation methods we tested. Imitation-learning policies trained on data augmented by MANGO are able to achieve success rates as high as 60\% on views that the non-augmented policy fails completely on.
- Abstract(参考訳): ロボット操作のためのビジョンベースのポリシーは、近年大きな成功を収めているが、カメラ視点のバリエーションのような分散シフトには依然として脆弱である。
ロボットのデモデータは乏しく、しばしばカメラの視点に適切なバリエーションがない。
シミュレーションは、さまざまな視点を包括的に網羅して、ロボットのデモを大規模に収集する方法を提供するが、視覚的なシミュレートは難しい。
このギャップを埋めるため,新しいセグメンテーション条件のInfoNCE損失,高正規化識別器設計,修正されたPatchNCE損失を有する画像翻訳手法であるMANGOを提案する。
これらの要素は、sim2real翻訳中における視点整合性を維持するために重要である。
MANGOをトレーニングする際には,実世界からの少数の固定カメラデータしか必要としない。
このドメインでは、MANGOはテストした他のすべての画像翻訳方法よりも優れています。
MANGOによって強化されたデータに基づいてトレーニングされた模倣学習ポリシーは、強化されていないポリシーが完全に失敗するという見解に基づいて、最大60%の成功率を達成することができる。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Impact of Language Guidance: A Reproducibility Study [0.0]
近年の自己教師型学習の進歩により,明示的なアノテーションを使わずに巨大なモデルを訓練することが可能になった。
市販画像キャプションモデルBLIP-2を用いて,キャプションの置き換えと性能の向上を図る。
また,解釈可能性に基づく自己教師付きモデルのセマンティック能力を評価するための新しい指標も考案した。
論文 参考訳(メタデータ) (2025-04-10T21:59:13Z) - Local Policies Enable Zero-shot Long-horizon Manipulation [80.1161776000682]
ManipGenを紹介します。これはsim2real転送のための新しいポリシーのクラスであるローカルポリシーを活用します。
ManipGenは、SayCan、OpenVLA、LLMTrajGen、VoxPoserといったSOTAアプローチを、50の現実世界操作タスクで36%、76%、62%、60%で上回っている。
論文 参考訳(メタデータ) (2024-10-29T17:59:55Z) - One-Shot Imitation under Mismatched Execution [7.060120660671016]
人間のデモは、ロボットに長距離操作のタスクをプログラムするための強力な方法だ。
これらのデモをロボット実行可能なアクションに変換することは、運動スタイルや身体能力のミスマッチの実行による重大な課題を呈する。
シーケンスレベルの最適輸送コスト関数を用いて,人間とロボットの軌道を自動的にペアリングする新しいフレームワークRHyMEを提案する。
論文 参考訳(メタデータ) (2024-09-10T16:11:57Z) - Natural Language Can Help Bridge the Sim2Real Gap [9.458180590551715]
Sim2Realは、現実世界のターゲットドメインでデータ不足を克服するための有望なパラダイムである。
本稿では,画像の自然言語記述を領域間の統一信号として用いることを提案する。
言語記述を予測するために、画像エンコーダをトレーニングすることは、有用な、データ効率の良い事前学習ステップとなることを実証する。
論文 参考訳(メタデータ) (2024-05-16T12:02:02Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - AptSim2Real: Approximately-Paired Sim-to-Real Image Translation [8.208569626646035]
Sim-to-real Transferは、シミュレーションされた画像を修正して、現実世界のデータにマッチさせる。
AptSim2Realは、シミュレーターが照明、環境、コンポジションの点で現実世界のシーンに似たシーンをゆるやかに生成できるという事実を活用している。
FIDスコアは最大で24%向上し, 質的, 定量的な改善が得られた。
論文 参考訳(メタデータ) (2023-03-09T06:18:44Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。