論文の概要: Bridging the Sim2Real Gap: Vision Encoder Pre-Training for Visuomotor Policy Transfer
- arxiv url: http://arxiv.org/abs/2501.16389v2
- Date: Sun, 07 Sep 2025 01:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:02.869968
- Title: Bridging the Sim2Real Gap: Vision Encoder Pre-Training for Visuomotor Policy Transfer
- Title(参考訳): Sim2Realギャップのブリッジ:ビジュモータ政策移行のためのビジョンエンコーダ事前訓練
- Authors: Yash Yardi, Samuel Biruduganti, Lars Ankile,
- Abstract要約: 我々は、Sim2Realギャップに対処するために、事前学習された視覚エンコーダの性能を評価する。
操作制限付きエンコーダは、常により高いアクションスコアを達成可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation offers a scalable and efficient alternative to real-world data collection for learning visuomotor robotic policies. However, the simulation-to-reality, or Sim2Real distribution shift -- introduced by employing simulation-trained policies in real-world environments -- frequently prevents successful policy transfer. We present an offline framework to evaluate the performance of using large-scale pre-trained vision encoders to address the Sim2Real gap. We examine a diverse collection of encoders, assessing their ability to extract features necessary for robot control (Action Score) while remaining invariant to task-irrelevant environmental variations (Domain Invariance Score). Evaluating 23 encoders, we reveal patterns across architectures, pre-training datasets, and parameter scales. Our findings show that manipulation-pretrained encoders consistently achieve higher Action Scores, CNN-based encoders demonstrate stronger domain invariance than ViTs, and the best-performing models combine both properties, underscoring DIS and AS as complementary predictors of Sim2Real transferability.
- Abstract(参考訳): シミュレーションは、ヴィジュモータロボットポリシーを学ぶための、現実世界のデータ収集の、スケーラブルで効率的な代替手段を提供する。
しかし、シミュレーション・トゥ・リアリティ(Sim2Realディストリビューションのシフト)は、実環境においてシミュレーション訓練されたポリシーを採用することで、しばしばポリシーの転送の成功を防いでいる。
我々は,Sim2Realのギャップに対処するために,大規模な事前学習型視覚エンコーダを用いたオフラインフレームワークを提案する。
本研究では,ロボット制御に必要な特徴を抽出する能力(Action Score)を,タスク非依存の環境変動(Domain Invariance Score)に不変でありながら,多種多様なエンコーダのコレクションを検証した。
23のエンコーダを評価し、アーキテクチャ、事前トレーニングデータセット、パラメータスケールのパターンを明らかにする。
この結果から,操作事前符号化器は高い動作スコアを連続的に達成し,CNNベースの符号化器はViTよりも強いドメイン不変性を証明し,最高の性能モデルでは両方の特性を組み合わせ,Sim2Real転送可能性の相補的予測器としてDIとASを推定した。
関連論文リスト
- URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training [21.855770200309674]
一般化可能な操作ポリシーを学習するための統合型sim-and-real協調学習フレームワークを提案する。
シミュレーションデータを活用することで,実世界の成功率を最大30%向上できることを示す。
論文 参考訳(メタデータ) (2025-09-23T04:32:53Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - High-Fidelity Digital Twins for Bridging the Sim2Real Gap in LiDAR-Based ITS Perception [3.1508266388327324]
本稿では,実世界の背景形状,レーンレベルの道路トポロジ,センサ固有の仕様と配置を組み込んだ高忠実なディジタルツイン(HiFi DT)フレームワークを提案する。
実験の結果、DT訓練モデルでは、実際のデータでトレーニングされた同等のモデルを4.8%上回る結果が得られた。
論文 参考訳(メタデータ) (2025-09-03T00:12:58Z) - How to Bridge the Sim-to-Real Gap in Digital Twin-Aided Telecommunication Networks [30.858857240474077]
通信のための効果的な人工知能モデルを訓練することは、デプロイメント固有のデータが不足しているために困難である。
実際のデータ収集は高価で、利用可能なデータセットは、ネットワーク環境のユニークな運用条件とコンテキスト変数をキャプチャできないことが多い。
デジタルツインニングは、現在のネットワーク展開に合わせてシミュレータがサイト固有のデータを生成して、利用可能なトレーニングデータセットを拡張することにより、この問題に対する潜在的な解決策を提供する。
論文 参考訳(メタデータ) (2025-07-09T17:27:51Z) - Sim2Real Transfer for Vision-Based Grasp Verification [7.9471205712560264]
本稿では,ロボットグリップが物体の把握に成功しているかどうかを判断するために,視力に基づく検証手法を提案する。
本手法は,ロボットのグリップを検知し,検出するための,最初のYOLOに基づく物体検出モデルである2段階アーキテクチャを用いている。
実世界のデータキャプチャの限界に対処するために,多様な把握シナリオをシミュレートする合成データセットであるHSR-Grasp Synthを導入する。
論文 参考訳(メタデータ) (2025-05-05T22:04:12Z) - CARLA2Real: a tool for reducing the sim2real gap in CARLA simulator [2.8978140690127328]
我々は、シミュレーションデータのフォトリアリズムを高めるために最先端のアプローチを採用し、それらを実世界のデータセットの視覚的特徴と整合させる。
そこで我々はCARLA2Realを開発した。CARLA2Realは、広く使われているオープンソースのCARLAシミュレーターである。
このツールは、CARLAをほぼリアルタイムで出力し、13FPSのフレームレートを実現し、実世界のデータセットの視覚的スタイルとリアリズムに変換する。
論文 参考訳(メタデータ) (2024-10-23T19:33:30Z) - Close the Sim2real Gap via Physically-based Structured Light Synthetic Data Simulation [16.69742672616517]
我々は、RGBと物理的にリアルな深度画像を生成する革新的な構造化光シミュレーションシステムを導入する。
ロボット産業の把握シナリオに適したRGBDデータセットを作成します。
sim2realのギャップを減らし、深層学習訓練を強化することにより、深層学習モデルを産業環境に適用しやすくする。
論文 参考訳(メタデータ) (2024-07-17T09:57:14Z) - Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning [15.792914346054502]
我々は、カバーパス計画(CPP)のための強化学習エージェント(RL)のSim-to-real転送の課題に取り組む。
シミュレーションされたセンサと障害物を利用しながら、現実のロボットやリアルタイムの側面を含む半仮想環境を通じて、シミュレートと現実のギャップを橋渡しする。
高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。
論文 参考訳(メタデータ) (2024-06-07T13:24:19Z) - DUSA: Decoupled Unsupervised Sim2Real Adaptation for
Vehicle-to-Everything Collaborative Perception [17.595237664316148]
自動運転車にとって、V2Xの協調認識は不可欠である。
高精度なV2X知覚を実現するには、大量の注釈付き実世界のデータが必要である。
Decoupled Unsupervised Sim2Real Adaptation (DUSA) と名付けられたV2X協調検出のための新しい教師なしSim2realドメイン適応法を提案する。
論文 参考訳(メタデータ) (2023-10-12T08:21:17Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - S2R-ViT for Multi-Agent Cooperative Perception: Bridging the Gap from
Simulation to Reality [41.25312194294171]
本稿では,S2R-ViT と名付けられた新しい視覚変換器を用いて,マルチエージェント協調認識のための第1から第1の現実への変換学習フレームワークを提案する。
OPV2VとV2V4Realの公共マルチエージェント協調認識データセットに関する実験により,提案したS2R-ViTがシミュレーションから現実へのギャップを効果的に埋めることを示す。
論文 参考訳(メタデータ) (2023-07-16T03:54:10Z) - Sim2real Transfer Learning for Point Cloud Segmentation: An Industrial
Application Case on Autonomous Disassembly [55.41644538483948]
我々は,点クラウドデータにsim2realTransfer Learningを用いた産業アプリケーションケースを提案する。
合成ポイントクラウドデータの生成と処理方法に関する洞察を提供する。
この問題に対処するために、パッチベースの新しいアテンションネットワークも提案されている。
論文 参考訳(メタデータ) (2023-01-12T14:00:37Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。