論文の概要: Multimodal Visual Transformer for Sim2real Transfer in Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.09180v3
- Date: Mon, 11 Aug 2025 06:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.362635
- Title: Multimodal Visual Transformer for Sim2real Transfer in Visual Reinforcement Learning
- Title(参考訳): 視覚強化学習におけるSim2realトランスのためのマルチモーダル視覚変換器
- Authors: Zichun Xu, Yuntao Li, Zhaomin Wang, Lei Zhuang, Guocai Yang, Jingdong Zhao,
- Abstract要約: 視覚変換器をベースとした視覚バックボーンを提案し,RGBと奥行き変調を融合させて一般化を促進させる。
異なるモダリティはまず別々のCNNステムで処理され、組み合わせた畳み込み機能はスケーラブルな視覚変換器に配信される。
sim2real転送では、トレーニングプロセスよりもドメインランダム化をデプロイする柔軟なカリキュラム学習スケジュールが開発されている。
- 参考スコア(独自算出の注目度): 2.1944315483245465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth information is robust to scene appearance variations and inherently carries 3D spatial details. In this paper, a visual backbone based on the vision transformer is proposed to fuse RGB and depth modalities for enhancing generalization. Different modalities are first processed by separate CNN stems, and the combined convolutional features are delivered to the scalable vision transformer to obtain visual representations. Moreover, a contrastive unsupervised learning scheme is designed with masked and unmasked tokens to accelerate the sample efficiency during the reinforcement learning process. Simulation results demonstrate that our visual backbone can focus more on task-related regions and exhibit better generalization in unseen scenarios. For sim2real transfer, a flexible curriculum learning schedule is developed to deploy domain randomization over training processes. Finally, the feasibility of our model is validated to perform real-world manipulation tasks via zero-shot transfer.
- Abstract(参考訳): 奥行き情報はシーンの外観の変化に対して堅牢であり、本質的には3次元空間の詳細を持っている。
本稿では、視覚変換器に基づく視覚バックボーンを提案し、RGBと奥行き変調を融合させて一般化を強化する。
異なるモダリティをまず別々のCNNステムで処理し、組み合わせた畳み込み機能をスケーラブルな視覚変換器に提供し、視覚表現を得る。
さらに、強化学習過程においてサンプル効率を向上するために、マスク付きおよび非マスク付きトークンを用いて、対照的な教師なし学習方式を設計する。
シミュレーションの結果、我々の視覚バックボーンはタスク関連領域にもっと焦点を絞って、目に見えないシナリオにおいてより良い一般化を示すことが示される。
sim2real転送では、トレーニングプロセスよりもドメインランダム化をデプロイする柔軟なカリキュラム学習スケジュールが開発されている。
最後に,本モデルの有効性を検証し,ゼロショット転送による実世界の操作タスクを実行する。
関連論文リスト
- Wavelet-Driven Masked Image Modeling: A Path to Efficient Visual Representation [27.576174611043367]
Masked Image Modeling (MIM)は、下流タスクに適したスケーラブルな視覚表現を学習する能力のおかげで、自己教師付き学習において大きな注目を集めている。
しかし、画像は本質的に冗長な情報を含んでいるため、画素ベースのMIM再構成プロセスはテクスチャなどの細部に過度に集中し、不要なトレーニング時間を延ばすことになる。
本研究では,MIMの学習過程を高速化するために,ウェーブレット変換を効率的な表現学習のツールとして活用する。
論文 参考訳(メタデータ) (2025-03-02T08:11:26Z) - Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - How do Cross-View and Cross-Modal Alignment Affect Representations in
Contrastive Learning? [8.594140167290098]
クロスモーダルな表現アライメントは、色やテクスチャなどの相補的な視覚情報を破棄し、代わりに冗長な深さの手がかりを強調する。
全体として、クロスモーダルアライメントは、クロスビューアライメントによる事前トレーニングよりも堅牢なエンコーダにつながる。
論文 参考訳(メタデータ) (2022-11-23T21:26:25Z) - Visual Prompt Tuning for Generative Transfer Learning [26.895321693202284]
生成的知識伝達による視覚変換器の学習法を提案する。
我々は,映像を自己回帰的あるいは非自己回帰的変換器への視覚トークンのシーケンスとして表現する最先端の生成的視覚変換器を基盤とする。
新しい領域に適応するために、画像トークンシーケンスへのプロンプトと呼ばれる学習可能なトークンを優先するプロンプトチューニングを用いる。
論文 参考訳(メタデータ) (2022-10-03T14:56:05Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Billion-Scale Pretraining with Vision Transformers for Multi-Task Visual
Representations [9.6221436745451]
弱教師付き事前学習によって10億以上の画像を持つデータセットを生成する方法について述べる。
従来の畳み込みバックボーンを置き換えるためにTransformerを活用しています。
本稿では,大規模トランスフォーマーによる事前学習が,産業用コンピュータビジョンアプリケーションに多大な効果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-12T17:58:56Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。