論文の概要: MInCo: Mitigating Information Conflicts in Distracted Visual Model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.04164v1
- Date: Sat, 05 Apr 2025 12:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:26.926388
- Title: MInCo: Mitigating Information Conflicts in Distracted Visual Model-based Reinforcement Learning
- Title(参考訳): MInCo:視覚モデルに基づく強化学習における情報衝突の軽減
- Authors: Shiguang Sun, Hanbo Zhang, Zeyang Liu, Xinrui Yang, Lipeng Wan, Bing Yan, Xingyu Chen, Xuguang Lan,
- Abstract要約: 既存の視覚モデルに基づく強化学習(MBRL)アルゴリズムは、しばしば情報衝突に悩まされる。
我々は,情報衝突を緩和するMInCoについて,無負のコントラスト学習を活用して提案する。
動的背景障害を伴う複数のロボット制御タスクにおいて,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 29.087810262499634
- License:
- Abstract: Existing visual model-based reinforcement learning (MBRL) algorithms with observation reconstruction often suffer from information conflicts, making it difficult to learn compact representations and hence result in less robust policies, especially in the presence of task-irrelevant visual distractions. In this paper, we first reveal that the information conflicts in current visual MBRL algorithms stem from visual representation learning and latent dynamics modeling with an information-theoretic perspective. Based on this finding, we present a new algorithm to resolve information conflicts for visual MBRL, named MInCo, which mitigates information conflicts by leveraging negative-free contrastive learning, aiding in learning invariant representation and robust policies despite noisy observations. To prevent the dominance of visual representation learning, we introduce time-varying reweighting to bias the learning towards dynamics modeling as training proceeds. We evaluate our method on several robotic control tasks with dynamic background distractions. Our experiments demonstrate that MInCo learns invariant representations against background noise and consistently outperforms current state-of-the-art visual MBRL methods. Code is available at https://github.com/ShiguangSun/minco.
- Abstract(参考訳): 既存の視覚モデルに基づく強化学習(MBRL)アルゴリズムと観察再構成は、しばしば情報衝突に悩まされるため、コンパクトな表現を学習することは困難であり、その結果、特にタスク非関連の視覚的障害の存在下では、ロバストなポリシーがより少ない。
本稿では,現在の視覚的MBRLアルゴリズムにおける情報矛盾は,情報理論の観点からの視覚表現学習と潜時力学モデリングに由来することを最初に明らかにする。
そこで本研究では,視覚的MBRLにおける情報競合を解決するアルゴリズムMInCoを提案する。
視覚表現学習の優位性を回避するため、トレーニングが進むにつれて学習を動的モデリングに偏らせるために、時間変化の重み付けを導入する。
動的背景障害を伴う複数のロボット制御タスクにおいて,本手法の評価を行った。
我々の実験は、MInCoが背景雑音に対する不変表現を学習し、現在最先端の視覚的MBRL法より一貫して優れていることを示した。
コードはhttps://github.com/ShiguangSun/minco.comで入手できる。
関連論文リスト
- Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning [3.8309622155866583]
Sliding Puzzles Gym (SPGym) は、従来の8タイルパズルを任意に大きなデータセットから得られる画像の視覚的観察空間で再現する新しいベンチマークである。
SPGymは、視覚多様性を通じて表現複雑性を正確に制御し、研究者が表現学習課題を体系的にスケールできるようにする。
可能な画像のプールを広げることで、視覚的多様性が増すにつれて、テスト対象のアルゴリズムはすべて、大幅な性能劣化を示す。
論文 参考訳(メタデータ) (2024-10-17T21:23:03Z) - On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
本研究では,(マルチモーダル)自己教師型表現学習のデータ予測タスクにおいて,連続領域における識別確率モデルについて検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
MISが要求する条件付き確率密度の和を近似する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。
グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。
複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-02T18:57:53Z) - Visual In-Context Learning for Large Vision-Language Models [62.5507897575317]
大規模視覚言語モデル(LVLM)では、言語間相互作用や表現格差の課題により、ICL(In-Context Learning)の有効性が制限されている。
本稿では,視覚的記述型検索,意図的画像要約,意図的記述型合成を含む新しい視覚的記述型学習(VICL)手法を提案する。
提案手法は'Retrieval & Rerank'パラダイムを用いて画像を検索し,タスク意図とタスク固有の視覚的パーシングで画像を要約し,言語による実演を構成する。
論文 参考訳(メタデータ) (2024-02-18T12:43:38Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z) - Accelerating Representation Learning with View-Consistent Dynamics in
Data-Efficient Reinforcement Learning [12.485293708638292]
本稿では,動的に視点整合性を持たせることで,状態表現学習を加速することを提案する。
本稿では,多視点マルコフ決定過程 (MMDP) の定式化について述べる。
MMDP の構造に従えば,我々の手法である View-Consistent Dynamics (VCD) は,潜在空間におけるビュー-Consistent dynamics モデルをトレーニングすることによって状態表現を学習する。
論文 参考訳(メタデータ) (2022-01-18T14:28:30Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Learning Task Informed Abstractions [10.920599910769276]
本稿では,報酬関連視覚的特徴を注意散らしから明確に分離する学習タスクインフォームド抽象化(TIA)を提案する。
TIAは、多くの視覚制御タスクにおける最先端の手法よりも大きなパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2021-06-29T17:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。