Fugu-MT 論文翻訳(概要): Combining Reconstruction and Contrastive Methods for Multimodal Representations in RL

論文の概要: Combining Reconstruction and Contrastive Methods for Multimodal Representations in RL

arxiv url: http://arxiv.org/abs/2302.05342v3
Date: Mon, 17 Jun 2024 22:04:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-20 05:43:26.216055
Title: Combining Reconstruction and Contrastive Methods for Multimodal Representations in RL
Title（参考訳）: RLにおけるマルチモーダル表現の再構成とコントラスト法の組み合わせ
Authors: Philipp Becker, Sebastian Mossburger, Fabian Otto, Gerhard Neumann,
Abstract要約: 再構成や対照的な損失を用いた自己教師型表現の学習は、画像ベース・マルチモーダル強化学習(RL)の性能とサンプルの複雑さを向上させるここでは、異なる自己教師付き損失関数は、基礎となるセンサのモジュラリティの情報密度によって異なる利点と制限を有する。コントラスト的再構成集約表現学習(CoRAL)を提案する。このフレームワークは,各センサのモダリティに対して,最も適切な自己管理的損失を選択することができる。
参考スコア（独自算出の注目度）: 16.792949555151978
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning self-supervised representations using reconstruction or contrastive losses improves performance and sample complexity of image-based and multimodal reinforcement learning (RL). Here, different self-supervised loss functions have distinct advantages and limitations depending on the information density of the underlying sensor modality. Reconstruction provides strong learning signals but is susceptible to distractions and spurious information. While contrastive approaches can ignore those, they may fail to capture all relevant details and can lead to representation collapse. For multimodal RL, this suggests that different modalities should be treated differently based on the amount of distractions in the signal. We propose Contrastive Reconstructive Aggregated representation Learning (CoRAL), a unified framework enabling us to choose the most appropriate self-supervised loss for each sensor modality and allowing the representation to better focus on relevant aspects. We evaluate CoRAL's benefits on a wide range of tasks with images containing distractions or occlusions, a new locomotion suite, and a challenging manipulation suite with visually realistic distractions. Our results show that learning a multimodal representation by combining contrastive and reconstruction-based losses can significantly improve performance and solve tasks that are out of reach for more naive representation learning approaches and other recent baselines.
Abstract（参考訳）: 再構成や対照的な損失を用いた自己教師型表現の学習は、画像ベースおよびマルチモーダル強化学習(RL)の性能とサンプルの複雑さを向上させる。ここでは、異なる自己教師付き損失関数は、基礎となるセンサのモジュラリティの情報密度によって異なる利点と制限を有する。レコンストラクションは強力な学習信号を提供するが、気晴らしや刺激的な情報に影響を受けやすい。対照的なアプローチはそれらを無視することができるが、関連するすべての詳細を捕捉できず、表現の崩壊につながる可能性がある。マルチモーダルRLの場合、信号の歪み量に基づいて異なるモダリティを別々に扱う必要があることが示唆される。コントラスト的再構成集約表現学習(CoRAL)を提案する。このフレームワークは,各センサのモダリティに対して,最も適切な自己監督的損失を選択でき,表現が関連する側面により焦点を合わせることができる。我々はCoralの幅広いタスクに対するメリットを、注意散らしや閉塞を含むイメージ、新しい移動スイート、視覚的に現実的な注意散らしを伴う困難な操作スイートで評価する。コントラストと再構成に基づく損失を組み合わせたマルチモーダル表現の学習は,より簡単な表現学習アプローチや近年のベースラインに到達できないタスクを著しく改善し,課題を解決できることを示す。

関連論文リスト

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文参考訳（メタデータ） (2026-03-05T04:45:49Z)
Multimodal Information Bottleneck for Deep Reinforcement Learning with Multiple Sensors [10.454194186065195]
強化学習はロボット制御タスクにおいて有望な成果を上げてきたが、情報の有効活用に苦慮している。最近の研究は、複数の感覚入力から関節表現を抽出するために、再構成や相互情報に基づく補助的損失を構築している。生のマルチモーダル観測について,学習した共同表現で情報を圧縮することが有用である。
論文参考訳（メタデータ） (2024-10-23T04:32:37Z)
Visual Imitation Learning with Calibrated Contrastive Representation [44.63125396964309]
AIL(Adversarial Imitation Learning)は、エージェントが低次元の状態と行動で専門家の行動を再現することを可能にする。本稿では、視覚的AILフレームワークにコントラスト型代表学習を組み込むことにより、シンプルで効果的な解を提案する。
論文参考訳（メタデータ） (2024-01-21T04:18:30Z)
Sequential Action-Induced Invariant Representation for Reinforcement Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文参考訳（メタデータ） (2023-09-22T05:31:55Z)
VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-14T14:37:34Z)
Accelerating exploration and representation learning with offline pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文参考訳（メタデータ） (2023-03-31T18:03:30Z)
R\'enyiCL: Contrastive Representation Learning with Skew R\'enyi Divergence [78.15455360335925]
我々はR'enyiCLという新しい頑健なコントラスト学習手法を提案する。我々の手法は R'enyi divergence の変動的下界の上に構築されている。我々は,R'enyi の対照的な学習目的が,自然に強い負のサンプリングと簡単な正のサンプリングを同時に行うことを示す。
論文参考訳（メタデータ） (2022-08-12T13:37:05Z)
Real-World Image Super-Resolution by Exclusionary Dual-Learning [98.36096041099906]
実世界の画像超解像は,高品質な画像を得るための実用的な画像復元問題である。深層学習に基づく手法は、現実世界の超解像データセットの復元に期待できる品質を実現している。本稿では,RWSR-EDL(Real-World Image Super-Resolution by Exclusionary Dual-Learning)を提案する。
論文参考訳（メタデータ） (2022-06-06T13:28:15Z)
Return-Based Contrastive Representation Learning for Reinforcement Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文参考訳（メタデータ） (2021-02-22T13:04:18Z)
Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。そして、理論的に学習された潜在表現の多元性を証明する。
論文参考訳（メタデータ） (2020-11-12T02:29:29Z)
Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文参考訳（メタデータ） (2020-07-18T03:08:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。