論文の概要: Conditional Mutual Information for Disentangled Representations in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.14133v2
- Date: Thu, 12 Oct 2023 09:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 03:54:12.770200
- Title: Conditional Mutual Information for Disentangled Representations in
Reinforcement Learning
- Title(参考訳): 強化学習における連接表現の条件付き相互情報
- Authors: Mhairi Dunion, Trevor McInroe, Kevin Sebastian Luck, Josiah P. Hanna,
Stefano V. Albrecht
- Abstract要約: 強化学習環境は、特徴間の素早い相関でトレーニングデータを生成することができる。
アンタングル表現はロバスト性を改善することができるが、特徴間の相互情報を最小化する既存のアンタングル化技術は独立した特徴を必要とする。
相関特徴を持つ高次元観測の非交叉表現を学習するRLアルゴリズムの補助的タスクを提案する。
- 参考スコア(独自算出の注目度): 13.450394764597663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) environments can produce training data with
spurious correlations between features due to the amount of training data or
its limited feature coverage. This can lead to RL agents encoding these
misleading correlations in their latent representation, preventing the agent
from generalising if the correlation changes within the environment or when
deployed in the real world. Disentangled representations can improve
robustness, but existing disentanglement techniques that minimise mutual
information between features require independent features, thus they cannot
disentangle correlated features. We propose an auxiliary task for RL algorithms
that learns a disentangled representation of high-dimensional observations with
correlated features by minimising the conditional mutual information between
features in the representation. We demonstrate experimentally, using continuous
control tasks, that our approach improves generalisation under correlation
shifts, as well as improving the training performance of RL algorithms in the
presence of correlated features.
- Abstract(参考訳): 強化学習(rl)環境は、トレーニングデータ量や制限された機能カバレッジによって、機能間のスパーラスな相関を持つトレーニングデータを生成することができる。
これにより、これらの誤解を招く相関を潜在表現でエンコードするrlエージェントが出現し、エージェントが環境内で相関が変化するかどうか、あるいは現実世界にデプロイされた場合の一般化を防止できる。
絡み合った表現はロバスト性を改善するが、機能間の相互情報を最小限にする既存の絡み合い技法では、独立した特徴を必要とするため、相関した特徴を絡み合わせることはできない。
本稿では,高次元観測の異方性表現を相関特徴量で学習するrlアルゴリズムの補助タスクを提案し,その特徴量間の条件付き相互情報を最小限に抑える。
我々は,連続制御タスクを用いて,相関シフト下での一般化と,相関特徴の存在下でのrlアルゴリズムのトレーニング性能の向上を実験的に実証する。
関連論文リスト
- Out of spuriousity: Improving robustness to spurious correlations without group annotations [2.592470112714595]
本稿では,突発的相関に依存しない完全トレーニングネットワークからサブネットワークを抽出する手法を提案する。
提案手法の最悪のグループ性能の増加は、完全に訓練された高密度ネットワークにサブネットワークが存在するという仮説の強化に寄与する。
論文 参考訳(メタデータ) (2024-07-20T20:24:14Z) - Learning Generalizable Agents via Saliency-Guided Features Decorrelation [25.19044461705711]
特徴と判断の相関をなくすために,サリエンシガイド機能デコレーションを提案する。
RFFは高次元画像における複雑な非線形相関を推定するために利用され、サリエンシマップは変化した特徴を識別するために設計されている。
サリエンシマップの指導のもと、SGFDはサンプル再重み付けを用いて、変化した特徴に関する推定相関を最小化する。
論文 参考訳(メタデータ) (2023-10-08T09:24:43Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement
Learning [2.984934409689467]
因果的混乱(英: Causal confusion)とは、エージェントが状態空間全体にわたって保持されない可能性のある特徴間の急激な相関を学習する現象である。
本稿では,エージェントの推論における因果的混乱を検出するアルゴリズムであるReCCoVERを提案する。
論文 参考訳(メタデータ) (2022-03-21T13:17:30Z) - Disentanglement and Generalization Under Correlation Shifts [22.499106910581958]
実世界のデータでは、変動要因間の相関が一般的である。
機械学習アルゴリズムは、ノイズの多いデータに対する予測性能を高めることができるため、そのような相関を利用する利点がある。
潜在部分空間の様々な要因を捉える表現を学習することを目的としている。
論文 参考訳(メタデータ) (2021-12-29T18:55:17Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。