論文の概要: Which Mutual-Information Representation Learning Objectives are
Sufficient for Control?
- arxiv url: http://arxiv.org/abs/2106.07278v1
- Date: Mon, 14 Jun 2021 10:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 02:08:46.802700
- Title: Which Mutual-Information Representation Learning Objectives are
Sufficient for Control?
- Title(参考訳): どの相互情報表現学習の目的が制御に十分か?
- Authors: Kate Rakelly, Abhishek Gupta, Carlos Florensa, Sergey Levine
- Abstract要約: 相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
- 参考スコア(独自算出の注目度): 80.2534918595143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mutual information maximization provides an appealing formalism for learning
representations of data. In the context of reinforcement learning (RL), such
representations can accelerate learning by discarding irrelevant and redundant
information, while retaining the information necessary for control. Much of the
prior work on these methods has addressed the practical difficulties of
estimating mutual information from samples of high-dimensional observations,
while comparatively less is understood about which mutual information
objectives yield representations that are sufficient for RL from a theoretical
perspective. In this paper, we formalize the sufficiency of a state
representation for learning and representing the optimal policy, and study
several popular mutual-information based objectives through this lens.
Surprisingly, we find that two of these objectives can yield insufficient
representations given mild and common assumptions on the structure of the MDP.
We corroborate our theoretical results with empirical experiments on a
simulated game environment with visual observations.
- Abstract(参考訳): 相互情報最大化は、データの表現を学習するための魅力的な形式を提供する。
強化学習(RL)の文脈では、このような表現は、制御に必要な情報を保持しながら、無関係かつ冗長な情報を破棄することで学習を加速することができる。
これらの手法に関する先行研究の多くは、高次元観測のサンプルから相互情報を推定する実践的な困難に対処しているが、理論的な観点からは、相互情報の目的がRLに十分な表現をもたらすかは、比較的理解されていない。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化し,このレンズを通して一般的な相互情報に基づく目的について検討する。
意外なことに、これらの2つの目的は、MDPの構造について軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
視覚的観察によるシミュレーションゲーム環境における実験結果と理論結果を相関させる。
関連論文リスト
- An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。
Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文 参考訳(メタデータ) (2024-10-31T14:57:31Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Desiderata for Representation Learning: A Causal Perspective [104.3711759578494]
我々は表現学習の因果的視点を採り、非純粋性と効率性(教師なし表現学習)と非教師なし表現学習(教師なし表現学習)を定式化する。
これは、関心のデシダータを満たす程度を計算可能なメトリクスで評価し、単一の観測データセットから不純物や不整合表現を学習する。
論文 参考訳(メタデータ) (2021-09-08T17:33:54Z) - Fair Representation Learning using Interpolation Enabled Disentanglement [9.043741281011304]
a) 下流タスクに対する学習された表現の有用性を確保しつつ、公平な不整合表現を同時に学べるか、(b) 提案手法が公正かつ正確であるかどうかに関する理論的知見を提供する。
前者に対応するために,補間可能外乱を用いた公正表現学習法FRIEDを提案する。
論文 参考訳(メタデータ) (2021-07-31T17:32:12Z) - Farewell to Mutual Information: Variational Distillation for Cross-Modal
Person Re-Identification [41.02729491273057]
Information Bottleneck (IB)は、表現学習のための情報理論の原則を提供する。
我々は、スケーラブルで柔軟で分析的なソリューションを提供する新しい戦略、可変自己蒸留(VSD)を提示します。
また、Variational Cross-Distillation (VCD) と Variational Mutual-Learning (VML) の2つの戦略を紹介します。
論文 参考訳(メタデータ) (2021-04-07T02:19:41Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。