論文の概要: Skill Learning via Policy Diversity Yields Identifiable Representations for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.14748v1
- Date: Sat, 19 Jul 2025 20:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.034847
- Title: Skill Learning via Policy Diversity Yields Identifiable Representations for Reinforcement Learning
- Title(参考訳): 政策多様性によるスキル学習 : 強化学習のための表現の特定
- Authors: Patrik Reizinger, Bálint Mucsányi, Siyuan Guo, Benjamin Eysenbach, Bernhard Schölkopf, Wieland Brendel,
- Abstract要約: 自己指導型特徴学習(RL)は、相互情報スキル学習(MISL)と呼ばれる情報理論の原則に依存することが多い。
本研究は,MISLを識別可能な表現学習のレンズを用いて検討する。
コントラスト継承機能(Contrastive Successor Features, CSF)は, 線形変換まで環境の地下構造を確実に復元できることを実証する。
- 参考スコア(独自算出の注目度): 67.90033766878962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised feature learning and pretraining methods in reinforcement learning (RL) often rely on information-theoretic principles, termed mutual information skill learning (MISL). These methods aim to learn a representation of the environment while also incentivizing exploration thereof. However, the role of the representation and mutual information parametrization in MISL is not yet well understood theoretically. Our work investigates MISL through the lens of identifiable representation learning by focusing on the Contrastive Successor Features (CSF) method. We prove that CSF can provably recover the environment's ground-truth features up to a linear transformation due to the inner product parametrization of the features and skill diversity in a discriminative sense. This first identifiability guarantee for representation learning in RL also helps explain the implications of different mutual information objectives and the downsides of entropy regularizers. We empirically validate our claims in MuJoCo and DeepMind Control and show how CSF provably recovers the ground-truth features both from states and pixels.
- Abstract(参考訳): 強化学習(RL)における自己指導型特徴学習と事前学習方法は、相互情報スキル学習(MISL)と呼ばれる情報理論の原則に依存していることが多い。
これらの方法は、環境の表現を学習し、その探索を動機付けることを目的としている。
しかし、MISLにおける表現と相互情報のパラメトリゼーションの役割は理論的にはよく理解されていない。
本研究は,CSF (Contrastive Successor Features) 法に着目し,MISLを識別可能な表現学習のレンズを通して検討する。
我々は,CSFが,特徴の内積パラメトリゼーションやスキルの多様性によって,環境の基盤構造を線形変換まで確実に回復できることを証明した。
RLにおける表現学習のための最初の識別可能性保証は、異なる相互情報目的とエントロピー正規化器の欠点を説明できる。
我々は MuJoCo と DeepMind Control のクレームを実証的に検証し,CSF が状態と画素の両面から構造的特徴を確実に回復することを示す。
関連論文リスト
- Identifiable Exchangeable Mechanisms for Causal Structure and Representation Learning [54.69189620971405]
IEM(Identible Exchangeable Mechanisms)と呼ばれる,表現と構造学習のための統合フレームワークを提供する。
IEMは、交換可能な非i.d.データにおける因果構造同定に必要な条件を緩和する新しい洞察を提供する。
また、認識可能な表現学習における双対性条件の存在を実証し、新たな識別可能性結果をもたらす。
論文 参考訳(メタデータ) (2024-06-20T13:30:25Z) - A Review on Discriminative Self-supervised Learning Methods in Computer Vision [5.5547914920738]
自己教師付き学習(SSL)はコンピュータビジョンにおける変革的アプローチとして急速に発展してきた。
本稿では,人間のラベルを必要としないプレテキストタスクを解くことによって,表現の学習に焦点を当てた識別的SSL手法の包括的分析を行う。
論文 参考訳(メタデータ) (2024-05-08T11:15:20Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Towards Uncovering How Large Language Model Works: An Explainability Perspective [38.07611356855978]
大規模言語モデル(LLM)は言語タスクのブレークスルーをもたらしたが、その顕著な一般化と推論能力を実現する内部メカニズムは不透明のままである。
本稿では,LLM機能の基礎となるメカニズムを,説明可能性のレンズを通して明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-02-16T13:46:06Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Continual Facial Expression Recognition: A Benchmark [3.181579197770883]
本研究は、FERタスク上でのCL技術の評価を行うConFER(Continuous Facial Expression Recognition)ベンチマークを示す。
これは、CK+、RAF-DB、AffectNetといった一般的なFERデータセットに対するCLベースのアプローチの比較分析である。
CL技術は、異なる学習環境下で、複数のデータセットで最先端(SOTA)パフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2023-05-10T20:35:38Z) - Reason from Context with Self-supervised Learning [15.16197896174348]
文脈推論(SeCo)のための外部記憶を用いた自己教師型手法を提案する。
どちらのタスクでも、SeCoはすべての最先端(SOTA)SSLメソッドを大幅なマージンで上回りました。
以上の結果から,SeCoは人間的な行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2022-11-23T10:02:05Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。