論文の概要: Studying the Interplay Between the Actor and Critic Representations in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.06343v1
- Date: Sat, 08 Mar 2025 21:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:27.151805
- Title: Studying the Interplay Between the Actor and Critic Representations in Reinforcement Learning
- Title(参考訳): 強化学習におけるアクターと批判表現の相互作用に関する研究
- Authors: Samuel Garcin, Trevor McInroe, Pablo Samuel Castro, Prakash Panangaden, Christopher G. Lucas, David Abel, Stefano V. Albrecht,
- Abstract要約: 我々は、俳優と批評家が、共有された表現よりも、別々に利益を得るかどうかを調査する。
我々の主要な発見は、分離されると、アクターと批評家の表現が、異なる種類の情報を取り出すことを体系的に専門化することである。
我々は、異なる表現学習アプローチが俳優や批評家の専門性にどのように影響するかを理解するために、厳密な実証的研究を行う。
- 参考スコア(独自算出の注目度): 27.2866735011598
- License:
- Abstract: Extracting relevant information from a stream of high-dimensional observations is a central challenge for deep reinforcement learning agents. Actor-critic algorithms add further complexity to this challenge, as it is often unclear whether the same information will be relevant to both the actor and the critic. To this end, we here explore the principles that underlie effective representations for the actor and for the critic in on-policy algorithms. We focus our study on understanding whether the actor and critic will benefit from separate, rather than shared, representations. Our primary finding is that when separated, the representations for the actor and critic systematically specialise in extracting different types of information from the environment -- the actor's representation tends to focus on action-relevant information, while the critic's representation specialises in encoding value and dynamics information. We conduct a rigourous empirical study to understand how different representation learning approaches affect the actor and critic's specialisations and their downstream performance, in terms of sample efficiency and generation capabilities. Finally, we discover that a separated critic plays an important role in exploration and data collection during training. Our code, trained models and data are accessible at https://github.com/francelico/deac-rep.
- Abstract(参考訳): 高次元観測の流れから関連する情報を抽出することは、深層強化学習エージェントにとって重要な課題である。
アクター批判アルゴリズムは、アクターと批評家の両方に同じ情報が関係するかどうかはしばしば不明であるため、この課題にさらなる複雑さをもたらす。
この目的のために、我々は、アクターの効果的な表現と、オン・ポリティクスのアルゴリズムに対する批判の根底にある原則を探求する。
我々は、俳優と批評家が、共有された表現ではなく、別々に利益を得るかどうかを理解することに焦点をあてる。
我々の主要な発見は、アクターと批評家の表現が、環境から異なる種類の情報を抽出することを体系的に専門化することである。
我々は,表現学習のアプローチの違いが,役者や批評家の特殊化や下流のパフォーマンスにどのように影響するかを,サンプル効率と生成能力の観点から,厳密な実証的研究を行った。
最後に、分離された批評家が、トレーニング中の探索とデータ収集において重要な役割を果たすことを発見した。
私たちのコード、トレーニングされたモデル、データはhttps://github.com/francelico/deac-rep.comでアクセスできます。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Multimodal Information Bottleneck for Deep Reinforcement Learning with Multiple Sensors [10.454194186065195]
強化学習はロボット制御タスクにおいて有望な成果を上げてきたが、情報の有効活用に苦慮している。
最近の研究は、複数の感覚入力から関節表現を抽出するために、再構成や相互情報に基づく補助的損失を構築している。
生のマルチモーダル観測について,学習した共同表現で情報を圧縮することが有用である。
論文 参考訳(メタデータ) (2024-10-23T04:32:37Z) - Revisiting Self-supervised Learning of Speech Representation from a
Mutual Information Perspective [68.20531518525273]
我々は、情報理論の観点から、既存の自己教師型音声の手法を詳しく検討する。
我々は線形プローブを用いて、対象情報と学習された表現の間の相互情報を推定する。
我々は、ラベルを使わずに、データの異なる部分間の相互情報を見積もる自己教師型の表現を評価する可能性を探る。
論文 参考訳(メタデータ) (2024-01-16T21:13:22Z) - Compositional Learning in Transformer-Based Human-Object Interaction
Detection [6.630793383852106]
ラベル付きインスタンスの長期分布は、HOI検出の主要な課題である。
HOI三重奏の性質にインスパイアされた既存のアプローチでは、作曲学習という概念が採用されている。
我々は,構成HoI学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
論文 参考訳(メタデータ) (2023-08-11T06:41:20Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Fair Representation Learning using Interpolation Enabled Disentanglement [9.043741281011304]
a) 下流タスクに対する学習された表現の有用性を確保しつつ、公平な不整合表現を同時に学べるか、(b) 提案手法が公正かつ正確であるかどうかに関する理論的知見を提供する。
前者に対応するために,補間可能外乱を用いた公正表現学習法FRIEDを提案する。
論文 参考訳(メタデータ) (2021-07-31T17:32:12Z) - Watching Too Much Television is Good: Self-Supervised Audio-Visual
Representation Learning from Movies and TV Shows [6.247268652296234]
本研究では,映画やテレビ番組からの学習の有効性を,音声・視覚的自己指導学習のための未計算データの形式として検討する。
映画やテレビ番組のコレクションで訓練された、コントラスト学習に基づくシンプルなモデルが、より複雑な手法を劇的に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-06-16T02:00:11Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。
エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。
提案手法は5つの公開データセットで評価される。
論文 参考訳(メタデータ) (2020-03-12T11:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。