Fugu-MT 論文翻訳(概要): Privileged Information Dropout in Reinforcement Learning

論文の概要: Privileged Information Dropout in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2005.09220v1
Date: Tue, 19 May 2020 05:32:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 13:05:39.041987
Title: Privileged Information Dropout in Reinforcement Learning
Title（参考訳）: 強化学習における予備情報ドロップアウト
Authors: Pierre-Alexandre Kamienny, Kai Arulkumaran, Feryal Behbahani, Wendelin Boehmer, Shimon Whiteson
Abstract要約: トレーニング中に特権情報を使用することで、機械学習システムのサンプル効率とパフォーマンスを向上させることができる。本研究では,価値に基づく強化学習アルゴリズムとポリシーに基づく強化学習アルゴリズムに等しく適用可能なプライヴィレグ情報ドロップアウト(pid)について検討する。
参考スコア（独自算出の注目度）: 56.82218103971113
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Using privileged information during training can improve the sample efficiency and performance of machine learning systems. This paradigm has been applied to reinforcement learning (RL), primarily in the form of distillation or auxiliary tasks, and less commonly in the form of augmenting the inputs of agents. In this work, we investigate Privileged Information Dropout (\pid) for achieving the latter which can be applied equally to value-based and policy-based RL algorithms. Within a simple partially-observed environment, we demonstrate that \pid outperforms alternatives for leveraging privileged information, including distillation and auxiliary tasks, and can successfully utilise different types of privileged information. Finally, we analyse its effect on the learned representations.
Abstract（参考訳）: トレーニング中に特権情報を使用すると、機械学習システムのサンプル効率とパフォーマンスが向上する。このパラダイムは、主に蒸留や補助的なタスクの形で強化学習(RL)に適用され、エージェントの入力を増強する形では一般的ではない。本稿では、価値ベースおよびポリシーベースのrlアルゴリズムに等しく適用可能な後者を実現するための特権的情報ドロップアウト(\pid)について検討する。簡単な部分保存環境下では,蒸留や補助的なタスクを含む特権情報を活用する代替手段よりも優れており,異なる種類の特権情報の利用に成功していることを示す。最後に,その学習表現への影響について分析する。

関連論文リスト

Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting [40.80967570661867]
言語モデルをポストトレーニングによって新しいタスクに適応することは、既存の能力を劣化させるリスクをもたらす。教師付き微調整(SFT)と強化学習(RL)の2つの広く採用されているポストトレーニング手法の忘れパターンを比較した。 RLはSFTよりも忘れられがちだが、目標タスクのパフォーマンスは同等か高い。
論文参考訳（メタデータ） (2025-10-21T17:59:41Z)
DeGuV: Depth-Guided Visual Reinforcement Learning for Generalization and Interpretability in Manipulation [3.694734526301468]
本稿では,一般化とサンプル効率を両立させるRLフレームワークであるDeGuVを紹介する。我々は、奥行き入力からマスクを生成する学習可能なマスカネットワークを活用し、重要な視覚情報のみを保存し、無関係なピクセルを破棄する。さらに,コントラッシブ・ラーニングを取り入れ,改良後のQ値推定を安定化させ,サンプル効率とトレーニング安定性をさらに向上させる。
論文参考訳（メタデータ） (2025-09-05T09:52:08Z)
Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-07T12:19:37Z)
Improving Sample Efficiency of Reinforcement Learning with Background Knowledge from Large Language Models [33.504700578933424]
低サンプリング効率は強化学習(RL)の持続的課題である環境の背景知識を抽出するために,大規模言語モデルを利用するフレームワークを導入する。実験により, 下流タスクのスペクトルにおいて, サンプル効率が著しく向上することが確認された。
論文参考訳（メタデータ） (2024-07-04T14:33:47Z)
Learning Future Representation with Synthetic Observations for Sample-efficient Reinforcement Learning [12.277005054008017]
視覚強化学習(RL)では、上流表現学習が下流政策学習の効果を決定づける。補助訓練データを充実させることで,RLの補助表現学習を改善する。本研究では、将来の情報を含む可能性のある観測を合成するためのトレーニング不要な手法を提案する。残りの合成観測と実観測は、クラスタリングに基づく時間的関連タスクを達成する補助データとして機能する。
論文参考訳（メタデータ） (2024-05-20T02:43:04Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Representation Learning in Deep RL via Discrete Information Bottleneck [39.375822469572434]
本研究では,タスク非関連情報の存在下で,潜在状態を効率的に構築するために,情報のボトルネックを利用する方法について検討する。本稿では,RepDIBとよばれる変動的および離散的な情報のボトルネックを利用して,構造化された因子化表現を学習するアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-12-28T14:38:12Z)
CCLF: A Contrastive-Curiosity-Driven Learning Framework for Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。 CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文参考訳（メタデータ） (2022-05-02T14:42:05Z)
Robust Representation Learning via Perceptual Similarity Metrics [18.842322467828502]
Contrastive Input Morphing (CIM) はデータの入力空間変換を学習する表現学習フレームワークである。 CIMは他の相互情報に基づく表現学習技術と相補的であることを示す。
論文参考訳（メタデータ） (2021-06-11T21:45:44Z)
Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文参考訳（メタデータ） (2021-02-22T18:56:34Z)
Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。 RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-11-19T18:47:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。