論文の概要: Neural Distillation as a State Representation Bottleneck in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.02224v1
- Date: Wed, 5 Oct 2022 13:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:17:19.619126
- Title: Neural Distillation as a State Representation Bottleneck in
Reinforcement Learning
- Title(参考訳): 強化学習における状態表現基盤としてのニューラル蒸留
- Authors: Valentin Guillet, Dennis G. Wilson, Carlos Aguilar-Melchor, Emmanuel
Rachelson
- Abstract要約: 蒸留は, 良好な特性を示す状態表現の学習に有効であると主張する。
本稿では,これらの基準をまず評価し,標準逆振り子問題に基づく玩具環境における状態表現への蒸留の寄与を検証する。
- 参考スコア(独自算出の注目度): 4.129225533930966
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Learning a good state representation is a critical skill when dealing with
multiple tasks in Reinforcement Learning as it allows for transfer and better
generalization between tasks. However, defining what constitute a useful
representation is far from simple and there is so far no standard method to
find such an encoding. In this paper, we argue that distillation -- a process
that aims at imitating a set of given policies with a single neural network --
can be used to learn a state representation displaying favorable
characteristics. In this regard, we define three criteria that measure
desirable features of a state encoding: the ability to select important
variables in the input space, the ability to efficiently separate states
according to their corresponding optimal action, and the robustness of the
state encoding on new tasks. We first evaluate these criteria and verify the
contribution of distillation on state representation on a toy environment based
on the standard inverted pendulum problem, before extending our analysis on
more complex visual tasks from the Atari and Procgen benchmarks.
- Abstract(参考訳): 優れた状態表現を学ぶことは、強化学習において複数のタスクを扱う際に重要なスキルである。
しかし、有用な表現を構成するものを定義するのは単純ではなく、そのようなエンコーディングを見つける標準的な方法は存在しない。
本稿では、与えられた一連のポリシーを単一のニューラルネットワークで模倣するプロセスである蒸留は、望ましい特性を示す状態表現を学習するために使用できると主張する。
本稿では、入力空間における重要な変数を選択する能力、対応する最適動作に応じて効率的に状態を分離する能力、新しいタスクにおける状態符号化の堅牢性といった、状態符号化の望ましい特徴を測定するための3つの基準を定義する。
これらの基準をまず評価し,標準逆振り子問題に基づく玩具環境における状態表現への蒸留の寄与を検証するとともに,atariベンチマークとprocgenベンチマークからより複雑な視覚タスクの解析を拡張した。
関連論文リスト
- Learning telic-controllable state representations [3.072340427031969]
本稿では,有界エージェントにおける状態表現学習のための新しい計算フレームワークを提案する。
我々の研究は、自然エージェントと人工エージェントの目標指向状態表現学習に関する統一的な理論的視点を推し進めている。
論文 参考訳(メタデータ) (2024-06-20T16:38:25Z) - Locally Constrained Representations in Reinforcement Learning [5.865719902445064]
強化学習の成功は、環境観察から堅牢な表現を学ぶ能力に大きく依存している。
ほとんどの場合、強化学習損失によって純粋に学習された表現は、値関数がどのように変化するかによって州によって大きく異なる。
本稿では, 局所的に制約された表現を提案する。そこでは, 補助的損失により, 隣接する状態の表現によって状態表現が予測可能となる。
論文 参考訳(メタデータ) (2022-09-20T03:36:39Z) - Visual processing in context of reinforcement learning [0.0]
この論文では、従来のRLアルゴリズムが使用するデータソースの異なるサブセットにアクセス可能な3つの異なる表現学習アルゴリズムを紹介している。
RL問題解決パイプラインに教師なし表現学習を含めれば、学習を高速化できると結論付けている。
論文 参考訳(メタデータ) (2022-08-26T09:30:51Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Learning Markov State Abstractions for Deep Reinforcement Learning [17.34529517221924]
本稿では,マルコフの抽象状態表現を学習するのに十分であることを示す。
次に、逆モデル推定と時間的コントラスト学習を組み合わせた実践的な訓練手順について述べる。
提案手法は,ドメインの基盤構造を捉える表現を学習し,サンプル効率を向上させる。
論文 参考訳(メタデータ) (2021-06-08T14:12:36Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Towards Learning Controllable Representations of Physical Systems [9.088303226909279]
力学系の学習表現は次元性を減少させ、下流強化学習(RL)を支援する可能性がある
我々は、真の状態と対応する表現の関係を考察し、理想的には各表現が一意的な状態に対応することを提唱する。
これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。
論文 参考訳(メタデータ) (2020-11-16T17:15:57Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。
エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。
提案手法は5つの公開データセットで評価される。
論文 参考訳(メタデータ) (2020-03-12T11:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。