論文の概要: Learning and Understanding a Disentangled Feature Representation for
Hidden Parameters in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.16315v1
- Date: Tue, 29 Nov 2022 15:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 17:07:49.246262
- Title: Learning and Understanding a Disentangled Feature Representation for
Hidden Parameters in Reinforcement Learning
- Title(参考訳): 強化学習における隠れパラメータのアンタングル特徴表現の学習と理解
- Authors: Christopher Reale and Rebecca Russell
- Abstract要約: 本稿では,RL軌道を距離が隠れパラメータによるシステム挙動の相対的な差を表す特徴空間にマッピングする教師なし手法を提案する。
モデルベースRLで使用されるリカレントニューラルネットワーク(RNN)の世界モデルを活用することにより,隠れパラメータの影響を解消する。
- 参考スコア(独自算出の注目度): 1.3909388235627789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hidden parameters are latent variables in reinforcement learning (RL)
environments that are constant over the course of a trajectory. Understanding
what, if any, hidden parameters affect a particular environment can aid both
the development and appropriate usage of RL systems. We present an unsupervised
method to map RL trajectories into a feature space where distance represents
the relative difference in system behavior due to hidden parameters. Our
approach disentangles the effects of hidden parameters by leveraging a
recurrent neural network (RNN) world model as used in model-based RL. First, we
alter the standard world model training algorithm to isolate the hidden
parameter information in the world model memory. Then, we use a metric learning
approach to map the RNN memory into a space with a distance metric
approximating a bisimulation metric with respect to the hidden parameters. The
resulting disentangled feature space can be used to meaningfully relate
trajectories to each other and analyze the hidden parameter. We demonstrate our
approach on four hidden parameters across three RL environments. Finally we
present two methods to help identify and understand the effects of hidden
parameters on systems.
- Abstract(参考訳): 隠れパラメータは、軌道上で一定となる強化学習(RL)環境における潜伏変数である。
隠されたパラメータが特定の環境に影響を与える場合、RLシステムの開発と適切な利用の両方に役立つ。
本稿では,RL軌道を距離が隠れパラメータによるシステム挙動の相対的な差を表す特徴空間にマッピングする教師なし手法を提案する。
本稿では,モデルベースrlにおけるrecurrent neural network(rnn)世界モデルを用いて,隠れたパラメータの影響を解消する。
まず、標準世界モデル学習アルゴリズムを変更し、世界モデルメモリに隠されたパラメータ情報を分離する。
次に,RNNメモリを空間にマッピングするための距離学習手法を用いて,隠れパラメータに関する2次元メトリックを近似する距離メトリックを提案する。
結果として生じる歪んだ特徴空間は、軌跡を相互に有意に関連付け、隠れたパラメータを分析するために使用できる。
3つのRL環境にまたがる4つの隠れパラメータに対するアプローチを示す。
最後に,隠れパラメータがシステムに与える影響を識別し,理解する2つの方法を提案する。
関連論文リスト
- Replacement Learning: Training Vision Tasks with Fewer Learnable Parameters [4.2114456503277315]
置換学習は、冷凍層の全パラメータを2つの学習可能なパラメータで置き換える。
CIFAR-10, STL-10, SVHN, ImageNetの4つのベンチマークデータセットを対象に実験を行った。
提案手法は,エンドツーエンドトレーニングの性能を完全に超えながら,パラメータ数,トレーニング時間,メモリ使用量を削減する。
論文 参考訳(メタデータ) (2024-10-02T05:03:54Z) - Winning Prize Comes from Losing Tickets: Improve Invariant Learning by
Exploring Variant Parameters for Out-of-Distribution Generalization [76.27711056914168]
Out-of-Distribution (OOD) 一般化は、分散固有の特徴に適合することなく、様々な環境によく適応する堅牢なモデルを学ぶことを目的としている。
LTH(Lottery Ticket hypothesis)に基づく最近の研究は、学習目標を最小化し、タスクに重要なパラメータのいくつかを見つけることでこの問題に対処している。
Invariant Learning (EVIL) における変数探索手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T06:10:57Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Deep Learning of Dynamical System Parameters from Return Maps as Images [0.0]
本稿では,ディープラーニング技術を用いたシステム識別手法を提案する。
離散および連続時間力学系のパラメータを推定するために教師付き学習手法を用いる。
論文 参考訳(メタデータ) (2023-06-20T03:23:32Z) - Efficient Parametric Approximations of Neural Network Function Space
Distance [6.117371161379209]
モデルパラメータとトレーニングデータの重要な特性をコンパクトに要約して、データセット全体を保存または/または反復することなく後で使用できるようにすることが、しばしば有用である。
我々は,FSD(Function Space Distance)をトレーニングセット上で推定することを検討する。
本稿では、線形化活性化TRick (LAFTR) を提案し、ReLUニューラルネットワークに対するFSDの効率的な近似を導出する。
論文 参考訳(メタデータ) (2023-02-07T15:09:23Z) - Symmetry Detection in Trajectory Data for More Meaningful Reinforcement
Learning Representations [0.0]
本稿では,RL対称性を生の軌跡データから直接検出する手法を提案する。
本研究では, 環境物理とRL政策の双方の基礎となる対称性を推定できる2つのシミュレーションRL事例について実験を行った。
論文 参考訳(メタデータ) (2022-11-29T17:00:26Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Efficient Continual Adaptation for Generative Adversarial Networks [97.20244383723853]
GAN(Generative Adversarial Network)に対する連続学習手法を提案する。
我々のアプローチは、グローバルパラメータとタスク固有のパラメータのセットを学習することに基づいている。
機能マップ変換に基づくアプローチは,最先端のgans手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-06T05:09:37Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z) - On Parameter Tuning in Meta-learning for Computer Vision [2.3513645401551333]
本稿では,学習情報に制限のあるデータセットの未確認カテゴリに対するマージ認識について検討する。
この目的を達成するためにゼロショット学習(ZSL)アルゴリズムをデプロイする。
また,パラメータチューニングが意味的オートエンコーダ(SAE)の性能に及ぼす影響についても検討する。
論文 参考訳(メタデータ) (2020-02-11T15:07:30Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。