論文の概要: Future Prediction Can be a Strong Evidence of Good History
Representation in Partially Observable Environments
- arxiv url: http://arxiv.org/abs/2402.07102v1
- Date: Sun, 11 Feb 2024 04:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 17:31:28.323822
- Title: Future Prediction Can be a Strong Evidence of Good History
Representation in Partially Observable Environments
- Title(参考訳): 将来予測は、部分的に観測可能な環境における良い歴史表現の強い証拠となり得る
- Authors: Jeongyeol Kwon, Liu Yang, Robert Nowak, Josiah Hanna
- Abstract要約: 優れた歴史表現の学習は、部分的に観察可能な環境における強化学習(RL)のコア課題の1つである。
本稿では,政策最適化から今後の予測を通じて歴史表現を学習するタスクを分離するアプローチを提案する。
主な貢献は2つある: (a)強化学習の性能が、部分的に観測可能な環境における将来の観測の予測精度と強く相関していること、(b)我々のアプローチは、エンド・ツー・エンドのアプローチ全体を著しく改善することができることを実証する。
- 参考スコア(独自算出の注目度): 17.2313550256575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a good history representation is one of the core challenges of
reinforcement learning (RL) in partially observable environments. Recent works
have shown the advantages of various auxiliary tasks for facilitating
representation learning. However, the effectiveness of such auxiliary tasks has
not been fully convincing, especially in partially observable environments that
require long-term memorization and inference. In this empirical study, we
investigate the effectiveness of future prediction for learning the
representations of histories, possibly of extensive length, in partially
observable environments. We first introduce an approach that decouples the task
of learning history representations from policy optimization via future
prediction. Then, our main contributions are two-fold: (a) we demonstrate that
the performance of reinforcement learning is strongly correlated with the
prediction accuracy of future observations in partially observable
environments, and (b) our approach can significantly improve the overall
end-to-end approach by preventing high-variance noisy signals from
reinforcement learning objectives to influence the representation learning. We
illustrate our claims on three types of benchmarks that necessitate the ability
to process long histories for high returns.
- Abstract(参考訳): 優れた歴史表現の学習は、部分的に観察可能な環境で強化学習(RL)のコア課題の1つである。
近年の研究では、表現学習を促進するための様々な補助タスクの利点が示されている。
しかし、特に長期記憶と推測を必要とする部分観測可能な環境では、このような補助タスクの有効性は十分には納得できない。
本研究では,歴史の表現,おそらくは長さの広い部分観察可能な環境において,今後の予測の有効性について検討する。
まず,今後の予測を通じて,政策最適化から歴史表現を学習するタスクを分離する手法を提案する。
主な貢献は次の2つです。
(a)強化学習の性能は、部分的に観測可能な環境における将来の観測の予測精度と強く相関していることを示す。
b)この手法は,高分散雑音信号が強化学習目標から遠ざかって表現学習に影響を与えることを防止し,総合的なエンドツーエンドアプローチを著しく改善することができる。
高いリターンのために長い履歴を処理する能力を必要とする3種類のベンチマークについて、我々の主張を説明する。
関連論文リスト
- Learning Future Representation with Synthetic Observations for Sample-efficient Reinforcement Learning [12.277005054008017]
視覚強化学習(RL)では、上流表現学習が下流政策学習の効果を決定づける。
補助訓練データを充実させることで,RLの補助表現学習を改善する。
本研究では、将来の情報を含む可能性のある観測を合成するためのトレーニング不要な手法を提案する。
残りの合成観測と実観測は、クラスタリングに基づく時間的関連タスクを達成する補助データとして機能する。
論文 参考訳(メタデータ) (2024-05-20T02:43:04Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Fair Representation Learning using Interpolation Enabled Disentanglement [9.043741281011304]
a) 下流タスクに対する学習された表現の有用性を確保しつつ、公平な不整合表現を同時に学べるか、(b) 提案手法が公正かつ正確であるかどうかに関する理論的知見を提供する。
前者に対応するために,補間可能外乱を用いた公正表現学習法FRIEDを提案する。
論文 参考訳(メタデータ) (2021-07-31T17:32:12Z) - Co$^2$L: Contrastive Continual Learning [69.46643497220586]
近年の自己教師型学習のブレークスルーは、このようなアルゴリズムが視覚的な表現を学習し、見えないタスクにもっとうまく移行できることを示している。
本稿では、連続的な学習と伝達可能な表現の維持に焦点を当てたリハーサルに基づく連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-28T06:14:38Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z) - CLAR: Contrastive Learning of Auditory Representations [6.1424670675582576]
聴覚データに適した様々なデータ拡張を導入し、予測性能への影響を評価する。
時間周波数音声特徴を用いた学習は,学習した表現の質を大幅に向上させることを示す。
これらの手法とラベル付きデータとを併用することにより,予測性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-19T14:15:31Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。