論文の概要: Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.05333v1
- Date: Mon, 12 Sep 2022 15:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 14:20:09.995676
- Title: Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるロバスト探索のための自己教師型シークエンシャル・インフォメーション・ブートネック
- Authors: Bang You, Jingming Xie, Youping Chen, Jan Peters, Oleg Arenz
- Abstract要約: 本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
- 参考スコア(独自算出の注目度): 28.75574762244266
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Effective exploration is critical for reinforcement learning agents in
environments with sparse rewards or high-dimensional state-action spaces.
Recent works based on state-visitation counts, curiosity and
entropy-maximization generate intrinsic reward signals to motivate the agent to
visit novel states for exploration. However, the agent can get distracted by
perturbations to sensor inputs that contain novel but task-irrelevant
information, e.g. due to sensor noise or changing background. In this work, we
introduce the sequential information bottleneck objective for learning
compressed and temporally coherent representations by modelling and compressing
sequential predictive information in time-series observations. For efficient
exploration in noisy environments, we further construct intrinsic rewards that
capture task-relevant state novelty based on the learned representations. We
derive a variational upper bound of our sequential information bottleneck
objective for practical optimization and provide an information-theoretic
interpretation of the derived upper bound. Our experiments on a set of
challenging image-based simulated control tasks show that our method achieves
better sample efficiency, and robustness to both white noise and natural video
backgrounds compared to state-of-art methods based on curiosity, entropy
maximization and information-gain.
- Abstract(参考訳): 効果的な探索は、疎い報酬や高次元状態空間を持つ環境における強化学習エージェントにとって重要である。
状態視数、好奇心、エントロピー最大化に基づく最近の研究は、エージェントが探索のために新しい状態に行く動機づけとなる固有の報酬信号を生成する。
しかし、エージェントは、センサーノイズや背景の変化など、新規だがタスク関連のない情報を含むセンサ入力に対する摂動によって注意をそらすことができる。
本研究では,時系列観測における逐次予測情報をモデル化・圧縮することにより,圧縮・時間的コヒーレント表現を学習するシーケンシャル情報ボトルネック目標を提案する。
ノイズの多い環境での効率的な探索のために,学習された表現に基づいてタスク関連状態の新規性をキャプチャする本質的な報酬を構築する。
実用的最適化のための逐次的情報ボトルネック目標の変分上界を導出し,導出上界の情報理論的解釈を提供する。
提案手法は, 好奇性, エントロピー最大化, 情報ゲインに基づく最先端の手法と比較して, ホワイトノイズと自然映像の両方の背景に頑健性をもたらすことを示す。
関連論文リスト
- Multimodal Information Bottleneck for Deep Reinforcement Learning with Multiple Sensors [10.454194186065195]
強化学習はロボット制御タスクにおいて有望な成果を上げてきたが、情報の有効活用に苦慮している。
最近の研究は、複数の感覚入力から関節表現を抽出するために、再構成や相互情報に基づく補助的損失を構築している。
生のマルチモーダル観測について,学習した共同表現で情報を圧縮することが有用である。
論文 参考訳(メタデータ) (2024-10-23T04:32:37Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Active Sensing with Predictive Coding and Uncertainty Minimization [0.0]
2つの生物学的計算から着想を得たエンボディード探索のためのエンドツーエンドの手法を提案する。
まず,迷路ナビゲーションタスクによるアプローチを実演し,環境の遷移分布と空間的特徴を明らかにする。
本モデルでは,視覚シーンを効率的に分類するための探索によって,教師なし表現を構築する。
論文 参考訳(メタデータ) (2023-07-02T21:14:49Z) - Palm up: Playing in the Latent Manifold for Unsupervised Pretraining [31.92145741769497]
本稿では,多種多様なデータセットを使用しながら探索行動を示すアルゴリズムを提案する。
私たちのキーとなるアイデアは、静的データセットに事前トレーニングされた深層生成モデルを活用し、潜在空間に動的モデルを導入することです。
次に、教師なし強化学習アルゴリズムを用いて、この環境を探索し、収集したデータに基づいて教師なし表現学習を行う。
論文 参考訳(メタデータ) (2022-10-19T22:26:12Z) - Entropy-driven Unsupervised Keypoint Representation Learning in Videos [7.940371647421243]
本稿では,ビデオから意味のある表現を教師なしで学習するための新しいアプローチを提案する。
画素近傍のテクスティカルなエントロピーとその時間的進化は,特徴の学習に有用な本質的な監督信号を生み出すと論じる。
私たちの経験的な結果は、静的なオブジェクトや動的オブジェクトへの出席や突然の入場や退場といった課題を解決する情報駆動キーポイントのパフォーマンスに優れています。
論文 参考訳(メタデータ) (2022-09-30T12:03:52Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。