論文の概要: Information is Power: Intrinsic Control via Information Capture
- arxiv url: http://arxiv.org/abs/2112.03899v1
- Date: Tue, 7 Dec 2021 18:50:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 14:20:56.885342
- Title: Information is Power: Intrinsic Control via Information Capture
- Title(参考訳): 情報とパワー:情報キャプチャによる内在制御
- Authors: Nicholas Rhinehart, Jenny Wang, Glen Berseth, John D. Co-Reyes,
Danijar Hafner, Chelsea Finn, Sergey Levine
- Abstract要約: 我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
- 参考スコア(独自算出の注目度): 110.3143711650806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans and animals explore their environment and acquire useful skills even
in the absence of clear goals, exhibiting intrinsic motivation. The study of
intrinsic motivation in artificial agents is concerned with the following
question: what is a good general-purpose objective for an agent? We study this
question in dynamic partially-observed environments, and argue that a compact
and general learning objective is to minimize the entropy of the agent's state
visitation estimated using a latent state-space model. This objective induces
an agent to both gather information about its environment, corresponding to
reducing uncertainty, and to gain control over its environment, corresponding
to reducing the unpredictability of future world states. We instantiate this
approach as a deep reinforcement learning agent equipped with a deep
variational Bayes filter. We find that our agent learns to discover, represent,
and exercise control of dynamic objects in a variety of partially-observed
environments sensed with visual observations without extrinsic reward.
- Abstract(参考訳): 人間や動物は環境を探索し、明確な目標がなくても有用なスキルを獲得し、本質的な動機を示す。
人工エージェントにおける本質的動機づけの研究は、次の質問に関係している: エージェントにとって優れた汎用目的とは何か?
本研究では,この問題を動的部分観測環境において研究し,潜在状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化することを目的としている。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
我々は,このアプローチを深い変動ベイズフィルタを備えた深層強化学習エージェントとしてインスタンス化する。
我々のエージェントは、外因性報酬を伴わずに視覚的観察によって知覚された様々な部分観測環境において、動的物体の発見、表現、運動制御を学習する。
関連論文リスト
- Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Embodied Agents for Efficient Exploration and Smart Scene Description [47.82947878753809]
我々は、自律的なエージェントが見えない屋内環境を探索し、マッピングする必要がある視覚ナビゲーションの設定に取り組む。
本稿では,視覚ロボット探査と画像キャプションの最近の進歩を組み合わせたアプローチを提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートなシーン記述を生成する。
論文 参考訳(メタデータ) (2023-01-17T19:28:01Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - Active Inference for Robotic Manipulation [30.692885688744507]
アクティブ推論(英: Active Inference)は、部分的に可観測性を扱う理論である。
本研究では,ロボット操作作業のシミュレーションにActive Inferenceを適用した。
アクティブ推論によって引き起こされる情報探索行動により,エージェントはこれらの難易度の高い環境を体系的に探索できることを示す。
論文 参考訳(メタデータ) (2022-06-01T12:19:38Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z) - Action and Perception as Divergence Minimization [43.75550755678525]
アクションパーセプション・ディバージェンス(Action Perception Divergence)は、エンボディエージェントの可能な目的関数の空間を分類するためのアプローチである。
狭い目的から一般的な目的に到達するスペクトルを示す。
これらのエージェントは、彼らの信念を世界と整合させるのに知覚を使い、行動を使って世界と信念を整合させる。
論文 参考訳(メタデータ) (2020-09-03T16:52:46Z) - Modulation of viability signals for self-regulatory control [1.370633147306388]
適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。
強化学習タスクでは、好みの分布が報酬の概念に取って代わる。
論文 参考訳(メタデータ) (2020-07-18T01:11:51Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。