論文の概要: Action and Perception as Divergence Minimization
- arxiv url: http://arxiv.org/abs/2009.01791v3
- Date: Sun, 13 Feb 2022 02:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-22 06:49:42.814953
- Title: Action and Perception as Divergence Minimization
- Title(参考訳): 発散最小化としての行動と知覚
- Authors: Danijar Hafner, Pedro A. Ortega, Jimmy Ba, Thomas Parr, Karl Friston,
Nicolas Heess
- Abstract要約: アクションパーセプション・ディバージェンス(Action Perception Divergence)は、エンボディエージェントの可能な目的関数の空間を分類するためのアプローチである。
狭い目的から一般的な目的に到達するスペクトルを示す。
これらのエージェントは、彼らの信念を世界と整合させるのに知覚を使い、行動を使って世界と信念を整合させる。
- 参考スコア(独自算出の注目度): 43.75550755678525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To learn directed behaviors in complex environments, intelligent agents need
to optimize objective functions. Various objectives are known for designing
artificial agents, including task rewards and intrinsic motivation. However, it
is unclear how the known objectives relate to each other, which objectives
remain yet to be discovered, and which objectives better describe the behavior
of humans. We introduce the Action Perception Divergence (APD), an approach for
categorizing the space of possible objective functions for embodied agents. We
show a spectrum that reaches from narrow to general objectives. While the
narrow objectives correspond to domain-specific rewards as typical in
reinforcement learning, the general objectives maximize information with the
environment through latent variable models of input sequences. Intuitively,
these agents use perception to align their beliefs with the world and use
actions to align the world with their beliefs. They infer representations that
are informative of past inputs, explore future inputs that are informative of
their representations, and select actions or skills that maximally influence
future inputs. This explains a wide range of unsupervised objectives from a
single principle, including representation learning, information gain,
empowerment, and skill discovery. Our findings suggest leveraging powerful
world models for unsupervised exploration as a path toward highly adaptive
agents that seek out large niches in their environments, rendering task rewards
optional.
- Abstract(参考訳): 複雑な環境で指示行動を学ぶためには、知的エージェントは目的関数を最適化する必要がある。
様々な目的は、タスク報酬や本質的なモチベーションを含む、人工エージェントの設計で知られている。
しかしながら、既知の目的が相互にどのような関係を持つのか、どの目的がまだ発見されていないのか、どの目的が人間の行動をよりよく記述しているかは明らかでない。
本稿では,エージェントの目的関数の空間を分類するアプローチとして,行動知覚多様性(APD)を導入する。
狭い目的から一般的な目的に到達するスペクトルを示す。
狭義の目標は強化学習で典型的なドメイン固有の報酬に対応するが、一般の目標は入力シーケンスの潜在変数モデルを通じて環境との情報を最大化する。
直感的には、これらのエージェントは自分の信念を世界と整合させ、その信念と世界を整合させる行動を利用する。
彼らは過去の入力を知らせる表現を推論し、その表現を知らせる未来の入力を探索し、将来の入力に最も影響を与える行動やスキルを選択する。
これは、表現学習、情報獲得、エンパワーメント、スキル発見など、単一の原則から、教師なしの目標を幅広く説明します。
本研究は, 大規模ニッチを探索する高度適応エージェントへの道筋として, 教師なし探索に強力な世界モデルを活用することを示唆する。
関連論文リスト
- SENSEI: Semantic Exploration Guided by Foundation Models to Learn Versatile World Models [22.96777963013918]
固有のモチベーションは、外部のタスクベースの報酬から探索を分離しようとする。
SENSEIはモデルに基づくRLエージェントに意味論的行動の本質的な動機を与えるためのフレームワークである。
論文 参考訳(メタデータ) (2025-03-03T14:26:15Z) - Curious Exploration via Structured World Models Yields Zero-Shot Object
Manipulation [19.840186443344]
そこで本研究では,制御ループに帰納バイアスを組み込む構造的世界モデルを用いて,サンプル効率の高い探索を実現することを提案する。
提案手法は,早期にオブジェクトと対話し始める自由プレイ動作を生成し,時間とともにより複雑な動作を発達させる。
論文 参考訳(メタデータ) (2022-06-22T22:08:50Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。