論文の概要: Hard Attention Control By Mutual Information Maximization
- arxiv url: http://arxiv.org/abs/2103.06371v1
- Date: Wed, 10 Mar 2021 22:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 04:48:44.351477
- Title: Hard Attention Control By Mutual Information Maximization
- Title(参考訳): 相互情報最大化によるハードアテンション制御
- Authors: Himanshu Sahni and Charles Isbell
- Abstract要約: 生物エージェントは、環境からの情報の受信率を制限するために注意の原則を採用してきた。
本稿では,各ステップにおける環境状態と注目位置の相互情報を最大化することにより,ハードアテンションウィンドウの制御方法を学ぶためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 4.56877715768796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological agents have adopted the principle of attention to limit the rate
of incoming information from the environment. One question that arises is if an
artificial agent has access to only a limited view of its surroundings, how can
it control its attention to effectively solve tasks? We propose an approach for
learning how to control a hard attention window by maximizing the mutual
information between the environment state and the attention location at each
step. The agent employs an internal world model to make predictions about its
state and focuses attention towards where the predictions may be wrong.
Attention is trained jointly with a dynamic memory architecture that stores
partial observations and keeps track of the unobserved state. We demonstrate
that our approach is effective in predicting the full state from a sequence of
partial observations. We also show that the agent's internal representation of
the surroundings, a live mental map, can be used for control in two partially
observable reinforcement learning tasks. Videos of the trained agent can be
found at https://sites.google.com/view/hard-attention-control.
- Abstract(参考訳): 生物エージェントは、環境からの情報の受信率を制限するために注意の原則を採用してきた。
人工エージェントが周囲の限られたビューにしかアクセスできない場合、どのようにしてタスクを効果的に解決するために注意を制御することができますか?
本稿では,各ステップにおける環境状態と注目位置の相互情報を最大化することにより,ハードアテンションウィンドウの制御方法を学ぶためのアプローチを提案する。
エージェントは、その状態に関する予測を行うために内部世界モデルを採用し、予測が間違っている可能性がある場所に注目します。
注意は、部分的な観察を保存し、観察されていない状態を追跡する動的メモリアーキテクチャと共同訓練されます。
本手法は, 部分観測の系列から完全状態を予測するのに有効であることを示す。
また, エージェントの内部表現, 生きたメンタルマップは, 2つの部分観測可能な強化学習タスクの制御に利用できることを示した。
トレーニングされたエージェントのビデオはhttps://sites.google.com/view/hard-attention-controlで見ることができる。
関連論文リスト
- Attention Schema in Neural Agents [66.43628974353683]
認知神経科学において、注意理論(AST)は、注意をASと区別する考え方を支持している。
ASTは、エージェントが自身のASを使用して他のエージェントの注意の状態を推測できると予測する。
我々は、注意とASが相互に相互作用する様々な方法を探求する。
論文 参考訳(メタデータ) (2023-05-27T05:40:34Z) - Guaranteed Discovery of Controllable Latent States with Multi-Step
Inverse Models [51.754160866582005]
エージェント制御可能な状態探索アルゴリズム(AC-State)
アルゴリズムは多段階の逆モデル(遠方の観測から行動を予測する)と情報ボトルネックから構成される。
本稿では,3つの領域において制御可能な潜伏状態の発見を実証する。ロボットアームの局所化,他のエージェントとともに迷路を探索し,Matterportハウスシミュレーターをナビゲートする。
論文 参考訳(メタデータ) (2022-07-17T17:06:52Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Attention or memory? Neurointerpretable agents in space and time [0.0]
本研究では,意味的特徴空間にタスク状態表現を実装する自己認識機構を組み込んだモデルの設計を行う。
エージェントの選択的特性を評価するために,多数のタスク非関連特徴を観察に付加する。
神経科学の予測に従って、自己注意は、ベンチマークモデルと比較してノイズに対する堅牢性を高める。
論文 参考訳(メタデータ) (2020-07-09T15:04:26Z) - Neuroevolution of Self-Interpretable Agents [11.171154483167514]
不注意の盲目は、普通の視界で物事を見逃す心理的現象である。
選択的な注意を払って,自己注意ボトルネックのレンズを通して世界を知覚する人工エージェントの特性について検討した。
論文 参考訳(メタデータ) (2020-03-18T11:40:35Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。