論文の概要: Maximizing Information Gain in Partially Observable Environments via
Prediction Reward
- arxiv url: http://arxiv.org/abs/2005.04912v1
- Date: Mon, 11 May 2020 08:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 19:36:07.869078
- Title: Maximizing Information Gain in Partially Observable Environments via
Prediction Reward
- Title(参考訳): 予測報酬による部分観測環境における情報ゲインの最大化
- Authors: Yash Satsangi, Sungsu Lim, Shimon Whiteson, Frans Oliehoek, Martha
White
- Abstract要約: 本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
- 参考スコア(独自算出の注目度): 64.24528565312463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information gathering in a partially observable environment can be formulated
as a reinforcement learning (RL), problem where the reward depends on the
agent's uncertainty. For example, the reward can be the negative entropy of the
agent's belief over an unknown (or hidden) variable. Typically, the rewards of
an RL agent are defined as a function of the state-action pairs and not as a
function of the belief of the agent; this hinders the direct application of
deep RL methods for such tasks. This paper tackles the challenge of using
belief-based rewards for a deep RL agent, by offering a simple insight that
maximizing any convex function of the belief of the agent can be approximated
by instead maximizing a prediction reward: a reward based on prediction
accuracy. In particular, we derive the exact error between negative entropy and
the expected prediction reward. This insight provides theoretical motivation
for several fields using prediction rewards---namely visual attention, question
answering systems, and intrinsic motivation---and highlights their connection
to the usually distinct fields of active perception, active sensing, and sensor
placement. Based on this insight we present deep anticipatory networks (DANs),
which enables an agent to take actions to reduce its uncertainty without
performing explicit belief inference. We present two applications of DANs:
building a sensor selection system for tracking people in a shopping mall and
learning discrete models of attention on fashion MNIST and MNIST digit
classification.
- Abstract(参考訳): 部分的に観測可能な環境での情報収集は、報酬がエージェントの不確実性に依存する問題である強化学習(RL)として定式化することができる。
例えば、報酬は未知の(あるいは隠された)変数に対するエージェントの信念の負のエントロピーである。
通常、RLエージェントの報酬は状態-作用対の関数として定義され、エージェントの信念の関数としてではなく、そのようなタスクに対する深いRLメソッドの直接的な適用を妨げる。
本稿では, エージェントの信念の凸関数の最大化は, 予測報酬の最大化, 予測精度に基づく報酬の最大化によって近似できる, という単純な洞察を提供することにより, ディープRLエージェントに対する信念に基づく報酬の利用に挑戦する。
特に、負のエントロピーと期待される予測報酬の正確な誤差を導出する。
この洞察は、視覚的注意、質問応答システム、本質的なモチベーションなど、いくつかの分野における理論的な動機を与え、アクティブな知覚、アクティブな知覚、センサー配置の通常とは異なる分野との関係を強調している。
この知見に基づいて,エージェントが明確な信念推論を行うことなく,その不確実性を抑えることができる深層予測ネットワーク(DAN)を提案する。
本研究では,ショッピングモールにおける人物追跡のためのセンサ選択システムの構築と,ファッションmnist と mnist の数字分類に注目する離散モデルの学習という,dansの2つの応用について述べる。
関連論文リスト
- Explaining an Agent's Future Beliefs through Temporally Decomposing Future Reward Estimators [5.642469620531317]
エージェントの今後の報奨推定器を修正して次のNの報奨を予測し、TRD(Temporal Reward Decomposition)と呼ぶ。
エージェントが報酬を受け取ることを期待する時期、報酬の価値、それを受け取ることに対するエージェントの自信を推定し、エージェントのアクション決定に対する入力特徴の時間的重要性を計測し、将来の報酬に対する異なるアクションの影響を予測する。
Atari環境上で訓練されたDQNエージェントを効率よく再訓練し,RTDを組み込むことで性能への影響を最小限に抑えることができることを示す。
論文 参考訳(メタデータ) (2024-08-15T15:56:15Z) - Intrinsic Rewards for Exploration without Harm from Observational Noise: A Simulation Study Based on the Free Energy Principle [3.6985126664461037]
強化学習(Reinforcement Learning, RL)では、タスクを実行することで数値報酬を最大化するために、人工エージェントを訓練する。
本稿では, 潜伏変数の予測的事前確率と後続確率とのKL偏差によりエージェントに報酬を与える隠れ状態好奇性を提案する。
論文 参考訳(メタデータ) (2024-05-13T05:18:23Z) - Predictable Reinforcement Learning Dynamics through Entropy Rate
Minimization [17.845518684835913]
強化学習(RL)では、エージェントは予測可能な行動を示すインセンティブを持たない。
予測可能性を考慮したRL(Predictability-Aware RL)と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
平均報酬目標としてエントロピー率を定式化する方法を示し,そのエントロピー報酬関数は政策依存であるため,アクション依存のサロゲートエントロピーを導入する。
論文 参考訳(メタデータ) (2023-11-30T16:53:32Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden
Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。
本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。
我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文 参考訳(メタデータ) (2023-08-13T08:12:01Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Experimental Evidence that Empowerment May Drive Exploration in
Sparse-Reward Environments [0.0]
エンパワーメントの原理に基づく本質的な報酬関数は、エージェントが自身のセンサーに持つ制御量に比例する報酬を割り当てる。
我々は,最近提案された内在的動機づけ剤に,「キュリオス」剤,エンパワーメント刺激剤の変種を実装した。
両エージェントのパフォーマンスを、4つのスパース報酬グリッドの世界におけるアドバンテージアクター-批評家ベースラインのパフォーマンスと比較する。
論文 参考訳(メタデータ) (2021-07-14T22:52:38Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Noisy Agents: Self-supervised Exploration by Predicting Auditory Events [127.82594819117753]
本稿では, エージェントが行動の因果的影響を理解することを奨励する, 強化学習(Reinforcement Learning, RL)の本質的なモチベーションを提案する。
ニューラルネットワークを用いて聴覚事象を予測し、予測誤差を本質的な報奨として利用し、RL探索を誘導する。
Atariゲームの実験結果から、我々の新しい本質的な動機は、最先端のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。