論文の概要: Reinforcement Learning with Information-Theoretic Actuation
- arxiv url: http://arxiv.org/abs/2109.15147v1
- Date: Thu, 30 Sep 2021 14:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:04:25.821201
- Title: Reinforcement Learning with Information-Theoretic Actuation
- Title(参考訳): 情報理論による強化学習
- Authors: Elliot Catt, Marcus Hutter, Joel Veness
- Abstract要約: 本稿では,情報理論を用いた内部動作の逐次的概念を用いて,標準的なMDP形式を向上する方法を示す。
これにより、内部および外部の作用値関数の自己整合性の定義が導かれる。
- 参考スコア(独自算出の注目度): 24.2569606221763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning formalises an embodied agent's interaction with the
environment through observations, rewards and actions. But where do the actions
come from? Actions are often considered to represent something external, such
as the movement of a limb, a chess piece, or more generally, the output of an
actuator. In this work we explore and formalize a contrasting view, namely that
actions are best thought of as the output of a sequence of internal choices
with respect to an action model. This view is particularly well-suited for
leveraging the recent advances in large sequence models as prior knowledge for
multi-task reinforcement learning problems. Our main contribution in this work
is to show how to augment the standard MDP formalism with a sequential notion
of internal action using information-theoretic techniques, and that this leads
to self-consistent definitions of both internal and external action value
functions.
- Abstract(参考訳): 強化学習(Reinforcement Learning)は、観察、報酬、行動を通じて環境との相互作用を定式化する。
しかし、アクションはどこから来るのか?
アクションは、手足の動き、チェスの駒、あるいはより一般的にはアクチュエータの出力など、外部の何かを表すものと見なされることが多い。
この研究では、対照的な見解、すなわちアクションモデルに対する内部選択の系列の出力として、アクションが最もよく考えられていることを探求し、定式化する。
この考え方は、大規模シーケンスモデルの最近の進歩をマルチタスク強化学習問題の事前知識として活用するのに特に適している。
本研究の主な貢献は、情報理論技術を用いて内部行動のシーケンシャルな概念を用いて、標準のMDPフォーマリズムを強化する方法を示し、これが内部行動値関数と外部行動値関数の自己整合性定義につながることを示すことである。
関連論文リスト
- IDIL: Imitation Learning of Intent-Driven Expert Behavior [2.07180164747172]
我々は、専門家の多様な意図駆動行動を模倣する新しい模倣学習アルゴリズムIDILを紹介する。
シーケンシャルなタスクに高次元の状態表現で対処することができる。
生成モデルを作成すると、IDILはインテント推論の指標において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-25T19:18:30Z) - Inverse Decision Modeling: Learning Interpretable Representations of
Behavior [72.80902932543474]
我々は,逆決定モデルに関する表現的,統一的な視点を開拓する。
これを逆問題(記述モデルとして)の形式化に用います。
この構造が(有界な)有理性の学習(解釈可能な)表現を可能にする方法について説明する。
論文 参考訳(メタデータ) (2023-10-28T05:05:01Z) - Leveraging Self-Supervised Training for Unintentional Action Recognition [82.19777933440143]
我々は、アクションが意図的なものから意図しないものへと移行するビデオのポイントを特定したい。
本研究では,動き速度,動き方向,意図しない動作を認識するために,固有バイアスを利用する多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T21:36:36Z) - Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。
我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。
アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T14:13:04Z) - Go-Blend behavior and affect [2.323282558557423]
本稿では、感情モデリングタスクを強化学習プロセスとして見ることにより、感情コンピューティングのパラダイムシフトを提案する。
本研究では,Go-Exploreエージェントを最適にプレイし,人間の覚醒のデモンストレーションを模倣しようとすることで,アーケードゲームにおける我々のフレームワークをテストする。
論文 参考訳(メタデータ) (2021-09-24T17:04:30Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。