論文の概要: Multi-intention Inverse Q-learning for Interpretable Behavior
Representation
- arxiv url: http://arxiv.org/abs/2311.13870v2
- Date: Fri, 2 Feb 2024 12:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:17:06.474450
- Title: Multi-intention Inverse Q-learning for Interpretable Behavior
Representation
- Title(参考訳): 解釈可能な行動表現のためのマルチインテンション逆q学習
- Authors: Hao Zhu, Brice De La Crompe, Gabriel Kalweit, Artur Schneider, Maria
Kalweit, Ilka Diester, Joschka Boedecker
- Abstract要約: 逆強化学習(IRL: Inverse Reinforcement Learning)は、複雑な行動の中で、動物の複数の意図の再構築に役立っている。
本稿では、離散固有報酬関数の調整に適したIRLアルゴリズムの新たなクラスであるL(M)V-IQLについて紹介する。
我々の手法は動物行動予測の現在のベンチマークを超え、解釈可能な報酬関数を生成する。
- 参考スコア(独自算出の注目度): 12.743962973776567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In advancing the understanding of decision-making processes, Inverse
Reinforcement Learning (IRL) have proven instrumental in reconstructing
animal's multiple intentions amidst complex behaviors. Given the recent
development of a continuous-time multi-intention IRL framework, there has been
persistent inquiry into inferring discrete time-varying rewards with IRL. To
tackle the challenge, we introduce Latent (Markov) Variable Inverse Q-learning
(L(M)V-IQL), a novel class of IRL algorthms tailored for accommodating discrete
intrinsic reward functions. Leveraging an Expectation-Maximization approach, we
cluster observed expert trajectories into distinct intentions and independently
solve the IRL problem for each. Demonstrating the efficacy of L(M)V-IQL through
simulated experiments and its application to different real mouse behavior
datasets, our approach surpasses current benchmarks in animal behavior
prediction, producing interpretable reward functions. This advancement holds
promise for neuroscience and cognitive science, contributing to a deeper
understanding of decision-making and uncovering underlying brain mechanisms.
- Abstract(参考訳): 意思決定プロセスの理解を深める過程で、逆強化学習(IRL)は複雑な行動の中で動物の複数の意図を再構築するのに役立つことが証明されている。
近年、連続的マルチインテンションIRLフレームワークが開発されていることから、IRLによる個別の時間変化報酬を推測する調査が続けられている。
この課題に対処するために、離散固有報酬関数の調整に適したIRLアルゴリズムの新たなクラスであるL(M)V-IQLを提案する。
期待最大化アプローチを活用し,観察した専門家の軌跡を異なる意図に分類し,それぞれのirl問題を独立に解く。
シミュレーション実験によるL(M)V-IQLの有効性の実証と実際のマウス行動データセットへの応用により,動物行動予測における現在のベンチマークを超え,解釈可能な報酬関数を生成する。
この進歩は神経科学と認知科学の約束を守り、意思決定の深い理解と基礎となる脳機構の解明に寄与する。
関連論文リスト
- Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Generalising via Meta-Examples for Continual Learning in the Wild [24.09600678738403]
我々は「野生で学習する」ニューラルネットワークを扱うための新しい戦略を開発する
MEML - Meta-Example Meta-Learning - 破滅的な忘れを同時に緩和する新しいモジュール。
様々な拡張タスクを作成し、最も難しいタスクを最適化する手法を採用して拡張する。
論文 参考訳(メタデータ) (2021-01-28T15:51:54Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。