論文の概要: L(M)V-IQL: Multiple Intention Inverse Reinforcement Learning for Animal
Behavior Characterization
- arxiv url: http://arxiv.org/abs/2311.13870v1
- Date: Thu, 23 Nov 2023 09:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 00:19:43.645874
- Title: L(M)V-IQL: Multiple Intention Inverse Reinforcement Learning for Animal
Behavior Characterization
- Title(参考訳): L(M)V-IQL:動物行動評価のための複数意図逆強化学習
- Authors: Hao Zhu, Brice De La Crompe, Gabriel Kalweit, Artur Schneider, Maria
Kalweit, Ilka Diester, Joschka Boedecker
- Abstract要約: 逆強化学習(IRL: Inverse Reinforcement Learning)は、複雑な行動の中で、動物の複数の意図の再構築に役立っている。
本稿では、離散固有報酬の調整に適した新しいIRLフレームワークであるL(M)V-IQLアルゴリズムを提案する。
我々の手法は動物行動予測の現在のベンチマークを超え、解釈可能な報酬関数を生成する。
- 参考スコア(独自算出の注目度): 12.743962973776567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In advancing the understanding of decision-making processes, mathematical
models, particularly Inverse Reinforcement Learning (IRL), have proven
instrumental in reconstructing animal's multiple intentions amidst complex
behaviors. Given the recent development of a continuous-time multi-intention
IRL framework, there has been persistent inquiry into inferring discrete
time-varying reward functions with multiple intention IRL approaches. To tackle
the challenge, we introduce the Latent (Markov) Variable Inverse Q-learning
(L(M)V-IQL) algorithms, a novel IRL framework tailored for accommodating
discrete intrinsic rewards. Leveraging an Expectation-Maximization approach, we
cluster observed trajectories into distinct intentions and independently solve
the IRL problem for each. Demonstrating the efficacy of L(M)V-IQL through
simulated experiments and its application to different real mouse behavior
datasets, our approach surpasses current benchmarks in animal behavior
prediction, producing interpretable reward functions. This advancement holds
promise for neuroscience and psychology, contributing to a deeper understanding
of animal decision-making and uncovering underlying brain mechanisms.
- Abstract(参考訳): 意思決定プロセスの理解を深める過程で、数学モデル、特に逆強化学習(Inverse Reinforcement Learning、IRL)は、複雑な行動の中で動物の複数の意図を再構築するのに役立つことが証明されている。
近年,連続時間マルチインテンションirlフレームワークが開発されており,マルチインテンションirlアプローチによる離散時間変動報酬関数の推測について検討が続けられている。
この課題に対処するために、離散固有報酬の調整に適した新しいIRLフレームワークであるL(M)V-IQLアルゴリズム(Latent (Markov) V-IQL)を導入する。
期待最大化手法を活用し,観測された軌跡を異なる意図に分類し,それぞれのirl問題を独立に解く。
シミュレーション実験によるL(M)V-IQLの有効性の実証と実際のマウス行動データセットへの応用により,動物行動予測における現在のベンチマークを超え,解釈可能な報酬関数を生成する。
この進歩は神経科学と心理学の約束を守り、動物の意思決定をより深く理解し、基礎となる脳のメカニズムを明らかにするのに役立つ。
関連論文リスト
- Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Generalising via Meta-Examples for Continual Learning in the Wild [24.09600678738403]
我々は「野生で学習する」ニューラルネットワークを扱うための新しい戦略を開発する
MEML - Meta-Example Meta-Learning - 破滅的な忘れを同時に緩和する新しいモジュール。
様々な拡張タスクを作成し、最も難しいタスクを最適化する手法を採用して拡張する。
論文 参考訳(メタデータ) (2021-01-28T15:51:54Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文 参考訳(メタデータ) (2020-02-28T10:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。