論文の概要: L(M)V-IQL: Multiple Intention Inverse Reinforcement Learning for Animal
Behavior Characterization
- arxiv url: http://arxiv.org/abs/2311.13870v1
- Date: Thu, 23 Nov 2023 09:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 00:19:43.645874
- Title: L(M)V-IQL: Multiple Intention Inverse Reinforcement Learning for Animal
Behavior Characterization
- Title(参考訳): L(M)V-IQL:動物行動評価のための複数意図逆強化学習
- Authors: Hao Zhu, Brice De La Crompe, Gabriel Kalweit, Artur Schneider, Maria
Kalweit, Ilka Diester, Joschka Boedecker
- Abstract要約: 逆強化学習(IRL: Inverse Reinforcement Learning)は、複雑な行動の中で、動物の複数の意図の再構築に役立っている。
本稿では、離散固有報酬の調整に適した新しいIRLフレームワークであるL(M)V-IQLアルゴリズムを提案する。
我々の手法は動物行動予測の現在のベンチマークを超え、解釈可能な報酬関数を生成する。
- 参考スコア(独自算出の注目度): 12.743962973776567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In advancing the understanding of decision-making processes, mathematical
models, particularly Inverse Reinforcement Learning (IRL), have proven
instrumental in reconstructing animal's multiple intentions amidst complex
behaviors. Given the recent development of a continuous-time multi-intention
IRL framework, there has been persistent inquiry into inferring discrete
time-varying reward functions with multiple intention IRL approaches. To tackle
the challenge, we introduce the Latent (Markov) Variable Inverse Q-learning
(L(M)V-IQL) algorithms, a novel IRL framework tailored for accommodating
discrete intrinsic rewards. Leveraging an Expectation-Maximization approach, we
cluster observed trajectories into distinct intentions and independently solve
the IRL problem for each. Demonstrating the efficacy of L(M)V-IQL through
simulated experiments and its application to different real mouse behavior
datasets, our approach surpasses current benchmarks in animal behavior
prediction, producing interpretable reward functions. This advancement holds
promise for neuroscience and psychology, contributing to a deeper understanding
of animal decision-making and uncovering underlying brain mechanisms.
- Abstract(参考訳): 意思決定プロセスの理解を深める過程で、数学モデル、特に逆強化学習(Inverse Reinforcement Learning、IRL)は、複雑な行動の中で動物の複数の意図を再構築するのに役立つことが証明されている。
近年,連続時間マルチインテンションirlフレームワークが開発されており,マルチインテンションirlアプローチによる離散時間変動報酬関数の推測について検討が続けられている。
この課題に対処するために、離散固有報酬の調整に適した新しいIRLフレームワークであるL(M)V-IQLアルゴリズム(Latent (Markov) V-IQL)を導入する。
期待最大化手法を活用し,観測された軌跡を異なる意図に分類し,それぞれのirl問題を独立に解く。
シミュレーション実験によるL(M)V-IQLの有効性の実証と実際のマウス行動データセットへの応用により,動物行動予測における現在のベンチマークを超え,解釈可能な報酬関数を生成する。
この進歩は神経科学と心理学の約束を守り、動物の意思決定をより深く理解し、基礎となる脳のメカニズムを明らかにするのに役立つ。
関連論文リスト
- Life, uh, Finds a Way: Systematic Neural Search [2.163881720692685]
エージェントの動作に迅速に適応して、設定における継続的な問題を解決するという課題に取り組みます。
深層強化学習に焦点をあてる代わりに,探索手順の物理的表現としての視聴行動を提案する。
本稿では,行動実行とグラフの突然変異の間の厳密なフィードバックループを調節することにより,行動の暗黙的な列挙を行うアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2024-10-02T09:06:54Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Tracking Emotions: Intrinsic Motivation Grounded on Multi-Level
Prediction Error Dynamics [68.8204255655161]
目標達成に向けての進捗率と期待率の差が生じると、感情がどのように生じるかについて議論する。
自己生成的・動的目標に向けた行動を生成する本質的なモチベーションアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-29T06:53:13Z) - Wasserstein Distance guided Adversarial Imitation Learning with Reward
Shape Exploration [21.870750931559915]
We propose a new algorithm called Wasserstein Distance guided Adrial Imitation Learning (WDAIL) for promote the performance of mimicion learning (IL)。
実験結果から,MuJoCoの複雑な連続制御タスクにおいて,学習手順は極めて安定であり,高い性能が得られた。
論文 参考訳(メタデータ) (2020-06-05T15:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。