論文の概要: Multi-intention Inverse Q-learning for Interpretable Behavior
Representation
- arxiv url: http://arxiv.org/abs/2311.13870v2
- Date: Fri, 2 Feb 2024 12:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:17:06.474450
- Title: Multi-intention Inverse Q-learning for Interpretable Behavior
Representation
- Title(参考訳): 解釈可能な行動表現のためのマルチインテンション逆q学習
- Authors: Hao Zhu, Brice De La Crompe, Gabriel Kalweit, Artur Schneider, Maria
Kalweit, Ilka Diester, Joschka Boedecker
- Abstract要約: 逆強化学習(IRL: Inverse Reinforcement Learning)は、複雑な行動の中で、動物の複数の意図の再構築に役立っている。
本稿では、離散固有報酬関数の調整に適したIRLアルゴリズムの新たなクラスであるL(M)V-IQLについて紹介する。
我々の手法は動物行動予測の現在のベンチマークを超え、解釈可能な報酬関数を生成する。
- 参考スコア(独自算出の注目度): 12.743962973776567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In advancing the understanding of decision-making processes, Inverse
Reinforcement Learning (IRL) have proven instrumental in reconstructing
animal's multiple intentions amidst complex behaviors. Given the recent
development of a continuous-time multi-intention IRL framework, there has been
persistent inquiry into inferring discrete time-varying rewards with IRL. To
tackle the challenge, we introduce Latent (Markov) Variable Inverse Q-learning
(L(M)V-IQL), a novel class of IRL algorthms tailored for accommodating discrete
intrinsic reward functions. Leveraging an Expectation-Maximization approach, we
cluster observed expert trajectories into distinct intentions and independently
solve the IRL problem for each. Demonstrating the efficacy of L(M)V-IQL through
simulated experiments and its application to different real mouse behavior
datasets, our approach surpasses current benchmarks in animal behavior
prediction, producing interpretable reward functions. This advancement holds
promise for neuroscience and cognitive science, contributing to a deeper
understanding of decision-making and uncovering underlying brain mechanisms.
- Abstract(参考訳): 意思決定プロセスの理解を深める過程で、逆強化学習(IRL)は複雑な行動の中で動物の複数の意図を再構築するのに役立つことが証明されている。
近年、連続的マルチインテンションIRLフレームワークが開発されていることから、IRLによる個別の時間変化報酬を推測する調査が続けられている。
この課題に対処するために、離散固有報酬関数の調整に適したIRLアルゴリズムの新たなクラスであるL(M)V-IQLを提案する。
期待最大化アプローチを活用し,観察した専門家の軌跡を異なる意図に分類し,それぞれのirl問題を独立に解く。
シミュレーション実験によるL(M)V-IQLの有効性の実証と実際のマウス行動データセットへの応用により,動物行動予測における現在のベンチマークを超え,解釈可能な報酬関数を生成する。
この進歩は神経科学と認知科学の約束を守り、意思決定の深い理解と基礎となる脳機構の解明に寄与する。
関連論文リスト
- Life, uh, Finds a Way: Systematic Neural Search [2.163881720692685]
エージェントの動作に迅速に適応して、設定における継続的な問題を解決するという課題に取り組みます。
深層強化学習に焦点をあてる代わりに,探索手順の物理的表現としての視聴行動を提案する。
本稿では,行動実行とグラフの突然変異の間の厳密なフィードバックループを調節することにより,行動の暗黙的な列挙を行うアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2024-10-02T09:06:54Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。
行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。
本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文 参考訳(メタデータ) (2021-06-23T03:43:10Z) - Tracking Emotions: Intrinsic Motivation Grounded on Multi-Level
Prediction Error Dynamics [68.8204255655161]
目標達成に向けての進捗率と期待率の差が生じると、感情がどのように生じるかについて議論する。
自己生成的・動的目標に向けた行動を生成する本質的なモチベーションアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-29T06:53:13Z) - Wasserstein Distance guided Adversarial Imitation Learning with Reward
Shape Exploration [21.870750931559915]
We propose a new algorithm called Wasserstein Distance guided Adrial Imitation Learning (WDAIL) for promote the performance of mimicion learning (IL)。
実験結果から,MuJoCoの複雑な連続制御タスクにおいて,学習手順は極めて安定であり,高い性能が得られた。
論文 参考訳(メタデータ) (2020-06-05T15:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。