論文の概要: Inverse Reinforcement Learning with Switching Rewards and History Dependency for Characterizing Animal Behaviors
- arxiv url: http://arxiv.org/abs/2501.12633v1
- Date: Wed, 22 Jan 2025 04:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:21.248679
- Title: Inverse Reinforcement Learning with Switching Rewards and History Dependency for Characterizing Animal Behaviors
- Title(参考訳): 動物行動評価のための切り換えリワードと履歴依存による逆強化学習
- Authors: Jingyang Ke, Feiyang Wu, Jiyi Wang, Jeffrey Markowitz, Anqi Wu,
- Abstract要約: 従来の逆強化学習を拡張する新しいフレームワークであるSWIRL(SWitching IRL)を紹介する。
SWIRLは、過去の決定と環境コンテキストがどのように振舞うかを捉えるために、生物学的に妥当な履歴依存性を組み込んでいる。
シミュレーションおよび実世界の動物行動データセットにSWIRLを適用し、履歴に依存しないモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.4515842164525465
- License:
- Abstract: Traditional approaches to studying decision-making in neuroscience focus on simplified behavioral tasks where animals perform repetitive, stereotyped actions to receive explicit rewards. While informative, these methods constrain our understanding of decision-making to short timescale behaviors driven by explicit goals. In natural environments, animals exhibit more complex, long-term behaviors driven by intrinsic motivations that are often unobservable. Recent works in time-varying inverse reinforcement learning (IRL) aim to capture shifting motivations in long-term, freely moving behaviors. However, a crucial challenge remains: animals make decisions based on their history, not just their current state. To address this, we introduce SWIRL (SWitching IRL), a novel framework that extends traditional IRL by incorporating time-varying, history-dependent reward functions. SWIRL models long behavioral sequences as transitions between short-term decision-making processes, each governed by a unique reward function. SWIRL incorporates biologically plausible history dependency to capture how past decisions and environmental contexts shape behavior, offering a more accurate description of animal decision-making. We apply SWIRL to simulated and real-world animal behavior datasets and show that it outperforms models lacking history dependency, both quantitatively and qualitatively. This work presents the first IRL model to incorporate history-dependent policies and rewards to advance our understanding of complex, naturalistic decision-making in animals.
- Abstract(参考訳): 神経科学における意思決定の研究における伝統的なアプローチは、動物が明示的な報酬を受け取るために反復的でステレオタイプ化された行動を行う、簡易な行動タスクに焦点を当てている。
情報的ではあるが、これらの手法は決定の理解を明示的な目標によって引き起こされる短い時間スケールの行動に制限する。
自然環境においては、動物は、しばしば観察不可能な本質的な動機によって引き起こされるより複雑で長期的な行動を示す。
時間変化逆強化学習(IRL)における最近の研究は、長期的、自由な行動におけるシフトモチベーションを捉えることを目的としている。
しかし、重要な課題は、動物が現在の状態だけでなく、その歴史に基づいて意思決定を行うことである。
これを解決するためにSWIRL(SWitching IRL)を提案する。
SWIRLは、長い行動列を短期的な意思決定プロセス間の遷移としてモデル化し、それぞれがユニークな報酬関数によって支配される。
SWIRLは生物学的に妥当な歴史依存を取り入れ、過去の決定と環境コンテキストが行動を形成する様子を捉え、動物による意思決定をより正確に記述する。
SWIRLをシミュレーションおよび実世界の動物行動データセットに適用し, 履歴依存を欠いたモデルにおいて, 定量的, 定性的に優れていることを示す。
この研究は、動物における複雑で自然主義的な意思決定の理解を促進するために、歴史に依存した政策と報酬を取り入れた最初のIRLモデルを示す。
関連論文リスト
- Computer Vision for Primate Behavior Analysis in the Wild [61.08941894580172]
ビデオに基づく行動監視は、動物の認知と行動を研究する方法を変える大きな可能性を秘めている。
今でも、エキサイティングな見通しと、今日実際に達成できるものの間には、かなり大きなギャップがある。
論文 参考訳(メタデータ) (2024-01-29T18:59:56Z) - Behaviour Modelling of Social Animals via Causal Structure Discovery and
Graph Neural Networks [15.542220566525021]
本稿では,時系列の因果構造探索とグラフニューラルネットワークを用いた行動モデル構築手法を提案する。
本手法を動物園環境におけるメスカットの群落に適用し,今後の行動を予測する能力について検討する。
論文 参考訳(メタデータ) (2023-12-21T23:34:08Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Multi-intention Inverse Q-learning for Interpretable Behavior Representation [12.135423420992334]
逆強化学習(IRL)法は、複雑な行動の基礎となる動物の意図を再構築するのに役立つことが証明されている。
階層型逆Q-ラーニング(HIQL)アルゴリズムのクラスを紹介する。
シミュレーション実験と実際の動物行動データセットにHIQLを適用することで、我々のアプローチは行動予測の現在のベンチマークよりも優れています。
論文 参考訳(メタデータ) (2023-11-23T09:27:08Z) - LISBET: a machine learning model for the automatic segmentation of social behavior motifs [0.0]
LISBET(LISBET Is a Social BEhavior Transformer)は,社会的相互作用の検出とセグメンテーションのための機械学習モデルである。
身体追跡データを用いた自己教師型学習により,広範囲な人的アノテーションの必要性を排除した。
生体内電気生理学的には,本モデルで同定されたモチーフに対応する腹側歯根膜領域の神経信号が明瞭であった。
論文 参考訳(メタデータ) (2023-11-07T15:35:17Z) - Learning signatures of decision making from many individuals playing the
same game [54.33783158658077]
我々は、個人の「行動スタイル」を符号化する表現を学習する予測フレームワークを設計する。
我々は,3本腕のバンディットタスクを行う1,000人の人間による大規模行動データセットに本手法を適用した。
論文 参考訳(メタデータ) (2023-02-21T21:41:53Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - Hierarchical Reinforcement Learning of Locomotion Policies in Response
to Approaching Objects: A Preliminary Study [11.919315372249802]
深層強化学習により、ヒューマノイドロボットのような複雑な運動系がA点からB点に移動できるようになった。
自然界における動物の自然反応の観察にインスパイアされた私たちは、ロボットの移動におけるこの進歩を拡大したいと考えています。
ロボットがボールにぶつかることを避けるため,MuJoCo内にシミュレーション環境を構築した。
論文 参考訳(メタデータ) (2022-03-20T18:24:18Z) - The Introspective Agent: Interdependence of Strategy, Physiology, and
Sensing for Embodied Agents [51.94554095091305]
本論では, 環境の文脈において, 自己能力を考慮した内省的エージェントについて論じる。
自然と同じように、私たちは戦略を1つのツールとして再編成して、環境において成功させたいと考えています。
論文 参考訳(メタデータ) (2022-01-02T20:14:01Z) - Episodic memory governs choices: An RNN-based reinforcement learning
model for decision-making task [24.96447960548042]
RNNベースのActor-Criticフレームワークを開発し、サルの意思決定タスクに類似した2つのタスクを解決します。
私たちは、神経科学のオープンな質問を探ろうとしています:海馬のエピソード記憶は、最終的に将来の決定を支配するために選択されるべきです。
論文 参考訳(メタデータ) (2021-01-24T04:33:07Z) - History Repeats Itself: Human Motion Prediction via Motion Attention [81.94175022575966]
注意に基づくフィードフォワードネットワークを導入し、人間の動きが自分自身を繰り返す傾向にあるという観察を明示的に活用する。
特に,現在動きのコンテキストと過去の動きのサブシーケンスの類似性を捉えるために,動きの注意を抽出することを提案する。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を実証した。
論文 参考訳(メタデータ) (2020-07-23T02:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。