論文の概要: Bayesian Inverse Reinforcement Learning for Collective Animal Movement
- arxiv url: http://arxiv.org/abs/2009.04003v3
- Date: Sat, 11 Jun 2022 17:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 20:55:59.880945
- Title: Bayesian Inverse Reinforcement Learning for Collective Animal Movement
- Title(参考訳): 集団動物運動のためのベイズ逆強化学習
- Authors: Toryn L. J. Schafer, Christopher K. Wikle and Mevin B. Hooten
- Abstract要約: 逆強化学習は、長期的な行動方針を管理する短期的な規則に関する推論を提供する。
我々は、計算効率のよい線形解法マルコフ決定プロセスを用いて、集団運動を規定する局所ルールを学習する。
- 参考スコア(独自算出の注目度): 0.7161783472741748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agent-based methods allow for defining simple rules that generate complex
group behaviors. The governing rules of such models are typically set a priori
and parameters are tuned from observed behavior trajectories. Instead of making
simplifying assumptions across all anticipated scenarios, inverse reinforcement
learning provides inference on the short-term (local) rules governing long term
behavior policies by using properties of a Markov decision process. We use the
computationally efficient linearly-solvable Markov decision process to learn
the local rules governing collective movement for a simulation of the self
propelled-particle (SPP) model and a data application for a captive guppy
population. The estimation of the behavioral decision costs is done in a
Bayesian framework with basis function smoothing. We recover the true costs in
the SPP simulation and find the guppies value collective movement more than
targeted movement toward shelter.
- Abstract(参考訳): エージェントベースのメソッドは、複雑なグループの振る舞いを生成する単純なルールを定義することができる。
このようなモデルの統治規則は、通常、優先順位を設定し、パラメータは観察された行動軌跡から調整される。
予測されるすべてのシナリオにまたがる仮定を単純化する代わりに、逆強化学習はマルコフ決定プロセスの特性を用いて長期的な行動ポリシーを管理する短期(局所)ルールを推論する。
我々は,計算効率のよい線形解法マルコフ決定プロセスを用いて,自己推進粒子(SPP)モデルと捕獲グッピー集団に対するデータ応用のシミュレーションにおいて,集団移動を規定する局所規則を学習する。
行動決定コストの推定は基底関数の平滑化を伴うベイズ的枠組みを用いて行われる。
我々は,SPPシミュレーションの真のコストを回収し,目標運動よりもグッピーが集団移動に価値を見出す。
関連論文リスト
- Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Delta-AI: Local objectives for amortized inference in sparse graphical models [64.5938437823851]
スパース確率的グラフィカルモデル(PGM)における補正推論のための新しいアルゴリズムを提案する。
提案手法は, PGMにおける変数のサンプリングをエージェントが行う一連の行動とみなす場合, エージェントのポリシー学習目的において, PGMの疎結合が局所的な信用割当を可能にするという観察に基づいている。
合成PGMからサンプリングし、スパース因子構造を持つ潜在変数モデルを訓練するための$Delta$-AIの有効性について説明する。
論文 参考訳(メタデータ) (2023-10-03T20:37:03Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Goal-Directed Planning by Reinforcement Learning and Active Inference [16.694117274961016]
ベイジアン推論を用いた新たな意思決定フレームワークを提案する。
ゴール指向の振る舞いは、計画によって$z$の後方分布から決定される。
本稿では,カメラ観測と連続運動動作を用いたセンサモレータナビゲーションタスクの実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T06:41:01Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。