論文の概要: Diffusion Policy with Bayesian Expert Selection for Active Multi-Target Tracking
- arxiv url: http://arxiv.org/abs/2604.03404v1
- Date: Fri, 03 Apr 2026 19:05:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.559758
- Title: Diffusion Policy with Bayesian Expert Selection for Active Multi-Target Tracking
- Title(参考訳): アクティブマルチターゲットトラッキングのためのベイズ専門家選択による拡散政策
- Authors: Haotian Xiang, Qin Lu, Yaakov Bar-Shalom,
- Abstract要約: アクティブなマルチターゲットトラッキングには、未検出ターゲットの探索と不確実な追跡対象の活用のバランスを取るための移動ロボットが必要である。
拡散政策は、専門家によるデモンストレーションからアクションシーケンスを学習することで、多様な行動戦略を捉えるための強力なアプローチとして現れている。
本稿では,拡散政策の専門的選択をオフラインの文脈的帯域幅問題として定式化し,悲観的かつ不確実性を考慮した戦略選択のためのベイズ的枠組みを提案する。
- 参考スコア(独自算出の注目度): 3.715635410272242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active multi-target tracking requires a mobile robot to balance exploration for undetected targets with exploitation of uncertain tracked ones. Diffusion policies have emerged as a powerful approach for capturing diverse behavioral strategies by learning action sequences from expert demonstrations. However, existing methods implicitly select among strategies through the denoising process, without uncertainty quantification over which strategy to execute. We formulate expert selection for diffusion policies as an offline contextual bandit problem and propose a Bayesian framework for pessimistic, uncertainty-aware strategy selection. A multi-head Variational Bayesian Last Layer (VBLL) model predicts the expected tracking performance of each expert strategy given the current belief state, providing both a point estimate and predictive uncertainty. Following the pessimism principle for offline decision-making, a Lower Confidence Bound (LCB) criterion then selects the expert whose worst-case predicted performance is best, avoiding overcommitment to experts with unreliable predictions. The selected expert conditions a diffusion policy to generate corresponding action sequences. Experiments on simulated indoor tracking scenarios demonstrate that our approach outperforms both the base diffusion policy and standard gating methods, including Mixture-of-Experts selection and deterministic regression baselines.
- Abstract(参考訳): アクティブなマルチターゲットトラッキングには、未検出ターゲットの探索と不確実な追跡対象の活用のバランスを取るための移動ロボットが必要である。
拡散政策は、専門家によるデモンストレーションからアクションシーケンスを学習することで、多様な行動戦略を捉えるための強力なアプローチとして現れている。
しかし、既存の手法では、どの戦略を実行するべきかを不確実な定量化することなく、デノナイズプロセスを通じて戦略の中から暗黙的に選択する。
本稿では,拡散政策の専門的選択をオフラインの文脈的帯域幅問題として定式化し,悲観的かつ不確実性を考慮した戦略選択のためのベイズ的枠組みを提案する。
マルチヘッド変分ベイズ最終層(VBLL)モデルは、現在の信念状態から、各専門家戦略の予測された追跡性能を予測し、点推定と予測の不確実性の両方を提供する。
オフライン意思決定の悲観主義の原則に従い、LCB(Low Confidence Bound)基準は、信頼性の低い専門家への過度なコミットを避けるために、最悪のケースで予測されるパフォーマンスが最適である専門家を選択する。
選択された専門家は、対応するアクションシーケンスを生成する拡散ポリシーを条件とする。
シミュレーション室内追跡実験により,提案手法は,Mixture-of-Experts選択や決定論的回帰ベースラインなど,基本拡散ポリシと標準ゲーティング手法の両方より優れていることが示された。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Pitfall of Optimism: Distributional Reinforcement Learning by
Randomizing Risk Criterion [9.35556128467037]
本稿では,リスクの一方的な傾向を避けるために,リスク基準のランダム化によって行動を選択する新しい分散強化学習アルゴリズムを提案する。
理論的結果は,提案手法がバイアス探索に該当せず,最適回帰に収束することが保証されていることを裏付けるものである。
論文 参考訳(メタデータ) (2023-10-25T10:53:04Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。