論文の概要: Online Feedback Efficient Active Target Discovery in Partially Observable Environments
- arxiv url: http://arxiv.org/abs/2505.06535v1
- Date: Sat, 10 May 2025 06:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.894067
- Title: Online Feedback Efficient Active Target Discovery in Partially Observable Environments
- Title(参考訳): 部分的に観測可能な環境下でのオンラインフィードバック効率の良いアクティブターゲット発見
- Authors: Anindya Sarkar, Binglin Ji, Yevgeniy Vorobeychik,
- Abstract要約: Diffusion-guided Active Target Discovery (DiffATD) は、拡散力学を有効ターゲット発見に活用する新しい手法である。
DiffATDは、固定されたサンプリング予算内で部分的に観測可能な環境で効率的なターゲット発見を可能にする。
我々は,DiffATDがベースラインよりもはるかに優れた性能を示し,完全な環境観測性の下で動作する教師付き手法と競合することを示した。
- 参考スコア(独自算出の注目度): 24.34531421163472
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In various scientific and engineering domains, where data acquisition is costly, such as in medical imaging, environmental monitoring, or remote sensing, strategic sampling from unobserved regions, guided by prior observations, is essential to maximize target discovery within a limited sampling budget. In this work, we introduce Diffusion-guided Active Target Discovery (DiffATD), a novel method that leverages diffusion dynamics for active target discovery. DiffATD maintains a belief distribution over each unobserved state in the environment, using this distribution to dynamically balance exploration-exploitation. Exploration reduces uncertainty by sampling regions with the highest expected entropy, while exploitation targets areas with the highest likelihood of discovering the target, indicated by the belief distribution and an incrementally trained reward model designed to learn the characteristics of the target. DiffATD enables efficient target discovery in a partially observable environment within a fixed sampling budget, all without relying on any prior supervised training. Furthermore, DiffATD offers interpretability, unlike existing black-box policies that require extensive supervised training. Through extensive experiments and ablation studies across diverse domains, including medical imaging and remote sensing, we show that DiffATD performs significantly better than baselines and competitively with supervised methods that operate under full environmental observability.
- Abstract(参考訳): 医療画像、環境モニタリング、リモートセンシングなど、データ取得に費用がかかる様々な科学・工学分野において、事前観測によって導かれる未観測領域からの戦略的サンプリングは、限られたサンプリング予算内での目標発見を最大化するために不可欠である。
本研究では,拡散誘導型アクティブターゲットディスカバリ(DiffATD)を提案する。
DiffATDは、この分布を用いて探索・探索の動的バランスをとることにより、環境中の観測されていない各状態に対する信念分布を維持している。
探索は、最も期待されるエントロピーの高い領域をサンプリングすることで不確実性を低減し、一方、探索は、目標を発見する可能性が最も高い領域を目標とし、信念分布と、目標の特性を学習するための漸進的に訓練された報酬モデルによって示される。
DiffATDは、固定されたサンプリング予算内で部分的に観測可能な環境で効率的な目標発見を可能にする。
さらに、DiffATDは、広範囲の教師付きトレーニングを必要とする既存のブラックボックスポリシーとは異なり、解釈可能性を提供する。
医用画像やリモートセンシングなど多種多様な領域にわたる広範囲な実験とアブレーション研究を通じて、DiffATDはベースラインよりもはるかに優れた性能を示し、完全な環境観測性の下で動作する教師付き手法と競合することを示した。
関連論文リスト
- Action abstractions for amortized sampling [49.384037138511246]
本稿では、政策最適化プロセスに行動抽象化(高レベルの行動)の発見を組み込むアプローチを提案する。
我々のアプローチでは、多くの高次軌道にまたがってよく使われるアクション列を反復的に抽出し、それらをアクション空間に追加する単一のアクションにチャンキングする。
論文 参考訳(メタデータ) (2024-10-19T19:22:50Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Curiosity & Entropy Driven Unsupervised RL in Multiple Environments [0.0]
オリジナル作品に5つの新しい修正を加えて実験する。
高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。
しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
論文 参考訳(メタデータ) (2024-01-08T19:25:40Z) - Diffusion Models for Multi-target Adversarial Tracking [0.49157446832511503]
標的追跡は現実世界のシナリオ、特に薬物輸送の対話において重要な役割を担っている。
無人ドローンの普及に伴い、安全と安全のためには正確な自律目標推定がさらに重要である。
本稿では、敵位置の包括的予測を生成するアプローチであるCADENCE(Constrained Agent-based Diffusion for Enhanced Multi-Agent Tracking)を提案する。
論文 参考訳(メタデータ) (2023-07-12T15:34:39Z) - Reinforcement Learning for Agile Active Target Sensing with a UAV [10.070339628481445]
本稿では,情報トラジェクトリを計画するための深層強化学習手法を開発する。
ターゲット状態に対する現在の信念を活用し、高忠実度分類のための不正確なセンサーモデルを含む。
提案手法の特異な特徴は,真の目標分布から様々な量の偏差が生じることにある。
論文 参考訳(メタデータ) (2022-12-16T01:01:17Z) - Active Inference and Reinforcement Learning: A unified inference on continuous state and action spaces under partial observability [19.56438470022024]
多くの実世界の問題は、部分的に観測可能な決定過程(POMDP)として定式化された部分的な観察を含む。
これまでの研究では、過去の行動や観察の記憶を取り入れたり、環境の本当の状態を推測することで、PMDPのRLに取り組みました。
アクティブ推論(AIF)と強化学習(RL)の理論的関係を確立する統一原理を提案する。
実験により,連続的な空間を部分的に観測可能なタスクを解く上で,本手法の優れた学習能力を実証した。
論文 参考訳(メタデータ) (2022-12-15T16:28:06Z) - Information is Power: Intrinsic Control via Information Capture [110.3143711650806]
我々は,潜時状態空間モデルを用いて推定したエージェントの状態訪問のエントロピーを最小化する,コンパクトで汎用的な学習目的を論じる。
この目的は、不確実性の低減に対応する環境情報収集と、将来の世界状態の予測不可能性の低減に対応する環境制御の両方をエージェントに誘導する。
論文 参考訳(メタデータ) (2021-12-07T18:50:42Z) - Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles [73.15950858151594]
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
論文 参考訳(メタデータ) (2020-10-27T22:06:57Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。