論文の概要: DiffVAS: Diffusion-Guided Visual Active Search in Partially Observable Environments
- arxiv url: http://arxiv.org/abs/2605.15519v1
- Date: Fri, 15 May 2026 01:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.140898
- Title: DiffVAS: Diffusion-Guided Visual Active Search in Partially Observable Environments
- Title(参考訳): DiffVAS: 部分観測可能な環境での拡散誘導型視覚能動探索
- Authors: Anindya Sarkar, Srikumar Sastry, Aleksis Pirinen, Nathan Jacobs, Yevgeniy Vorobeychik,
- Abstract要約: DiffVASは、部分的に観測可能な環境におけるタスク要求に応じて、多様なオブジェクトを同時に検索するターゲット条件付きポリシーである。
部分的に観測可能な環境で多様なオブジェクトを探索し、いくつかのデータセットで最先端の手法を大幅に上回っている。
- 参考スコア(独自算出の注目度): 38.91206454694548
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual active search (VAS) has been introduced as a modeling framework that leverages visual cues to direct aerial (e.g., UAV-based) exploration and pinpoint areas of interest within extensive geospatial regions. Potential applications of VAS include detecting hotspots for rare wildlife poaching, aiding search-and-rescue missions, and uncovering illegal trafficking of weapons, among other uses. Previous VAS approaches assume that the entire search space is known upfront, which is often unrealistic due to constraints such as a restricted field of view and high acquisition costs, and they typically learn policies tailored to specific target objects, which limits their ability to search for multiple target categories simultaneously. In this work, we propose DiffVAS, a target-conditioned policy that searches for diverse objects simultaneously according to task requirements in partially observable environments, which advances the deployment of visual active search policies in real-world applications. DiffVAS leverages a diffusion model to reconstruct the entire geospatial area from sequentially observed partial glimpses, which enables a target-conditioned reinforcement learning-based planning module to effectively reason and guide subsequent search steps. Extensive experiments demonstrate that DiffVAS excels in searching diverse objects in partially observable environments, significantly surpassing state-of-the-art methods on several datasets.
- Abstract(参考訳): 視覚能動探索(VAS)は、視覚的手がかりを利用して、広域空間領域における空中(UAV)探索やピンポイント領域の直接探索を行うためのモデリングフレームワークとして導入された。
VASの潜在的な応用には、希少な野生生物の密猟のためのホットスポットの検出、捜索救助任務の支援、武器の違法な密輸の発見などが含まれる。
従来のVASアプローチでは、検索空間全体が前もって知られているが、視野の制限や高い取得コストといった制約のため、しばしば非現実的であり、通常は特定のターゲットオブジェクトに適したポリシーを学習し、複数のターゲットカテゴリを同時に検索する能力を制限する。
本研究では,視覚的アクティブな検索ポリシーを現実のアプリケーションに展開するDiffVASを提案する。
DiffVASは拡散モデルを利用して、連続的に観察された部分的な視点から空間領域全体を再構築する。
大規模な実験により、DiffVASは部分的に観測可能な環境における多様なオブジェクトの探索に優れており、いくつかのデータセットにおける最先端の手法を大幅に上回っていることが示されている。
関連論文リスト
- GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - A Partially Supervised Reinforcement Learning Framework for Visual
Active Search [36.966522001393734]
ビジュアルアクティブサーチ(VAS)は、探索のガイドとして視覚的手がかりを用いるモデリングフレームワークとして提案されている。
本稿では,DRLの長所と従来のアクティブ検索の長所を併用して,探索ポリシーを予測モジュールに分解する手法を提案する。
そこで我々は,学習時間と意思決定時間の両方で得られた教師付き情報を効果的に活用できる新しいメタラーニング手法を開発した。
論文 参考訳(メタデータ) (2023-10-15T00:29:35Z) - ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection [52.16237548064387]
Few-shot Object Detection (FSOD) は、非常に少数のアノテーション付きサンプルからオブジェクトを識別する。
近年のFSOD法の多くは、2段階の学習パラダイムを適用しており、このパラダイムは豊富なベースクラスから学んだ知識を、グローバルな特徴を学習することで、数発の検知を補助する。
本研究では,局所的な部分に応じて大域的オブジェクトを推論するための拡張可能共存注意(ECEA)モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-15T06:55:43Z) - A Visual Active Search Framework for Geospatial Exploration [36.31732056074638]
多くの問題は、航空画像によって支援された地理空間探索の形式と見なすことができる。
我々は3つの重要な入力を持つ視覚的能動探索(VAS)フレームワークでこの問題をモデル化する。
完全注釈付き検索タスクの集合からメタ検索ポリシーを学習するVASのための強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-11-28T21:53:05Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。