論文の概要: Active Visual Search in the Wild
- arxiv url: http://arxiv.org/abs/2209.08803v2
- Date: Tue, 20 Sep 2022 09:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 14:43:25.974388
- Title: Active Visual Search in the Wild
- Title(参考訳): 野生でのアクティブビジュアルサーチ
- Authors: Jeongeun Park, Taerim Yoon, Jejoon Hong, Youngjae Yu, Matthew Pan, and
Sungjoon Choi
- Abstract要約: 本稿では,フリーフォーム言語を用いてターゲットコマンドを入力できるシステムを提案する。
私たちはこのシステムをActive Visual Search in the Wild (AVSW)と呼んでいる。
AVSWは、静的なランドマークで表されるセマンティックグリッドマップを通じて、ユーザが入力したターゲットオブジェクトを検出し、検索する計画である。
- 参考スコア(独自算出の注目度): 12.354788629408933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we focus on the problem of efficiently locating a target
object described with free-form language using a mobile robot equipped with
vision sensors (e.g., an RGBD camera). Conventional active visual search
predefines a set of objects to search for, rendering these techniques
restrictive in practice. To provide added flexibility in active visual
searching, we propose a system where a user can enter target commands using
free-form language; we call this system Active Visual Search in the Wild
(AVSW). AVSW detects and plans to search for a target object inputted by a user
through a semantic grid map represented by static landmarks (e.g., desk or
bed). For efficient planning of object search patterns, AVSW considers
commonsense knowledge-based co-occurrence and predictive uncertainty while
deciding which landmarks to visit first. We validate the proposed method with
respect to SR (success rate) and SPL (success weighted by path length) in both
simulated and real-world environments. The proposed method outperforms previous
methods in terms of SPL in simulated scenarios with an average gap of 0.283. We
further demonstrate AVSW with a Pioneer-3AT robot in real-world studies.
- Abstract(参考訳): 本稿では,視覚センサ(rgbdカメラなど)を搭載した移動ロボットを用いて,自由形言語で記述された対象物体を効率的に位置決めする問題に焦点を当てる。
従来のアクティブビジュアル検索は、検索対象のセットを事前に定義し、これらのテクニックを実際には制限する。
アクティブな視覚検索の柔軟性を高めるため,フリーフォーム言語を用いてターゲットコマンドを入力可能なシステムを提案し,このシステムをAVSW(Active Visual Search in the Wild)と呼ぶ。
AVSWは静的なランドマーク(デスクやベッドなど)で表されるセマンティックグリッドマップを通じて、ユーザが入力したターゲットオブジェクトを検出して検索する。
オブジェクト探索パターンを効率的に計画するために、AVSWは、どのランドマークを最初に訪問するかを決めながら、常識的知識に基づく共起と予測の不確実性を考察する。
シミュレーション環境と実環境環境の両方において,SR (success rate) とSPL (success weighted by path length) に関する提案手法を検証する。
提案手法は, 平均 0.283 のシミュレーションシナリオにおいて, 従来のspl法よりも優れていた。
さらに,実際の研究において,Pioneer-3ATロボットを用いたAVSWの実証を行った。
関連論文リスト
- An Application-Agnostic Automatic Target Recognition System Using Vision Language Models [32.858386851006316]
オープン語彙オブジェクト検出と分類モデルを用いた新しい自動ターゲット認識(ATR)システムを提案する。
このアプローチの主な利点は、非技術的エンドユーザーによって実行直前にターゲットクラスを定義することができることである。
所望のターゲットのナンスを自然言語で表現することは、トレーニングデータをほとんどあるいは全く持たないユニークなターゲットに役立ちます。
論文 参考訳(メタデータ) (2024-11-05T20:16:15Z) - UAV-Based Human Body Detector Selection and Fusion for Geolocated Saliency Map Generation [0.2499907423888049]
無人航空機(UAV)を用いた探索・救助など多くの応用分野において、ソフトリアルタイムの異なるクラスの物体を確実に検出・位置決めする問題は不可欠である。
本研究は、システムコンテキストの視覚に基づく検出器の選択、割り当て、実行の相補的な問題に対処する。
検出結果は,新しいセンサモデルを利用して,正と負の両方の観測を視覚ベースで検出する,有意な位置の地図を構築する手法を用いて融合される。
論文 参考訳(メタデータ) (2024-08-29T13:00:37Z) - Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。
まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。
次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。
第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-01T14:53:36Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - Deep Reinforcement Learning with Dynamic Graphs for Adaptive Informative Path Planning [22.48658555542736]
ロボットデータ取得における重要な課題は、当初未知の環境を抜けて観測を収集する計画経路である。
そこで本研究では,未知の3D環境において,ロボット経路を適応的に計画し,対象をマップする深層強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:24:41Z) - Incremental 3D Scene Completion for Safe and Efficient Exploration
Mapping and Planning [60.599223456298915]
本研究では,情報,安全,解釈可能な地図作成と計画に3次元シーン補完を活用することによって,深層学習を探索に統合する新しい手法を提案する。
本手法は,地図の精度を最小限に抑えることで,ベースラインに比べて環境のカバレッジを73%高速化できることを示す。
最終地図にシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導し、ロボットのセンサーでシーンの測定を35%高速化できることが示される。
論文 参考訳(メタデータ) (2022-08-17T14:19:33Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。