Fugu-MT 論文翻訳(概要): Zero-shot Active Visual Search (ZAVIS): Intelligent Object Search for Robotic Assistants

論文の概要: Zero-shot Active Visual Search (ZAVIS): Intelligent Object Search for Robotic Assistants

arxiv url: http://arxiv.org/abs/2209.08803v1
Date: Mon, 19 Sep 2022 07:18:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-20 19:39:29.145674
Title: Zero-shot Active Visual Search (ZAVIS): Intelligent Object Search for Robotic Assistants
Title（参考訳）: Zero-shot Active Visual Search (ZAVIS): ロボットアシスタントのためのインテリジェントオブジェクト検索
Authors: Jeongeun Park, Taerim Yoon, Jejoon Hong, Youngjae Yu, Matthew Pan, and Sungjoon Choi
Abstract要約: 本稿では,フリーフォーム言語を用いてターゲットコマンドを入力できるシステムを提案する。我々はこのシステムをZAVIS(Zero-shot Active Visual Search)と呼ぶ。 ZAVISは、静的なランドマークで表されるセマンティックグリッドマップを通じて、ユーザが入力したターゲットオブジェクトを検出し、検索する計画である。
参考スコア（独自算出の注目度）: 12.354788629408933
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we focus on the problem of efficiently locating a target object described with free-form language using a mobile robot equipped with vision sensors (e.g., an RGBD camera). Conventional active visual search predefines a set of objects to search for, rendering these techniques restrictive in practice. To provide added flexibility in active visual searching, we propose a system where a user can enter target commands using free-form language; we call this system Zero-shot Active Visual Search (ZAVIS). ZAVIS detects and plans to search for a target object inputted by a user through a semantic grid map represented by static landmarks (e.g., desk or bed). For efficient planning of object search patterns, ZAVIS considers commonsense knowledge-based co-occurrence and predictive uncertainty while deciding which landmarks to visit first. We validate the proposed method with respect to SR (success rate) and SPL (success weighted by path length) in both simulated and real-world environments. The proposed method outperforms previous methods in terms of SPL in simulated scenarios with an average gap of 0.283. We further demonstrate ZAVIS with a Pioneer-3AT robot in real-world studies.
Abstract（参考訳）: 本稿では,視覚センサ(rgbdカメラなど)を搭載した移動ロボットを用いて,自由形言語で記述された対象物体を効率的に位置決めする問題に焦点を当てる。従来のアクティブビジュアル検索は、検索対象のセットを事前に定義し、これらのテクニックを実際には制限する。アクティブなビジュアル検索の柔軟性を付加するために,フリーフォーム言語を用いてターゲットコマンドを入力可能なシステムを提案し,ZAVIS(Zero-shot Active Visual Search)と呼ぶ。 ZAVISは静的なランドマーク(デスクやベッドなど)で表されるセマンティックグリッドマップを通じて、ユーザが入力したターゲットオブジェクトを検出して検索する。オブジェクト探索パターンを効率的に計画するために、ZAVISは、どのランドマークを最初に訪問するかを決めながら、常識的知識に基づく共起と予測の不確実性を考慮する。シミュレーション環境と実環境環境の両方において,SR (success rate) とSPL (success weighted by path length) に関する提案手法を検証する。提案手法は, 平均 0.283 のシミュレーションシナリオにおいて, 従来のspl法よりも優れていた。さらに、現実世界の研究において、Pioneer-3ATロボットを用いてZAVISを実証する。

関連論文リスト

Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。 2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-16T19:01:31Z)
Sight Over Site: Perception-Aware Reinforcement Learning for Efficient Robotic Inspection [57.37596278863949]
本研究では,認識・認識の観点からの検査を再考する。本稿では,目標視認性を主目的とするエンドツーエンド強化学習フレームワークを提案する。提案手法は,既存の古典的および学習的ナビゲーション手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-09-22T15:14:02Z)
Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology [26.90429412601702]
都市オブジェクトの自律検索のための最初のベンチマークデータセットであるCityAVOSを紹介する。このデータセットは、6つのオブジェクトカテゴリにまたがる2,420のタスクで構成され、難易度は様々である。また,人間の3層認知を模倣したマルチモーダルな大規模言語モデル(MLLM)を用いたエージェント手法であるRPPSearcherを提案する。
論文参考訳（メタデータ） (2025-05-13T17:34:54Z)
Sim2Real Transfer for Vision-Based Grasp Verification [7.9471205712560264]
本稿では,ロボットグリップが物体の把握に成功しているかどうかを判断するために,視力に基づく検証手法を提案する。本手法は,ロボットのグリップを検知し,検出するための,最初のYOLOに基づく物体検出モデルである2段階アーキテクチャを用いている。実世界のデータキャプチャの限界に対処するために,多様な把握シナリオをシミュレートする合成データセットであるHSR-Grasp Synthを導入する。
論文参考訳（メタデータ） (2025-05-05T22:04:12Z)
An Application-Agnostic Automatic Target Recognition System Using Vision Language Models [32.858386851006316]
オープン語彙オブジェクト検出と分類モデルを用いた新しい自動ターゲット認識(ATR)システムを提案する。このアプローチの主な利点は、非技術的エンドユーザーによって実行直前にターゲットクラスを定義することができることである。所望のターゲットのナンスを自然言語で表現することは、トレーニングデータをほとんどあるいは全く持たないユニークなターゲットに役立ちます。
論文参考訳（メタデータ） (2024-11-05T20:16:15Z)
UAV-Based Human Body Detector Selection and Fusion for Geolocated Saliency Map Generation [0.2499907423888049]
無人航空機(UAV)を用いた探索・救助など多くの応用分野において、ソフトリアルタイムの異なるクラスの物体を確実に検出・位置決めする問題は不可欠である。本研究は、システムコンテキストの視覚に基づく検出器の選択、割り当て、実行の相補的な問題に対処する。検出結果は,新しいセンサモデルを利用して,正と負の両方の観測を視覚ベースで検出する,有意な位置の地図を構築する手法を用いて融合される。
論文参考訳（メタデータ） (2024-08-29T13:00:37Z)
Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文参考訳（メタデータ） (2024-04-01T14:53:36Z)
Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文参考訳（メタデータ） (2024-03-30T10:54:59Z)
Deep Reinforcement Learning with Dynamic Graphs for Adaptive Informative Path Planning [22.48658555542736]
ロボットデータ取得における重要な課題は、当初未知の環境を抜けて観測を収集する計画経路である。そこで本研究では,未知の3D環境において,ロボット経路を適応的に計画し,対象をマップする深層強化学習手法を提案する。
論文参考訳（メタデータ） (2024-02-07T14:24:41Z)
Incremental 3D Scene Completion for Safe and Efficient Exploration Mapping and Planning [60.599223456298915]
本研究では,情報,安全,解釈可能な地図作成と計画に3次元シーン補完を活用することによって,深層学習を探索に統合する新しい手法を提案する。本手法は,地図の精度を最小限に抑えることで,ベースラインに比べて環境のカバレッジを73%高速化できることを示す。最終地図にシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導し、ロボットのセンサーでシーンの測定を35%高速化できることが示される。
論文参考訳（メタデータ） (2022-08-17T14:19:33Z)
One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文参考訳（メタデータ） (2021-08-08T14:53:10Z)
Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文参考訳（メタデータ） (2021-04-12T23:14:41Z)
SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文参考訳（メタデータ） (2021-03-31T15:01:04Z)
ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文参考訳（メタデータ） (2020-12-17T18:22:32Z)
POMP: Pomcp-based Online Motion Planning for active visual search in indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文参考訳（メタデータ） (2020-09-17T08:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。