論文の概要: Zero-shot Active Visual Search (ZAVIS): Intelligent Object Search for
Robotic Assistants
- arxiv url: http://arxiv.org/abs/2209.08803v1
- Date: Mon, 19 Sep 2022 07:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 19:39:29.145674
- Title: Zero-shot Active Visual Search (ZAVIS): Intelligent Object Search for
Robotic Assistants
- Title(参考訳): Zero-shot Active Visual Search (ZAVIS): ロボットアシスタントのためのインテリジェントオブジェクト検索
- Authors: Jeongeun Park, Taerim Yoon, Jejoon Hong, Youngjae Yu, Matthew Pan, and
Sungjoon Choi
- Abstract要約: 本稿では,フリーフォーム言語を用いてターゲットコマンドを入力できるシステムを提案する。
我々はこのシステムをZAVIS(Zero-shot Active Visual Search)と呼ぶ。
ZAVISは、静的なランドマークで表されるセマンティックグリッドマップを通じて、ユーザが入力したターゲットオブジェクトを検出し、検索する計画である。
- 参考スコア(独自算出の注目度): 12.354788629408933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we focus on the problem of efficiently locating a target
object described with free-form language using a mobile robot equipped with
vision sensors (e.g., an RGBD camera). Conventional active visual search
predefines a set of objects to search for, rendering these techniques
restrictive in practice. To provide added flexibility in active visual
searching, we propose a system where a user can enter target commands using
free-form language; we call this system Zero-shot Active Visual Search (ZAVIS).
ZAVIS detects and plans to search for a target object inputted by a user
through a semantic grid map represented by static landmarks (e.g., desk or
bed). For efficient planning of object search patterns, ZAVIS considers
commonsense knowledge-based co-occurrence and predictive uncertainty while
deciding which landmarks to visit first. We validate the proposed method with
respect to SR (success rate) and SPL (success weighted by path length) in both
simulated and real-world environments. The proposed method outperforms previous
methods in terms of SPL in simulated scenarios with an average gap of 0.283. We
further demonstrate ZAVIS with a Pioneer-3AT robot in real-world studies.
- Abstract(参考訳): 本稿では,視覚センサ(rgbdカメラなど)を搭載した移動ロボットを用いて,自由形言語で記述された対象物体を効率的に位置決めする問題に焦点を当てる。
従来のアクティブビジュアル検索は、検索対象のセットを事前に定義し、これらのテクニックを実際には制限する。
アクティブなビジュアル検索の柔軟性を付加するために,フリーフォーム言語を用いてターゲットコマンドを入力可能なシステムを提案し,ZAVIS(Zero-shot Active Visual Search)と呼ぶ。
ZAVISは静的なランドマーク(デスクやベッドなど)で表されるセマンティックグリッドマップを通じて、ユーザが入力したターゲットオブジェクトを検出して検索する。
オブジェクト探索パターンを効率的に計画するために、ZAVISは、どのランドマークを最初に訪問するかを決めながら、常識的知識に基づく共起と予測の不確実性を考慮する。
シミュレーション環境と実環境環境の両方において,SR (success rate) とSPL (success weighted by path length) に関する提案手法を検証する。
提案手法は, 平均 0.283 のシミュレーションシナリオにおいて, 従来のspl法よりも優れていた。
さらに、現実世界の研究において、Pioneer-3ATロボットを用いてZAVISを実証する。
関連論文リスト
- Deep Reinforcement Learning with Dynamic Graphs for Adaptive Informative
Path Planning [25.137104841642305]
ロボットデータ取得における重要な課題は、当初未知の環境を抜けて観測を収集する計画経路である。
そこで本研究では,未知の3D環境において,ロボット経路を適応的に計画し,対象をマップする深層強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:24:41Z) - Assisting Blind People Using Object Detection with Vocal Feedback [0.0]
提案手法は,Webカメラを用いてリアルタイム映像中の物体を検出することを提案する。
PythonのOpenCVライブラリは、ソフトウェアプログラムの実装に使用される。
画像認識結果は、Googleのテキスト音声ライブラリーを用いて、視覚障害者に可聴形式で転送される。
論文 参考訳(メタデータ) (2023-12-18T19:28:23Z) - Learning to View: Decision Transformers for Active Object Detection [18.211691238072245]
ほとんどのロボットシステムでは、知覚は運動計画とは独立している。
我々は,ロボットの認識品質を最大化する画像を得るために,強化学習法(RL)を用いてロボットを制御する。
屋内シナリオシミュレータから収集した対話型データセットにおいて,提案手法の性能を評価する。
論文 参考訳(メタデータ) (2023-01-23T17:00:48Z) - Virtual Reality via Object Poses and Active Learning: Realizing
Telepresence Robots with Aerial Manipulation Capabilities [39.29763956979895]
本稿では,動的・非構造環境下での空中操作を進展させる新しいテレプレゼンスシステムを提案する。
提案システムは触覚デバイスだけでなく、ロボットのワークスペースのリアルタイム3Dディスプレイを提供する仮想現実(VR)インターフェースも備えている。
DLRケーブル・サスペンド・エアリアルマニピュレータ(SAM)によるピック・アンド・プレイス、フォース・アプリケーション、ペグ・イン・ホールの70以上の堅牢な実行を示す。
論文 参考訳(メタデータ) (2022-10-18T08:42:30Z) - Incremental 3D Scene Completion for Safe and Efficient Exploration
Mapping and Planning [60.599223456298915]
本研究では,情報,安全,解釈可能な地図作成と計画に3次元シーン補完を活用することによって,深層学習を探索に統合する新しい手法を提案する。
本手法は,地図の精度を最小限に抑えることで,ベースラインに比べて環境のカバレッジを73%高速化できることを示す。
最終地図にシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導し、ロボットのセンサーでシーンの測定を35%高速化できることが示される。
論文 参考訳(メタデータ) (2022-08-17T14:19:33Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。