論文の概要: Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments
- arxiv url: http://arxiv.org/abs/2410.18195v1
- Date: Wed, 23 Oct 2024 18:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:43:29.853560
- Title: Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments
- Title(参考訳): 実環境におけるユーザ特化オブジェクトへのパーソナライズされたインスタンスベースナビゲーション
- Authors: Luca Barsellotti, Roberto Bigazzi, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: 本稿では,特定の個人オブジェクトの位置と到達を具体化するタスクデノマイトされたパーソナライズされたパーソナライズドインスタンスベースのナビゲーション(PIN)を提案する。
各エピソードにおいて、ターゲットオブジェクトは、中性背景上の視覚的参照画像のセットと手動による注釈付きテキスト記述の2つのモードを使用してエージェントに提示される。
- 参考スコア(独自算出の注目度): 44.6372390798904
- License:
- Abstract: In the last years, the research interest in visual navigation towards objects in indoor environments has grown significantly. This growth can be attributed to the recent availability of large navigation datasets in photo-realistic simulated environments, like Gibson and Matterport3D. However, the navigation tasks supported by these datasets are often restricted to the objects present in the environment at acquisition time. Also, they fail to account for the realistic scenario in which the target object is a user-specific instance that can be easily confused with similar objects and may be found in multiple locations within the environment. To address these limitations, we propose a new task denominated Personalized Instance-based Navigation (PIN), in which an embodied agent is tasked with locating and reaching a specific personal object by distinguishing it among multiple instances of the same category. The task is accompanied by PInNED, a dedicated new dataset composed of photo-realistic scenes augmented with additional 3D objects. In each episode, the target object is presented to the agent using two modalities: a set of visual reference images on a neutral background and manually annotated textual descriptions. Through comprehensive evaluations and analyses, we showcase the challenges of the PIN task as well as the performance and shortcomings of currently available methods designed for object-driven navigation, considering modular and end-to-end agents.
- Abstract(参考訳): 近年,室内環境における物体に対する視覚的ナビゲーションに対する研究の関心が高まっている。
この成長は、GibsonやMatterport3Dといった写真リアリスティックなシミュレート環境において、大規模なナビゲーションデータセットが最近利用可能になったことによる。
しかしながら、これらのデータセットでサポートされているナビゲーションタスクは、取得時に環境に存在するオブジェクトに制限されることが多い。
また、ターゲットオブジェクトがユーザ固有のインスタンスであり、類似したオブジェクトと容易に混同され、環境内の複数の場所で見つかるという現実的なシナリオを説明できない。
これらの制約に対処するために,同一カテゴリの複数のインスタンスを識別し,特定の個人オブジェクトの位置と到達を実施可能なPIN(Personalized Instance-based Navigation)を提案する。
PInNEDは、追加の3Dオブジェクトを付加した写真リアルなシーンからなる専用データセットである。
各エピソードにおいて、ターゲットオブジェクトは、中性背景上の視覚的参照画像のセットと手動による注釈付きテキスト記述の2つのモードを使用してエージェントに提示される。
総合的な評価と分析を通じて,PINタスクの課題と,モジュールおよびエンドツーエンドエージェントを考慮したオブジェクト駆動ナビゲーション用に設計されている現在利用可能なメソッドの性能と欠点について紹介する。
関連論文リスト
- Right Place, Right Time! Towards ObjectNav for Non-Stationary Goals [55.581423861790945]
本研究では,屋内環境における非定常的かつ隠蔽されたターゲットに対して,ObjectNavタスクに取り組むための新しい手法を提案する。
本稿では,新しいメモリ拡張 LLM ベースのポリシーを用いて,その定式化,実現可能性,ナビゲーションベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-14T22:33:22Z) - Tracking through Containers and Occluders in the Wild [32.86030395660071]
重い閉塞と封じ込めによる視覚追跡のための新しいベンチマークとモデルである$textbfTCOW$を紹介した。
我々は、教師付き学習とモデル性能の構造化評価の両方をサポートするために、合成データセットと注釈付き実データセットの混合を作成する。
最近の2つのトランスフォーマーベースビデオモデルを評価し,タスク変動の特定の設定下でターゲットを驚くほど追跡できるが,トラッキングモデルが真のオブジェクト永続性(permanence)の概念を獲得したと主張するまでには,かなりの性能差が残っていることを発見した。
論文 参考訳(メタデータ) (2023-05-04T17:59:58Z) - Instance-Specific Image Goal Navigation: Training Embodied Agents to
Find Object Instances [90.61897965658183]
画像ゴールによる視覚ナビゲーションの具体化問題(ImageNav)について考察する。
関連するナビゲーションタスクとは異なり、ImageNavはメソッド間の比較を難しくする標準化されたタスク定義を持っていない。
これらの制限に対処するために、インスタンス固有のImageNavタスク(ImageNav)を提示します。
論文 参考訳(メタデータ) (2022-11-29T02:29:35Z) - Object Memory Transformer for Object Goal Navigation [10.359616364592075]
本稿では,物体目標ナビゲーション(Nav)のための強化学習手法を提案する。
エージェントは3次元屋内環境をナビゲートし、対象物やシーンの長期観察に基づいて対象物に到達する。
私たちの知る限りでは、ゴール指向ナビゲーションタスクにおけるオブジェクトセマンティクスの長期記憶を利用する最初の作業である。
論文 参考訳(メタデータ) (2022-03-24T09:16:56Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z) - Exploiting Scene-specific Features for Object Goal Navigation [9.806910643086043]
ナビゲーションモデルのトレーニングを高速化するデータセットを新たに導入する。
提案したデータセットは,オンライン構築マップを合理的な時間で活用しないモデルのトレーニングを可能にする。
本研究では,SMTSCモデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T10:16:01Z) - ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to
Objects [119.46959413000594]
この文書は、ObjectNavのワーキンググループのコンセンサスレコメンデーションを要約します。
評価基準の微妙だが重要な詳細について推奨する。
CVPR 2020のEmbodied AIワークショップで実施された課題において、これらの推奨事項のインスタンス化について、詳細な説明を行う。
論文 参考訳(メタデータ) (2020-06-23T17:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。