論文の概要: Instance-Specific Image Goal Navigation: Training Embodied Agents to
Find Object Instances
- arxiv url: http://arxiv.org/abs/2211.15876v1
- Date: Tue, 29 Nov 2022 02:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:22:30.685745
- Title: Instance-Specific Image Goal Navigation: Training Embodied Agents to
Find Object Instances
- Title(参考訳): インスタンス固有のイメージ目標ナビゲーション: オブジェクトインスタンスを見つけるための具体化エージェントのトレーニング
- Authors: Jacob Krantz, Stefan Lee, Jitendra Malik, Dhruv Batra, Devendra Singh
Chaplot
- Abstract要約: 画像ゴールによる視覚ナビゲーションの具体化問題(ImageNav)について考察する。
関連するナビゲーションタスクとは異なり、ImageNavはメソッド間の比較を難しくする標準化されたタスク定義を持っていない。
これらの制限に対処するために、インスタンス固有のImageNavタスク(ImageNav)を提示します。
- 参考スコア(独自算出の注目度): 90.61897965658183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of embodied visual navigation given an image-goal
(ImageNav) where an agent is initialized in an unfamiliar environment and
tasked with navigating to a location 'described' by an image. Unlike related
navigation tasks, ImageNav does not have a standardized task definition which
makes comparison across methods difficult. Further, existing formulations have
two problematic properties; (1) image-goals are sampled from random locations
which can lead to ambiguity (e.g., looking at walls), and (2) image-goals match
the camera specification and embodiment of the agent; this rigidity is limiting
when considering user-driven downstream applications. We present the
Instance-specific ImageNav task (InstanceImageNav) to address these
limitations. Specifically, the goal image is 'focused' on some particular
object instance in the scene and is taken with camera parameters independent of
the agent. We instantiate InstanceImageNav in the Habitat Simulator using
scenes from the Habitat-Matterport3D dataset (HM3D) and release a standardized
benchmark to measure community progress.
- Abstract(参考訳): エージェントが未知の環境で初期化され、画像によって「記述された」位置へナビゲートされるイメージゴーアル(imagenav)が与えられた場合、具体化されたビジュアルナビゲーションの問題を考える。
関連するナビゲーションタスクとは異なり、ImageNavはメソッド間の比較が難しい標準化されたタスク定義を持っていない。
さらに、既存の定式化は、(1)曖昧性(例えば壁を見る)につながるランダムな場所から画像ゴールをサンプリングし、(2)画像ゴールは、カメラ仕様とエージェントの具体化と一致し、この剛性は、ユーザ主導の下流アプリケーションを考える際に制限される。
これらの制限に対処するために、インスタンス固有のImageNavタスク(インスタンスImageNav)を提示します。
具体的には、ゴールイメージはシーン内の特定のオブジェクトインスタンスに'フォーカス'され、エージェントに依存しないカメラパラメータで撮影される。
habitat-matterport3d dataset(hm3d)のシーンを使用して、habitat simulatorのインスタンスimagenavをインスタンス化し、コミュニティの進捗を測定するための標準ベンチマークをリリースします。
関連論文リスト
- Instance-aware Exploration-Verification-Exploitation for Instance
ImageGoal Navigation [95.31226060831546]
インスタンスイメージゴールナビゲーション(IIN)は、探索されていない環境でゴールイメージによって表現された指定されたオブジェクトにナビゲートすることを目的としている。
本稿では、インスタンスレベルの画像目標ナビゲーションのための新しいモジュール型ナビゲーションフレームワーク、Exploration-Verification-Exploitation (IEVE)を提案する。
論文 参考訳(メタデータ) (2024-02-25T07:59:10Z) - Find What You Want: Learning Demand-conditioned Object Attribute Space
for Demand-driven Navigation [5.106884746419666]
視覚オブジェクトナビゲーション(VON)のタスクは、特定のシーン内で特定のオブジェクトを特定できるエージェントの能力を含む。
現実のシナリオでは、これらの条件が常に満たされることを保証することはしばしば困難である。
本稿では,ユーザの要求をタスク命令として活用する,需要駆動ナビゲーション(DDN)を提案する。
論文 参考訳(メタデータ) (2023-09-15T04:07:57Z) - Navigating to Objects Specified by Images [86.9672766351891]
シミュレーションと実世界の両方でタスクを実行できるシステムを提案する。
我々のモジュラー手法は探索,ゴールインスタンスの再識別,ゴールローカライゼーション,ローカルナビゲーションのサブタスクを解決する。
HM3D InstanceImageNavベンチマークでは、このシステムはベースラインのエンドツーエンドのRLポリシー7xと最先端のImageNavモデル2.3xを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:00Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z) - ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to
Objects [119.46959413000594]
この文書は、ObjectNavのワーキンググループのコンセンサスレコメンデーションを要約します。
評価基準の微妙だが重要な詳細について推奨する。
CVPR 2020のEmbodied AIワークショップで実施された課題において、これらの推奨事項のインスタンス化について、詳細な説明を行う。
論文 参考訳(メタデータ) (2020-06-23T17:18:54Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。