論文の概要: End-to-End (Instance)-Image Goal Navigation through Correspondence as an
Emergent Phenomenon
- arxiv url: http://arxiv.org/abs/2309.16634v1
- Date: Thu, 28 Sep 2023 17:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 13:07:11.523735
- Title: End-to-End (Instance)-Image Goal Navigation through Correspondence as an
Emergent Phenomenon
- Title(参考訳): 創発現象としての対応によるEnd-to-End- Image Goal Navigation
- Authors: Guillaume Bono, Leonid Antsfeld, Boris Chidlovskii, Philippe
Weinzaepfel, Christian Wolf
- Abstract要約: そこで我々は,大容量双眼VTモデルを用いた新しいデュアルエンコーダを提案し,対応解が学習信号から自然に現れることを示す。
実験では、ImageNavとインスタンス-ImageNavの2つのベンチマークで、大幅な改善とSOTAパフォーマンスが示されている。
- 参考スコア(独自算出の注目度): 27.252343068970852
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most recent work in goal oriented visual navigation resorts to large-scale
machine learning in simulated environments. The main challenge lies in learning
compact representations generalizable to unseen environments and in learning
high-capacity perception modules capable of reasoning on high-dimensional
input. The latter is particularly difficult when the goal is not given as a
category ("ObjectNav") but as an exemplar image ("ImageNav"), as the perception
module needs to learn a comparison strategy requiring to solve an underlying
visual correspondence problem. This has been shown to be difficult from reward
alone or with standard auxiliary tasks. We address this problem through a
sequence of two pretext tasks, which serve as a prior for what we argue is one
of the main bottleneck in perception, extremely wide-baseline relative pose
estimation and visibility prediction in complex scenes. The first pretext task,
cross-view completion is a proxy for the underlying visual correspondence
problem, while the second task addresses goal detection and finding directly.
We propose a new dual encoder with a large-capacity binocular ViT model and
show that correspondence solutions naturally emerge from the training signals.
Experiments show significant improvements and SOTA performance on the two
benchmarks, ImageNav and the Instance-ImageNav variant, where camera intrinsics
and height differ between observation and goal.
- Abstract(参考訳): 目標指向ビジュアルナビゲーションにおける最近の研究は、シミュレーション環境での大規模機械学習に頼っている。
主な課題は、見えない環境に一般化可能なコンパクト表現の学習と、高次元入力を推論可能な高容量知覚モジュールの学習である。
認識モジュールは、基礎となる視覚対応問題の解決に必要な比較戦略を学ぶ必要があるため、ゴールがカテゴリ(ObjectNav)ではなく、模範イメージ(ImageNav)として与えられる場合、後者は特に困難である。
これは、単独での報酬や標準的な補助作業では困難であることが示されている。
複雑なシーンにおいて、認識における主要なボトルネックの一つであり、極端に広義の相対的なポーズ推定と可視性予測を前提とした2つのプレテキストタスクのシーケンスによってこの問題に対処する。
第1のプレテキストタスクであるクロスビュー補完は、基礎となる視覚対応問題のプロキシであり、第2のタスクはゴール検出と直接検出に対処する。
そこで我々は,大容量双眼VTモデルを用いた新しいデュアルエンコーダを提案し,対応解が学習信号から自然に現れることを示す。
実験では、ImageNav と Instance-ImageNav の2つのベンチマークで、カメラの内在性と高さが観察と目標によって異なる、大幅な改善とSOTAパフォーマンスが示されている。
関連論文リスト
- DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - A Simple yet Effective Network based on Vision Transformer for
Camouflaged Object and Salient Object Detection [33.30644598646274]
視覚変換器(ViT)に基づく簡易で効果的なネットワーク(SENet)を提案する。
ローカル情報をモデル化するTransformerの機能を強化するために,ローカル情報キャプチャモジュール(licM)を提案する。
また,BCE(Binary Cross-Entropy)とIoU(Intersection over Union)に基づく動的重み付き損失(DW損失)を提案する。
論文 参考訳(メタデータ) (2024-02-29T07:29:28Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View
Completion [20.121597331207276]
Masked Image Modeling (MIM)は、最近、強力な事前学習パラダイムとして確立されている。
本稿では,多種多様な3次元視覚と下層の幾何学的下流課題によく伝達される表現を学習することを目的とする。
実験の結果,本研究のプリテキストタスクは,モノラルな3次元視覚の下流タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-19T16:50:36Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Contrastive Object-level Pre-training with Spatial Noise Curriculum
Learning [12.697842097171119]
本稿では,生成した領域を適応的に拡張するカリキュラム学習機構を提案する。
実験の結果,マルチオブジェクトシーンイメージデータセットの事前学習において,MoCo v2のベースラインに対するアプローチは,複数のオブジェクトレベルタスクに対して大きなマージンで改善されていることがわかった。
論文 参考訳(メタデータ) (2021-11-26T18:29:57Z) - Warp Consistency for Unsupervised Learning of Dense Correspondences [116.56251250853488]
密接な対応を学習する上で重要な課題は、実画像対に対する地道整合の欠如である。
密な対応回帰のための教師なし学習目標であるWarp Consistencyを提案する。
私たちのアプローチは、MegaDepth、RobotCar、TSSなど、いくつかの挑戦的なベンチマークに新しい最先端を設定します。
論文 参考訳(メタデータ) (2021-04-07T17:58:22Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。