論文の概要: TTA-Nav: Test-time Adaptive Reconstruction for Point-Goal Navigation under Visual Corruptions
- arxiv url: http://arxiv.org/abs/2403.01977v2
- Date: Thu, 14 Mar 2024 16:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 01:22:49.389462
- Title: TTA-Nav: Test-time Adaptive Reconstruction for Point-Goal Navigation under Visual Corruptions
- Title(参考訳): TTA-Nav:視覚的破壊下でのポイントゴールナビゲーションのためのテスト時適応再構成
- Authors: Maytus Piriyajitakonkij, Mingfei Sun, Mengmi Zhang, Wei Pan,
- Abstract要約: TTA-Navは視覚的破損下でのポイントゴールナビゲーションのためのテスト時適応法である。
本手法は,最も深刻な汚職に対して,最先端の46%から94%のポイントゴールナビゲーションを成功率で改善する。
- 参考スコア(独自算出の注目度): 9.631251795222004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot navigation under visual corruption presents a formidable challenge. To address this, we propose a Test-time Adaptation (TTA) method, named as TTA-Nav, for point-goal navigation under visual corruptions. Our "plug-and-play" method incorporates a top-down decoder to a pre-trained navigation model. Firstly, the pre-trained navigation model gets a corrupted image and extracts features. Secondly, the top-down decoder produces the reconstruction given the high-level features extracted by the pre-trained model. Then, it feeds the reconstruction of a corrupted image back to the pre-trained model. Finally, the pre-trained model does forward pass again to output action. Despite being trained solely on clean images, the top-down decoder can reconstruct cleaner images from corrupted ones without the need for gradient-based adaptation. The pre-trained navigation model with our top-down decoder significantly enhances navigation performance across almost all visual corruptions in our benchmarks. Our method improves the success rate of point-goal navigation from the state-of-the-art result of 46% to 94% on the most severe corruption. This suggests its potential for broader application in robotic visual navigation. Project page: https://sites.google.com/view/tta-nav
- Abstract(参考訳): 視覚的な汚職下でのロボットナビゲーションは、恐ろしい挑戦だ。
そこで本研究では,TTA-Nav (Test-time Adaptation, TTA) 方式を提案する。
我々の"plug-and-play"メソッドは、トップダウンデコーダを事前訓練されたナビゲーションモデルに組み込む。
まず、事前訓練されたナビゲーションモデルが劣化した画像を取得し、特徴を抽出する。
次に、トップダウンデコーダは、事前訓練されたモデルによって抽出された高レベルな特徴を考慮し、再構成を生成する。
そして、劣化した画像の復元を事前訓練されたモデルにフィードバックする。
最後に、事前訓練されたモデルは、出力アクションに再び転送される。
クリーンなイメージのみにトレーニングされているにもかかわらず、トップダウンデコーダは、勾配ベースの適応を必要とせずに、破損したイメージからよりクリーンなイメージを再構築することができる。
トップダウンデコーダを備えた事前学習ナビゲーションモデルは、ベンチマークのほとんどすべての視覚的破損に対して、ナビゲーション性能を大幅に向上させる。
本手法は,最も深刻な汚職に対して,最先端の46%から94%のポイントゴールナビゲーションを成功率で改善する。
これは、ロボット視覚ナビゲーションの幅広い応用の可能性を示している。
プロジェクトページ: https://sites.google.com/view/tta-nav
関連論文リスト
- TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS)
我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Last-Mile Embodied Visual Navigation [31.622495628224403]
本稿では,画像ゴールナビゲーションシステムの性能向上を目的としたSlingを提案する。
我々は、ラストマイルナビゲーションに焦点をあて、ニューラルディスクリプタ問題の基礎となる幾何学的構造を活用する。
標準化された画像ゴールナビゲーションベンチマークでは、ポリシー、シーン、エピソードの複雑さにまたがるパフォーマンスを改善し、最先端の45%から55%の成功率に引き上げる。
論文 参考訳(メタデータ) (2022-11-21T18:59:58Z) - Structure-Encoding Auxiliary Tasks for Improved Visual Representation in
Vision-and-Language Navigation [35.71534299616123]
Vision-and-Language Navigation(VLN)では、研究者は通常、ImageNetで事前トレーニングされたイメージエンコーダを、エージェントがトレーニングまたはテストされる環境を微調整することなく利用する。
ナビゲーション環境のデータを事前学習し、画像エンコーダを改良する構造符号化補助タスク(SEA)を設計する。
論文 参考訳(メタデータ) (2022-11-20T23:04:39Z) - Visual Pre-training for Navigation: What Can We Learn from Noise? [16.203790885059373]
目標に対応する現在のビューの作物の位置と大きさを予測することで,ナビゲーションポリシーが学習可能であることを示す。
また,このようなランダムな作物予測を,自然の家庭画像によく適応する合成ノイズ画像に基づいて,自己教師方式で訓練することも示す。
学習した表現はブートストラップでナビゲーションポリシーを学習する。
論文 参考訳(メタデータ) (2022-06-30T18:35:00Z) - Simple but Effective: CLIP Embeddings for Embodied AI [38.02562593292301]
CLIP(Contrastive Language Image Pretraining)エンコーダは様々な視覚的タスクに有用であることが示されている。
タスク固有のアーキテクチャなしで、EmbCLIPという名前の驚くほどシンプルなベースラインを構築します。
改良されたベースラインは、さまざまなタスクやシミュレータで非常によく機能します。
論文 参考訳(メタデータ) (2021-11-18T18:59:59Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - RobustNav: Towards Benchmarking Robustness in Embodied Navigation [42.89815630148065]
RobustNavは、視覚的またはダイナミックな汚職にさらされたときに、実施中のナビゲーションエージェントのパフォーマンスを定量化するフレームワークである。
データ強化や自己教師型適応といったロバスト性向上のための標準手法は, 耐ゼロショット性やナビゲーション性能の向上を図っている。
論文 参考訳(メタデータ) (2021-06-08T17:14:33Z) - Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文 参考訳(メタデータ) (2021-01-13T16:30:20Z) - Robust Visual Object Tracking with Two-Stream Residual Convolutional
Networks [62.836429958476735]
視覚追跡のための2ストリーム残差畳み込みネットワーク(TS-RCN)を提案する。
私たちのTS-RCNは、既存のディープラーニングベースのビジュアルトラッカーと統合することができます。
トラッキング性能をさらに向上するため、我々はResNeXtを特徴抽出バックボーンとして採用する。
論文 参考訳(メタデータ) (2020-05-13T19:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。