論文の概要: Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations
- arxiv url: http://arxiv.org/abs/2409.05552v1
- Date: Mon, 9 Sep 2024 12:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 14:50:09.458984
- Title: Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations
- Title(参考訳): 信じているか? 視覚摂動を用いた視覚言語ナビゲーションの強化
- Authors: Xuesong Zhang, Jia Li, Yunbo Xu, Zhenzhen Hu, Richang Hong,
- Abstract要約: 多様な視覚入力を探索し活用することを目的とした多機能マルチブランチアーキテクチャ(MBA)を提案する。
具体的には,地中深度画像,非連続的なビューと統合された視覚入力,ランダムノイズに注入された視覚入力の3つの相違点を紹介する。
3つのVLNベンチマーク(R2R,REVERIE,SOON)で行った実験は,提案手法が最先端の結果と等しくなるか,さらに超えることを示した。
- 参考スコア(独自算出の注目度): 41.5875455113941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous navigation for an embodied agent guided by natural language instructions remains a formidable challenge in vision-and-language navigation (VLN). Despite remarkable recent progress in learning fine-grained and multifarious visual representations, the tendency to overfit to the training environments leads to unsatisfactory generalization performance. In this work, we present a versatile Multi-Branch Architecture (MBA) aimed at exploring and exploiting diverse visual inputs. Specifically, we introduce three distinct visual variants: ground-truth depth images, visual inputs integrated with incongruent views, and those infused with random noise to enrich the diversity of visual input representation and prevent overfitting to the original RGB observations. To adaptively fuse these varied inputs, the proposed MBA extend a base agent model into a multi-branch variant, where each branch processes a different visual input. Surprisingly, even random noise can further enhance navigation performance in unseen environments. Extensive experiments conducted on three VLN benchmarks (R2R, REVERIE, SOON) demonstrate that our proposed method equals or even surpasses state-of-the-art results. The source code will be publicly available.
- Abstract(参考訳): 自然言語の指示で案内されるエンボディエージェントの自律ナビゲーションは、視覚・言語ナビゲーション(VLN)において深刻な課題である。
微粒で多次元的な視覚表現の学習が顕著に進んでいるにもかかわらず、トレーニング環境に過度に適合する傾向は、満足のいく一般化性能をもたらす。
本研究では,多様な視覚的入力の探索と活用を目的とした多機能マルチブランチアーキテクチャ(MBA)を提案する。
具体的には,地中深度画像,非連続的な視野と統合された視覚入力,およびランダムノイズに注入された視覚入力表現の多様性を増強し,元のRGB観測に過度に適合しないようにする3つの異なる視覚変種を紹介する。
これらの多様な入力を適応的に融合するために、提案したMBAはベースエージェントモデルをマルチブランチ変種に拡張し、各ブランチが異なる視覚的入力を処理する。
驚くべきことに、ランダムノイズでさえ、目に見えない環境でのナビゲーション性能をさらに向上させることができる。
3つのVLNベンチマーク(R2R,REVERIE,SOON)で行った大規模な実験により,提案手法が最先端の結果と等しくなるか,さらに超えた結果が得られた。
ソースコードは公開されます。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Fine-Grained Alignment in Vision-and-Language Navigation through Bayesian Optimization [20.608059199982094]
本稿では,視覚・言語ナビゲーション(VLN)タスクにおける細粒度アライメントの課題に対処する。
現在のアプローチでは、対照的な学習を用いて、言語を視覚的軌跡シーケンスと整合させる。
本稿では, ベイズ最適化に基づく逆最適化フレームワークを導入し, 微細なコントラスト視覚サンプルを作成する。
論文 参考訳(メタデータ) (2024-11-22T09:12:02Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - TriPINet: Tripartite Progressive Integration Network for Image
Manipulation Localization [3.7359400978194675]
本稿では,3部構成のプログレッシブ統合ネットワーク(TriPINet)を提案する。
我々は,異なる種類の手掛かりを融合させるガイド付きクロスモーダリティ・デュアルアテンション(gCMDA)モジュールを開発した。
本手法と最先端画像鑑定法との比較のために, 大規模な実験を行った。
論文 参考訳(メタデータ) (2022-12-25T02:27:58Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。