論文の概要: Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations
- arxiv url: http://arxiv.org/abs/2409.05552v2
- Date: Mon, 07 Apr 2025 12:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 17:33:39.938583
- Title: Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations
- Title(参考訳): 信じているか? 視覚摂動を用いた視覚言語ナビゲーションの強化
- Authors: Xuesong Zhang, Jia Li, Yunbo Xu, Zhenzhen Hu, Richang Hong,
- Abstract要約: 先進的なVLNモデルが実際の環境の視覚的内容を理解しているかどうかを検討する。
意外なことに、ノイズの多い視覚入力であっても、単純な分岐展開は、パラドックス的にナビゲーションの有効性を向上する。
分岐量と視覚的品質の両方の影響を探索する多機能マルチブランチアーキテクチャ(MBA)を提案する。
- 参考スコア(独自算出の注目度): 41.5875455113941
- License:
- Abstract: Autonomous navigation guided by natural language instructions in embodied environments remains a challenge for vision-language navigation (VLN) agents. Although recent advancements in learning diverse and fine-grained visual environmental representations have shown promise, the fragile performance improvements may not conclusively attribute to enhanced visual grounding,a limitation also observed in related vision-language tasks. In this work, we preliminarily investigate whether advanced VLN models genuinely comprehend the visual content of their environments by introducing varying levels of visual perturbations. These perturbations include ground-truth depth images, perturbed views and random noise. Surprisingly, we experimentally find that simple branch expansion, even with noisy visual inputs, paradoxically improves the navigational efficacy. Inspired by these insights, we further present a versatile Multi-Branch Architecture (MBA) designed to delve into the impact of both the branch quantity and visual quality. The proposed MBA extends a base agent into a multi-branch variant, where each branch processes a different visual input. This approach is embarrassingly simple yet agnostic to topology-based VLN agents. Extensive experiments on three VLN benchmarks (R2R, REVERIE, SOON) demonstrate that our method with optimal visual permutations matches or even surpasses state-of-the-art results. The source code is available at here.
- Abstract(参考訳): インボディード環境で自然言語で案内される自律ナビゲーションは、視覚言語ナビゲーション(VLN)エージェントにとって依然として課題である。
近年の多彩できめ細かな視覚環境表現の学習の進歩は有望であるが、脆弱な性能改善は視覚的基盤の強化に決定的に寄与しない可能性がある。
本研究では,高度なVLNモデルが環境の視覚的内容を理解しているかどうかを,様々なレベルの視覚的摂動を導入することによって事前に検討する。
これらの摂動には、地底深度画像、摂動ビュー、ランダムノイズが含まれる。
意外なことに、ノイズの多い視覚入力であっても、単純な分岐展開は、パラドックス的にナビゲーションの有効性を向上する。
これらの知見に触発されて、分岐量と視覚的品質の両方の影響を掘り下げるために設計された多機能マルチブランチアーキテクチャ(MBA)をさらに提示する。
提案したMBAは、ベースエージェントをマルチブランチの変種に拡張し、各ブランチが異なる視覚的入力を処理する。
このアプローチは、トポロジーに基づくVLNエージェントに対して、恥ずかしいほど単純だが非依存である。
3つのVLNベンチマーク(R2R,REVERIE,SOON)の大規模な実験により、最適な視覚的順列を持つ手法が、最先端の結果を上回るか、あるいは超えていることが示された。
ソースコードはここにある。
関連論文リスト
- UniRS: Unifying Multi-temporal Remote Sensing Tasks through Vision Language Models [23.044366104080822]
textbfUniRSは視覚言語モデルとして最初のbftextremote bftextsensingタスクである。
UniRSはシングルイメージ、デュアルタイムイメージペア、ビデオを入力としてサポートし、総合的なリモートセンシング時間分析を可能にする。
実験の結果、UniRSは様々なタスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2024-12-30T06:34:18Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Fine-Grained Alignment in Vision-and-Language Navigation through Bayesian Optimization [20.608059199982094]
本稿では,視覚・言語ナビゲーション(VLN)タスクにおける細粒度アライメントの課題に対処する。
現在のアプローチでは、対照的な学習を用いて、言語を視覚的軌跡シーケンスと整合させる。
本稿では, ベイズ最適化に基づく逆最適化フレームワークを導入し, 微細なコントラスト視覚サンプルを作成する。
論文 参考訳(メタデータ) (2024-11-22T09:12:02Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - TriPINet: Tripartite Progressive Integration Network for Image
Manipulation Localization [3.7359400978194675]
本稿では,3部構成のプログレッシブ統合ネットワーク(TriPINet)を提案する。
我々は,異なる種類の手掛かりを融合させるガイド付きクロスモーダリティ・デュアルアテンション(gCMDA)モジュールを開発した。
本手法と最先端画像鑑定法との比較のために, 大規模な実験を行った。
論文 参考訳(メタデータ) (2022-12-25T02:27:58Z) - Unsupervised Multimodal Neural Machine Translation with Pseudo Visual
Pivoting [105.5303416210736]
非教師なし機械翻訳(MT)は、最近モノリンガルコーパスのみを用いて印象的な結果を得た。
ソースターゲットの文を潜時空間で関連付けることは依然として困難である。
異なる言語が生物学的に類似の視覚システムを共有しているため、視覚的コンテンツを通してより良いアライメントを達成する可能性は有望である。
論文 参考訳(メタデータ) (2020-05-06T20:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。