論文の概要: Disentangling Foreground and Background for vision-Language Navigation via Online Augmentation
- arxiv url: http://arxiv.org/abs/2510.00604v1
- Date: Wed, 01 Oct 2025 07:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.443509
- Title: Disentangling Foreground and Background for vision-Language Navigation via Online Augmentation
- Title(参考訳): オンライン拡張による視線ナビゲーションのための遠近的前景と背景
- Authors: Yunbo Xu, Xuesong Zhang, Jia Li, Zhenzhen Hu, Richang Hong,
- Abstract要約: 視覚言語ナビゲーション(VLN)エージェントは、目に見えない環境をナビゲートする。
前景領域は意味的な手がかりを提供するが、背景は空間接続情報を含んでいる。
コンセンサス駆動型オンライン機能拡張戦略 (COFA) を提案する。
REVERIEとR2Rの実験は、我々のオンライン前景拡張がベースラインの一般化を促進し、最先端のパフォーマンスを達成することを実証している。
- 参考スコア(独自算出の注目度): 48.35989957042785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following language instructions, vision-language navigation (VLN) agents are tasked with navigating unseen environments. While augmenting multifaceted visual representations has propelled advancements in VLN, the significance of foreground and background in visual observations remains underexplored. Intuitively, foreground regions provide semantic cues, whereas the background encompasses spatial connectivity information. Inspired on this insight, we propose a Consensus-driven Online Feature Augmentation strategy (COFA) with alternative foreground and background features to facilitate the navigable generalization. Specifically, we first leverage semantically-enhanced landmark identification to disentangle foreground and background as candidate augmented features. Subsequently, a consensus-driven online augmentation strategy encourages the agent to consolidate two-stage voting results on feature preferences according to diverse instructions and navigational locations. Experiments on REVERIE and R2R demonstrate that our online foreground-background augmentation boosts the generalization of baseline and attains state-of-the-art performance.
- Abstract(参考訳): 言語指示に従って、視覚言語ナビゲーション(VLN)エージェントは、目に見えない環境をナビゲートする。
多面的視覚表現の増大はVLNの進歩を加速させているが、視覚観察における前景と背景の重要性は未解明のままである。
直感的には、前景領域は意味的な手がかりを提供するが、背景は空間接続情報を含んでいる。
この知見に触発されて、我々は、ナビゲーション可能な一般化を容易にするために、代替のフォアグラウンドとバックグラウンド機能を備えたConsensus-driven Online Feature Augmentation Strategy (COFA)を提案する。
具体的には、まずセマンティックに強化されたランドマーク識別を利用して、前景と背景を拡張機能として切り離す。
その後、コンセンサス主導のオンライン強化戦略により、エージェントは多様な指示やナビゲーションの場所に応じて、2段階の投票結果を統合することを奨励する。
REVERIEとR2Rの実験は、我々のオンライン前景拡張がベースラインの一般化を促進し、最先端のパフォーマンスを達成することを実証している。
関連論文リスト
- Background Matters Too: A Language-Enhanced Adversarial Framework for Person Re-Identification [1.409283414986451]
背景セマンティクスはReIDのフォアグラウンドセマンティクスと同じくらい重要であると我々は主張する。
本稿では,フォアグラウンドと背景情報を協調的にモデル化するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-03T05:38:22Z) - GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - Decouple before Align: Visual Disentanglement Enhances Prompt Tuning [85.91474962071452]
プロンプトチューニング(PT)は、視覚言語モデルのタスク固有の伝達性を改善する際、顕著な効果を示した。
本稿では,従来見過ごされていた情報非対称性の問題について述べる。
本稿では,直感的なデカプリアライン概念に基づく効果的なPTフレームワークであるDAPTを提案する。
論文 参考訳(メタデータ) (2025-08-01T07:46:00Z) - Recursive Visual Imagination and Adaptive Linguistic Grounding for Vision Language Navigation [25.111153186227728]
視覚言語ナビゲーション(VLN)は通常、エージェントが言語命令に従うことで、未知のシーンで特定のオブジェクトやリモートリージョンにナビゲートする必要がある。
現在のエージェントは、過度に詳細なシーン表現と曖昧な視覚言語アライメントに悩まされている。
そこで本稿では,言語基盤を強化するための命令に適応的に対応した,双方向の視覚知覚を要約したナビゲーションポリシーを提案する。
論文 参考訳(メタデータ) (2025-07-29T02:40:07Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments [19.818370526976974]
VLN-CE(Vision Language Navigation in Continuous Environments)は、AIのフロンティアである。
本稿では,VLN-CEタスクに適した大規模言語モデル(LLM)に基づく生成エージェントであるCog-GAを紹介する。
Cog-GAは、人間のような認知過程をエミュレートするための二重戦略を採用している。
論文 参考訳(メタデータ) (2024-09-04T08:30:03Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。