論文の概要: DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2603.13133v1
- Date: Fri, 13 Mar 2026 16:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.773028
- Title: DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation
- Title(参考訳): DecoVLN:視覚・言語ナビゲーションのためのデカップリング観測, 推論, 補正
- Authors: Zihao Xin, Wentong Li, Yixuan Jiang, Bin Wang, Runming Cong, Jie Qin, Shengjun Huang,
- Abstract要約: 長距離ナビゲーションにおけるロバストなストリーミング認識と閉ループ制御のためのフレームワークであるDecoVLNを提案する。
本稿では,統合されたスコアリング関数を反復的に最適化することにより,過去の候補プールからフレームを選択する適応的精錬機構を提案する。
また,コンプレックスエラーを軽減するために,状態-作用ペアレベルの補正手法を導入する。
- 参考スコア(独自算出の注目度): 49.233063630722334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) requires agents to follow long-horizon instructions and navigate complex 3D environments. However, existing approaches face two major challenges: constructing an effective long-term memory bank and overcoming the compounding errors problem. To address these issues, we propose DecoVLN, an effective framework designed for robust streaming perception and closed-loop control in long-horizon navigation. First, we formulate long-term memory construction as an optimization problem and introduce adaptive refinement mechanism that selects frames from a historical candidate pool by iteratively optimizing a unified scoring function. This function jointly balances three key criteria: semantic relevance to the instruction, visual diversity from the selected memory, and temporal coverage of the historical trajectory. Second, to alleviate compounding errors, we introduce a state-action pair-level corrective finetuning strategy. By leveraging geodesic distance between states to precisely quantify deviation from the expert trajectory, the agent collects high-quality state-action pairs in the trusted region while filtering out the polluted data with low relevance. This improves both the efficiency and stability of error correction. Extensive experiments demonstrate the effectiveness of DecoVLN, and we have deployed it in real-world environments.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)では、エージェントが長距離の指示に従って複雑な3D環境をナビゲートする必要がある。
しかし、既存のアプローチでは、効果的な長期記憶バンクの構築と複雑なエラー問題を克服する2つの大きな課題に直面している。
これらの問題に対処するために,長距離ナビゲーションにおけるロバストなストリーミング認識と閉ループ制御のための効果的なフレームワークであるDecoVLNを提案する。
まず、最適化問題として長期記憶構築を定式化し、統一されたスコアリング関数を反復的に最適化することにより、履歴候補プールからフレームを選択する適応的精錬機構を導入する。
この関数は、命令に対する意味的関連性、選択された記憶からの視覚的多様性、歴史的軌跡の時間的カバレッジの3つの重要な基準を共同でバランスさせる。
第二に、複合的エラーを軽減するために、状態-作用対レベルの補正戦略を導入する。
このエージェントは、状態間の測地距離を利用して専門家軌道からの偏差を正確に定量化することにより、汚染されたデータを低い関連性でフィルタリングしながら、信頼できる領域における高品質な状態-作用対を収集する。
これにより、誤り訂正の効率性と安定性が向上する。
大規模な実験では,DecoVLNの有効性を実証し,実環境に展開した。
関連論文リスト
- Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents [10.559617160878227]
GUIPrunerは、高解像度のGUIナビゲーションに適したトレーニング不要のフレームワークである。
時間分解能(TAR)とSSP(Stratified Structure-Aware Pruning)の相乗効果
常に最先端の性能を達成し、高解像度圧縮下での大規模モデルで観測される崩壊を効果的に防止する。
論文 参考訳(メタデータ) (2026-02-26T17:12:40Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Adaptive Causal Coordination Detection for Social Media: A Memory-Guided Framework with Semi-Supervised Learning [1.5683405037750644]
ACCDは3段階のプログレッシブアーキテクチャを採用し、メモリ誘導適応機構を利用して最適な検出設定を学習し維持する。
Twitter IRAデータセット、Redditのコーディネーショントレース、および広く採用されているボット検出ベンチマークなど、実世界のデータセットを使用して包括的な評価を行う。
ACCDのF1スコアは87.3%で、最強のベースラインよりも15.2%向上している。
論文 参考訳(メタデータ) (2026-01-01T17:27:52Z) - Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。
CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。
拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文 参考訳(メタデータ) (2025-11-26T09:49:48Z) - Harnessing Input-Adaptive Inference for Efficient VLN [13.847596428283861]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)における新たなパラダイムは、歴史を意識したマルチモーダルトランスモデルの利用である。
本稿では,VLNモデルの効率を向上させるための新しい入力適応ナビゲーション手法を提案する。
論文 参考訳(メタデータ) (2025-08-12T18:05:33Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Deflickering Vision-Based Occupancy Networks through Lightweight Spatio-Temporal Correlation [15.726401007342087]
視覚ベースの占有ネットワーク(VON)は、自動運転における3D環境を再構築するためのエンドツーエンドのソリューションを提供する。
近年のアプローチでは、この問題を軽減するために歴史的データを組み込んでいるが、しばしば高い計算コストを発生させ、物体検出に干渉するノイズの多い情報を導入する可能性がある。
我々はOccLinkerを提案する。OccLinkerは既存のVONとシームレスに統合し、パフォーマンスを向上させるための新しいプラグインフレームワークである。
提案手法は,従来の静的および動きの手がかりを効果的に集約し,2つのクロスアテンション機構によって現在の特徴との疎遅延相関を学習し,補正占有成分を生成し,ベースネットワークの予測を洗練させる。
論文 参考訳(メタデータ) (2025-02-21T13:07:45Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。