論文の概要: VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness
- arxiv url: http://arxiv.org/abs/2603.07080v2
- Date: Tue, 10 Mar 2026 11:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:13.024109
- Title: VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness
- Title(参考訳): VLNキャッシュ:ビジュアル/セマンティックダイナミクス認識によるVLNモデルのためのトークンキャッシュの実現
- Authors: Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen,
- Abstract要約: トークンキャッシングは、ビジュアルトークンの冗長な再利用を避ける、トレーニング不要の戦略である。
VLNキャッシュ(VLN-Cache)を提案する。
R2R-CEシミュレーションベンチマークの実験では、競争力のある航法成功率を維持しながら1.52倍のスピードアップを示した。
- 参考スコア(独自算出の注目度): 13.866076944371946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-and-Language Navigation (VLN) increasingly relies on large vision-language models, but their inference cost conflicts with real-time deployment. Token caching is a promising training-free strategy that avoids redundant computation by reusing stable visual tokens across frames. However, existing methods assume a static camera and fixed semantic focus, assumptions that VLN fundamentally violates. We identify two failure modes: (1) visual dynamics, where viewpoint shift displaces token positions across frames, causing position-wise matching to pair misaligned content; (2) semantic dynamics, where token relevance shifts across task stages as navigation progresses, making cached states stale. We propose VLN-Cache, a visual-dynamic-aware and semantic-dynamic-aware caching framework that introduces view-aligned remapping to recover geometric correspondences and a task-relevance saliency filter to veto reuse at semantic transitions. A layer-adaptive entropy policy further balances the per-layer reuse budget. Experiments on the R2R-CE simulation benchmark show up to 1.52x speedup while maintaining competitive navigation success rates.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、より大規模な視覚言語モデルに依存している。
トークンキャッシュは、フレーム間で安定したビジュアルトークンを再利用することで冗長な計算を避ける、有望なトレーニング不要の戦略である。
しかしながら、既存の手法では、VLNが根本的に違反する仮定である静的カメラと固定されたセマンティックフォーカスを仮定する。
1)視覚的ダイナミクス, 視点シフトがフレーム間でトークンの位置を変位させ, 位置対応が不一致なコンテンツと一致すること, (2) 意味力学, タスクステージ間でトークンの関連性が変化し, キャッシュ状態が不安定になる。
VLNキャッシュ(VLN-Cache)は,幾何学的対応を復元するビューアライメントリマッピングを導入し,セマンティック・トランジションでの再利用を拒否するタスク関連サリエンシ・フィルタを提案する。
層適応エントロピーポリシーは、層ごとの再利用予算をさらにバランスさせる。
R2R-CEシミュレーションベンチマークの実験では、競争力のある航法成功率を維持しながら1.52倍のスピードアップを示した。
関連論文リスト
- DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation [52.83157499300261]
時間的推論と閉ループ適応を統合した動的オブジェクト操作のフレームワークであるDynamicVLAを提案する。
我々は、自動データ収集パイプラインでスクラッチから構築されたDynamic Object Manipulationベンチマークを紹介します。
広範囲な評価は、応答速度、知覚、一般化の顕著な改善を示している。
論文 参考訳(メタデータ) (2026-01-29T18:59:51Z) - ProCache: Constraint-Aware Feature Caching with Selective Computation for Diffusion Transformer Acceleration [14.306565517230775]
Diffusion Transformer (DiTs) は、生成モデリングにおいて最先端のパフォーマンスを達成したが、その高い計算コストは、リアルタイムデプロイメントを妨げている。
既存の手法では,(1) 均一なキャッシング間隔がDiTの非一様時間ダイナミクスと一致しないこと,(2) 過大なキャッシング間隔によるナイーブな機能再利用が重大なエラーの蓄積につながること,の2つの重要な制限が課されている。
ProCacheはトレーニング不要な動的機能キャッシュフレームワークで、2つのコアコンポーネントを介してこれらの問題に対処する。
論文 参考訳(メタデータ) (2025-12-19T07:27:19Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Nav-$R^2$ Dual-Relation Reasoning for Generalizable Open-Vocabulary Object-Goal Navigation [67.68165784193556]
Nav-$R2$は、ターゲット環境モデリングと環境行動計画という2つのタイプの関係を明示的にモデル化するフレームワークである。
我々のSA-Memは、時間的・意味的両面から最も標的に関連し、現在の観測関連の特徴を保っている。
Nav-R2は、合理化され効率的なパイプラインを通して見えないオブジェクトをローカライズする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-02T04:21:02Z) - Seeing Across Time and Views: Multi-Temporal Cross-View Learning for Robust Video Person Re-Identification [1.4270165633706586]
クロスビュー領域におけるビデオベースの人物再識別(ReID)は依然として未解決の問題である。
ViT-B/16バックボーン上に7つの相補的なモジュールを導入するパラメータ効率のフレームワークであるMTF-CVReIDを提案する。
我々は,MTF-CVReIDがリアルタイム効率(189FPS)を維持し,AG-VPReIDベンチマークの最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-04T13:37:59Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching [23.52474883720957]
VLA(Vision-Language-Action)モデルは、視覚知覚と言語命令から直接のアクション生成を可能にする強力なマルチモーダル推論能力を示している。
本稿では,フレーム間の静的な視覚トークンを適応的にキャッシュ・再利用することにより,計算オーバーヘッドを低減する訓練不要な推論高速化手法であるVLA-Cacheを紹介する。
論文 参考訳(メタデータ) (2025-02-04T09:48:14Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - Dynamic in Static: Hybrid Visual Correspondence for Self-Supervised Video Object Segmentation [126.12940972028012]
自己教師型ビデオオブジェクトセグメンテーションのためのフレームワークであるHVCを提案する。
HVCは静的画像から擬似力学信号を抽出し、効率的でスケーラブルなVOSモデルを実現する。
連立静的および動的整合性表現を学習するためのハイブリッド視覚対応損失を提案する。
論文 参考訳(メタデータ) (2024-04-21T02:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。