論文の概要: FreqCache: Accelerating Embodied VLN Models with Adaptive Frequency-Guided Token Caching
- arxiv url: http://arxiv.org/abs/2604.24391v1
- Date: Mon, 27 Apr 2026 12:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.991575
- Title: FreqCache: Accelerating Embodied VLN Models with Adaptive Frequency-Guided Token Caching
- Title(参考訳): FreqCache: 適応周波数誘導トークンキャッシングによる身体的VLNモデルの高速化
- Authors: Zihao Zheng, Xingyue Zhou, Zhihao Mao, Songyu Sun, Lingyue Zhang, Yulong Ao, Yupu Feng, Qiongqiong Zhang, Yonghua Lin, Xiang Chen,
- Abstract要約: VLN(Vision-Language-Navigation)モデルでは、ナビゲーション精度は優れているが、高い計算オーバーヘッドが生じる。
トークン計算結果の再利用により、このコストを削減するための、有望なトレーニングフリー戦略として、トークンキャッシュが登場した。
既存のトークンキャッシングアプローチは、キャッシュ可能なトークン選択のためのビジュアルドメインメソッドに依存しており、VLNモデルに適合する際の課題につながっている。
本稿では、FreqCacheと呼ばれる周波数誘導型トークンキャッシュフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.05778397736422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Navigation (VLN) models exhibit excellent navigation accuracy but incur high computational overhead. Token caching has emerged as a promising training-free strategy to reduce this cost by reusing token computation results; however, existing token caching approaches rely on visual domain methods for cacheable token selection, leading to challenges when adapted to VLN models. 1) Visual domain methods become invalid when there is viewpoint migration. 2) Visual domain methods neglect critical edge information without the aid of additional algorithms. 3) Visual domain methods overlook the temporal variation of scenarios and lack adjustability in cache budgets. In this paper, we develop detailed analyses and find that the impacts of these challenges exhibit invariance and analyzability in the frequency domain. Based on these, we propose a frequency-guided token caching framework, called FreqCache. Utilizing the inherent properties of the frequency domain, FreqCache achieves optimal token cache establishment, refreshment, and adaptive adjustment. Experiments show that FreqCache achieves 1.59x speedup with ignorable overhead, showing the effect of integrating frequency domain methods in VLN token caching.
- Abstract(参考訳): VLN(Vision-Language-Navigation)モデルでは、ナビゲーション精度は優れているが、高い計算オーバーヘッドが生じる。
トークン計算結果の再利用によるこのコスト削減のために、トークンキャッシュは有望なトレーニングフリー戦略として登場したが、既存のトークンキャッシュアプローチは、キャッシュ可能なトークン選択のためのビジュアルドメインメソッドに依存しており、VLNモデルに適合する際の課題となっている。
1)視点マイグレーションがある場合、ビジュアルドメインメソッドは無効になる。
2)ビジュアル・ドメイン・メソッドは、追加のアルゴリズムを使わずに重要なエッジ情報を無視する。
3) ビジュアルドメインメソッドは、シナリオの時間的変動とキャッシュ予算の調整可能性の欠如を見落としている。
本稿では,これらの課題の影響が周波数領域における不変性と解析可能性を示すことを示す。
そこで我々はFreqCacheと呼ばれる周波数誘導型トークンキャッシュフレームワークを提案する。
FreqCacheは、周波数領域固有の特性を利用することで、最適なトークンキャッシュの確立、リフレッシュ、適応調整を実現する。
実験の結果、FreqCacheはオーバーヘッドを無視して1.59倍のスピードアップを実現しており、VLNトークンキャッシュに周波数領域メソッドを統合する効果を示している。
関連論文リスト
- WorldCache: Content-Aware Caching for Accelerated Video World Models [50.7543797435026]
我々はPerception-Constrained Dynamic CaCacheフレームワークであるtextbfWorldCacheを紹介する。
WorldCacheは、機能をいつ、どのように再利用するかを改善します。
PAI-Benchで評価されたCosmos-2.5-2Bでは、WorldCacheはtextbf$2.3times$推論スピードアップを実現し、textbf99.4%のベースライン品質を維持している。
論文 参考訳(メタデータ) (2026-03-23T17:59:54Z) - VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness [13.866076944371946]
トークンキャッシングは、ビジュアルトークンの冗長な再利用を避ける、トレーニング不要の戦略である。
VLNキャッシュ(VLN-Cache)を提案する。
R2R-CEシミュレーションベンチマークの実験では、競争力のある航法成功率を維持しながら1.52倍のスピードアップを示した。
論文 参考訳(メタデータ) (2026-03-07T07:30:35Z) - SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching [75.02865981328509]
キャッシュは、以前計算されたモデル出力をタイムステップで再利用することで計算を減らす。
本稿では,動的キャッシュポリシーであるSensitivity-Aware Caching(SenCache)を提案する。
SenCacheは、同様の計算予算の下で、既存のキャッシュメソッドよりも視覚的品質が向上する。
論文 参考訳(メタデータ) (2026-02-27T17:36:09Z) - ProCache: Constraint-Aware Feature Caching with Selective Computation for Diffusion Transformer Acceleration [14.306565517230775]
Diffusion Transformer (DiTs) は、生成モデリングにおいて最先端のパフォーマンスを達成したが、その高い計算コストは、リアルタイムデプロイメントを妨げている。
既存の手法では,(1) 均一なキャッシング間隔がDiTの非一様時間ダイナミクスと一致しないこと,(2) 過大なキャッシング間隔によるナイーブな機能再利用が重大なエラーの蓄積につながること,の2つの重要な制限が課されている。
ProCacheはトレーニング不要な動的機能キャッシュフレームワークで、2つのコアコンポーネントを介してこれらの問題に対処する。
論文 参考訳(メタデータ) (2025-12-19T07:27:19Z) - DiCache: Let Diffusion Model Determine Its Own Cache [62.954717254728166]
DiCacheは、実行時に拡散モデルを加速するためのトレーニング不要のアダプティブキャッシュ戦略である。
Online Probe Profiling Schemeは浅層オンラインプローブを利用して,キャッシュエラーのオンザフライインジケータをリアルタイムで取得する。
Dynamic Cache Trajectory Alignmentは、マルチステップの履歴キャッシュから出力されるディープ層の特徴を近似する。
論文 参考訳(メタデータ) (2025-08-24T13:30:00Z) - MagCache: Fast Video Generation with Magnitude-Aware Cache [91.2771453279713]
我々は、様々なモデルとプロンプトで観察される統一等級法則という、新しく頑健な発見を導入する。
我々は、エラーモデリング機構と適応キャッシュ戦略を用いて、重要でないタイムステップを適応的にスキップするMagnitude-aware Cache(MagCache)を導入する。
実験の結果、MagCacheはOpen-Sora、CogVideoX、Wan 2.1、HunyuanVideoで2.10x-2.68倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-06-10T17:59:02Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。