論文の概要: Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs
- arxiv url: http://arxiv.org/abs/2605.16366v1
- Date: Sun, 10 May 2026 03:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.297417
- Title: Fre-Res: Frequency-Residual Video Token Compression for Efficient Video MLLMs
- Title(参考訳): Fre-Res:効率的なビデオMLLMのための周波数残差ビデオトーケン圧縮
- Authors: Yigui Feng, Qinglin Wang, Yang Liu, Jie Liu,
- Abstract要約: Fre-Resは、予算適応型デュアルトラックビデオトーケン圧縮フレームワークである。
細かな高忠実度空間アンカーを保存し、高密度の時間進化を表わす。
高い精度、効率のトレードオフ、マッチング、あるいは完全なパフォーマンスへのアプローチを実現します。
- 参考スコア(独自算出の注目度): 7.33425125247841
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video MLLMs face a persistent tension between spatial fidelity and temporal coverage: preserving fine-grained visual details requires many spatial tokens, while capturing short-lived events requires dense temporal sampling. We propose \textbf{Fre-Res}, a budget-adaptive dual-track video-token compression framework that separates these two forms of evidence. Fre-Res preserves sparse high-fidelity spatial anchors and represents dense temporal evolution through compact residual-frequency tokens. Specifically, it applies temporal 1D-DCT to inter-frame residual trajectories in vision-latent space, where we observe strong low-frequency concentration. To align frequency-domain dynamics with native visual embeddings, Fre-Res introduces a Spatial-Guided Absorber that injects temporal residual information into spatially corresponding anchor tokens. Across fine-grained short-video and long-video reasoning benchmarks, Fre-Res achieves a favorable accuracy--efficiency trade-off, matching or approaching full-token performance while substantially reducing visual-token length. Extensive ablations further show that temporal-frequency residuals preserve causal transition cues, while spatial anchors remain essential for fine-grained object and layout reasoning.
- Abstract(参考訳): ビデオMLLMは、空間的忠実度と時間的カバレッジの間に永続的な緊張に直面している: きめ細かい視覚的詳細を保存するには、多くの空間トークンが必要であるが、短命なイベントをキャプチャするには、密集した時間的サンプリングが必要である。
本稿では,これらの2種類の証拠を分離した,予算適応型2トラックビデオトーケン圧縮フレームワークである‘textbf{Fre-Res} を提案する。
Fre-Resはスパースな高忠実な空間アンカーを保存し、コンパクトな残留周波数トークンを通して高密度の時間進化を表現している。
具体的には,低周波濃度の強い視層空間におけるフレーム間残留軌道に時間的1D-DCTを適用した。
Fre-Resは、周波数領域のダイナミクスをネイティブな視覚的埋め込みに合わせるために、時空間残留情報を空間的に対応するアンカートークンに注入する空間誘導吸収を導入する。
Fre-Resは、細粒度のショートビデオとロングビデオの推論ベンチマーク全体にわたって、視覚的な長さを大幅に削減しつつ、良好な精度-効率のトレードオフ、マッチング、あるいはフルトーケンのパフォーマンスへのアプローチを実現している。
さらに、時間周波数残差は因果遷移の手がかりを保ち、空間アンカーは微粒な物体やレイアウトの推論に必須であることを示す。
関連論文リスト
- V-CAST: Video Curvature-Aware Spatio-Temporal Pruning for Efficient Video Large Language Models [48.80617385008755]
ビデオ言語モデル(VideoLLMs)は理解に強い能力を示すが、長いコンテキスト推論はプリフィル段階では巨大な冗長な視覚トークンに支配されている。
長文ビデオ推論のための訓練不要なプラグアンドプレイプルーニングポリシーであるV-CASTを提案する。
論文 参考訳(メタデータ) (2026-03-29T11:53:32Z) - Unified Spatiotemporal Token Compression for Video-LLMs at Ultra-Low Retention [23.015486635502437]
ビデオ言語モデル(ビデオ-LLM)は、大量の視覚トークンのために高い計算コストに直面している。
グローバルな選択トークンに意味的類似性を重み付けする統一選択機構を提案する。
選択されていないトークンはクラスタリングとリフィルによってマージされ、情報の整合性を保持する。
我々の統合的時間トークン圧縮戦略は,超低トークン保持下での映像理解における最先端技術を確立する。
論文 参考訳(メタデータ) (2026-03-23T13:15:22Z) - Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising [28.397068445063724]
フレーム間の時間的一貫性とフレーム内の空間的特異性を統合するのが困難である。
既存のビデオブラインド・スポットネットワーク(BSN)は中心画素をマスキングすることでノイズ独立性を必要とするため、この制約は空間的エビデンス回復のためのテクスチャの使用を妨げている。
視覚的時間的整合性モデリングと非視覚的空間的テクスチャ回復という,自己指導型トレーニングを2段階に分けたフレームワークであるロス2Residuals(F2R)を提案する。
論文 参考訳(メタデータ) (2026-03-11T05:04:28Z) - E.M.Ground: A Temporal Grounding Vid-LLM with Holistic Event Perception and Matching [87.38371267983263]
時間的ビデオグラウンディングは、クエリイベントに対応する時間セグメントを正確にローカライズすることを目的としている。
E.M.GroundはTVGのための新しいVid-LLMで、総合的で一貫性のあるイベント知覚に焦点を当てている。
E.M.Ground は最先端の Vid-LLM を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-05T02:16:00Z) - TIMERIPPLE: Accelerating vDiTs by Understanding the Spatio-Temporal Correlations in Latent Space [15.535854202219072]
本稿では,vDiTsにおける自己注意の促進を,潜在空間における時間的再利用の相関を利用して行う。
また,vDiT内の注意パターンは,主にトークンチャネルレベルでの空間的・時間的相関が支配的であることが示唆された。
本稿では,個別チャネルに沿った部分的注意スコアを空間的あるいは時間的に相関したトークンに再利用することにより,注意計算を近似する軽量かつ適応的な戦略を提案する。
論文 参考訳(メタデータ) (2025-11-15T05:07:31Z) - Continuous Space-Time Video Super-Resolution with 3D Fourier Fields [62.270473766381976]
連続時空ビデオ超解像のための新しい定式化法を提案する。
モデリング関節は空間的および時間的超解像の両方を大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-09-30T14:34:02Z) - Dense Video Understanding with Gated Residual Tokenization [49.17263029080152]
高時間分解能は、ビデオ理解における微細な細部を捉えるのに不可欠である。
現在のベンチマークは主に低フレームレートサンプリングに依存している。
Dense Video Understanding (DVU)は、トークン化時間とトークンオーバーヘッドの両方を削減することで、高FPSビデオの理解を可能にする。
論文 参考訳(メタデータ) (2025-09-17T17:34:40Z) - DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。