論文の概要: PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs
- arxiv url: http://arxiv.org/abs/2511.10979v1
- Date: Fri, 14 Nov 2025 05:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.443133
- Title: PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs
- Title(参考訳): PAS:ビデオLLMにおけるテンポラルエンコーディングのためのトレーニングフリー安定化器
- Authors: Bowen Sun, Yujun Cai, Ming-Hsuan Yang, Hang Wu, Yiwei Wang,
- Abstract要約: ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
本稿では, 位相アグリゲード平滑化(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用して, 出力を集約する学習自由機構である。
解析の結果,RoPE回転ロジットは,時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,マルチフェーズ平均化は,Nyquist-valid サンプリング下での頭当たりスペクトルを保ちながら高周波リップルを減衰させることがわかった。
- 参考スコア(独自算出の注目度): 57.790910044227935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video LLMs suffer from temporal inconsistency: small shifts in frame timing can flip attention and suppress relevant frames. We trace this instability to the common extension of Rotary Position Embeddings to video through multimodal RoPE. The induced inverse Fourier time kernel exhibits frame-scale ripples that multiply adjacent frames by different factors, which perturbs attention that should otherwise be governed by the raw query key inner product. We present Phase Aggregated Smoothing (PAS), a simple, training-free mechanism that applies small opposed phase offsets across heads and then aggregates their outputs. PAS preserves the per-head spectrum magnitude, while the aggregation effectively smooths the temporal kernel and reduces phase sensitivity without changing the positional encoding structure. Our analysis shows that the RoPE rotated logit can be approximated as a content dot product scaled by a time kernel; smoothing this kernel yields Lipschitz stability of attention to small temporal shifts; multi phase averaging attenuates high frequency ripples while preserving per-head spectra under Nyquist-valid sampling. Experiments on multiple video understanding benchmarks under matched token budgets show consistent improvements with negligible computational overhead. PAS provides a plug and play upgrade for robust temporal encoding in Video LLMs.
- Abstract(参考訳): ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
我々は、この不安定性をマルチモーダルロPEによるビデオへのロータリー位置埋め込みの共通拡張に追従する。
引き起こされた逆フーリエ時間核は、隣接するフレームを異なる因子で乗じるフレームスケールのリップルを示し、それ以外は生のクエリキー内部積によって管理されるべき注意を乱す。
本稿では, 位相アグリゲーション・スムーシング(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用し, 出力を集約する, 単純で訓練のない機構である。
PASは頭部のスペクトルの大きさを保ち、アグリゲーションは時間核を効果的に滑らかにし、位置符号化構造を変更することなく位相感度を低下させる。
解析により,RoPE回転ロジットは時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,多相平均化はNyquist-validサンプリングの下でヘッドスペクトル当たりのスペクトルを保ちながら高周波リップルを減衰させることがわかった。
一致したトークン予算下での複数のビデオ理解ベンチマークの実験は、無視可能な計算オーバーヘッドと一貫した改善を示している。
PASは、ビデオLLMにおける堅牢なテンポラリエンコーディングのためのプラグとプレイのアップグレードを提供する。
関連論文リスト
- DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - VFRTok: Variable Frame Rates Video Tokenizer with Duration-Proportional Information Assumption [19.819820303839613]
既存のトークン化器は固定時間圧縮率を提供し、拡散モデルの計算コストはフレームレートと線形にスケールする。
本稿では、可変フレームレート符号化と復号を可能にするトランスフォーマーベースのビデオトークンであるVFRTokを紹介する。
VFRTokは既存のトークンよりも1/8トークンしか使用せず、競争力のある再構築品質と最先端のビデオ忠実性を実現している。
論文 参考訳(メタデータ) (2025-05-17T15:32:54Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - SNeRV: Spectra-preserving Neural Representation for Video [8.978061470104532]
本稿では,暗黙の映像表現を強化する新しい手法として,スペクトル保存型NeRV(SneRV)を提案する。
本稿では,2次元離散ウェーブレット変換(DWT)を用いて映像を低周波(LF)と高周波(HF)に分解する。
我々は,SNeRVが既存のNeRVモデルよりも細部まで細部を捉え,再現性の向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-01-03T07:57:38Z) - Enhancing Long Video Generation Consistency without Tuning [92.1714656167712]
単一のプロンプトまたは複数のプロンプトで生成されたビデオの一貫性とコヒーレンスを高めるための課題に対処する。
本稿では,時間周波数に基づく時間的注意再重み付けアルゴリズム(TiARA)を提案する。
複数のプロンプトによって生成されたビデオに対しては、プロンプトのアライメントがプロンプトの品質に影響を及ぼすといった重要な要因をさらに明らかにする。
提案するPromptBlendは,プロンプトを系統的に整列させるプロンプトパイプラインである。
論文 参考訳(メタデータ) (2024-12-23T03:56:27Z) - Alignment-free Raw Video Demoireing [18.06907326360215]
ビデオの削除は、スクリーンコンテンツのキャプチャ中に発生する望ましくない干渉パターンを取り除くことを目的としている。
本稿では,周波数アシスト型時間的マンバ(DemMamba)を用いたアライメントフリー生ビデオ復調ネットワークを提案する。
PSNRでは、最先端の手法を1.6dB超え、良好な視覚体験を提供する。
論文 参考訳(メタデータ) (2024-08-20T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。