論文の概要: Pretraining Frame Preservation in Autoregressive Video Memory Compression
- arxiv url: http://arxiv.org/abs/2512.23851v2
- Date: Sun, 04 Jan 2026 13:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.719501
- Title: Pretraining Frame Preservation in Autoregressive Video Memory Compression
- Title(参考訳): 自己回帰ビデオメモリ圧縮におけるフレーム保存の事前学習
- Authors: Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala,
- Abstract要約: 我々は、長いビデオを短い文脈に圧縮するニューラルネットワーク構造であるPFPを提案する。
ベースラインモデルは、20秒のビデオを約5kの長さのコンテキストに圧縮することができ、ランダムフレームは知覚的に保存された外観で検索することができる。
我々は、このフレームワークを合理的な設定で評価し、可能なニューラルアーキテクチャ設計のトレードオフについて議論する。
- 参考スコア(独自算出の注目度): 65.4614111198843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PFP, a neural network structure to compress long videos into short contexts, with an explicit pretraining objective to preserve the high-frequency details of single frames at arbitrary temporal positions. The baseline model can compress a 20-second video into a context at about 5k length, where random frames can be retrieved with perceptually preserved appearances. Such pretrained models can be directly fine-tuned as memory encoders for autoregressive video models, enabling long history memory with low context cost and relatively low fidelity loss. We evaluate the framework with ablative settings and discuss the trade-offs of possible neural architecture designs.
- Abstract(参考訳): 本稿では,長時間の動画を短い文脈に圧縮するニューラルネットワーク構造であるPFPについて述べる。
ベースラインモデルは、20秒のビデオを約5kの長さのコンテキストに圧縮することができ、ランダムフレームは知覚的に保存された外観で検索することができる。
このような事前訓練されたモデルは、自己回帰型ビデオモデルのためのメモリエンコーダとして直接調整することができ、コンテキストコストが低く、フィデリティロスが比較的低い長い履歴メモリを可能にする。
我々は、このフレームワークを合理的な設定で評価し、可能なニューラルアーキテクチャ設計のトレードオフについて議論する。
関連論文リスト
- Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - FRAME: Pre-Training Video Feature Representations via Anticipation and Memory [55.046881477209695]
FRAMEは、高密度ビデオ理解に適した自己監督型ビデオフレームエンコーダである。
同社は、過去と現在のRGBフレームから現在と将来のDINOパッチ機能を予測することを学ぶ。
画像エンコーダや既存の自己監督型ビデオモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-06-05T19:44:47Z) - Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models [63.99949971803903]
ビデオ生成のための次フレーム(または次フレーム)予測モデルをトレーニングするためのニューラルネットワーク構造であるFramePackを提案する。
FramePackは入力フレームコンテキストをフレーム単位の重要度で圧縮し、より多くのフレームを固定されたコンテキスト長内にエンコードする。
既存のビデオ拡散モデルをFramePackで微調整できることを示し、異なるパッキングスケジュールの違いを分析する。
論文 参考訳(メタデータ) (2025-04-17T04:02:31Z) - Long-Context Autoregressive Video Modeling with Next-Frame Prediction [17.710915002557996]
長文ビデオモデリングは、生成モデルが世界シミュレータとして機能するために不可欠である。
長いビデオで直接トレーニングすることは自然な解決策だが、視覚トークンの急速な成長は計算的に禁止する。
フレームオートレグレッシブ(FAR)モデルを提案し、連続フレーム間の時間的依存関係をモデル化し、ビデオ拡散変換器よりも高速に収束し、トークンレベルの自己回帰モデルより優れる。
論文 参考訳(メタデータ) (2025-03-25T03:38:06Z) - UAR-NVC: A Unified AutoRegressive Framework for Memory-Efficient Neural Video Compression [32.46672370851282]
Inlicit Neural Representation (INRs)は、ビデオをニューラルネットワークとして表現することで、ビデオ圧縮において大きな可能性を証明している。
本稿では、自己回帰(AR)の観点からのINRモデルの新たな理解と、メモリ効率の高いニューラルビデオ圧縮(UAR-NVC)のための統一自己回帰フレームワークを提案する。
UAR-NVCは、タイムラインベースとINRベースのニューラルビデオ圧縮を統合自己回帰パラダイムの下で統合する。
論文 参考訳(メタデータ) (2025-03-04T15:54:57Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。