論文の概要: Context Forcing: Consistent Autoregressive Video Generation with Long Context
- arxiv url: http://arxiv.org/abs/2602.06028v1
- Date: Thu, 05 Feb 2026 18:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.147134
- Title: Context Forcing: Consistent Autoregressive Video Generation with Long Context
- Title(参考訳): コンテキスト強制:長いコンテキストを持つ一貫性のある自己回帰ビデオ生成
- Authors: Shuo Chen, Cong Wei, Sun Sun, Ping Nie, Kai Zhou, Ge Zhang, Ming-Hsuan Yang, Wenhu Chen,
- Abstract要約: 長文教師を介して長文学生を訓練するフレームワークであるtextbfContext Forcingを提案する。
教師が全世代の歴史に気付くことを保証することで、教師のミスマッチを解消する。
提案手法は,最先端手法の2倍から10倍の20秒を超える有効コンテキスト長を実現する。
- 参考スコア(独自算出の注目度): 74.08361435348873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent approaches to real-time long video generation typically employ streaming tuning strategies, attempting to train a long-context student using a short-context (memoryless) teacher. In these frameworks, the student performs long rollouts but receives supervision from a teacher limited to short 5-second windows. This structural discrepancy creates a critical \textbf{student-teacher mismatch}: the teacher's inability to access long-term history prevents it from guiding the student on global temporal dependencies, effectively capping the student's context length. To resolve this, we propose \textbf{Context Forcing}, a novel framework that trains a long-context student via a long-context teacher. By ensuring the teacher is aware of the full generation history, we eliminate the supervision mismatch, enabling the robust training of models capable of long-term consistency. To make this computationally feasible for extreme durations (e.g., 2 minutes), we introduce a context management system that transforms the linearly growing context into a \textbf{Slow-Fast Memory} architecture, significantly reducing visual redundancy. Extensive results demonstrate that our method enables effective context lengths exceeding 20 seconds -- 2 to 10 times longer than state-of-the-art methods like LongLive and Infinite-RoPE. By leveraging this extended context, Context Forcing preserves superior consistency across long durations, surpassing state-of-the-art baselines on various long video evaluation metrics.
- Abstract(参考訳): リアルタイムビデオ生成への最近のアプローチは、ストリーミングチューニング戦略を採用しており、短いコンテキスト(メモリレス)の教師を使って、長いコンテキストの学生を訓練しようと試みている。
これらのフレームワークでは、学生は長時間のロールアウトを行うが、短い5秒の窓に制限された教師から監督を受ける。
この構造的不一致は、批判的な「textbf{student-teacher mismatch}」を生成する: 長期履歴にアクセスできない教師は、学生にグローバルな時間的依存関係を導くことを防ぎ、学生のコンテキスト長を効果的にカプセル化する。
これを解決するために,長文教師を介して長文学生を訓練する新しいフレームワークである \textbf{Context Forcing} を提案する。
教師が全世代の歴史に気付くことを保証することで、監督ミスマッチを排除し、長期的整合性のあるモデルの堅牢なトレーニングを可能にする。
極端に長い時間(例えば2分)で計算可能となるように、線形に成長するコンテキストを \textbf{Slow-Fast Memory} アーキテクチャに変換するコンテキスト管理システムを導入し、視覚的冗長性を著しく低減する。
その結果,LongLiveやInfinite-RoPEのような最先端の手法の2倍から10倍の時間で,20秒を超える効率的なコンテキスト長を実現することができた。
この拡張されたコンテキストを活用することで、Context Forcingは長い時間にわたって優れた一貫性を保持し、様々な長いビデオ評価メトリクスの最先端のベースラインを超えます。
関連論文リスト
- Beyond Length: Quantifying Long-Range Information for Long-Context LLM Pretraining Data [67.46386646195818]
我々はLongFilterを紹介した。LongFilterは、長文事前学習に適したトレーニングデータをキュレートするフレームワークである。
LongFilterは、長いコンテキスト下でのモデル予測と短いコンテキスト設定の対比によって、拡張コンテキストによって提供される情報ゲインを測定する。
LLaMA-3-8Bによる実験は、コンテキスト長を8Kから64Kに拡張し、LongFilterが効率よく高品質のデータを選択し、HELMET、LongBench、RULERなどのベンチマークで大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2025-10-29T06:21:08Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - Scaling Instruction-Tuned LLMs to Million-Token Contexts via Hierarchical Synthetic Data Generation [15.975325252309554]
本稿では,大規模言語モデルのコンテキストウィンドウを効率的に拡張するための新しい学習後合成データ生成戦略を提案する。
我々のアプローチは、利用可能な実世界のデータの長さに制約されずに、任意に長いコンテキスト長まで強固に拡張する。
我々は,RULERベンチマークとInfiniteBenchにおいて,最大100万トークンのコンテキスト長を持つモデルの有効性を実証した。
論文 参考訳(メタデータ) (2025-04-17T04:46:57Z) - Long-Context Autoregressive Video Modeling with Next-Frame Prediction [17.710915002557996]
長文ビデオモデリングは、生成モデルが世界シミュレータとして機能するために不可欠である。
長いビデオで直接トレーニングすることは自然な解決策だが、視覚トークンの急速な成長は計算的に禁止する。
フレームオートレグレッシブ(FAR)モデルを提案し、連続フレーム間の時間的依存関係をモデル化し、ビデオ拡散変換器よりも高速に収束し、トークンレベルの自己回帰モデルより優れる。
論文 参考訳(メタデータ) (2025-03-25T03:38:06Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - LongReD: Mitigating Short-Text Degradation of Long-Context Large Language Models via Restoration Distillation [79.90766312484489]
回復蒸留(LongReD)による長期事前トレーニング
LongReDは、選択されたレイヤの隠れた状態をオリジナルのモデルから短いテキストで蒸留する。
一般的なテキストベンチマークの実験では、LongReDはモデルの短文性能を効果的に維持することを示した。
論文 参考訳(メタデータ) (2025-02-11T08:37:16Z) - NExtLong: Toward Effective Long-Context Training without Long Documents [28.002824369635768]
我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。
NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。
大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-22T10:01:54Z) - LIFT: Improving Long Context Understanding Through Long Input Fine-Tuning [35.31849814789343]
本稿では,ロングコンテキストモデリングのための Long Input Fine-Tuning (LIFT) を提案する。
LIFTは、オフライン長文適応の計算負担を伴わずに、長時間入力の効率的な処理を可能にする。
このフレームワークは、コンテキスト内学習とLIFT前教師付き微調整を統合することでさらに強化されている。
論文 参考訳(メタデータ) (2024-12-18T09:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。