論文の概要: TokenTrim: Inference-Time Token Pruning for Autoregressive Long Video Generation
- arxiv url: http://arxiv.org/abs/2602.00268v1
- Date: Fri, 30 Jan 2026 19:44:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.087477
- Title: TokenTrim: Inference-Time Token Pruning for Autoregressive Long Video Generation
- Title(参考訳): TokenTrim: 自動回帰ビデオ生成のための推論時間トケンプルーニング
- Authors: Ariel Shaulov, Eitan Shaar, Amit Edenzon, Lior Wolf,
- Abstract要約: 自動回帰ビデオ生成は、以前生成されたコンテンツに対して、新しいフレームのバッチを反復的に条件付けすることで、長いビデオ合成を可能にする。
近年の研究では、こうしたパイプラインは、長い地平線上でエラーが蓄積され増幅される厳しい時間的ドリフトに悩まされていることが示されている。
条件付けに再利用される前に、不安定な潜伏トークンを識別・削除することで、時間的ドリフトを緩和する簡易な推論時間法を提案する。
- 参考スコア(独自算出の注目度): 45.36298679288268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auto-regressive video generation enables long video synthesis by iteratively conditioning each new batch of frames on previously generated content. However, recent work has shown that such pipelines suffer from severe temporal drift, where errors accumulate and amplify over long horizons. We hypothesize that this drift does not primarily stem from insufficient model capacity, but rather from inference-time error propagation. Specifically, we contend that drift arises from the uncontrolled reuse of corrupted latent conditioning tokens during auto-regressive inference. To correct this accumulation of errors, we propose a simple, inference-time method that mitigates temporal drift by identifying and removing unstable latent tokens before they are reused for conditioning. For this purpose, we define unstable tokens as latent tokens whose representations deviate significantly from those of the previously generated batch, indicating potential corruption or semantic drift. By explicitly removing corrupted latent tokens from the auto-regressive context, rather than modifying entire spatial regions or model parameters, our method prevents unreliable latent information from influencing future generation steps. As a result, it significantly improves long-horizon temporal consistency without modifying the model architecture, training procedure, or leaving latent space.
- Abstract(参考訳): 自動回帰ビデオ生成は、以前生成されたコンテンツに対して、新しいフレームのバッチを反復的に条件付けすることで、長いビデオ合成を可能にする。
しかし、最近の研究により、これらのパイプラインは、長い地平線上でエラーが蓄積され増幅される厳しい時間的ドリフトに悩まされていることが示されている。
このドリフトは主にモデルキャパシティの不足によるものではなく、推論時エラーの伝播によるものであると仮定する。
具体的には、自動回帰推論において、劣化した潜在条件付きトークンの制御不能な再利用からドリフトが発生することを主張する。
この誤りの蓄積を補正するために、条件付けに再利用する前に不安定な潜伏トークンを識別・削除することにより、時間的ドリフトを緩和する簡易な推論時間法を提案する。
この目的のために、不安定なトークンを、前回生成したバッチのトークンからかなり逸脱した潜在トークンとして定義し、潜在的な腐敗やセマンティックドリフトを示す。
空間領域全体やモデルパラメータを変更するのではなく、自動回帰文脈から破損した潜伏トークンを明示的に除去することにより、予測できない潜伏情報が将来の生成ステップに影響を与えるのを防ぐことができる。
結果として、モデルアーキテクチャを変更したり、トレーニング手順を変更したり、潜伏空間を残したりすることなく、長時間の時間的一貫性を著しく向上する。
関連論文リスト
- Rejection Mixing: Fast Semantic Propagation of Mask Tokens for Efficient DLLM Inference [58.189320101488725]
DLLMは高速な非自己回帰推論を約束するが、並列デコーディングにおいて厳しい品質と速度のトレードオフを被る。
我々は、連続表現を離散デコードプロセスに統合することでこの問題に対処する。
本稿では,初期マスキング状態と最終復号化トークン状態の中間として,新しい連続混合状態を導入するフレームワークであるReMixを提案する。
論文 参考訳(メタデータ) (2026-02-26T11:08:11Z) - LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - Token Maturation: Autoregressive Language Generation via Continuous Token Dynamics [0.7252027234425333]
本稿では,複数の更新ステップにまたがる連続ベクトルとしてトークンが表現される言語生成の連続的自己回帰的定式化を導入する。
この成熟過程だけでは、決定論的復号法(argmax)を用いてコヒーレントで多様なテキストを生成するのに十分であることを示す。
力学や履歴の平滑化のような追加の摂動は自然に組み込むことができるが、モデルが機能するためには必要ではない。
論文 参考訳(メタデータ) (2026-01-08T11:44:34Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation [0.0]
連続自己回帰モデルは、推論中のエラーの蓄積により、拡張シーケンスよりも生成品質が低下する可能性がある。
本稿では,学習中に入力埋め込みにランダムノイズを注入することにより,この問題に対処する新しい手法を提案する。
この研究は、純粋に自己回帰的な環境で連続的な埋め込みを生成する方法を舗装し、リアルタイムおよびインタラクティブな生成アプリケーションに新たな可能性を開く。
論文 参考訳(メタデータ) (2024-11-27T15:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。