論文の概要: LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation
- arxiv url: http://arxiv.org/abs/2606.02553v1
- Date: Mon, 01 Jun 2026 17:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.554453
- Title: LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation
- Title(参考訳): LongLive-RAG:ロングビデオ生成のための汎用検索フレームワーク
- Authors: Qixin Hu, Shuai Yang, Wei Huang, Song Han, Yukang Chen,
- Abstract要約: 自己回帰(AR)ビデオ拡散は可変長合成を可能にするが、長い水平生成は蓄積されたエラーやアイデンティティドリフトに悩まされることが多い。
本稿では、長いビデオ生成を検索強化世代(RAG)問題として定式化し、この制限に対処する。
本稿では,ARビデオ生成のための汎用検索フレームワークであるLongLive-RAGを提案する。
- 参考スコア(独自算出の注目度): 28.243294694107288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) video diffusion enables variable-length synthesis, but long-horizon generation often suffers from accumulated errors and identity drift. For efficiency, existing methods commonly adopt sliding-window attention during generation. This creates an irreversible generation trajectory: once the active window accumulates appearance errors, subsequent generations can only condition on this degraded trajectory and drift further away. We address this limitation by formulating long video generation as a retrieval-augmented generation (RAG) problem. Rather than relying solely on the recent window, we treat previously generated latents as a dynamic, searchable history. We propose LongLive-RAG, a general retrieval framework for AR video generation. At each new block, LongLive-RAG uses a query embedding to retrieve relevant historical latents. This lightweight retrieval step adds only a small overhead relative to generation and lets the generator condition on non-local context instead of only the recent window. To make retrieval more discriminative, we introduce the Window Temporal Delta Loss that suppresses redundant local similarity and encourages embeddings to capture meaningful temporal changes. Together, these components help reduce error accumulation caused by sliding-window attention. Experiments across multiple AR backbones and generation lengths show improved long-video quality and the best average VBench-Long rank. To our knowledge, among open-ended AR long video generation methods, LongLive-RAG is the first to formulate self-generated latent history as content-addressable retrieval memory. Code is available at https://github.com/qixinhu11/LongLive-RAG.
- Abstract(参考訳): 自己回帰(AR)ビデオ拡散は可変長合成を可能にするが、長い水平生成は蓄積されたエラーやアイデンティティドリフトに悩まされることが多い。
効率性のために、既存の手法では、世代間スライディングウインドウの注意が一般的である。
アクティブウィンドウが出現エラーを蓄積すると、その後の世代はこの劣化した軌道にのみ条件を定め、さらに遠くへ漂うことができる。
本稿では、長いビデオ生成を検索強化世代(RAG)問題として定式化し、この制限に対処する。
最近のウィンドウにのみ依存するのではなく、以前生成された潜伏語を動的で検索可能な歴史として扱う。
本稿では,ARビデオ生成のための汎用検索フレームワークであるLongLive-RAGを提案する。
新しいブロック毎に、LongLive-RAGはクエリ埋め込みを使用して関連する履歴ラテントを検索する。
この軽量な検索ステップでは、生成に対するオーバーヘッドが小さくなり、最近のウィンドウのみではなく、ローカルでないコンテキストでジェネレータの状態が保証される。
検索をより差別化するために、冗長な局所的類似性を抑え、意味のある時間的変化を捉えるために埋め込みを奨励するウィンドウ時間デルタ損失を導入する。
これらのコンポーネントは、スライディングウインドウの注意によるエラーの蓄積を低減するのに役立ちます。
複数のARバックボーンと生成長にわたる実験では、ビデオの画質が向上し、VBench-Longの最高ランクが向上した。
我々の知る限り、オープンなARロングビデオ生成手法の中で、LongLive-RAGはコンテンツ適応型検索メモリとして自己生成潜在履歴を定式化した最初のものである。
コードはhttps://github.com/qixinhu11/LongLive-RAGで公開されている。
関連論文リスト
- DySink: Dynamic Frame Sinks for Autoregressive Long Video Generation [51.58559206569209]
我々は,コンパクトなメモリバンクを保守し,動的フレームシンクとして視覚的に関連する歴史的フレームを選択する検索ベースのフレームワークであるDySinkを提案する。
分長ビデオの実験では、DySinkは強いベースラインよりもダイナミックな度合いを一貫して改善し、同時に時間的品質も向上している。
論文 参考訳(メタデータ) (2026-05-20T11:01:01Z) - CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives [117.85963914353904]
CausalCineはインタラクティブな自動回帰フレームワークで、マルチショットビデオ生成をオンラインのディレクティブプロセスに変換する。
CausalCineはショット変更を因果的に生成し、動的プロンプトをオンザフライで受け付け、以前のショットを再生することなくコンテキストを再利用する。
論文 参考訳(メタデータ) (2026-05-12T17:59:51Z) - LoL: Longer than Longer, Scaling Video Generation to Hour [50.945885467651216]
この研究は、品質劣化の少ないリアルタイム、ストリーミング、無限長のビデオ生成の最初のデモンストレーションを実現する。
実例として、最大12時間までの連続ビデオを生成し、私たちの知る限り、ストリーミングビデオ生成において最も長く実証された結果の1つである。
論文 参考訳(メタデータ) (2026-01-23T17:21:35Z) - Inference-based GAN Video Generation [47.53991869205973]
可変エンコーダを用いた対向型非条件ビデオジェネレータの実現により,新しいタイプのビデオジェネレータを提案する。
既存のモデルは、生成されたビデオの時間的スケーリングに苦労する。
私たちは、数百から数千のフレームからなる長いビデオを生成するために、新しい、メモリ効率のアプローチを採用しています。
論文 参考訳(メタデータ) (2025-12-25T20:14:38Z) - Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - In Defense of RAG in the Era of Long-Context Language Models [17.397639724806364]
Retrieval-augmented Generation (RAG) は、過去においてコンテキストベースの回答生成の信頼性の高いソリューションである。
近年の研究では、長文LLMは長文アプリケーションにおいてRAGを著しく上回っていることが示されている。
本稿では,長文質問応答アプリケーションにおけるRAGの性能を大幅に向上させる命令保存検索拡張生成(OP-RAG)機構を提案する。
論文 参考訳(メタデータ) (2024-09-03T07:17:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。