論文の概要: LongCat-Video Technical Report
- arxiv url: http://arxiv.org/abs/2510.22200v2
- Date: Tue, 28 Oct 2025 14:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.888393
- Title: LongCat-Video Technical Report
- Title(参考訳): LongCat-Video Technical Report
- Authors: Meituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang,
- Abstract要約: LongCat-Videoは13.6Bパラメータを持つ基礎的なビデオ生成モデルである。
Text-to-Video, Image-to-Video, Video-Continuationタスクをひとつのモデルでサポートする。
LongCat-Videoは、720p、30fpsのビデオを数分で生成する。
- 参考スコア(独自算出の注目度): 40.35352541782164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation is a critical pathway toward world models, with efficient long video inference as a key capability. Toward this end, we introduce LongCat-Video, a foundational video generation model with 13.6B parameters, delivering strong performance across multiple video generation tasks. It particularly excels in efficient and high-quality long video generation, representing our first step toward world models. Key features include: Unified architecture for multiple tasks: Built on the Diffusion Transformer (DiT) framework, LongCat-Video supports Text-to-Video, Image-to-Video, and Video-Continuation tasks with a single model; Long video generation: Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high quality and temporal coherence in the generation of minutes-long videos; Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes by employing a coarse-to-fine generation strategy along both the temporal and spatial axes. Block Sparse Attention further enhances efficiency, particularly at high resolutions; Strong performance with multi-reward RLHF: Multi-reward RLHF training enables LongCat-Video to achieve performance on par with the latest closed-source and leading open-source models. Code and model weights are publicly available to accelerate progress in the field.
- Abstract(参考訳): ビデオ生成は世界モデルにとって重要な経路であり、効率的なロングビデオ推論が鍵となる。
この目的のために、13.6Bパラメータを持つ基礎的なビデオ生成モデルであるLongCat-Videoを導入し、複数のビデオ生成タスクに強いパフォーマンスを提供する。
それは特に、効率的で高品質なビデオ生成に優れており、世界モデルに向けた最初のステップを表している。
複数のタスクのための統一アーキテクチャ: Diffusion Transformer (DiT)フレームワーク上に構築されたLongCat-Videoは、単一のモデルでText-to-Video, Image-to-Video, Video-Continuationタスクをサポートする。
マルチリワードRLHFトレーニングにより、LongCat-Videoは最新のクローズドソースおよび主要なオープンソースモデルと同等のパフォーマンスを達成できます。
コードとモデルの重み付けは、フィールドの進歩を加速するために公開されています。
関連論文リスト
- LongLive: Real-time Interactive Long Video Generation [68.45945318075432]
LongLiveはリアルタイムおよびインタラクティブなロングビデオ生成のためのフレームレベルの自動回帰フレームワークである。
LongLiveは1つのNVIDIA H100上で20.7 FPSを持続し、短いビデオと長いビデオの両方でVBenchで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-26T17:48:24Z) - Scaling RL to Long Videos [115.96341152407008]
LongVILA-R1-7Bはビデオベンチマークで高いパフォーマンスを達成し、ビデオMMEではそれぞれ65.1%と71.1%の精度を達成した。
LongVILA-R1-7Bは最大8,192フレームのビデオフレームとFPS設定をサポートする。
各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
論文 参考訳(メタデータ) (2025-07-10T17:47:40Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - LVD-2M: A Long-take Video Dataset with Temporally Dense Captions [68.88624389174026]
高品質なロングテイクビデオを選択し、時間的に密度の高いキャプションを生成するためのパイプラインを新たに導入する。
具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質を含む映像品質を定量的に評価する指標のセットを定義する。
LVD-2Mは,200万本のビデオからなり,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
論文 参考訳(メタデータ) (2024-10-14T17:59:56Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。