論文の概要: LongCat-Video Technical Report
- arxiv url: http://arxiv.org/abs/2510.22200v2
- Date: Tue, 28 Oct 2025 14:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.888393
- Title: LongCat-Video Technical Report
- Title(参考訳): LongCat-Video Technical Report
- Authors: Meituan LongCat Team, Xunliang Cai, Qilong Huang, Zhuoliang Kang, Hongyu Li, Shijun Liang, Liya Ma, Siyu Ren, Xiaoming Wei, Rixu Xie, Tong Zhang,
- Abstract要約: LongCat-Videoは13.6Bパラメータを持つ基礎的なビデオ生成モデルである。
Text-to-Video, Image-to-Video, Video-Continuationタスクをひとつのモデルでサポートする。
LongCat-Videoは、720p、30fpsのビデオを数分で生成する。
- 参考スコア(独自算出の注目度): 40.35352541782164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation is a critical pathway toward world models, with efficient long video inference as a key capability. Toward this end, we introduce LongCat-Video, a foundational video generation model with 13.6B parameters, delivering strong performance across multiple video generation tasks. It particularly excels in efficient and high-quality long video generation, representing our first step toward world models. Key features include: Unified architecture for multiple tasks: Built on the Diffusion Transformer (DiT) framework, LongCat-Video supports Text-to-Video, Image-to-Video, and Video-Continuation tasks with a single model; Long video generation: Pretraining on Video-Continuation tasks enables LongCat-Video to maintain high quality and temporal coherence in the generation of minutes-long videos; Efficient inference: LongCat-Video generates 720p, 30fps videos within minutes by employing a coarse-to-fine generation strategy along both the temporal and spatial axes. Block Sparse Attention further enhances efficiency, particularly at high resolutions; Strong performance with multi-reward RLHF: Multi-reward RLHF training enables LongCat-Video to achieve performance on par with the latest closed-source and leading open-source models. Code and model weights are publicly available to accelerate progress in the field.
- Abstract(参考訳): ビデオ生成は世界モデルにとって重要な経路であり、効率的なロングビデオ推論が鍵となる。
この目的のために、13.6Bパラメータを持つ基礎的なビデオ生成モデルであるLongCat-Videoを導入し、複数のビデオ生成タスクに強いパフォーマンスを提供する。
それは特に、効率的で高品質なビデオ生成に優れており、世界モデルに向けた最初のステップを表している。
複数のタスクのための統一アーキテクチャ: Diffusion Transformer (DiT)フレームワーク上に構築されたLongCat-Videoは、単一のモデルでText-to-Video, Image-to-Video, Video-Continuationタスクをサポートする。
マルチリワードRLHFトレーニングにより、LongCat-Videoは最新のクローズドソースおよび主要なオープンソースモデルと同等のパフォーマンスを達成できます。
コードとモデルの重み付けは、フィールドの進歩を加速するために公開されています。
関連論文リスト
- HunyuanVideo 1.5 Technical Report [96.9793191588414]
HunyuanVideo 1.5は軽量だが強力なオープンソースビデオ生成モデルである。
最先端のビジュアル品質とモーションコヒーレンスを、わずか830億のパラメータで達成している。
すべてのオープンソース資産はhttps://github.com/Tencent-Hunyuan/HunyuanVideo-1.5で公開されている。
論文 参考訳(メタデータ) (2025-11-24T08:22:07Z) - LongLive: Real-time Interactive Long Video Generation [68.45945318075432]
LongLiveはリアルタイムおよびインタラクティブなロングビデオ生成のためのフレームレベルの自動回帰フレームワークである。
LongLiveは1つのNVIDIA H100上で20.7 FPSを持続し、短いビデオと長いビデオの両方でVBenchで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-26T17:48:24Z) - Scaling RL to Long Videos [115.96341152407008]
LongVILA-R1-7Bはビデオベンチマークで高いパフォーマンスを達成し、ビデオMMEではそれぞれ65.1%と71.1%の精度を達成した。
LongVILA-R1-7Bは最大8,192フレームのビデオフレームとFPS設定をサポートする。
各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
論文 参考訳(メタデータ) (2025-07-10T17:47:40Z) - LongDiff: Training-Free Long Video Generation in One Go [27.38597403230757]
LongDiff は位置マッピング (PM) と Informative Frame Selection (IFS) で構成されるトレーニング不要の手法である。
提案手法は,時間的位置の曖昧さと情報の希薄化という,映像生成の短期的一般化を妨げる2つの重要な課題に対処する。
提案手法は,市販ビデオ拡散モデルの可能性を解き明かし,高品質な長編ビデオ生成を実現する。
論文 参考訳(メタデータ) (2025-03-23T17:34:57Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - LVD-2M: A Long-take Video Dataset with Temporally Dense Captions [68.88624389174026]
高品質なロングテイクビデオを選択し、時間的に密度の高いキャプションを生成するためのパイプラインを新たに導入する。
具体的には、シーンカット、ダイナミック度、セマンティックレベルの品質を含む映像品質を定量的に評価する指標のセットを定義する。
LVD-2Mは,200万本のビデオからなり,それぞれ10秒以上をカバーし,時間的に密度の高いキャプションを付加する。
論文 参考訳(メタデータ) (2024-10-14T17:59:56Z) - Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input [34.50993235961505]
Kangarooは、長いビデオを処理するという課題に対処するための強力なビデオLMMである。
データキュレーションシステムは、視覚言語による事前学習と命令チューニングのための高品質なアノテーションを備えた大規模データセットを構築する。
長いビデオに対応するための解像度と入力フレームの数を徐々に増やしたカリキュラムトレーニングパイプライン。
論文 参考訳(メタデータ) (2024-08-28T05:34:14Z) - FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。
短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。
そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T11:52:07Z) - ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning [36.378348127629195]
ビデオ合成モデルのための新しいポストチューニング手法であるExVideoを提案する。
このアプローチは、現在のビデオ合成モデルの能力を向上し、時間的長期にわたってコンテンツを制作できるように設計されている。
当社のアプローチでは、40Kビデオからなるデータセット上でのトレーニングに15kのGPU時間しか必要とせず、オリジナルのフレーム数に対して最大5倍の価格で生成可能なモデル容量を拡大しています。
論文 参考訳(メタデータ) (2024-06-20T09:18:54Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。