Fugu-MT 論文翻訳(概要): Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

論文の概要: Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

arxiv url: http://arxiv.org/abs/2511.14993v1
Date: Wed, 19 Nov 2025 00:23:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-20 15:51:28.571591
Title: Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
Title（参考訳）: Kandinsky 5.0:画像とビデオ生成の基礎モデルファミリー
Authors: Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, Denis Parkhomenko, Viacheslav Vasilev, Alexey Letunovskiy, Maria Kovaleva, Nikolai Vaulin, Ivan Kirillov, Lev Novitskiy, Denis Koposov, Nikita Kiselev, Alexander Varlamov, Dmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva, Anna Dmitrienko, Anastasia Maltseva, Anna Averchenkova, Olga Kim, Tatiana Nikulina, Denis Dimitrov,
Abstract要約: Kandinsky 5.0は、高解像度画像と10秒のビデオ合成のための最先端の基礎モデルのファミリーである。フレームワークは、Kandinsky 5.0 Image Lite、Kandinsky 5.0 Video Lite、Kandinsky 5.0 Video Proの3つのコアラインアップで構成されている。
参考スコア（独自算出の注目度）: 26.79165800182071
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This report introduces Kandinsky 5.0, a family of state-of-the-art foundation models for high-resolution image and 10-second video synthesis. The framework comprises three core line-up of models: Kandinsky 5.0 Image Lite - a line-up of 6B parameter image generation models, Kandinsky 5.0 Video Lite - a fast and lightweight 2B parameter text-to-video and image-to-video models, and Kandinsky 5.0 Video Pro - 19B parameter models that achieves superior video generation quality. We provide a comprehensive review of the data curation lifecycle - including collection, processing, filtering and clustering - for the multi-stage training pipeline that involves extensive pre-training and incorporates quality-enhancement techniques such as self-supervised fine-tuning (SFT) and reinforcement learning (RL)-based post-training. We also present novel architectural, training, and inference optimizations that enable Kandinsky 5.0 to achieve high generation speeds and state-of-the-art performance across various tasks, as demonstrated by human evaluation. As a large-scale, publicly available generative framework, Kandinsky 5.0 leverages the full potential of its pre-training and subsequent stages to be adapted for a wide range of generative applications. We hope that this report, together with the release of our open-source code and training checkpoints, will substantially advance the development and accessibility of high-quality generative models for the research community.
Abstract（参考訳）: 本稿では,高解像度画像と10秒ビデオ合成のための最先端基礎モデルであるKandinsky 5.0を紹介する。 Kandinsky 5.0 Image Lite - 6Bパラメータ画像生成モデルのラインアップ Kandinsky 5.0 Video Lite - 高速で軽量な2Bパラメータテキスト・ビデオモデルと画像・ビデオモデル Kandinsky 5.0 Video Pro - 優れたビデオ生成品質を実現する19Bパラメータモデルである。収集,処理,フィルタリング,クラスタリングなど,データキュレーションのライフサイクルを包括的にレビューし,事前学習を広範囲に行うとともに,自己教師付きファインチューニング(SFT)や強化学習(RL)ベースのポストトレーニングといった品質向上技術を取り入れたマルチステージトレーニングパイプラインについて紹介する。また、人的評価によって示されるように、新しいアーキテクチャ、トレーニング、推論の最適化により、カンディンスキー5.0は、様々なタスクにおけるハイジェネレーションスピードと最先端のパフォーマンスを達成することができる。大規模で一般公開された生成フレームワークとして、カンディンスキー5.0はその事前学習とその後の段階の完全なポテンシャルを利用して、幅広い生成的応用に適応している。このレポートは、オープンソースコードのリリースとトレーニングチェックポイントとともに、研究コミュニティ向けの高品質な生成モデルの開発とアクセシビリティを大幅に向上させることを願っています。

関連論文リスト

HunyuanVideo 1.5 Technical Report [96.9793191588414]
HunyuanVideo 1.5は軽量だが強力なオープンソースビデオ生成モデルである。最先端のビジュアル品質とモーションコヒーレンスを、わずか830億のパラメータで達成している。すべてのオープンソース資産はhttps://github.com/Tencent-Hunyuan/HunyuanVideo-1.5で公開されている。
論文参考訳（メタデータ） (2025-11-24T08:22:07Z)
Waver: Wave Your Way to Lifelike Video Generation [35.927955667967204]
Waverは、統合画像およびビデオ生成のための高性能基盤モデルである。同時に、単一の統合フレームワーク内で、テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、テキスト・トゥ・イメージ(T2I)生成をサポートする。ウェーバーは複雑な動きを捉え、ビデオ合成において優れた動き振幅と時間的一貫性を達成する。
論文参考訳（メタデータ） (2025-08-21T17:56:10Z)
Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。 Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文参考訳（メタデータ） (2025-06-10T17:56:11Z)
ContentV: Efficient Training of Video Generation Models with Limited Compute [16.722018026516867]
ContentVはテキスト・ツー・ビデオのモデルであり、テキスト・プロンプトから複数の解像度と期間にわたる多様な高品質のビデオを生成する。 256 x 64GBのニューラルプロセッシングユニット(NPU)を4週間訓練した後、最先端のパフォーマンス(VBenchでは85.14)を達成した。
論文参考訳（メタデータ） (2025-06-05T17:59:54Z)
STIV: Scalable Text and Image Conditioned Video Generation [82.6516473906985]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。 STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文参考訳（メタデータ） (2024-12-10T18:27:06Z)
Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文参考訳（メタデータ） (2024-10-17T16:22:46Z)
Kandinsky 3.0 Technical Report [4.146868353199492]
本稿では,遅延拡散に基づく大規模テキスト・画像生成モデルであるKandinsky 3.0を提案する。本稿では,モデルのアーキテクチャ,データ収集手順,トレーニング手法,ユーザインタラクションのための生産システムについて述べる。また、スーパー解像度、塗装、画像編集、画像から映像への生成など、我々のモデルの拡張や応用についても述べる。
論文参考訳（メタデータ） (2023-12-06T14:13:38Z)
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文参考訳（メタデータ） (2023-10-05T12:29:41Z)
VindLU: A Recipe for Effective Video-and-Language Pretraining [83.49216853881595]
本稿では,VidLモデル設計において最も重要な要素を解明する実証的研究を行う。これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。提案手法を用いてトレーニングしたモデルは,VidLタスクにおける最先端結果と同等かそれ以上の精度で達成できる。
論文参考訳（メタデータ） (2022-12-09T18:54:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。