論文の概要: LongCat-Image Technical Report
- arxiv url: http://arxiv.org/abs/2512.07584v1
- Date: Mon, 08 Dec 2025 14:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.921597
- Title: LongCat-Image Technical Report
- Title(参考訳): LongCat画像技術報告
- Authors: Meituan LongCat Team, Hanghang Ma, Haoxian Tan, Jiale Huang, Junqiang Wu, Jun-Yan He, Lishuai Gao, Songlin Xiao, Xiaoming Wei, Xiaoqi Ma, Xunliang Cai, Yayong Guan, Jie Hu,
- Abstract要約: LongCat-Imageは、画像生成のためのオープンソースのバイリンガル(中国語と英語)基盤モデルである。
多言語テキストレンダリング、フォトリアリズム、デプロイメント効率、開発者のアクセシビリティといった課題に対処する。
とくに、漢字の描画のための新しい業界標準を定めている。
- 参考スコア(独自算出の注目度): 30.31446451177106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering capabilities and remarkable photorealism, and significantly enhancing aesthetic quality. 2) Notably, it sets a new industry standard for Chinese character rendering. By supporting even complex and rare characters, it outperforms both major open-source and commercial solutions in coverage, while also achieving superior accuracy. 3) The model achieves remarkable efficiency through its compact design. With a core diffusion model of only 6B parameters, it is significantly smaller than the nearly 20B or larger Mixture-of-Experts (MoE) architectures common in the field. This ensures minimal VRAM usage and rapid inference, significantly reducing deployment costs. Beyond generation, LongCat-Image also excels in image editing, achieving SOTA results on standard benchmarks with superior editing consistency compared to other open-source works. 4) To fully empower the community, we have established the most comprehensive open-source ecosystem to date. We are releasing not only multiple model versions for text-to-image and image editing, including checkpoints after mid-training and post-training stages, but also the entire toolchain of training procedure. We believe that the openness of LongCat-Image will provide robust support for developers and researchers, pushing the frontiers of visual content creation.
- Abstract(参考訳): 我々は,多言語テキストレンダリング,フォトリアリズム,デプロイメント効率,開発者のアクセシビリティといった課題に対処するために設計された,画像生成のためのオープンソースおよびバイリンガル(中国語)基盤モデルであるLongCat-Imageを紹介する。
1) 事前学習, 中間訓練, SFT 段階にわたる厳密なデータキュレーション戦略によりこれを達成し, RL 段階におけるキュレートされた報酬モデルの協調的利用を補完する。
この戦略は、このモデルを新しい最先端(SOTA)として確立し、優れたテキストレンダリング機能と優れたフォトリアリズムを提供し、美的品質を大幅に向上させる。
特に、漢字の描画のための新しい業界標準を定めている。
さらに複雑で稀な文字をサポートすることで、主要なオープンソースソリューションと商用ソリューションの両方をカバーし、精度も優れています。
3) モデルは, コンパクトな設計により, 顕著な効率性を実現する。
6Bパラメータのみのコア拡散モデルでは、フィールドに共通する20B以上のMixture-of-Experts (MoE)アーキテクチャよりも大幅に小さい。
これにより、最小限のVRAM使用量と迅速な推論が可能になり、デプロイメントコストを大幅に削減できる。
生成以外にも、LongCat-Imageは画像編集にも優れており、他のオープンソース作品と比較して編集一貫性の優れた標準ベンチマークでSOTA結果を達成することができる。
4)コミュニティを完全に強化するために,これまでで最も包括的なオープンソースエコシステムを確立しました。
テキスト・トゥ・イメージと画像編集のためのモデルバージョンを複数リリースしているだけでなく、トレーニング中段階やトレーニング後段階のチェックポイントや、トレーニング手順のツールチェーン全体もリリースしています。
LongCat-Imageのオープン性は、開発者と研究者に堅牢なサポートを提供し、ビジュアルコンテンツ作成のフロンティアを推進してくれると信じています。
関連論文リスト
- Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer [38.99742258165009]
Z-Imageは、"スケール・アット・オール・コスト"パラダイムに挑戦する効率的な基礎生成モデルである。
我々のモデルは、様々な分野において主要な競合相手に匹敵する、またはそれを上回るパフォーマンスを達成する。
当社のコード、ウェイト、オンラインデモを公開し、予算に優しい、最先端のジェネレーティブモデルの開発を奨励しています。
論文 参考訳(メタデータ) (2025-11-27T18:52:07Z) - Policy Optimized Text-to-Image Pipeline Design [73.9633527029941]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image
Diffusion Models [6.821399706256863]
W"urstchen"は、競争性能と前例のない費用対効果を組み合わせたテキスト対画像合成の新しいアーキテクチャである。
我々の研究の重要な貢献は、詳細だが非常にコンパクトなセマンティックイメージ表現を学習する潜伏拡散技術を開発することである。
論文 参考訳(メタデータ) (2023-06-01T13:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。