論文の概要: HunyuanImage 3.0 Technical Report
- arxiv url: http://arxiv.org/abs/2509.23951v1
- Date: Sun, 28 Sep 2025 16:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.550568
- Title: HunyuanImage 3.0 Technical Report
- Title(参考訳): Hunyuan Image 3.0テクニカルレポート
- Authors: Siyu Cao, Hangting Chen, Peng Chen, Yiji Cheng, Yutao Cui, Xinchi Deng, Ying Dong, Kipper Gong, Tianpeng Gu, Xiusen Gu, Tiankai Hang, Duojun Huang, Jie Jiang, Zhengkai Jiang, Weijie Kong, Changlin Li, Donghao Li, Junzhe Li, Xin Li, Yang Li, Zhenxi Li, Zhimin Li, Jiaxin Lin, Linus, Lucaz Liu, Shu Liu, Songtao Liu, Yu Liu, Yuhong Liu, Yanxin Long, Fanbin Lu, Qinglin Lu, Yuyang Peng, Yuanbo Peng, Xiangwei Shen, Yixuan Shi, Jiale Tao, Yangyu Tao, Qi Tian, Pengfei Wan, Chunyu Wang, Kai Wang, Lei Wang, Linqing Wang, Lucas Wang, Qixun Wang, Weiyan Wang, Hao Wen, Bing Wu, Jianbing Wu, Yue Wu, Senhao Xie, Fang Yang, Miles Yang, Xiaofeng Yang, Xuan Yang, Zhantao Yang, Jingmiao Yu, Zheng Yuan, Chao Zhang, Jian-Wei Zhang, Peizhen Zhang, Shi-Xue Zhang, Tao Zhang, Weigang Zhang, Yepeng Zhang, Yingfang Zhang, Zihao Zhang, Zijian Zhang, Penghao Zhao, Zhiyuan Zhao, Xuefei Zhe, Jianchen Zhu, Zhao Zhong,
- Abstract要約: HunyuanImage 3.0は、自動回帰フレームワーク内でのマルチモーダル理解と生成を統合する、ネイティブなマルチモーダルモデルである。
HunyuanImage 3.0は、これまでで最大かつ最も強力なオープンソース画像生成モデルである。
- 参考スコア(独自算出の注目度): 108.37590035377143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present HunyuanImage 3.0, a native multimodal model that unifies multimodal understanding and generation within an autoregressive framework, with its image generation module publicly available. The achievement of HunyuanImage 3.0 relies on several key components, including meticulous data curation, advanced architecture design, a native Chain-of-Thoughts schema, progressive model pre-training, aggressive model post-training, and an efficient infrastructure that enables large-scale training and inference. With these advancements, we successfully trained a Mixture-of-Experts (MoE) model comprising over 80 billion parameters in total, with 13 billion parameters activated per token during inference, making it the largest and most powerful open-source image generative model to date. We conducted extensive experiments and the results of automatic and human evaluation of text-image alignment and visual quality demonstrate that HunyuanImage 3.0 rivals previous state-of-the-art models. By releasing the code and weights of HunyuanImage 3.0, we aim to enable the community to explore new ideas with a state-of-the-art foundation model, fostering a dynamic and vibrant multimodal ecosystem. All open source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
- Abstract(参考訳): 自動回帰フレームワーク内でのマルチモーダル理解と生成を統一するネイティブマルチモーダルモデルであるHunyuanImage 3.0について,画像生成モジュールを公開して紹介する。
HunyuanImage 3.0の成果は、厳密なデータキュレーション、高度なアーキテクチャ設計、ネイティブのChain-of-Thoughtsスキーマ、プログレッシブモデル事前トレーニング、アグレッシブモデルポストトレーニング、大規模トレーニングと推論を可能にする効率的なインフラストラクチャなど、いくつかの重要なコンポーネントに依存している。
これらの進歩により、800億以上のパラメータからなるMixture-of-Experts(MoE)モデルのトレーニングに成功した。
我々は,Hunyuan Image 3.0が過去の最先端モデルと競合することを示すために,テキスト・画像アライメントと視覚的品質の自動評価を行った。
HunyuanImage 3.0のコードと重みを公開することによって、コミュニティが最先端の基盤モデルで新しいアイデアを探求し、動的で活気のあるマルチモーダルエコシステムを育むことを目指しています。
すべてのオープンソース資産はhttps://github.com/Tencent-Hunyuan/Hunyuan Image-3.0で公開されている。
関連論文リスト
- HunyuanVideo: A Systematic Framework For Large Video Generative Models [82.4392082688739]
HunyuanVideoは、革新的なオープンソースのビデオファンデーションモデルだ。
データキュレーション、高度なアーキテクチャ設計、プログレッシブモデルスケーリング、トレーニングが組み込まれている。
その結果,13億以上のパラメータを持つビデオ生成モデルの訓練に成功した。
論文 参考訳(メタデータ) (2024-12-03T23:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。