Fugu-MT 論文翻訳(概要): HunyuanVideo 1.5 Technical Report

論文の概要: HunyuanVideo 1.5 Technical Report

arxiv url: http://arxiv.org/abs/2511.18870v2
Date: Tue, 25 Nov 2025 02:52:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-26 15:01:35.454453
Title: HunyuanVideo 1.5 Technical Report
Title（参考訳）: HunyuanVideo 1.5 Technical Report
Authors: Bing Wu, Chang Zou, Changlin Li, Duojun Huang, Fang Yang, Hao Tan, Jack Peng, Jianbing Wu, Jiangfeng Xiong, Jie Jiang, Linus, Patrol, Peizhen Zhang, Peng Chen, Penghao Zhao, Qi Tian, Songtao Liu, Weijie Kong, Weiyan Wang, Xiao He, Xin Li, Xinchi Deng, Xuefei Zhe, Yang Li, Yanxin Long, Yuanbo Peng, Yue Wu, Yuhong Liu, Zhenyu Wang, Zuozhuo Dai, Bo Peng, Coopers Li, Gu Gong, Guojian Xiao, Jiahe Tian, Jiaxin Lin, Jie Liu, Jihong Zhang, Jiesong Lian, Kaihang Pan, Lei Wang, Lin Niu, Mingtao Chen, Mingyang Chen, Mingzhe Zheng, Miles Yang, Qiangqiang Hu, Qi Yang, Qiuyong Xiao, Runzhou Wu, Ryan Xu, Rui Yuan, Shanshan Sang, Shisheng Huang, Siruis Gong, Shuo Huang, Weiting Guo, Xiang Yuan, Xiaojia Chen, Xiawei Hu, Wenzhi Sun, Xiele Wu, Xianshun Ren, Xiaoyan Yuan, Xiaoyue Mi, Yepeng Zhang, Yifu Sun, Yiting Lu, Yitong Li, You Huang, Yu Tang, Yixuan Li, Yuhang Deng, Yuan Zhou, Zhichao Hu, Zhiguang Liu, Zhihe Yang, Zilin Yang, Zhenzhi Lu, Zixiang Zhou, Zhao Zhong,
Abstract要約: HunyuanVideo 1.5は軽量だが強力なオープンソースビデオ生成モデルである。最先端のビジュアル品質とモーションコヒーレンスを、わずか830億のパラメータで達成している。すべてのオープンソース資産はhttps://github.com/Tencent-Hunyuan/HunyuanVideo-1.5で公開されている。
参考スコア（独自算出の注目度）: 96.9793191588414
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present HunyuanVideo 1.5, a lightweight yet powerful open-source video generation model that achieves state-of-the-art visual quality and motion coherence with only 8.3 billion parameters, enabling efficient inference on consumer-grade GPUs. This achievement is built upon several key components, including meticulous data curation, an advanced DiT architecture featuring selective and sliding tile attention (SSTA), enhanced bilingual understanding through glyph-aware text encoding, progressive pre-training and post-training, and an efficient video super-resolution network. Leveraging these designs, we developed a unified framework capable of high-quality text-to-video and image-to-video generation across multiple durations and resolutions. Extensive experiments demonstrate that this compact and proficient model establishes a new state-of-the-art among open-source video generation models. By releasing the code and model weights, we provide the community with a high-performance foundation that lowers the barrier to video creation and research, making advanced video generation accessible to a broader audience. All open-source assets are publicly available at https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.
Abstract（参考訳）: HunyuanVideo 1.5は、最先端のビジュアル品質とモーションコヒーレンスをわずか830億のパラメータで実現し、コンシューマグレードのGPU上で効率的な推論を可能にする軽量かつパワフルなオープンソースビデオ生成モデルである。この成果は、巧妙なデータキュレーション、選択的およびスライディングタイルアテンション(SSTA)を備えた高度なDiTアーキテクチャ、グリフ対応テキストエンコーディングによるバイリンガル理解の強化、プログレッシブ事前学習とポストトレーニング、効率的なビデオ超解像ネットワークなど、いくつかの重要なコンポーネントの上に構築されている。これらの設計を活用することで,高画質のテキスト・ツー・ビデオと画像・ツー・ビデオ生成が可能な統一的なフレームワークを複数期間にわたって開発した。大規模な実験は、このコンパクトで熟練したモデルが、オープンソースビデオ生成モデルの中で新しい最先端のモデルを確立することを実証している。コードとモデルの重みを公開することによって、コミュニティに高性能な基盤を提供し、ビデオ作成と研究の障壁を低くし、高度なビデオ生成をより広い聴衆に利用できるようにする。すべてのオープンソース資産はhttps://github.com/Tencent-Hunyuan/HunyuanVideo-1.5で公開されている。

論文の概要: HunyuanVideo 1.5 Technical Report

関連論文リスト