論文の概要: LongCat-Video-Avatar 1.5 Technical Report
- arxiv url: http://arxiv.org/abs/2605.26486v1
- Date: Tue, 26 May 2026 02:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.592736
- Title: LongCat-Video-Avatar 1.5 Technical Report
- Title(参考訳): LongCat-Video-Avatar 1.5 Technical Report
- Authors: Meituan LongCat Team, Xunliang Cai, Meng Cheng, Feng Gao, Zhe Kong, Jiamu Li, Le Li, Weiheng Li, Hongyu Liu, Shuai Tan, Xiaoming Wei, Tianyu Yang, Yong Zhang,
- Abstract要約: LongCat-Video-Avatar 1.5は、システマティックエンジニアリングとプロダクションレディを優先する、アップグレードされたオープンソースフレームワークである。
v1.5は、正確なリップ同期、フルボディの時間安定性、厳密なアイデンティティ整合性を持った堅牢な長ビデオ生成を実現する。
- 参考スコア(独自算出の注目度): 39.46508887787761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in audio-driven video generation, achieving commercial-grade stability remains challenging. We present LongCat-Video-Avatar 1.5, an upgraded open-source framework prioritizing systematic engineering and production-readiness over architectural novelty. By upgrading the audio encoder to Whisper Large and meticulously scaling our training recipes, v1.5 achieves accurate lip-synchronization, full-body temporal stability, and robust long-video generation with strict identity consistency. Through rigorous data curation and RLHF Training, the model readily generalizes to stylized domains such as anime and animals, and natively handles complex real-world conditions, such as multi-person interactions and object handling. Furthermore, addressing the practical demands of industrial deployment, we employ advanced step distillation to accelerate inference to an optimal 8 NFE, achieving a favorable trade-off between serving efficiency and visual fidelity. The superiority of our approach is validated through extensive quantitative metrics and a rigorous human evaluation conducted on a comprehensive benchmark of over 500 diverse test cases. Results show that v1.5 achieves competitive or superior performance compared to leading closed-source systems (e.g., HeyGen, OmniHuman 1.5, Kling Avatar 2.0) across human-likeness ratings and expert-level quality assessments on our benchmark. With its open-source release, LongCat-Video-Avatar 1.5 narrows the gap between academic research prototypes and commercial-grade deployment.
- Abstract(参考訳): 音声によるビデオ生成の進歩にもかかわらず、商業レベルの安定性を達成することは依然として困難である。
アーキテクチャのノベルティよりもシステマティックなエンジニアリングとプロダクションの可読性を優先したオープンソースのフレームワークであるLongCat-Video-Avatar 1.5を紹介する。
オーディオエンコーダをWhisper Largeにアップグレードし、トレーニングレシピを慎重にスケールアップすることで、v1.5は正確なリップ同期、フルボディの時間安定性、厳密なアイデンティティ一貫性を備えた堅牢な長ビデオ生成を実現します。
厳密なデータキュレーションとRLHFトレーニングを通じて、このモデルはアニメや動物のようなスタイル化されたドメインに容易に一般化し、マルチパーソンインタラクションやオブジェクトハンドリングといった複雑な現実世界の条件をネイティブに扱う。
さらに, 産業展開の実際的な要求に応えるため, 最適8 NFEへの推算を加速するために高度段階蒸留を採用し, サービス効率と視力とのトレードオフを良好に達成した。
提案手法の優位性は,500以上の多種多様なテストケースの総合的なベンチマークで実施した,広範囲な定量的評価と厳密な人的評価によって検証される。
その結果、v1.5は、主要なクローズドソースシステム(例えば、HeyGen、OmniHuman 1.5、Kling Avatar 2.0)と比較して、人間に近い評価と専門家レベルの品質評価をベンチマークで比較すると、競争力や優れたパフォーマンスを実現していることがわかった。
オープンソースリリースにより、LongCat-Video-Avatar 1.5は、学術研究のプロトタイプと商用レベルのデプロイメントのギャップを狭める。
関連論文リスト
- LESA: Learnable Stage-Aware Predictors for Diffusion Model Acceleration [12.183601881545039]
拡散モデルは画像およびビデオ生成タスクにおいて顕著な成功を収めた。
しかし、拡散変換器の高い計算要求は、実際の展開に重大な課題をもたらす。
2段階トレーニングに基づくLESA(LEarnable Stage-Aware)予測フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-24T02:53:28Z) - Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model [163.56671779593736]
Seedance 1.5 Proは、ネイティブのジョイントオーディオビデオ生成用に特別に設計された基礎モデルである。
Seedance 1.5 Proは、正確な多言語と方言のリップシンク、ダイナミックシネマカメラコントロール、物語のコヒーレンスの向上を通じて、自分自身を区別する。
論文 参考訳(メタデータ) (2025-12-15T16:36:52Z) - Kwai Keye-VL 1.5 Technical Report [91.07838286692815]
本稿では、ビデオ理解における根本的な課題を3つの重要なイノベーションを通じて解決するKeye-VL-1.5を紹介する。
まず,フレーム間の類似性に基づいて動的に計算資源を割り当てるSlow-Fastビデオ符号化方式を提案する。
次に,モデルのコンテキスト長を8Kから128Kまで体系的に拡張する4段階事前学習手法を提案する。
第3に、推論の強化と人間の嗜好の整合性に焦点を当てた総合的な後学習パイプラインを開発する。
論文 参考訳(メタデータ) (2025-09-01T15:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。