論文の概要: LongCat-Flash-Omni Technical Report
- arxiv url: http://arxiv.org/abs/2511.00279v1
- Date: Fri, 31 Oct 2025 21:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.708071
- Title: LongCat-Flash-Omni Technical Report
- Title(参考訳): LongCat-Flash-Omni技術報告
- Authors: Meituan LongCat Team, Bairui Wang, Bayan, Bin Xiao, Bo Zhang, Bolin Rong, Borun Chen, Chang Wan, Chao Zhang, Chen Huang, Chen Chen, Chen Chen, Chengxu Yang, Chengzuo Yang, Cong Han, Dandan Peng, Delian Ruan, Detai Xin, Disong Wang, Dongchao Yang, Fanfan Liu, Fengjiao Chen, Fengyu Yang, Gan Dong, Gang Huang, Gang Xu, Guanglu Wan, Guoqiang Tan, Guoqiao Yu, Haibo Qiu, Hao Lu, Hongbo Liu, Hongyu Xiang, Jiaheng Wu, Jian Yang, Jiaxing Liu, Jing Huang, Jingang Wang, Jinrui Ding, Juchao Jiang, Jun Kuang, Jun Wang, Junhui Mei, Ke Ding, Kefeng Zhang, Lei Chen, Liang Shi, Limeng Qiao, Liming Zheng, Lin Ma, Liuyang Guo, Liya Ma, Luying Sun, Man Gao, Mengshen Zhu, Miao Cao, Minliang Lin, Nuo Xu, Peng Shi, Qi Zhang, Qian Fang, Qian Wang, Qian Yang, Quanxiu Wang, Rongxiang Weng, Rongxin Guo, Ruoxuan Liang, Senbin Yang, Shanbo Xu, Shanglin Lei, Shengze Ye, Shimin Chen, Shuaiqi Chen, Shujie Hu, Shuo Li, Siqi Yang, Siyu Xu, Siyu Ren, Song Li, Songxiang Liu, Tianhao Bai, Tianye Dai, Wei Hong, Wei Wang, Weixiao Zhao, Wengang Cao, Wenlong Zhu, Wenlong He, Xi Su, Xi Nan, Xiaohan Zhao, Xiaohao Wang, Xiaoyu Zhao, Xiaoyu Wang, Xiaoyu Li, Xin Pan, Xin Chen, Xiusong Sun, Xu Xiang, Xudong Xing, Xuezhi Cao, Xunliang Cai, Yang Yang, Yanli Tan, Yao Yao, Yerui Sun, Yi Chen, Yifan Lu, Yin Gong, Yining Zhang, Yitian Chen, Yiyang Gan, Yuchen Tang, Yuchen Xie, Yueqian Wang, Yuewen Zheng, Yufei Zhang, Yufeng Zhong, Yulei Qian, Yuqi Peng, Yuwei Jiang, Zeyang Hu, Zheng Zhang, Zhengkun Tian, Zhiqing Hong, Zhixiong Zeng, Zhuqi Mi, Ziran Li, Ziwen Wang, Ziyi Zhao, Ziyuan Zhuang, Zizhe Zhao,
- Abstract要約: LongCat-Flash-Omniは5600億のパラメータを持つオープンソースのOmni-modalモデルである。
LongCat-Flash-Omniは強力なunimodal機能を維持しながら、包括的なマルチモーダル機能を実現する。
低レイテンシのリアルタイムオーディオ・ビジュアルインタラクションを実現する。
- 参考スコア(独自算出の注目度): 131.47284063481922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LongCat-Flash-Omni, a state-of-the-art open-source omni-modal model with 560 billion parameters, excelling at real-time audio-visual interaction. By adopting a curriculum-inspired progressive training strategy that transitions from simpler to increasingly complex modality sequence modeling tasks, LongCat-Flash-Omni attains comprehensive multimodal capabilities while maintaining strong unimodal capability. Building upon LongCat-Flash, which adopts a high-performance Shortcut-connected Mixture-of-Experts (MoE) architecture with zero-computation experts, LongCat-Flash-Omni integrates efficient multimodal perception and speech reconstruction modules. Despite its immense size of 560B parameters (with 27B activated), LongCat-Flash-Omni achieves low-latency real-time audio-visual interaction. For training infrastructure, we developed a modality-decoupled parallelism scheme specifically designed to manage the data and model heterogeneity inherent in large-scale multimodal training. This innovative approach demonstrates exceptional efficiency by sustaining over 90% of the throughput achieved by text-only training. Extensive evaluations show that LongCat-Flash-Omni achieves state-of-the-art performance on omni-modal benchmarks among open-source models. Furthermore, it delivers highly competitive results across a wide range of modality-specific tasks, including text, image, and video understanding, as well as audio understanding and generation. We provide a comprehensive overview of the model architecture design, training procedures, and data strategies, and open-source the model to foster future research and development in the community.
- Abstract(参考訳): 5600億のパラメータを持つ最先端のオープンソースオムニモーダルモデルであるLongCat-Flash-Omniを導入する。
LongCat-Flash-Omniは、カリキュラムにインスパイアされたプログレッシブなトレーニング戦略を採用し、より単純なモダリティシーケンスモデリングタスクからより複雑なモダリティシーケンスモデリングタスクへ移行することで、強力なユニモーダル能力を維持しながら、包括的なマルチモーダル機能を実現する。
LongCat-Flashは、ゼロ計算の専門家による高性能なショートカット接続型Mixture-of-Experts (MoE)アーキテクチャを採用しており、LongCat-Flash-Omniは効率的なマルチモーダル認識と音声再構成モジュールを統合している。
巨大な560Bのパラメータ(27Bがアクティブ)にもかかわらず、LongCat-Flash-Omniは低レイテンシのリアルタイムオーディオ-ビジュアルインタラクションを実現している。
本研究では,大規模マルチモーダルトレーニングにおけるデータ管理と不均一性をモデル化することを目的とした,モーダリティ分離並列化手法を開発した。
この革新的なアプローチは、テキストのみのトレーニングによって達成されたスループットの90%以上を維持することで、例外的な効率を示す。
大規模な評価では、LongCat-Flash-Omniはオープンソースモデル間のOmni-modalベンチマークで最先端のパフォーマンスを達成している。
さらに、テキスト、画像、ビデオの理解、および音声の理解と生成など、幅広いモダリティ固有のタスクに対して高い競争力を発揮する。
我々は、モデルアーキテクチャ設計、トレーニング手順、およびデータ戦略の概要を概観し、コミュニティにおける将来の研究開発を促進するために、モデルをオープンソース化する。
関連論文リスト
- LongCat-Flash-Thinking Technical Report [116.75498493511026]
LongCat-Flash-ThinkingはオープンソースのMixture-of-Experts (MoE)推論モデルである。
高度な能力は、巧妙に製作された訓練プロセスを通じて育成される。
LongCat-Flash-Thinkingは、複雑な推論タスクのスイート上で、オープンソースモデル間の最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T10:25:48Z) - LongCat-Flash Technical Report [165.64670448930875]
LongCat-Flashは、560ビリオンパラメータのMixture-of-Experts (MoE)言語モデルである。
計算効率と高度なエージェント能力の両方のために設計されている。
30日以内に20兆トークン以上のモデルトレーニングを完了し、100トークン/秒 (TPS) 以上の推論を0.70パーセントのアウトプットトークンで達成しました。
論文 参考訳(メタデータ) (2025-09-01T10:05:45Z) - VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo [25.89459841661218]
Ve Omni - 大規模言語モデル(LLM)のトレーニングフレームワーク。
Ve Omni氏は、計算からコミュニケーションを分離するモデル中心の分散レシピを紹介した。
Ve Omniは2,800トークン/秒/GPUスループットでトレーニングでき、128GPU上の3D並列処理によって160Kのコンテキスト長にスケールすることができる。
論文 参考訳(メタデータ) (2025-08-04T11:33:04Z) - Ola: Pushing the Frontiers of Omni-Modal Language Model [88.72389428177942]
我々はOlaについて述べる。Olaは、画像、ビデオ、音声の理解間での競合性能を実現するオムニモーダル言語モデルである。
Olaは、いくつかの重要かつ効果的な改善を通じて、高度な視覚的理解と音声認識機能を備えている。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。