論文の概要: Qwen3-Omni Technical Report
- arxiv url: http://arxiv.org/abs/2509.17765v1
- Date: Mon, 22 Sep 2025 13:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.410566
- Title: Qwen3-Omni Technical Report
- Title(参考訳): Qwen3-Omni技術報告
- Authors: Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin,
- Abstract要約: Qwen3-Omniは、テキスト、画像、オーディオ、ビデオ間で最先端のパフォーマンスを維持する単一のマルチモーダルモデルである。
Qwen3-OmniはQwenシリーズ内の同一サイズのシングルモーダルモデルのパフォーマンスと一致し、特にオーディオタスクに優れる。
119言語でのテキストインタラクション、19言語での音声理解、および10言語での音声生成をサポートする。
- 参考スコア(独自算出の注目度): 105.11829337290249
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Qwen3-Omni, a single multimodal model that, for the first time, maintains state-of-the-art performance across text, image, audio, and video without any degradation relative to single-modal counterparts. Qwen3-Omni matches the performance of same-sized single-modal models within the Qwen series and excels particularly on audio tasks. Across 36 audio and audio-visual benchmarks, Qwen3-Omni achieves open-source SOTA on 32 benchmarks and overall SOTA on 22, outperforming strong closed-source models such as Gemini-2.5-Pro, Seed-ASR, and GPT-4o-Transcribe. Qwen3-Omni adopts a Thinker-Talker MoE architecture that unifies perception and generation across text, images, audio, and video, yielding fluent text and natural real-time speech. It supports text interaction in 119 languages, speech understanding in 19 languages, and speech generation in 10 languages. To reduce first-packet latency in streaming synthesis, Talker autoregressively predicts discrete speech codecs using a multi-codebook scheme. Leveraging the representational capacity of these codebooks, we replace computationally intensive block-wise diffusion with a lightweight causal ConvNet, enabling streaming from the first codec frame. In cold-start settings, Qwen3-Omni achieves a theoretical end-to-end first-packet latency of 234 ms. To further strengthen multimodal reasoning, we introduce a Thinking model that explicitly reasons over inputs from any modality. Since the research community currently lacks a general-purpose audio captioning model, we fine-tuned Qwen3-Omni-30B-A3B to obtain Qwen3-Omni-30B-A3B-Captioner, which produces detailed, low-hallucination captions for arbitrary audio inputs. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, and Qwen3-Omni-30B-A3B-Captioner are publicly released under the Apache 2.0 license.
- Abstract(参考訳): 単一のマルチモーダルモデルであるQwen3-Omniについて述べる。
Qwen3-OmniはQwenシリーズ内の同一サイズのシングルモーダルモデルのパフォーマンスと一致し、特にオーディオタスクに優れる。
36のオーディオおよびオーディオビジュアルベンチマークで、Qwen3-Omniは32のベンチマークでオープンソースSOTA、22のベンチマークでSOTAを達成し、Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribeといった強力なクローズドソースモデルを上回った。
Qwen3-OmniはThinker-Talker MoEアーキテクチャを採用しており、テキスト、画像、オーディオ、ビデオ間で知覚と生成を統一し、流動的なテキストと自然なリアルタイム音声を生成する。
119言語でのテキストインタラクション、19言語での音声理解、および10言語での音声生成をサポートする。
ストリーミング合成における最初のパケット遅延を低減するため、Talkerはマルチコードブックスキームを用いて離散音声コーデックを自動回帰予測する。
これらのコードブックの表現能力を活用することで、計算集約的なブロックワイド拡散を軽量な因果ConvNetに置き換え、最初のコーデックフレームからのストリーミングを可能にする。
コールドスタート設定では,Qwen3-Omniは234msの理論的エンド・ツー・エンドのファースト・パケット遅延を実現し,マルチモーダル推論をさらに強化するために,任意のモーダルからの入力を明示的に推論する思考モデルを導入する。
現在,研究コミュニティには汎用的な音声キャプションモデルがないため,Qwen3-Omni-30B-A3Bを微調整してQwen3-Omni-30B-A3B-Captionerを得る。
Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking、Qwen3-Omni-30B-A3B-CaptionerはApache 2.0ライセンスの下で公開されている。
関連論文リスト
- TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling [13.05578634768109]
テキスト対応拡散変換器音声コーデック(TaDiCodec)について紹介する。
TaDiCodecは拡散オートエンコーダによる量子化と再構成にエンドツーエンドの最適化を採用している。
フレームレートは6.25Hzで、それに対応する圧縮は0.0875kbpsで、1層コードブックで24kHzの音声を処理できる。
論文 参考訳(メタデータ) (2025-08-22T20:45:03Z) - Qwen3 Technical Report [137.96804244102205]
Qwenモデルファミリの最新バージョンであるQwen3を紹介します。
Qwen3は、性能、効率、多言語機能を向上させるために設計された一連の大規模言語モデル(LLM)から構成されている。
論文 参考訳(メタデータ) (2025-05-14T13:41:34Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [70.25062476543091]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - Qwen2.5-Omni Technical Report [31.033323728153984]
本稿では,テキスト,画像,音声,ビデオなど多様なモーダル性を認識するために,テキストと自然な音声応答を同時生成するエンド・ツー・エンドのマルチモーダルモデルを提案する。
Qwen2.5-OmniはOmni-Benchのようなマルチモーダルベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-26T04:17:55Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - EfficientSpeech: An On-Device Text to Speech Model [15.118059441365343]
State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。
本研究では,ARM CPU上で音声をリアルタイムに合成するEfficientSpeechという,効率的なニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T10:28:41Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。