Fugu-MT 論文翻訳(概要): Qwen2.5-Omni Technical Report

論文の概要: Qwen2.5-Omni Technical Report

arxiv url: http://arxiv.org/abs/2503.20215v1
Date: Wed, 26 Mar 2025 04:17:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:47.050815
Title: Qwen2.5-Omni Technical Report
Title（参考訳）: Qwen2.5-Omni技術報告
Authors: Jin Xu, Zhifang Guo, Jinzheng He, Hangrui Hu, Ting He, Shuai Bai, Keqin Chen, Jialin Wang, Yang Fan, Kai Dang, Bin Zhang, Xiong Wang, Yunfei Chu, Junyang Lin,
Abstract要約: 本稿では,テキスト,画像,音声,ビデオなど多様なモーダル性を認識するために,テキストと自然な音声応答を同時生成するエンド・ツー・エンドのマルチモーダルモデルを提案する。 Qwen2.5-OmniはOmni-Benchのようなマルチモーダルベンチマークで最先端のパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 31.033323728153984
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this report, we present Qwen2.5-Omni, an end-to-end multimodal model designed to perceive diverse modalities, including text, images, audio, and video, while simultaneously generating text and natural speech responses in a streaming manner. To enable the streaming of multimodal information inputs, both audio and visual encoders utilize a block-wise processing approach. To synchronize the timestamps of video inputs with audio, we organize the audio and video sequentially in an interleaved manner and propose a novel position embedding approach, named TMRoPE(Time-aligned Multimodal RoPE). To concurrently generate text and speech while avoiding interference between the two modalities, we propose \textbf{Thinker-Talker} architecture. In this framework, Thinker functions as a large language model tasked with text generation, while Talker is a dual-track autoregressive model that directly utilizes the hidden representations from the Thinker to produce audio tokens as output. Both the Thinker and Talker models are designed to be trained and inferred in an end-to-end manner. For decoding audio tokens in a streaming manner, we introduce a sliding-window DiT that restricts the receptive field, aiming to reduce the initial package delay. Qwen2.5-Omni is comparable with the similarly sized Qwen2.5-VL and outperforms Qwen2-Audio. Furthermore, Qwen2.5-Omni achieves state-of-the-art performance on multimodal benchmarks like Omni-Bench. Notably, Qwen2.5-Omni's performance in end-to-end speech instruction following is comparable to its capabilities with text inputs, as evidenced by benchmarks such as MMLU and GSM8K. As for speech generation, Qwen2.5-Omni's streaming Talker outperforms most existing streaming and non-streaming alternatives in robustness and naturalness.
Abstract（参考訳）: 本稿では,Qwen2.5-Omniについて述べる。Qwen2.5-Omniは,テキスト,画像,音声,ビデオなど多種多様なモダリティを認識できるとともに,テキストと自然な音声応答をストリーミング形式で同時に生成する。マルチモーダル情報入力のストリーミングを可能にするために、オーディオおよびビジュアルエンコーダの両方がブロックワイズ処理アプローチを使用する。音声とビデオ入力のタイムスタンプを同期させるため,インターリーブ方式で音声と映像を順次整理し,TMRoPE(Time-aligned Multimodal RoPE)と呼ばれる新しい位置埋め込み手法を提案する。 2つのモード間の干渉を回避しつつ、テキストと音声を同時に生成するために、 \textbf{Thinker-Talker} アーキテクチャを提案する。このフレームワークでは、Thinkerはテキスト生成を扱う大きな言語モデルとして機能し、Talkerは、Thinkerから隠された表現を直接利用して出力としてオーディオトークンを生成するデュアルトラック自動回帰モデルである。 ThinkerモデルとTalkerモデルはどちらも、エンドツーエンドでトレーニングされ、推論されるように設計されています。ストリーミング方式で音声トークンを復号化するために,初期パッケージ遅延を低減するために,受信フィールドを制限するスライディングウインドウDiTを導入する。 Qwen2.5-OmniはQwen2.5-VLと同等の大きさで、Qwen2-Audioより優れている。さらに、Qwen2.5-OmniはOmni-Benchのようなマルチモーダルベンチマークで最先端のパフォーマンスを達成する。特にQwen2.5-Omniのパフォーマンスは、MMLUやGSM8Kのようなベンチマークによって証明されているように、テキスト入力の能力に匹敵する。音声生成に関しては、Qwen2.5-OmniのストリーミングTalkerは、ロバストさと自然さにおいて、既存のストリーミングおよび非ストリーミングの選択肢よりも優れています。

関連論文リスト

AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation [24.799628787198397]
AudioGen-Omniは、入力ビデオとコヒーレントに同期した高忠実度オーディオ、音声、歌を生成する。ジョイントトレーニングパラダイムは、大規模ビデオテキストオーディオコーパスを統合している。密度フレームレベルの表現は、AdaLNベースのジョイントアテンション機構を用いて融合する。推測時間は8秒間1.91秒であり、効率と一般性の両方で大幅に改善されている。
論文参考訳（メタデータ） (2025-08-01T16:03:57Z)
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [70.25062476543091]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。 MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。 4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文参考訳（メタデータ） (2025-05-06T17:59:53Z)
AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [41.74261260212531]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文参考訳（メタデータ） (2025-04-29T10:56:24Z)
Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。 SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文参考訳（メタデータ） (2025-02-16T12:14:17Z)
CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文参考訳（メタデータ） (2024-12-13T12:59:39Z)
Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
Video-Text to Speech (VTTS) は、会話者のテキストとビデオの両方に条件付けされた音声生成タスクである。視覚,テキスト,音声の入力を共有部分空間に埋め込む,マルチモーダルデコーダのみの統合トランスフォーマモデルであるVisatronicを導入する。 LRS3でのみ訓練されたSOTA法よりも優れた4.5%のWERが得られることを示す。
論文参考訳（メタデータ） (2024-11-26T18:57:29Z)
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。 NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。 3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文参考訳（メタデータ） (2024-06-11T04:25:48Z)
Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文参考訳（メタデータ） (2024-01-15T10:18:08Z)
Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文参考訳（メタデータ） (2023-11-09T19:15:12Z)
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-04-18T16:31:59Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)
Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource Parallel Data [15.658471125219224]
音声とテキストのマルチモーダル事前学習は有効であることが証明され、ダウンストリーム音声理解タスクの性能が大幅に向上した。しかし、これらの最先端の訓練済みオーディオテキストモデルは、大量の並列オーディオとテキストデータを提供する場合にのみ、うまく機能する。本稿では,低リソース並列データを用いた音声テキストモデルの事前学習が可能かどうかを検討する。
論文参考訳（メタデータ） (2022-04-10T10:25:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。