論文の概要: MOSS-Audio Technical Report
- arxiv url: http://arxiv.org/abs/2606.01802v2
- Date: Tue, 02 Jun 2026 08:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.471161
- Title: MOSS-Audio Technical Report
- Title(参考訳): MOSS-Audioテクニカルレポート
- Authors: Chen Yang, Chufan Yu, Hanfu Chen, Jie Zhu, Jingqi Chen, Ke Chen, Wenxuan Wang, Yang Wang, Yaozhou Jiang, Yi Jiang, Zhengyuan Lin, Ziqi Chen, Zhaoye Fei, Chenghao Liu, Jun Zhan, Kang Yu, Kexin Huang, Mingshu Chen, Qinyuan Cheng, Ruixiao Li, Shimin Li, Songlin Wang, Yitian Gong, Yang Gao, Yiyang Zhang, Xipeng Qiu,
- Abstract要約: MOSS-Audioは、音声、環境音、音楽理解のための統一された音声言語モデルである。
音声キャプション、タイムアウェアな質問応答、タイムスタンプによる書き起こし、音声による推論をサポートする。
- 参考スコア(独自算出の注目度): 79.99038866101354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MOSS-Audio is a unified audio-language model for speech, environmental sound, and music understanding, supporting audio captioning, time-aware question answering, timestamped transcription, and audio-grounded reasoning. MOSS-Audio couples a dedicated audio encoder with a modality adapter and a large language model: the encoder produces 12.5 Hz temporal representations, the adapter projects them into the decoder space, and the decoder generates autoregressive text outputs. Two design choices are central to the system: \textbf{DeepStack cross-layer feature injection}, which exposes the decoder to acoustic information from multiple encoder depths, and \textbf{time markers}, which provide explicit temporal cues by inserting timestamp markers into the audio-token stream. At the data level, we design an event-preserving audio annotation pipeline that segments raw audio at coherent event boundaries, applies branch-specific annotation to speech, music, and general audio, and merges the results into unified captions for pretraining. The intermediate branch-specific captions are further retained to support the construction of task-oriented SFT data. The model is pretrained on large-scale audio-language data, with time-aware objectives incorporated to support temporal grounding, and then undergoes multi-stage post-training to enhance instruction following and audio-grounded reasoning. We release 4B and 8B variants in both Instruct and Thinking configurations. MOSS-Audio achieves strong performance across general audio understanding, speech captioning, ASR, and timestamped ASR, positioning it as a promising understanding foundation for future voice agents.
- Abstract(参考訳): MOSS-Audioは、音声、環境音、音楽理解のための統一された音声言語モデルであり、音声キャプション、時間対応質問応答、タイムスタンプによる書き起こし、音声地上推論をサポートする。
MOSS-Audioは12.5Hzの時間表現を生成し、アダプタはデコーダ空間に投影し、デコーダは自動回帰テキスト出力を生成する。
複数のエンコーダの深さから音響情報にデコーダを露出する \textbf{DeepStack cross-layer feature Injection} と、オーディオトーケンストリームにタイムスタンプマーカーを挿入することで明確な時間的手がかりを提供する \textbf{time markers} である。
データレベルでは、一貫性のあるイベント境界で生音声をセグメンテーションし、音声、音楽、一般音声に分岐固有のアノテーションを適用し、その結果を事前学習のための統一的なキャプションにマージする、イベント保存型オーディオアノテーションパイプラインを設計する。
また、タスク指向SFTデータの構築を支援するために、中間ブランチ固有のキャプションを更に保持する。
このモデルは、時間的グラウンド化をサポートするために時間を考慮した目標を組み込んだ大規模オーディオ言語データに基づいて事前訓練を行い、その後、複数段階のポストトレーニングを実施して、指示の追従と音声のグラウンド化推論を強化する。
Instruct と Thinking の両構成で 4B と 8B の派生版をリリースしています。
MOSS-Audioは、一般的な音声理解、音声キャプション、ASR、タイムスタンプされたASRを通じて強力なパフォーマンスを達成し、将来の音声エージェントのための有望な理解基盤として位置づけている。
関連論文リスト
- AudioMosaic: Contrastive Masked Audio Representation Learning [53.52371029884106]
一般的な音声理解のためのコントラスト学習型オーディオエンコーダであるtextbfAudioMosaic を紹介する。
AudioMosaicは、構造化された時間周波数マスキングをスペクトログラムパッチに適用することで、正のペアを構成する。
実験によると、AudioMosaicはいくつかの標準オーディオベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-14T00:56:51Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。
X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。
音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T10:24:07Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Audio Captioning Transformer [44.68751180694813]
音声キャプションは、音声クリップの自然言語記述を自動的に生成することを目的としている。
ほとんどのキャプションモデルはエンコーダ-デコーダアーキテクチャに従っており、デコーダはエンコーダによって抽出された音声特徴に基づいて単語を予測する。
本稿では,エンコーダデコーダアーキテクチャに基づくフルトランスフォーマネットワークであるAudio Captioning Transformer (ACT)を提案する。
論文 参考訳(メタデータ) (2021-07-21T00:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。