論文の概要: MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization
- arxiv url: http://arxiv.org/abs/2601.01554v1
- Date: Sun, 04 Jan 2026 15:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.528471
- Title: MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization
- Title(参考訳): MOSS転写ダイアリゼーション:話者ダイアリゼーションによる正確な転写
- Authors: Donghua Yu, Zhengyuan Lin, Chen Yang, Yiyang Zhang, Zhaoye Fei, Hanfu Chen, Jingqi Chen, Ke Chen, Qinyuan Cheng, Liwei Fan, Yi Jiang, Jie Zhu, Muchen Li, Shimin Li, Wenxuan Wang, Yang Wang, Zhe Xu, Yitian Gong, Yuqian Zhang,
- Abstract要約: 話者対応のタイムスタンプ・トランセプションは,各話者の発話のタイミングを正確に決定することを目的としている。
既存のSATSシステムでは、エンド・ツー・エンドの定式化はまれであり、コンテキストウィンドウの制限、長距離スピーカーメモリの弱い、タイムスタンプの出力ができないといった制約がある。
本稿では,MOSS Transcribe Diarizeについて述べる。MOSS Transcribe Diarizeはマルチモーダルな大規模言語モデルで,エンドツーエンドのパラダイムで話者属性,時間スタンプの転写を行う。
- 参考スコア(独自算出の注目度): 42.048715409945835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker-Attributed, Time-Stamped Transcription (SATS) aims to transcribe what is said and to precisely determine the timing of each speaker, which is particularly valuable for meeting transcription. Existing SATS systems rarely adopt an end-to-end formulation and are further constrained by limited context windows, weak long-range speaker memory, and the inability to output timestamps. To address these limitations, we present MOSS Transcribe Diarize, a unified multimodal large language model that jointly performs Speaker-Attributed, Time-Stamped Transcription in an end-to-end paradigm. Trained on extensive real wild data and equipped with a 128k context window for up to 90-minute inputs, MOSS Transcribe Diarize scales well and generalizes robustly. Across comprehensive evaluations, it outperforms state-of-the-art commercial systems on multiple public and in-house benchmarks.
- Abstract(参考訳): Speaker-Attributed, Time-Stamped Transcription (SATS) は、文字の書き起こしと各話者のタイミングを正確に決定することを目的としている。
既存のSATSシステムでは、エンド・ツー・エンドの定式化はまれであり、コンテキストウィンドウの制限、長距離スピーカーメモリの弱い、タイムスタンプの出力ができないといった制約がある。
これらの制約に対処するため、MOSS Transcribe Diarizeは、エンドツーエンドのパラダイムで、Speaker-Attributed, Time-Stamped Transcriptionを共同で実行する、統合マルチモーダルな大規模言語モデルである。
広範に実環境データに基づいて訓練され、128kのコンテキストウィンドウで最大90分間の入力を処理し、MOSS Transcribe Diarizeは十分にスケールし、堅牢に一般化する。
総合的な評価では、複数の公開および社内ベンチマークで最先端の商用システムを上回っている。
関連論文リスト
- Smooth Operators: LLMs Translating Imperfect Hints into Disfluency-Rich Transcripts [5.439020425819001]
大規模言語モデル(LLM)は、語彙入力と非語彙入力の両方を処理できる汎用的な学習者である。
本稿では, タイムスタンプを付加した明示的なトークンとして, 完全注釈付き不フルな書き起こしを生成するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-23T11:04:20Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Robust Speech Recognition via Large-Scale Weak Supervision [69.63329359286419]
インターネット上での大量の音声の書き起こしを単純に予測するために訓練された音声処理システムの能力について検討する。
マルチランガルとマルチタスクの監視を680,000時間にスケールすると、結果は標準ベンチマークによく当てはまる。
私たちは、堅牢な音声処理のさらなる研究の基盤となるために、モデルと推論コードをリリースしています。
論文 参考訳(メタデータ) (2022-12-06T18:46:04Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech [10.291482850329892]
混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。
また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-12-10T23:07:48Z) - Consistent Transcription and Translation of Speech [13.652411093089947]
音声を共同で書き起こし,翻訳する作業について検討する。
書き起こしと翻訳の精度は重要であるが、高精度なシステムでさえ、両方の出力の不整合に悩まされることがある。
直接モデルは関節転写/翻訳タスクには適していないが, 結合推論処理を特徴とするエンドツーエンドモデルは, 強い整合性を実現することができる。
論文 参考訳(メタデータ) (2020-07-24T19:17:26Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。