論文の概要: Speaker-Reasoner: Scaling Interaction Turns and Reasoning Patterns for Timestamped Speaker-Attributed ASR
- arxiv url: http://arxiv.org/abs/2604.03074v1
- Date: Fri, 03 Apr 2026 14:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.501431
- Title: Speaker-Reasoner: Scaling Interaction Turns and Reasoning Patterns for Timestamped Speaker-Attributed ASR
- Title(参考訳): 話者共振器:タイムスタンプ型話者分散ASRにおける対話のスケーリングと共振パターン
- Authors: Zhennan Lin, Shuai Wang, Zhaokai Sun, Pengyuan Xie, Chuan Xie, Jie Liu, Qiang Zhang, Lei Xie,
- Abstract要約: Speaker-Reasonerはエージェント型マルチターン時間的推論を備えたエンドツーエンド音声LLMである。
Speaker-Reasonerは、AliMeetingとAISHELL-4データセットの強いベースラインよりも一貫した改善を実現している。
- 参考スコア(独自算出の注目度): 18.90091826363701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transcribing and understanding multi-speaker conversations requires speech recognition, speaker attribution, and timestamp localization. While speech LLMs excel at single-speaker tasks, multi-speaker scenarios remain challenging due to overlapping speech, backchannels, rapid turn-taking, and context window constraints. We propose Speaker-Reasoner, an end-to-end Speech LLM with agentic multi-turn temporal reasoning. Instead of single-pass inference, the model iteratively analyzes global audio structure, autonomously predicts temporal boundaries, and performs fine-grained segment analysis, jointly modeling speaker identity, gender, timestamps, and transcription. A speaker-aware cache further extends processing to audio exceeding the training context window. Trained with a three-stage progressive strategy, Speaker-Reasoner achieves consistent improvements over strong baselines on AliMeeting and AISHELL-4 datasets, particularly in handling overlapping speech and complex turn-taking.
- Abstract(参考訳): マルチ話者会話の翻訳と理解には、音声認識、話者属性、タイムスタンプのローカライゼーションが必要である。
音声LLMは単一話者タスクで優れているが、重複する音声、バックチャネル、高速なターンテイク、コンテキストウインドウの制約により、マルチスピーカーシナリオは難しいままである。
本稿では,エージェント型マルチターン時間的推論を用いたエンドツーエンド音声LLMであるSpeaker-Reasonerを提案する。
シングルパス推論の代わりに、モデルはグローバルオーディオ構造を反復的に分析し、時間境界を自律的に予測し、きめ細かいセグメント分析を行い、話者アイデンティティ、性別、タイムスタンプ、転写を共同でモデル化する。
話者対応キャッシュは、さらに、トレーニングコンテキストウインドウを超えたオーディオまで処理を拡張する。
3段階のプログレッシブ戦略でトレーニングされたSpeaker-Reasonerは、AliMeetingとAISHELL-4データセットの強いベースラインよりも一貫した改善を実現している。
関連論文リスト
- G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition [32.00022309010023]
音声-LLMシステムは、局所的なダイアリゼーションまたはグローバルなラベリングを優先する傾向があるが、しばしば微細な時間境界を捕捉する能力に欠ける。
G-STARは,時間認識型話者追跡モジュールと音声-LLM転写バックボーンを結合したエンドツーエンドシステムである。
G-STARはコンポーネントの最適化とエンドツーエンドの合同トレーニングの両方をサポートし、不均一な監視とドメインシフトの下で柔軟な学習を可能にする。
論文 参考訳(メタデータ) (2026-03-11T06:40:01Z) - TagSpeech: End-to-End Multi-Speaker ASR and Diarization with Fine-Grained Temporal Grounding [15.908533215017059]
本稿では,テンポラルアンカーグラウンドを用いた統合フレームワークTagSpeechについて述べる。
本フレームワークは,(1)SOT(Serialized Output Training)を用いて微調整されたセマンティックストリームと話者ストリームを分離してターンテイクダイナミクスを学習し,(2)セマンティック理解と話者追跡の同期信号として機能するインターリーブ時間アンカー機構である。
論文 参考訳(メタデータ) (2026-01-11T12:40:07Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - The Right to Talk: An Audio-Visual Transformer Approach [27.71444773878775]
本研究は,複数話者会話ビデオの音声および視覚チャネルにおける主話者のローカライゼーションと強調を行うために,新たなオーディオ・ビジュアル・トランスフォーマーアプローチを導入する。
我々の知る限りでは、マルチスピーカー会話ビデオにおいて、視覚と音声の両方で主話者を自動的にローカライズし、ハイライトすることができる最初の研究の1つである。
論文 参考訳(メタデータ) (2021-08-06T18:04:24Z) - A Real-time Speaker Diarization System Based on Spatial Spectrum [14.189768987932364]
本稿では,話者ダイアリゼーションタスクにおける長年の課題に対処するための,新しい体系的アプローチを提案する。
まず, 指向性指向性マイクロホンアレイを用いたアプローチを用いて, 遠距離環境下でターゲット話者の声を捕捉する。
第2に,話者位置追跡のためのオンライン話者位置連成クラスタリング手法を提案する。
第3に、重複した音声を分離するメカニズムをトリガーするインスタント話者数検出器を開発する。
論文 参考訳(メタデータ) (2021-07-20T08:25:23Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。