論文の概要: G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
- arxiv url: http://arxiv.org/abs/2603.10468v1
- Date: Wed, 11 Mar 2026 06:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.81136
- Title: G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
- Title(参考訳): G-STAR: エンド・ツー・エンドのグローバル話者追跡属性認識
- Authors: Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai Wang,
- Abstract要約: 音声-LLMシステムは、局所的なダイアリゼーションまたはグローバルなラベリングを優先する傾向があるが、しばしば微細な時間境界を捕捉する能力に欠ける。
G-STARは,時間認識型話者追跡モジュールと音声-LLM転写バックボーンを結合したエンドツーエンドシステムである。
G-STARはコンポーネントの最適化とエンドツーエンドの合同トレーニングの両方をサポートし、不均一な監視とドメインシフトの下で柔軟な学習を可能にする。
- 参考スコア(独自算出の注目度): 32.00022309010023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study timestamped speaker-attributed ASR for long-form, multi-party speech with overlap, where chunk-wise inference must preserve meeting-level speaker identity consistency while producing time-stamped, speaker-labeled transcripts. Previous Speech-LLM systems tend to prioritize either local diarization or global labeling, but often lack the ability to capture fine-grained temporal boundaries or robust cross-chunk identity linking. We propose G-STAR, an end-to-end system that couples a time-aware speaker-tracking module with a Speech-LLM transcription backbone. The tracker provides structured speaker cues with temporal grounding, and the LLM generates attributed text conditioned on these cues. G-STAR supports both component-wise optimization and joint end-to-end training, enabling flexible learning under heterogeneous supervision and domain shift. Experiments analyze cue fusion, local versus long-context trade-offs and hierarchical objectives.
- Abstract(参考訳): そこで, チャンクワイズ推論では, 時間スタンプ付き話者ラベル付き文字起こしを生成しながら, ミーティングレベルの話者アイデンティティの整合性を維持する必要がある。
従来の音声-LLMシステムは、局所的なダイアリゼーションまたはグローバルなラベリングを優先する傾向にあるが、細粒度の時間境界や堅牢なクロスチャンクIDリンクをキャプチャする能力に欠けることが多い。
G-STARは,時間認識型話者追跡モジュールと音声-LLM転写バックボーンを結合したエンドツーエンドシステムである。
トラッカーは、時間的接地を伴う構造化された話者キューを提供し、LLMはこれらのキューに条件付けられた属性付きテキストを生成する。
G-STARはコンポーネントの最適化とエンドツーエンドの合同トレーニングの両方をサポートし、不均一な監視とドメインシフトの下で柔軟な学習を可能にする。
実験はキュー融合、局所対長文のトレードオフ、階層的目的を分析する。
関連論文リスト
- TagSpeech: End-to-End Multi-Speaker ASR and Diarization with Fine-Grained Temporal Grounding [15.908533215017059]
本稿では,テンポラルアンカーグラウンドを用いた統合フレームワークTagSpeechについて述べる。
本フレームワークは,(1)SOT(Serialized Output Training)を用いて微調整されたセマンティックストリームと話者ストリームを分離してターンテイクダイナミクスを学習し,(2)セマンティック理解と話者追跡の同期信号として機能するインターリーブ時間アンカー機構である。
論文 参考訳(メタデータ) (2026-01-11T12:40:07Z) - MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization [68.87577482940664]
話者対応のタイムスタンプ・トランセプションは,各話者の発話のタイミングを正確に決定することを目的としている。
既存のSATSシステムでは、エンド・ツー・エンドの定式化はまれであり、コンテキストウィンドウの制限、長距離スピーカーメモリの弱い、タイムスタンプの出力ができないといった制約がある。
本稿では,MOSS Transcribe Diarizeについて述べる。MOSS Transcribe Diarizeはマルチモーダルな大規模言語モデルで,エンドツーエンドのパラダイムで話者属性,時間スタンプの転写を行う。
論文 参考訳(メタデータ) (2026-01-04T15:01:10Z) - Beamforming-LLM: What, Where and When Did I Miss? [0.6655749439594806]
本研究では,マルチスピーカ環境において欠落した会話を意味的にリコールするシステムであるBeamforming-LLMを提案する。
このシステムは、マイクロホンアレイを用いた空間オーディオキャプチャと、検索拡張生成(RAG)を組み合わせて、自然言語クエリをサポートする。
論文 参考訳(メタデータ) (2025-09-07T21:52:26Z) - Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [18.147981850263708]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。
DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。
DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文 参考訳(メタデータ) (2025-07-22T08:24:01Z) - Speaker Embeddings to Improve Tracking of Intermittent and Moving Speakers [53.12031345322412]
話者埋め込みを用いた個人識別再割り当て後追跡を提案する。
ビームフォーミングは、話者埋め込みを計算するために、話者の位置に対する信号を強化するために使用される。
不活発な期間に話者の位置が変化するデータセット上で,提案した話者埋め込みに基づくアイデンティティ再割り当て手法の性能を評価する。
論文 参考訳(メタデータ) (2025-06-23T13:02:20Z) - Text-Queried Audio Source Separation via Hierarchical Modeling [53.94434504259829]
本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。
Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。
本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T11:00:38Z) - Towards Word-Level End-to-End Neural Speaker Diarization with Auxiliary
Network [28.661704280484457]
補助的ネットワークを用いたワードレベル終端ニューラルダイアリゼーション(WEEND)を提案する。
WEENDは高品質なダイアリゼーションテキストを提供する可能性を秘めている。
論文 参考訳(メタデータ) (2023-09-15T15:48:45Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。