論文の概要: SAGE-LD: Towards Scalable and Generalizable End-to-End Language Diarization via Simulated Data Augmentation
- arxiv url: http://arxiv.org/abs/2510.00582v1
- Date: Wed, 01 Oct 2025 07:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.431189
- Title: SAGE-LD: Towards Scalable and Generalizable End-to-End Language Diarization via Simulated Data Augmentation
- Title(参考訳): SAGE-LD: シミュレーションデータ拡張によるスケーラブルで汎用的なエンドツーエンド言語ダイアリゼーションを目指す
- Authors: Sangmin Lee, Woongjib Choi, Jihyun Kim, Hong-Goo Kang,
- Abstract要約: 本稿では,1つのフレームワーク内で非制約言語をサポートするニューラル音声言語ダイアリゼーションモデルを提案する。
提案手法は,多言語認識に基づく学習可能なクエリベースアーキテクチャと,シミュレートされたコードスイッチングデータに基づく大規模事前学習を統合した。
- 参考スコア(独自算出の注目度): 20.81567866070287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a neural spoken language diarization model that supports an unconstrained span of languages within a single framework. Our approach integrates a learnable query-based architecture grounded in multilingual awareness, with large-scale pretraining on simulated code-switching data. By jointly leveraging these two components, our method overcomes the limitations of conventional approaches in data scarcity and architecture optimization, and generalizes effectively to real-world multilingual settings across diverse environments. Experimental results demonstrate that our approach achieves state-of-the-art performance on several language diarization benchmarks, with a relative performance improvement of 23% to 52% over previous methods. We believe that this work not only advances research in language diarization but also establishes a foundational framework for code-switching speech technologies.
- Abstract(参考訳): 本稿では,1つのフレームワーク内で非制約言語をサポートするニューラル音声言語ダイアリゼーションモデルを提案する。
提案手法は,多言語認識に基づく学習可能なクエリベースアーキテクチャと,シミュレートされたコードスイッチングデータに基づく大規模事前学習を統合した。
これら2つのコンポーネントを共同で活用することにより、データ不足やアーキテクチャ最適化における従来のアプローチの限界を克服し、多様な環境における実世界のマルチリンガル設定に効果的に一般化する。
実験の結果,従来の手法に比べて23%から52%の性能向上が見られた。
この研究は、言語ダイアリゼーションの研究の進展だけでなく、コードスイッチング音声技術の基礎となる枠組みも確立していると信じている。
関連論文リスト
- RetrieveAll: A Multilingual Named Entity Recognition Framework with Large Language Models [7.867158538366131]
既存の多言語NER法は多言語適応過程において言語干渉に直面する。
動的LoRAに基づく多言語NERフレームワークRetrieveAllを提案する。
本稿では,データ固有のポテンシャルをフル活用した粒界知識拡張手法を提案する。
論文 参考訳(メタデータ) (2025-05-25T12:52:18Z) - Improving Retrieval-Augmented Neural Machine Translation with Monolingual Data [18.150384435635477]
多くの設定では、ターゲット言語の単言語コーパスがしばしば利用可能である。
文レベルと単語レベルの整合性を両立させた改良型言語間検索システムを設計した。
また,本手法はモノリンガルよりもはるかに大きく,ベースライン設定と汎用的クロスリンガル検索の双方に対して強い改善が見られた。
論文 参考訳(メタデータ) (2025-04-30T15:41:03Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文 参考訳(メタデータ) (2025-02-14T18:42:07Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。