Fugu-MT 論文翻訳(概要): An Investigation Into Various Approaches For Bengali Long-Form Speech Transcription and Bengali Speaker Diarization

論文の概要: An Investigation Into Various Approaches For Bengali Long-Form Speech Transcription and Bengali Speaker Diarization

arxiv url: http://arxiv.org/abs/2603.03158v1
Date: Tue, 03 Mar 2026 17:00:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.884886
Title: An Investigation Into Various Approaches For Bengali Long-Form Speech Transcription and Bengali Speaker Diarization
Title（参考訳）: ベンガル語長形式の音声書き起こしとベンガル話者ダイアリゼーションのための様々な手法の検討
Authors: Epshita Jahan, Khandoker Md Tanjinul Islam, Pritom Biswas, Tafsir Al Nafin,
Abstract要約: 本稿では,Kaggle における "DL Sprint 4.0 - Bengali Long-Form Speech Recognition" と "DL Sprint 4.0 - Bengali Speaker Diarization" のための多段階アプローチを提案する。我々は,Bengaliデータに微調整したWhisper Mediumを実装し,Pyannote/Speaker-diarization-community-1とカスタムトレーニングセグメンテーションモデルを統合した。その結果、ターゲットチューニングと戦略的データ利用は、南アジアの言語におけるAIを大幅に改善できることが示された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bengali remains a low-resource language in speech technology, especially for complex tasks like long-form transcription and speaker diarization. This paper presents a multistage approach developed for the "DL Sprint 4.0 - Bengali Long-Form Speech Recognition" and "DL Sprint 4.0 - Bengali Speaker Diarization" competitions on Kaggle, addressing the challenge of "who spoke when/what" in hour-long recordings. We implemented Whisper Medium fine-tuned on Bengali data (bengaliAI/tugstugi bengaliai-asr whisper-medium) for transcription and integrated pyannote/speaker-diarization-community-1 with our custom-trained segmentation model to handle diverse and noisy acoustic environments. Using a two-pass method with hyperparameter tuning, we achieved a DER of 0.27 on the private leaderboard and 0.19 on the public leaderboard. For transcription, chunking, background noise cleaning, and algorithmic post-processing yielded a WER of 0.38 on the private leaderboard. These results show that targeted tuning and strategic data utilization can significantly improve AI inclusivity for South Asian languages. All relevant code is available at: https://github.com/Short-Potatoes/Bengali-long-form-transcription-and-diarization.git Index Terms: Bengali speech recognition, speaker diarization, Whisper, ASR, low-resource languages, pyannote, voice activity detection
Abstract（参考訳）: ベンガル語は音声技術における低リソース言語であり、特に長文の文字起こしや話者ダイアリゼーションのような複雑なタスクのために使われている。本稿では,Kaggle における "DL Sprint 4.0 - Bengali Long-Form Speech Recognition" と "DL Sprint 4.0 - Bengali Speaker Diarization" の競争のために開発された多段階的アプローチについて述べる。ベンガルデータ(bengaliAI/tugstugi bengaliai-asr whisper-medium)を微調整したWhisper Mediumを,Pyannote/Speaker-diarization-community-1に実装した。ハイパーパラメータチューニングを併用した2パス方式を用いて,プライベートリーダボードでは0.27,パブリックリーダボードでは0.19を達成しました。書き起こし、チャンキング、バックグラウンドノイズクリーニング、アルゴリズムによる後処理により、WERはプライベートリーダーボードで0.38となった。これらの結果から,対象とするチューニングと戦略的データ利用は,南アジアの言語に対するAIの傾きを著しく改善する可能性が示唆された。 https://github.com/Short-Potatoes/Bengali-long-form-transcription-and-diarization.git Index Terms: Bengali speech Recognition, Speaker Diarization, Whisper, ASR, Low-resource Language, pyannote, Voice Activity Detection

関連論文リスト

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech [0.0]
本稿では,ベンガル語長形音声認識と話者ダイアリゼーションの2つの課題について述べる。ウィスパータイムスタンプを用いてロバストな音声チャンキング戦略を実装し、高精度な転写のための微調整音響モデルに精度の高いコンテキスト認識セグメントを供給できるようにする。ダイアリゼーションタスクのために, pyannote.audio と WhisperX を利用した統合パイプラインを開発した。
論文参考訳（メタデータ） (2026-03-05T04:54:11Z)
Robust Long-Form Bangla Speech Processing: Automatic Speech Recognition and Speaker Diarization [0.0]
我々は,ベンガル語長文音声認識と話者ダイアリゼーションのためのエンドツーエンドシステムについて,Kaggle の DL Sprint 4.0 コンペティションに提出した。ベンガル語は、大きな音素の在庫、重要な方言の変化、英語との頻繁なコードミキシング、大規模なラベル付きコーパスの相対的不足など、両方のタスクに重大な課題を提示している。実験により,低リソースのベンガル音声処理において,ドメイン固有のセグメンテーション成分の微調整,発声音源分離,自然なサイレントアウェア・チャンキングが3つの最も影響のある設計選択であることが示された。
論文参考訳（メタデータ） (2026-02-25T09:52:32Z)
A2TTS: TTS for Low Resource Indian Languages [16.782842482372427]
未確認話者のための音声生成を目的とした話者条件付きテキスト音声合成システム(TTS)を提案する。拡散型TSアーキテクチャを用いて、話者エンコーダは、複数話者生成のためのDDPMデコーダを条件に、短い参照オーディオサンプルから埋め込みを抽出する。我々は、参照音声を利用するクロスアテンションに基づく継続時間予測機構を採用し、より正確で話者の一貫性のあるタイミングを可能にする。
論文参考訳（メタデータ） (2025-07-21T06:20:27Z)
Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2024-07-16T18:03:58Z)
CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。 COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文参考訳（メタデータ） (2024-06-16T16:10:51Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
An Automatic Speech Recognition System for Bengali Language based on Wav2Vec2 and Transfer Learning [0.0]
本稿では,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることを目的とする。提案手法はベンガル語を効果的にモデル化し,7747サンプルの試験データセット上で,1000サンプルのみを用いた場合,Levenshtein Mean Distance'の3.819スコアを達成した。
論文参考訳（メタデータ） (2022-09-16T18:20:16Z)
Bengali Common Voice Speech Dataset for Automatic Speech Recognition [0.9218853132156671]
ベンガル語は世界で3億人以上の話者を抱える世界有数の言語の一つである。その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットが不足しているために妨げられている。このデータセットから得られた知見を提示し、今後のバージョンで対処すべき重要な言語的課題について議論する。
論文参考訳（メタデータ） (2022-06-28T14:52:08Z)
GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文参考訳（メタデータ） (2021-06-13T04:09:16Z)
Multilingual and code-switching ASR challenges for low resource Indian languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文参考訳（メタデータ） (2021-04-01T03:37:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。