論文の概要: Swiss Parliaments Corpus Re-Imagined (SPC_R): Enhanced Transcription with RAG-based Correction and Predicted BLEU
- arxiv url: http://arxiv.org/abs/2506.07726v1
- Date: Mon, 09 Jun 2025 13:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.960232
- Title: Swiss Parliaments Corpus Re-Imagined (SPC_R): Enhanced Transcription with RAG-based Correction and Predicted BLEU
- Title(参考訳): SPC_R(Swiss Parliaments Corpus Re-Imagined: SPC_R):RAGに基づく訂正と予測BLEUによる転写の強化
- Authors: Vincenzo Timmel, Manfred Vogel, Daniel Perruchoud, Reza Kakooee,
- Abstract要約: 本稿では,スイス議会コーポレーション(Swiss Parliaments Corpus)の長期的リリースについて述べる。
私たちのパイプラインは、すべてのセッションオーディオをWhisper Large-v3を使って、高速な設定で標準ドイツ語に書き起こすことから始まります。
次に、2段階のGPT-4o補正プロセスを適用し、まず、GPT-4oがWhisper出力を公式プロトコルとともに取り込み、主に名前付きエンティティの認識を洗練させる。
最終的なコーパスには801時間分のオーディオが含まれており、そのうち751時間は品質管理に合格する。
- 参考スコア(独自算出の注目度): 1.3658585106879246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new long-form release of the Swiss Parliaments Corpus, converting entire multi-hour Swiss German debate sessions (each aligned with the official session protocols) into high-quality speech-text pairs. Our pipeline starts by transcribing all session audio into Standard German using Whisper Large-v3 under high-compute settings. We then apply a two-step GPT-4o correction process: first, GPT-4o ingests the raw Whisper output alongside the official protocols to refine misrecognitions, mainly named entities. Second, a separate GPT-4o pass evaluates each refined segment for semantic completeness. We filter out any segments whose Predicted BLEU score (derived from Whisper's average token log-probability) and GPT-4o evaluation score fall below a certain threshold. The final corpus contains 801 hours of audio, of which 751 hours pass our quality control. Compared to the original sentence-level SPC release, our long-form dataset achieves a 6-point BLEU improvement, demonstrating the power of combining robust ASR, LLM-based correction, and data-driven filtering for low-resource, domain-specific speech corpora.
- Abstract(参考訳): 本稿では,スイス議会コーパスの長期的リリースを新たに提案し,複数の時間スイスドイツ語討論会(いずれも公式セッションプロトコルに沿った)を高品質な音声テキストペアに変換する。
私たちのパイプラインは、すべてのセッションオーディオをWhisper Large-v3を使って、高速な設定で標準ドイツ語に書き起こすことから始まります。
次に、2段階のGPT-4o補正プロセスを適用し、まず、GPT-4oがWhisper出力を公式プロトコルとともに取り込み、主に名前付きエンティティの認識を洗練させる。
第2に、別々のGPT-4oパスは、各洗練されたセグメントを評価し、セマンティック完全性を評価する。
我々は、予測BLEUスコア(Whisperの平均トークンログ確率に由来する)とGPT-4o評価スコアが一定の閾値以下であるセグメントをフィルタリングする。
最終的なコーパスには801時間分のオーディオが含まれており、そのうち751時間は品質管理に合格する。
原文レベルのSPCリリースと比較して、我々の長文データセットは6点BLEUの改善を実現し、低リソースのドメイン固有の音声コーパスに対してロバストなASR、LLMベースの補正、データ駆動フィルタリングを併用する能力を実証した。
関連論文リスト
- Vuyko Mistral: Adapting LLMs for Low-Resource Dialectal Translation [0.0]
本稿では,ウクライナのフツル方言に大規模な言語モデルを適用するための最初の取り組みを紹介する。
我々は、9852語対標準ウクライナ語の文対と7320語の単語マッピングの辞書の並列コーパスを作成しました。
論文 参考訳(メタデータ) (2025-06-09T10:30:35Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - ASR Bundestag: A Large-Scale political debate dataset in German [0.0]
本稿では,ドイツ語の自動音声認識のためのデータセットであるASR Bundestagを提案する。
データセットは、教師付きトレーニングに610時間、自己教師型学習に1,038時間、アライメントされたオーディオ書き起こしペアで構成されている。
論文 参考訳(メタデータ) (2023-02-12T21:45:18Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - UPC's Speech Translation System for IWSLT 2021 [2.099922236065961]
本稿では,UPC 機械翻訳グループによる IWSLT 2021 オフライン音声翻訳タスクの提出について述べる。
タスクは、tedトークから抽出された英語の音声録音をドイツ語のテキストに翻訳できるシステムを構築することにある。
提案方式は,エンコーダとデコーダ間の結合モジュールと事前学習モデルを組み合わせた音声翻訳システムである。
論文 参考訳(メタデータ) (2021-05-10T17:04:11Z) - Swiss Parliaments Corpus, an Automatically Aligned Swiss German Speech
to Standard German Text Corpus [2.610806620660055]
このコーパスの最初のバージョンは、ベルヌ州議会の公開データに基づいており、293時間のデータで構成されている。
新規な強制文アライメント手順とアライメント品質推定器を用いて作成された。
我々は,データの各サブセットのベースラインとして自動音声認識(ASR)モデルを訓練し,SPCテストセットで0.278のワード誤り率(WER)と0.586のBLEUスコアを達成した。
論文 参考訳(メタデータ) (2020-10-06T15:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。