論文の概要: Mind the Pause: Disfluency-Aware Objective Tuning for Multilingual Speech Correction with LLMs
- arxiv url: http://arxiv.org/abs/2605.12242v1
- Date: Tue, 12 May 2026 15:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.953929
- Title: Mind the Pause: Disfluency-Aware Objective Tuning for Multilingual Speech Correction with LLMs
- Title(参考訳): ポーズのマインド:LLMを用いた多言語音声補正のための拡散を考慮した客観的チューニング
- Authors: Deepak Kumar, Baban Gain, Asif Ekbal,
- Abstract要約: ASRの書き起こしには、フィラー、繰り返し、偽の開始などの不一致がしばしば含まれている。
既存のアプローチのほとんどは、除去のための非流動的なトークンを特定することに焦点を当てた古典的なモデルに依存している。
本稿では,まずシーケンスタグが不自由なトークンをマークする多言語補正パイプラインを提案し,これらの信号はLLMの微調整を指導し,書き起こしを流用テキストに書き換える。
- 参考スコア(独自算出の注目度): 32.94544776067079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) transcripts often contain disfluencies, such as fillers, repetitions, and false starts, which reduce readability and hinder downstream applications like chatbots and voice assistants. If left unaddressed, such disfluencies can significantly degrade the reliability of downstream systems. Most existing approaches rely on classical models that focus on identifying disfluent tokens for removal. While this strategy is effective to some extent, it often disrupts grammatical structure and semantic coherence, leading to incomplete or unnatural sentences. Recent literature explored the use of large language models (LLMs); however, these efforts have primarily focused on disfluency detection or data augmentation, rather than performing comprehensive correction. We propose a multilingual correction pipeline where a sequence tagger first marks disfluent tokens, and these signals guide instruction fine-tuning of an LLM to rewrite transcripts into fluent text. To further improve reliability, we add a contrastive learning objective that penalizes the reproduction of disfluent tokens, encouraging the model to preserve grammar and meaning while removing disfluent artifacts. Our experiments across three Indian languages, namely Hindi, Bengali, and Marathi show consistent improvements over strong baselines, including multilingual sequence-to-sequence models. These results highlight that detection-only strategies are insufficient. Combining token-level cues with instruction tuning and contrastive learning provides a practical and scalable solution for multilingual disfluency correction in speech-driven NLP systems. We make the codes publicly available at https://github.com/deepak-kumar-98/Mind-the-Pause.
- Abstract(参考訳): 自動音声認識(ASR)の書き起こしは、しばしばフィラー、繰り返し、偽開始などの障害を含み、読みやすさを低下させ、チャットボットや音声アシスタントのような下流アプリケーションを妨げる。
残っていない場合、そのような影響は下流システムの信頼性を著しく低下させる可能性がある。
既存のアプローチのほとんどは、除去のための非流動的なトークンを特定することに焦点を当てた古典的なモデルに依存している。
この戦略はある程度効果があるが、しばしば文法構造と意味的一貫性を乱し、不完全あるいは不自然な文を生み出す。
近年の文献では、大規模言語モデル(LLM)の使用について検討されているが、これらの取り組みは、包括的な修正を行うのではなく、主に拡散検出やデータ拡張に焦点を当てている。
本稿では,まずシーケンスタグが不自由なトークンをマークする多言語補正パイプラインを提案し,これらの信号はLLMの微調整を指導し,書き起こしを流用テキストに書き換える。
さらに信頼性を向上させるために,不合理なトークンの再生をペナルティ化し,不合理なアーティファクトを除去しながら文法や意味の保存をモデルに奨励する,対照的な学習目標を追加する。
Hindi、Bengali、Marathiという3つのインドの言語に対する実験では、多言語列列列列モデルを含む強いベースラインよりも一貫した改善が見られた。
これらの結果から,検出のみの戦略が不十分であることが示唆された。
トークンレベルのキューと命令チューニングとコントラスト学習を組み合わせることで、音声駆動型NLPシステムにおける多言語拡散補正のための実用的でスケーラブルなソリューションを提供する。
コードはhttps://github.com/deepak-kumar-98/Mind-the-Pause.comで公開しています。
関連論文リスト
- Few-Shot Contrastive Adaptation for Audio Abuse Detection in Low-Resource Indic Languages [3.5238606794194816]
ソーシャルメディアが音声による対話へとシフトするにつれ、虐待的音声検出の重要性が高まっている。
コントラスト言語-オーディオ事前学習が、音声から直接虐待的音声検出を支援できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-04-10T08:23:03Z) - LiteToken: Removing Intermediate Merge Residues From BPE Tokenizers [76.59130257385826]
BPE語彙の中間的なマージ残基は、マージ学習中にしばしば見られ、最終語彙に保持されるが、ほとんどは、トークン化剤の使用中にコーパスをトークン化するときに、さらにマージされる。
本稿では, この現象を, 一般的に使用されているトークン化剤にまたがって系統的に評価し, 残留トークンを除去する簡単な方法である LiteToken を紹介する。
実験によると、LiteTokenはトークンの断片化を減らし、パラメータを減らし、全体的なパフォーマンスを保ちながら、ノイズやスペル入力への堅牢性を改善する。
論文 参考訳(メタデータ) (2026-02-04T16:19:05Z) - Language Confusion Gate: Language-Aware Decoding Through Model Self-Distillation [50.93756215410832]
本稿では,デコード時にトークンをフィルタリングする軽量なプラグインソリューションであるLanguage Confusion Gate (LCG)を紹介する。
LCGは、標準調整自己蒸留を用いて訓練され、適切な言語ファミリーを予測し、必要に応じてマスクを適用する。
論文 参考訳(メタデータ) (2025-10-20T14:02:37Z) - Smooth Operators: LLMs Translating Imperfect Hints into Disfluency-Rich Transcripts [5.439020425819001]
大規模言語モデル(LLM)は、語彙入力と非語彙入力の両方を処理できる汎用的な学習者である。
本稿では, タイムスタンプを付加した明示的なトークンとして, 完全注釈付き不フルな書き起こしを生成するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-23T11:04:20Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Keypoint based Sign Language Translation without Glosses [7.240731862549344]
署名者の骨格点に基づく翻訳を行うための新しいキーポイント正規化法を提案する。
身体部分に応じてカスタマイズされた正規化法により性能改善に寄与した。
本手法は,グルースを使わずにデータセットに適用可能な方法で,様々なデータセットに適用することができる。
論文 参考訳(メタデータ) (2022-04-22T05:37:56Z) - Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech
Recognition [3.2631198264090746]
失語症(英: Aphasia)は、一般的には脳損傷や脳卒中によって引き起こされる言語障害であり、世界中の何百万人もの人々に影響を及ぼす。
本稿では,言語間音声表現を共用する事前学習型自動音声認識(ASR)モデルを用いたエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2022-04-01T14:05:02Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。