論文の概要: Mark My Words: A Robust Multilingual Model for Punctuation in Text and Speech Transcripts
- arxiv url: http://arxiv.org/abs/2506.03793v1
- Date: Wed, 04 Jun 2025 09:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.280125
- Title: Mark My Words: A Robust Multilingual Model for Punctuation in Text and Speech Transcripts
- Title(参考訳): Mark My Words:テキストと音声の文の句読解のためのロバストな多言語モデル
- Authors: Sidharth Pulipaka, Sparsh Jain, Ashwin Sankar, Raj Dabre,
- Abstract要約: 句読解は意味を構造化する上で重要な役割を担っているが、現在のモデルは自発音声の書き起こしでそれを正確に復元するのに苦労することが多い。
本稿では,事前訓練された大規模言語モデルから適応した汎用的句読点復元モデルCadenceを紹介する。
14の言語から22のインド語と英語へのサポートを拡大しながら、パフォーマンスにおけるこれまでの技術状況を上回っている。
- 参考スコア(独自算出の注目度): 9.971070147103536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Punctuation plays a vital role in structuring meaning, yet current models often struggle to restore it accurately in transcripts of spontaneous speech, especially in the presence of disfluencies such as false starts and backtracking. These limitations hinder the performance of downstream tasks like translation, text to speech, summarization, etc. where sentence boundaries are critical for preserving quality. In this work, we introduce Cadence, a generalist punctuation restoration model adapted from a pretrained large language model. Cadence is designed to handle both clean written text and highly spontaneous spoken transcripts. It surpasses the previous state of the art in performance while expanding support from 14 to all 22 Indian languages and English. We conduct a comprehensive analysis of model behavior across punctuation types and language families, identifying persistent challenges under domain shift and with rare punctuation marks. Our findings demonstrate the efficacy of utilizing pretrained language models for multilingual punctuation restoration and highlight Cadence practical value for low resource NLP pipelines at scale.
- Abstract(参考訳): 句読解は意味を構造化する上で重要な役割を担っているが、現在のモデルでは、特に偽の開始や逆追跡のような障害の存在下で、自発的な発話の書き起こしにおいて、それを正確に復元するのに苦労することが多い。
これらの制限は、翻訳、テキストから音声への変換、要約などの下流タスクのパフォーマンスを妨げる。
本稿では,事前訓練された大言語モデルから適応した一般化的句読解モデルCadenceを紹介する。
Cadenceはクリーンなテキストと非常に自発的な音声書き起こしの両方を扱うように設計されている。
これまでの最先端のパフォーマンスを上回り、14言語から22のインド語と英語へのサポートを拡大している。
我々は、句読点と言語家族間のモデル行動の包括的分析を行い、ドメインシフトや稀な句読点による永続的な課題を特定する。
本研究は,多言語句読点回復のための事前学習言語モデルの有効性を示し,低資源NLPパイプラインのCadence実践的価値を強調した。
関連論文リスト
- Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - TwistList: Resources and Baselines for Tongue Twister Generation [17.317550526263183]
本稿では,音声の重なりを最大化するために音声条件が要求される言語である舌ねじれ音の生成について述べる。
我々は2.1K以上の人為的な例からなる舌ねじれの大規模な注釈付きデータセットである textbfTwistList を提示する。
また,提案課題である舌ねじれ生成のためのベンチマークシステムについても,ドメイン内データのトレーニングを必要とせず,かつ必要としないモデルも提示する。
論文 参考訳(メタデータ) (2023-06-06T07:20:51Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。