論文の概要: Smooth Operators: LLMs Translating Imperfect Hints into Disfluency-Rich Transcripts
- arxiv url: http://arxiv.org/abs/2506.18510v1
- Date: Mon, 23 Jun 2025 11:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.947591
- Title: Smooth Operators: LLMs Translating Imperfect Hints into Disfluency-Rich Transcripts
- Title(参考訳): Smooth Operators:LLMs Translateing Imperfect Hints into Disfluency-Rich Transcripts
- Authors: Duygu Altinok,
- Abstract要約: 大規模言語モデル(LLM)は、語彙入力と非語彙入力の両方を処理できる汎用的な学習者である。
本稿では, タイムスタンプを付加した明示的なトークンとして, 完全注釈付き不フルな書き起こしを生成するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Accurate detection of disfluencies in spoken language is crucial for enhancing the performance of automatic speech and language processing systems, as well as fostering the development of more inclusive speech and language technologies. Leveraging the growing trend of large language models (LLMs) as versatile learners capable of processing both lexical and non-lexical inputs (e.g., audio and video), we propose a novel approach to transcribing disfluencies as explicit tokens with timestamps, enabling the generation of fully annotated disfluency-rich transcripts. Our method integrates acoustic representations extracted from an audio encoder with textual inputs of varying quality: clean transcriptions without disfluencies, time-aligned transcriptions from aligners, or outputs from phoneme-based ASR models -- all of which may contain imperfections. Importantly, our experiments demonstrate that textual inputs do not need to be flawless. As long as they include timestamp-related cues, LLMs can effectively smooth the input and produce fully disfluency-annotated transcripts, underscoring their robustness in handling imperfect hints.
- Abstract(参考訳): 音声言語における不一致の正確な検出は,音声・言語処理システムの性能向上と,より包括的な音声・言語技術の発展を促進するために重要である。
語彙や非語彙の入力(例えば音声やビデオ)を処理できる汎用学習者として,大規模言語モデル(LLM)の増大傾向を生かし,タイムスタンプを用いた明示的なトークンとして不一致を記述するための新たなアプローチを提案する。
提案手法は,音声エンコーダから抽出した音響表現を,様々な品質のテキスト入力と統合する: 分散のないクリーンな書き起こし,コーディネータからのタイムアラインな書き起こし,音素ベースのASRモデルからの出力 – これらはすべて不完全である可能性がある。
重要なことは、本実験はテキスト入力が不完全である必要はないことを実証している。
タイムスタンプ関連の手がかりを含む限り、LLMは入力を効果的に円滑にし、完全な拡散アノテートされた転写物を生成することができ、不完全なヒントを扱う際の頑健さを裏付ける。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。
また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。
実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - Dysfluent WFST: A Framework for Zero-Shot Speech Dysfluency Transcription and Detection [5.512072120303165]
Dysfluent-WFSTはゼロショットデコーダで、音素を同時に書き起こし、逆流を検出する。
模擬および実音声データにおける音素誤り率とディフルエンシ検出の両面での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-22T08:02:50Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。
DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。
本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T17:43:13Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Large Language Models for Dysfluency Detection in Stuttered Speech [16.812800649507302]
音声言語におけるディファレンシを正確に検出することは、自動音声処理と言語処理の部品の性能を向上させるのに役立つ。
大規模言語モデル(LLM)を非語彙入力の普遍的な学習者やプロセッサとして展開する最近の傾向に触発されて,言語モデリング問題として多ラベルディフルエンシ検出の課題にアプローチする。
本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。
論文 参考訳(メタデータ) (2024-06-16T17:51:22Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - MAM: Masked Acoustic Modeling for End-to-End Speech-to-Text Translation [27.19320167337675]
本稿では,音声側のみで自己教師型で頑健な音声エンコーダを学習する手法を提案する。
Masked Acoustic Modeling (MAM) と呼ばれるこの技術は、E2E-STを改善する代替ソリューションを提供するだけでなく、任意の音響信号に対して事前学習を行うこともできる。
書き起こしを一切使わずに設定すると,MAM予習による+1.1BLEU,+2.3BLEUの平均的改善が達成される。
論文 参考訳(メタデータ) (2020-10-22T05:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。