論文の概要: LingVarBench: Benchmarking LLM for Automated Named Entity Recognition in Structured Synthetic Spoken Transcriptions
- arxiv url: http://arxiv.org/abs/2508.15801v1
- Date: Wed, 13 Aug 2025 21:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.543313
- Title: LingVarBench: Benchmarking LLM for Automated Named Entity Recognition in Structured Synthetic Spoken Transcriptions
- Title(参考訳): LingVarBench:構造化音声転写における名前付きエンティティの自動認識のためのベンチマークLLM
- Authors: Seyedali Mohammadi, Manas Paldhe, Amit Chhabra,
- Abstract要約: 既存の抽出法は、不一致、中断、話者重複を含む会話音声で失敗する。
自動検証を通じてこれらの制約に対処する合成データ生成パイプラインであるLingVarBenchを紹介する。
LingVarBenchは、合成会話データから構造化された抽出のための最初の体系的なベンチマークを提供する。
- 参考スコア(独自算出の注目度): 1.2130055167466958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phone call transcript labeling is prohibitively expensive (approximately 2 USD per minute) due to privacy regulations, consent requirements, and manual annotation costs requiring 3 hours of expert time per hour of audio. Existing extraction methods fail on conversational speech containing disfluencies, interruptions, and speaker overlap. We introduce LingVarBench, a synthetic data generation pipeline that addresses these constraints through automated validation. First, we prompt an LLM to generate realistic structured field values across multiple use cases. Second, we recursively prompt the model to transform these values into thousands of natural conversational utterances containing typical phone call characteristics. Third, we validate each synthetic utterance by testing whether a separate LLM-based extractor can recover the original structured information. We employ DSPy's SIMBA optimizer to automatically synthesize extraction prompts from validated synthetic transcripts, eliminating manual prompt engineering. Our optimized prompts achieve up to 95 percent accuracy for numeric fields (vs. 88-89 percent zero-shot), 90 percent for names (vs. 47-79 percent), and over 80 percent for dates (vs. 72-77 percent) on real customer transcripts, demonstrating substantial gains over zero-shot prompting. The synthetic-to-real transfer demonstrates that conversational patterns learned from generated data generalize effectively to authentic phone calls containing background noise and domain-specific terminology. LingVarBench provides the first systematic benchmark for structured extraction from synthetic conversational data, demonstrating that automated prompt optimization overcomes cost and privacy barriers preventing large-scale phone call analysis in commercial settings.
- Abstract(参考訳): 電話による文字起こしのラベリングは、プライバシー規制、同意要件、マニュアルアノテーションのコストが1時間に3時間の専門的時間を必要とするため、禁止的に高価(約1分間に2USドル)である。
既存の抽出法は、不一致、中断、話者重複を含む会話音声で失敗する。
自動検証を通じてこれらの制約に対処する合成データ生成パイプラインであるLingVarBenchを紹介する。
まず、LLMに複数のユースケースにまたがって現実的な構造化されたフィールド値を生成するように促す。
第二に、これらの値を典型的な通話特性を含む何千もの自然な会話発話に変換するよう、モデルに再帰的に促す。
第3に、別個のLCMベースの抽出器が元の構造化情報を復元できるかどうかを検証して、それぞれの合成発話を検証する。
我々は、DSPyのSIMBAオプティマイザを用いて、検証済みの合成文からの抽出プロンプトを自動的に合成し、手動のプロンプト工学を除去する。
最適化されたプロンプトは、数値フィールドの最大95%の精度(88~99%ゼロショット)、名前の90%(47~99%)、実際の顧客書き起こしの日付(72~77%)を最大で達成し、ゼロショットプロンプトよりも大幅に向上した。
生成したデータから学習した会話パターンが、背景雑音やドメイン固有の用語を含む認証電話に効果的に一般化されることを示す。
LingVarBenchは、合成会話データから構造化された抽出のための最初の体系的なベンチマークを提供する。
関連論文リスト
- TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection [16.3518216479454]
本稿では,TeleAntiFraud-28kについて紹介する。
本データセットは,(1)自動音声認識(ASR)で書き起こされた通話記録(匿名化元音声)を用いたプライバシ保存テキストトラス・サンプル生成,(2)大規模言語モデル(LLM)に基づく自己指示サンプリングによるシナリオカバレッジの拡大,の3つの戦略により構築されている。
生成されたデータセットは、厳密に処理された28,511の音声テキストペアを含み、不正推論のための詳細なアノテーションを完備している。
論文 参考訳(メタデータ) (2025-03-31T14:06:17Z) - Speech-Forensics: Towards Comprehensive Synthetic Speech Dataset Establishment and Analysis [21.245160899212774]
本稿では,音声サンプルの真正性,合成性,部分的偽造性を広範囲に網羅し,音声・フォレンジスデータセットを提案する。
我々はまた、認証検出、複数の偽セグメントのローカライゼーション、アルゴリズム認識を同時に行うことを目的とした、TEST(TEmporal Speech LocalizaTion Network)を提案する。
平均mAPは83.55%,EERは5.25%である。
論文 参考訳(メタデータ) (2024-12-12T07:48:17Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Embedded Named Entity Recognition using Probing Classifiers [10.573861741540853]
EMBERはデコーダのみの言語モデルで名前付きエンティティ認識を微調整することなくストリーミングできる。
EMBERは高いトークン生成率を維持しており, 約1%の速度低下しか認められていない。
トレーニング、テスト、効率的なトークン分類モデルをデプロイするためのツールキットを含む、コードとデータをオンラインで公開しています。
論文 参考訳(メタデータ) (2024-03-18T12:58:16Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。