論文の概要: LingVarBench: Benchmarking LLM for Automated Named Entity Recognition in Structured Synthetic Spoken Transcriptions
- arxiv url: http://arxiv.org/abs/2508.15801v1
- Date: Wed, 13 Aug 2025 21:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.543313
- Title: LingVarBench: Benchmarking LLM for Automated Named Entity Recognition in Structured Synthetic Spoken Transcriptions
- Title(参考訳): LingVarBench:構造化音声転写における名前付きエンティティの自動認識のためのベンチマークLLM
- Authors: Seyedali Mohammadi, Manas Paldhe, Amit Chhabra,
- Abstract要約: 既存の抽出法は、不一致、中断、話者重複を含む会話音声で失敗する。
自動検証を通じてこれらの制約に対処する合成データ生成パイプラインであるLingVarBenchを紹介する。
LingVarBenchは、合成会話データから構造化された抽出のための最初の体系的なベンチマークを提供する。
- 参考スコア(独自算出の注目度): 1.2130055167466958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phone call transcript labeling is prohibitively expensive (approximately 2 USD per minute) due to privacy regulations, consent requirements, and manual annotation costs requiring 3 hours of expert time per hour of audio. Existing extraction methods fail on conversational speech containing disfluencies, interruptions, and speaker overlap. We introduce LingVarBench, a synthetic data generation pipeline that addresses these constraints through automated validation. First, we prompt an LLM to generate realistic structured field values across multiple use cases. Second, we recursively prompt the model to transform these values into thousands of natural conversational utterances containing typical phone call characteristics. Third, we validate each synthetic utterance by testing whether a separate LLM-based extractor can recover the original structured information. We employ DSPy's SIMBA optimizer to automatically synthesize extraction prompts from validated synthetic transcripts, eliminating manual prompt engineering. Our optimized prompts achieve up to 95 percent accuracy for numeric fields (vs. 88-89 percent zero-shot), 90 percent for names (vs. 47-79 percent), and over 80 percent for dates (vs. 72-77 percent) on real customer transcripts, demonstrating substantial gains over zero-shot prompting. The synthetic-to-real transfer demonstrates that conversational patterns learned from generated data generalize effectively to authentic phone calls containing background noise and domain-specific terminology. LingVarBench provides the first systematic benchmark for structured extraction from synthetic conversational data, demonstrating that automated prompt optimization overcomes cost and privacy barriers preventing large-scale phone call analysis in commercial settings.
- Abstract(参考訳): 電話による文字起こしのラベリングは、プライバシー規制、同意要件、マニュアルアノテーションのコストが1時間に3時間の専門的時間を必要とするため、禁止的に高価(約1分間に2USドル)である。
既存の抽出法は、不一致、中断、話者重複を含む会話音声で失敗する。
自動検証を通じてこれらの制約に対処する合成データ生成パイプラインであるLingVarBenchを紹介する。
まず、LLMに複数のユースケースにまたがって現実的な構造化されたフィールド値を生成するように促す。
第二に、これらの値を典型的な通話特性を含む何千もの自然な会話発話に変換するよう、モデルに再帰的に促す。
第3に、別個のLCMベースの抽出器が元の構造化情報を復元できるかどうかを検証して、それぞれの合成発話を検証する。
我々は、DSPyのSIMBAオプティマイザを用いて、検証済みの合成文からの抽出プロンプトを自動的に合成し、手動のプロンプト工学を除去する。
最適化されたプロンプトは、数値フィールドの最大95%の精度(88~99%ゼロショット)、名前の90%(47~99%)、実際の顧客書き起こしの日付(72~77%)を最大で達成し、ゼロショットプロンプトよりも大幅に向上した。
生成したデータから学習した会話パターンが、背景雑音やドメイン固有の用語を含む認証電話に効果的に一般化されることを示す。
LingVarBenchは、合成会話データから構造化された抽出のための最初の体系的なベンチマークを提供する。
関連論文リスト
- Beyond Prompting: Efficient and Robust Contextual Biasing for Speech LLMs via Logit-Space Integration (LOGIC) [8.474586607625737]
我々は、デコード層で直接動作する効率的で堅牢なフレームワークであるLOGICを紹介する。
LogICは、入力処理からコンテキストインジェクションを分離し、一定時間の複雑さを保証する。
Phi-4-MMモデルを11個の多言語局所で実験したところ、LOGICはEntity WERの平均9%の相対的な減少を達成することが示された。
論文 参考訳(メタデータ) (2026-01-21T19:08:45Z) - TeleAntiFraud-28k: An Audio-Text Slow-Thinking Dataset for Telecom Fraud Detection [16.3518216479454]
本稿では,TeleAntiFraud-28kについて紹介する。
本データセットは,(1)自動音声認識(ASR)で書き起こされた通話記録(匿名化元音声)を用いたプライバシ保存テキストトラス・サンプル生成,(2)大規模言語モデル(LLM)に基づく自己指示サンプリングによるシナリオカバレッジの拡大,の3つの戦略により構築されている。
生成されたデータセットは、厳密に処理された28,511の音声テキストペアを含み、不正推論のための詳細なアノテーションを完備している。
論文 参考訳(メタデータ) (2025-03-31T14:06:17Z) - LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - Speech-Forensics: Towards Comprehensive Synthetic Speech Dataset Establishment and Analysis [21.245160899212774]
本稿では,音声サンプルの真正性,合成性,部分的偽造性を広範囲に網羅し,音声・フォレンジスデータセットを提案する。
我々はまた、認証検出、複数の偽セグメントのローカライゼーション、アルゴリズム認識を同時に行うことを目的とした、TEST(TEmporal Speech LocalizaTion Network)を提案する。
平均mAPは83.55%,EERは5.25%である。
論文 参考訳(メタデータ) (2024-12-12T07:48:17Z) - Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models [16.920823078873095]
仮想アシスタント(VA)とのフォローアップ会話により、ユーザはキーワードを使って繰り返し呼び出すことなく、VAとシームレスに対話できる。
本稿では,従来の音声文脈とASRの不確実性との連成モデルにより,この手法が大きな利益をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-28T19:43:43Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - A Multimodal Approach to Device-Directed Speech Detection with Large Language Models [41.37311266840156]
我々は、ユーザが各コマンドをトリガーフレーズで開始しなければならないという要求を省くことが可能かどうかを探る。
音声波形から得られた音響情報のみを用いて分類器を訓練する。
本研究では,1-best仮説などの自動音声認識システムのデコーダ出力を,大規模言語モデルへの入力特徴とみなす。
論文 参考訳(メタデータ) (2024-03-21T14:44:03Z) - Embedded Named Entity Recognition using Probing Classifiers [10.573861741540853]
EMBERはデコーダのみの言語モデルで名前付きエンティティ認識を微調整することなくストリーミングできる。
EMBERは高いトークン生成率を維持しており, 約1%の速度低下しか認められていない。
トレーニング、テスト、効率的なトークン分類モデルをデプロイするためのツールキットを含む、コードとデータをオンラインで公開しています。
論文 参考訳(メタデータ) (2024-03-18T12:58:16Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。