論文の概要: PROFASR-BENCH: A Benchmark for Context-Conditioned ASR in High-Stakes Professional Speech
- arxiv url: http://arxiv.org/abs/2512.23686v1
- Date: Mon, 29 Dec 2025 18:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.618026
- Title: PROFASR-BENCH: A Benchmark for Context-Conditioned ASR in High-Stakes Professional Speech
- Title(参考訳): ProFASR-BENCH:高音域音声における文脈記述型ASRのベンチマーク
- Authors: Deepak Babu Piskala,
- Abstract要約: ProfASR-Benchは、金融、医療、法律、技術全般にわたる高度な応用のためのプロフェッショナルトーク評価スイートである。
それぞれの例は、自然言語プロンプトとエンティティリッチなターゲット発話をペアリングし、コンテキスト条件認識の制御された計測を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Speech Recognition (ASR) in professional settings faces challenges that existing benchmarks underplay: dense domain terminology, formal register variation, and near-zero tolerance for critical entity errors. We present ProfASR-Bench, a professional-talk evaluation suite for high-stakes applications across finance, medicine, legal, and technology. Each example pairs a natural-language prompt (domain cue and/or speaker profile) with an entity-rich target utterance, enabling controlled measurement of context-conditioned recognition. The corpus supports conventional ASR metrics alongside entity-aware scores and slice-wise reporting by accent and gender. Using representative families Whisper (encoder-decoder ASR) and Qwen-Omni (audio language models) under matched no-context, profile, domain+profile, oracle, and adversarial conditions, we find a consistent pattern: lightweight textual context produces little to no change in average word error rate (WER), even with oracle prompts, and adversarial prompts do not reliably degrade performance. We term this the context-utilization gap (CUG): current systems are nominally promptable yet underuse readily available side information. ProfASR-Bench provides a standardized context ladder, entity- and slice-aware reporting with confidence intervals, and a reproducible testbed for comparing fusion strategies across model families. Dataset: https://huggingface.co/datasets/prdeepakbabu/ProfASR-Bench Code: https://github.com/prdeepakbabu/ProfASR-Bench
- Abstract(参考訳): プロフェッショナル環境での自動音声認識(ASR)は、既存のベンチマークが実行している課題に直面している。
ProfASR-Benchは、金融、医療、法律、技術全般にわたる高度な応用のためのプロフェッショナルトーク評価スイートである。
それぞれの例は、自然言語プロンプト(ドメインキューと/または話者プロファイル)とエンティティリッチなターゲット発話をペアリングし、コンテキスト条件の認識を制御できる。
コーパスは、エンティティ認識スコアとアクセントと性別によるスライスワイズレポートとともに、従来のASRメトリクスをサポートする。
Whisper (encoder-decoder ASR) と Qwen-Omni (audio language model) は一致した文脈, プロファイル, ドメイン+注目, オラクル, および敵対的な条件下で一貫したパターンを見つける。
現状のシステムは、名目上はアクセラブルだが、手軽に利用できるサイド情報である。
ProfASR-Benchは標準化されたコンテキストラグ、信頼区間を持つエンティティとスライスを意識したレポート、モデルファミリ間の融合戦略を比較する再現可能なテストベッドを提供する。
Dataset: https://huggingface.co/datasets/prdeepakbabu/ProfASR-Bench Code: https://github.com/prdeepakbabu/ProfASR-Bench
関連論文リスト
- Influence Guided Context Selection for Effective Retrieval-Augmented Generation [23.188397777606095]
Retrieval-Augmented Generation (RAG)は、大きな言語モデル(LLM)の幻覚に対処する。
既存のアプローチは、定義済みのコンテキスト品質評価指標に基づいて、コンテキスト選択によるパフォーマンスの向上を試みる。
我々は、文脈品質評価を推論時データ評価問題として再認識し、文脈影響値(CI値)を導入する。
リストから各コンテキストを除去する際の性能劣化を測定することにより、コンテキスト品質を定量化する。
論文 参考訳(メタデータ) (2025-09-21T07:19:09Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Conflict-Aware Soft Prompting for Retrieval-Augmented Generation [13.671410389511498]
Retrieval-augmented Generation (RAG)は、外部知識を入力プロンプトに組み込むことで、大規模言語モデル(LLM)の能力を高める。
RAGはしばしば、誤った外部コンテキストと正しいパラメトリック知識の間の競合を解決できない。
コンテクストアセスタとベースLLMから構成されるCARE(Conflict-Aware Retrieval-Augmented Generation)を紹介する。
CAREはコンテキストメモリの競合を効果的に軽減し、QAとファクトチェックベンチマークの平均パフォーマンスは5.0%向上した。
論文 参考訳(メタデータ) (2025-08-21T05:36:29Z) - ContextASR-Bench: A Massive Contextual Speech Recognition Benchmark [28.28891500803133]
自動音声認識システムの言語能力を評価するためにContextASR-Benchを提案する。
最大4万のデータエントリを含み、10ドメインに30万以上の名前付きエンティティがある。
LALMは、LLMの強い世界知識とコンテキストモデリングのおかげで、従来のASRモデルよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2025-07-08T07:21:20Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - SFR-RAG: Towards Contextually Faithful LLMs [57.666165819196486]
Retrieval Augmented Generation (RAG) は、外部コンテキスト情報を大言語モデル(LLM)と統合し、事実の精度と妥当性を高めるパラダイムである。
SFR-RAG(SFR-RAG)について述べる。
また、複数の人気かつ多様なRAGベンチマークをコンパイルする新しい評価フレームワークであるConBenchについても紹介する。
論文 参考訳(メタデータ) (2024-09-16T01:08:18Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。