論文の概要: Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild
- arxiv url: http://arxiv.org/abs/2604.07354v1
- Date: Sat, 28 Mar 2026 05:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.658973
- Title: Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild
- Title(参考訳): 文脈耳-22:野生におけるカスタム語彙を用いた音声認識ベンチマーク
- Authors: Berkin Durmus, Chen Cen, Eduardo Pacheco, Arda Okan, Atila Orhon,
- Abstract要約: 音声からテキストへの精度は学術ベンチマークで高められている。
これとは対照的に、産業ベンチマークやハイテイクドメインの採用は、そうでないことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The accuracy frontier of speech-to-text systems has plateaued on academic benchmarks.1 In contrast, industrial benchmarks and adoption in high-stakes domains suggest otherwise. We hypothesize that the primary difference between the two is contextual conditioning: Academic benchmarks are dominated by frequently encountered general vocabulary that is relatively easy to recognize compared with rare and context-defined custom vocabulary that has disproportionate impact on the usability of speech transcripts. Despite progress on contextual speech-to-text, there is no standardized benchmark. We introduce Contextual Earnings-22, an open dataset built upon Earnings-22, with realistic custom vocabulary contexts to foster research and reveal latent progress. We set six strong baselines for two dominant approaches: keyword prompting and keyword boosting. Experiments show both reach comparable and significantly improved accuracy when scaled from proof-of-concept to large-scale systems.
- Abstract(参考訳): 音声テキストシステムの精度フロンティアは、学術ベンチマークで高い評価を受けている。
これとは対照的に、産業ベンチマークやハイテイクドメインの採用は、そうでないことを示唆している。
学術ベンチマークは、しばしば遭遇する一般的な語彙に支配され、稀で文脈定義のカスタム語彙に比べて認識が比較的容易であり、音声文字の使い勝手に不均等な影響を及ぼす。
文脈的音声テキストの進歩にもかかわらず、標準化されたベンチマークは存在しない。
Earnings-22上に構築されたオープンデータセットであるContextual Earnings-22を紹介する。
キーワードプロンプトとキーワードブーピングの2つの主要なアプローチに対して,6つの強力なベースラインを設定した。
実験では、概念実証から大規模システムへのスケールでは、同等で精度が大幅に向上した。
関連論文リスト
- Which Words Matter Most in Zero-Shot Prompts? [16.347012287506253]
ZIPスコアは、命令プロンプトにおいて個々の単語の重要性を定量化する最初の体系的手法である。
数学的な問題が「ステップ・バイ・ステップ」を優先するタスク固有の単語階層が存在し、推論タスクは「思考」を好むことを示す。
我々は,20の検証プロンプトを所定キーワードで行うことで,素早い解釈可能性を示す最初の基盤トラバス・ベンチマークを確立する。
論文 参考訳(メタデータ) (2025-02-05T18:04:29Z) - How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System? [7.252894835396412]
シマルST(SimulST)は、話者の音声とソース言語音声を同時に翻訳し、ユーザの理解を深めるために低レイテンシを確保する。
非有界音声への応用を意図したものの、ほとんどの研究は、人間の事前隔離された音声に焦点を当て、タスクを単純化し、重要な課題を見落としている。
論文 参考訳(メタデータ) (2024-12-24T15:26:31Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Incorporating Context into Subword Vocabularies [3.22352610570206]
SaGeは、語彙生成フェーズでコンテキスト化されたシグナルを焼くことによって、下流での使用のためにサブワードを調整するトークンライザである。
SaGeはトークンコンテキストの凝集性を維持するために、現在の広く普及しているトークン化ツールよりも優れた仕事をしていることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:22:59Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Improving Machine Reading Comprehension with Contextualized Commonsense
Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。
構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。
我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文 参考訳(メタデータ) (2020-09-12T17:20:01Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。