論文の概要: Record Deduplication for Entity Distribution Modeling in ASR Transcripts
- arxiv url: http://arxiv.org/abs/2306.06246v1
- Date: Fri, 9 Jun 2023 20:42:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:11:10.748784
- Title: Record Deduplication for Entity Distribution Modeling in ASR Transcripts
- Title(参考訳): asr転写におけるエンティティ分布モデリングのためのレコード重複
- Authors: Tianyu Huang, Chung Hoon Hong, Carl Wivagg, Kanna Shimizu
- Abstract要約: 我々は、誤認識されたエンティティの95%を取得するために、レコード重複を使用します。
文脈バイアスに用いた場合,提案手法は単語誤り率の5%削減を推定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice digital assistants must keep up with trending search queries. We rely
on a speech recognition model using contextual biasing with a rapidly updated
set of entities, instead of frequent model retraining, to keep up with trends.
There are several challenges with this approach: (1) the entity set must be
frequently reconstructed, (2) the entity set is of limited size due to latency
and accuracy trade-offs, and (3) finding the true entity distribution for
biasing is complicated by ASR misrecognition. We address these challenges and
define an entity set by modeling customers true requested entity distribution
from ASR output in production using record deduplication, a technique from the
field of entity resolution. Record deduplication resolves or deduplicates
coreferences, including misrecognitions, of the same latent entity. Our method
successfully retrieves 95% of misrecognized entities and when used for
contextual biasing shows an estimated 5% relative word error rate reduction.
- Abstract(参考訳): 音声デジタルアシスタントはトレンド検索に追随しなければならない。
我々は,頻繁なモデル再訓練ではなく,文脈バイアスを用いた音声認識モデルを用いて傾向に追従する。
このアプローチには,(1) エンティティセットを頻繁に再構成しなければならない,(2) エンティティセットはレイテンシと精度のトレードオフによる限られたサイズであり,(3) バイアスの真のエンティティ分布を見つけることは,ASR の誤認識によって複雑になる,という課題がある。
我々は,これらの課題に対処し,本番環境でのasr出力から真に要求されるエンティティ分布をモデル化したエンティティセットを,エンティティ解決の分野からの手法であるレコード重複を用いて定義する。
record deduplicationは、同じ潜在エンティティの誤認識を含むコリファレンスを解決または重複させる。
本手法は誤認識されたエンティティの95%の検索に成功し,文脈バイアスに用いると5%の単語誤り率低下が推定される。
関連論文リスト
- Grasping the Essentials: Tailoring Large Language Models for Zero-Shot
Relation Extraction [36.627683488532234]
関係抽出(RE)は、テキストで言及されたエンティティ間の意味的関係を識別することを目的としている。
標的関係のセマンティクスを理解するために、不完全で偏見のある監視を提供するような学習設定はほとんどない。
本稿では、自然言語で表現された関係定義のみを用いてREモデルを訓練するゼロショットRE設定について検討する。
論文 参考訳(メタデータ) (2024-02-17T00:20:06Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - Improving Factual Consistency in Summarization with Compression-Based
Post-Editing [146.24839415743358]
この問題に対処するためのモデルに依存しない方法は、生成された要約を後編集することであることを示す。
本稿では,文圧縮データを用いて後編集モデルを訓練し,特別なトークンでマークされた外在的エンティティエラーを要約する手法を提案する。
我々は,このモデルがROUGEを維持しながら事実整合性を向上し,XSum上でのエンティティ精度を最大30%向上し,他のポストエディタ上でも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-11T13:35:38Z) - Space-Efficient Representation of Entity-centric Query Language Models [8.712427362992237]
モデル生成時の非項の明示的な拡張を回避するため,確率文法に決定論的近似を導入する。
また、同じ大きさのn-gramモデルを用いた場合と比較して、長テールエンティティクエリの単語誤り率を10%改善する。
論文 参考訳(メタデータ) (2022-06-29T19:59:50Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Automatically Generating Counterfactuals for Relation Exaction [18.740447044960796]
関係抽出(RE)は自然言語処理の基本課題である。
現在のディープニューラルモデルは高い精度を達成しているが、スプリアス相関の影響を受けやすい。
我々は、エンティティの文脈的反事実を導出するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2022-02-22T04:46:10Z) - A Discriminative Entity-Aware Language Model for Virtual Assistants [4.2854663014000876]
仮想アシスタント(VA)では,高品質な自動音声認識(ASR)が不可欠である。
本研究は、実世界の知識と矛盾する名前付きエンティティ上の多くのASRエラーを観察することから始める。
我々は、従来の差別的なn-gram言語モデリングアプローチを拡張し、知識グラフから現実世界の知識を取り入れた。
論文 参考訳(メタデータ) (2021-06-21T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。