Fugu-MT 論文翻訳(概要): Cross-sentence Neural Language Models for Conversational Speech Recognition

論文の概要: Cross-sentence Neural Language Models for Conversational Speech Recognition

arxiv url: http://arxiv.org/abs/2106.06922v2
Date: Tue, 15 Jun 2021 04:44:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-16 10:33:49.196343
Title: Cross-sentence Neural Language Models for Conversational Speech Recognition
Title（参考訳）: 会話音声認識のためのクロスセンスニューラルネットワークモデル
Authors: Shih-Hsuan Chiu, Tien-Hong Lo and Berlin Chen
Abstract要約: 本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
参考スコア（独自算出の注目度）: 17.317583079824423
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An important research direction in automatic speech recognition (ASR) has centered around the development of effective methods to rerank the output hypotheses of an ASR system with more sophisticated language models (LMs) for further gains. A current mainstream school of thoughts for ASR N-best hypothesis reranking is to employ a recurrent neural network (RNN)-based LM or its variants, with performance superiority over the conventional n-gram LMs across a range of ASR tasks. In real scenarios such as a long conversation, a sequence of consecutive sentences may jointly contain ample cues of conversation-level information such as topical coherence, lexical entrainment and adjacency pairs, which however remains to be underexplored. In view of this, we first formulate ASR N-best reranking as a prediction problem, putting forward an effective cross-sentence neural LM approach that reranks the ASR N-best hypotheses of an upcoming sentence by taking into consideration the word usage in its precedent sentences. Furthermore, we also explore to extract task-specific global topical information of the cross-sentence history in an unsupervised manner for better ASR performance. Extensive experiments conducted on the AMI conversational benchmark corpus indicate the effectiveness and feasibility of our methods in comparison to several state-of-the-art reranking methods.
Abstract（参考訳）: 自動音声認識(ASR)における重要な研究の方向性は、より洗練された言語モデル(LM)を用いたASRシステムの出力仮説を再現する効果的な手法の開発である。 ASR N-best仮説の現在の主流の考え方は、リカレントニューラルネットワーク(RNN)ベースのLMまたはその変種を採用することであり、従来のn-gram LMよりも様々なASRタスクで性能が優れている。長い会話のような実際のシナリオでは、連続した文の連続は、話題のコヒーレンス、語彙のエントレインメント、隣接ペアといった会話レベルの情報を豊富に含んでいるが、未検討のままである。そこで我々はまず, ASR N-best を予測問題として定式化し, 先行文の単語使用法を考慮し, 今後の文の ASR N-best 仮説を再帰的に再帰する, 効果的な横断型ニューラルネットワーク LM アプローチを提案する。さらに,asr性能を向上させるために,クロスセンテンス履歴のタスク固有のグローバルトピック情報を抽出することも検討した。 AMI対話型ベンチマークコーパスで実施した広範囲な実験により,提案手法の有効性と妥当性が示唆された。

関連論文リスト

Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文参考訳（メタデータ） (2026-02-24T14:46:54Z)
Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文参考訳（メタデータ） (2025-11-12T08:29:39Z)
Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。この調査は両鎖を統一的推論-検索の観点から合成する。
論文参考訳（メタデータ） (2025-07-13T03:29:41Z)
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [3.505838221203969]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。応答を話者対応音声合成により合成音声に変換する。マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文参考訳（メタデータ） (2025-06-04T15:42:53Z)
CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation [68.81271028921647]
我々は,現実的なマルチターン対話環境におけるRAGシステム評価のためのベンチマークであるCORALを紹介する。コラルにはウィキペディアから自動的に派生した多様な情報検索会話が含まれている。対話型RAGの3つの中核的なタスク、すなわち、通過検索、応答生成、および引用ラベリングをサポートする。
論文参考訳（メタデータ） (2024-10-30T15:06:32Z)
Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文参考訳（メタデータ） (2024-05-26T19:58:38Z)
Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文参考訳（メタデータ） (2024-01-05T17:58:10Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Cross-utterance ASR Rescoring with Graph-based Label Propagation [14.669201156515891]
本稿では,グラフに基づくラベルの伝搬を反映した新しいASR N-best仮説を提案する。従来のニューラルネットワークモデル(LM)をベースとしたASR再構成/格付けモデルとは対照的に,本手法は音響情報に重点を置いている。
論文参考訳（メタデータ） (2023-03-27T12:08:05Z)
Factual Consistency Oriented Speech Recognition [23.754107608608106]
提案フレームワークは, ASR の仮説と接地真実の整合性を最大化するために, ASR モデルを最適化する。提案手法を用いてASRモデルのトレーニングを行うことにより,会話要約の事実整合性によって,音声要約品質が向上することが示されている。
論文参考訳（メタデータ） (2023-02-24T00:01:41Z)
A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。 WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文参考訳（メタデータ） (2022-03-31T06:39:14Z)
Conversational speech recognition leveraging effective fusion methods for cross-utterance language modeling [12.153618111267514]
音声認識における言語モデリングのための異種会話履歴融合手法を提案する。現在の発話の音響埋め込みとそれに対応する会話履歴のセマンティックコンテンツとを融合して利用する新しい音声融合機構が導入された。我々は,ASR N-best仮説再構成タスクを予測問題として,象徴的な事前学習型LMであるBERTを活用する。
論文参考訳（メタデータ） (2021-11-05T09:07:23Z)
A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文参考訳（メタデータ） (2021-10-11T13:05:06Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。