論文の概要: Server-side Rescoring of Spoken Entity-centric Knowledge Queries for
Virtual Assistants
- arxiv url: http://arxiv.org/abs/2311.01398v1
- Date: Thu, 2 Nov 2023 17:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 12:35:21.717182
- Title: Server-side Rescoring of Spoken Entity-centric Knowledge Queries for
Virtual Assistants
- Title(参考訳): 仮想アシスタントのためのエンティティ中心知識クエリのサーバサイドリコーリング
- Authors: Youyuan Zhang, Sashank Gondala, Thiago Fraga-Silva, Christophe Van
Gysel
- Abstract要約: 本研究では,音声情報ドメインクエリのサーバ側再構成のためのモデリング手法を実証研究する。
様々なエンティティ中心のクエリサブポピュレーションにおいて、WERは23%-35%の大幅な改善を示した。
また、スクラッチから訓練した複数のサーバサイドLMのモデル融合は、各モデルの相補的な強度を最も効果的に組み合わせていることを示す。
- 参考スコア(独自算出の注目度): 5.996525771249284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device Virtual Assistants (VAs) powered by Automatic Speech Recognition
(ASR) require effective knowledge integration for the challenging entity-rich
query recognition. In this paper, we conduct an empirical study of modeling
strategies for server-side rescoring of spoken information domain queries using
various categories of Language Models (LMs) (N-gram word LMs, sub-word neural
LMs). We investigate the combination of on-device and server-side signals, and
demonstrate significant WER improvements of 23%-35% on various entity-centric
query subpopulations by integrating various server-side LMs compared to
performing ASR on-device only. We also perform a comparison between LMs trained
on domain data and a GPT-3 variant offered by OpenAI as a baseline.
Furthermore, we also show that model fusion of multiple server-side LMs trained
from scratch most effectively combines complementary strengths of each model
and integrates knowledge learned from domain-specific data to a VA ASR system.
- Abstract(参考訳): 自動音声認識(ASR)を利用するオンデバイス仮想アシスタント(VA)は、挑戦的なエンティティリッチなクエリ認識のための効果的な知識統合を必要とする。
本稿では,言語モデル (LM) の様々なカテゴリ (N-gram word LMs, sub-word neural LMs) を用いて, 音声情報領域クエリのサーバ側再構成のためのモデリング手法を実証研究する。
オンデバイスとサーバ側信号の組み合わせについて検討し、ASRオンデバイスのみと比較して、様々なサーバ側LMを統合することにより、様々なエンティティ中心クエリサブポピュレーションに対して23%-35%のWER改善を示す。
また、ドメインデータに基づいてトレーニングされたLMと、OpenAIがベースラインとして提供しているGPT-3の変種との比較を行う。
さらに,スクラッチからトレーニングした複数のサーバサイドlmmのモデル融合が,各モデルの補完的強みを最も効果的に結合し,ドメイン固有データから学習した知識をva asrシステムに統合することを示した。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets [22.29915616018026]
LLM(Large Language Models)は、様々なNLPタスクにおいて非並列の有効性を示す。
本研究の目的は,音声エンコーダ,LLM,プロジェクタモジュールの様々な構成の影響を評価することである。
本研究では,3段階の学習手法を導入し,モデルが聴覚情報とテキスト情報を整合させる能力を高めることを目的とした。
論文 参考訳(メタデータ) (2024-05-03T14:35:58Z) - A Reference-less Quality Metric for Automatic Speech Recognition via
Contrastive-Learning of a Multi-Language Model with Self-Supervision [0.20999222360659603]
本研究は,音声データセット上での異なるASRモデルの性能を比較するための基準のない品質指標を提案する。
ASR仮説の質を推定するために、事前訓練された言語モデル(LM)を自己教師付き学習方式でコントラスト学習により微調整する。
提案した基準レス計量は、すべての実験において最先端の多言語LMからWERスコアとそれらのランクとの相関をはるかに高める。
論文 参考訳(メタデータ) (2023-06-21T21:33:39Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Integrating Categorical Features in End-to-End ASR [1.332560004325655]
全神経終末のASRシステムは、単一のトレーニング可能なニューラルネットワークモデルを用いて音声入力をテキスト単位に変換する。
E2Eモデルは、入手するのに高価な大量のペア音声テキストデータを必要とする。
分類的特徴をE2Eモデルに組み込む方法を提案する。
論文 参考訳(メタデータ) (2021-10-06T20:07:53Z) - Multimodal Federated Learning [9.081857621783811]
IoTデバイスを備えたスマートホームなど、多くのアプリケーションでは、クライアント上のローカルデータは、さまざまなモダリティから生成される。
既存のフェデレーション学習システムは、単一のモダリティからのローカルデータのみを扱うため、システムのスケーラビリティが制限される。
本稿では,クライアント上で異なるローカルデータモダリティから共有あるいは相関表現を抽出するよう,オートエンコーダを訓練するマルチモーダル・セミ教師付きフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-10T12:32:46Z) - Arabic Code-Switching Speech Recognition using Monolingual Data [13.513655231184261]
自動音声認識(ASR)におけるコードスイッチングは,グローバル化による重要な課題である。
最近の多言語ASRの研究は、モノリンガルシステムに対する潜在的な改善を示している。
我々は,大規模ASR実験を通じて,ASRの多言語モデリングに関連する重要な課題について検討した。
論文 参考訳(メタデータ) (2021-07-04T08:40:49Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。