論文の概要: Zero-Shot End-To-End Spoken Question Answering In Medical Domain
- arxiv url: http://arxiv.org/abs/2406.05876v1
- Date: Sun, 9 Jun 2024 18:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:38:03.668367
- Title: Zero-Shot End-To-End Spoken Question Answering In Medical Domain
- Title(参考訳): 医療領域におけるゼロショットの終末質問応答
- Authors: Yanis Labrak, Adel Moumen, Richard Dufour, Mickael Rouvier,
- Abstract要約: 従来のカスケードシステムと比較して,ゼロショット型SQA方式を提案する。
我々は1.55BパラメータASRモデルと組み合わせた1.3BパラメータLLMの最大14.7倍のリソースを必要とすることを実証した。
- 参考スコア(独自算出の注目度): 6.903904187665984
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In the rapidly evolving landscape of spoken question-answering (SQA), the integration of large language models (LLMs) has emerged as a transformative development. Conventional approaches often entail the use of separate models for question audio transcription and answer selection, resulting in significant resource utilization and error accumulation. To tackle these challenges, we explore the effectiveness of end-to-end (E2E) methodologies for SQA in the medical domain. Our study introduces a novel zero-shot SQA approach, compared to traditional cascade systems. Through a comprehensive evaluation conducted on a new open benchmark of 8 medical tasks and 48 hours of synthetic audio, we demonstrate that our approach requires up to 14.7 times fewer resources than a combined 1.3B parameters LLM with a 1.55B parameters ASR model while improving average accuracy by 0.5\%. These findings underscore the potential of E2E methodologies for SQA in resource-constrained contexts.
- Abstract(参考訳): 音声質問応答(SQA)の急速な発展にともなって,大きな言語モデル(LLM)の統合が革新的発展として現れている。
従来のアプローチでは、問合せ音声の書き起こしと解答の選択に別々のモデルを使う場合が多く、リソース利用とエラーの蓄積が顕著である。
これらの課題に対処するため,医療領域におけるSQAのエンド・ツー・エンド(E2E)手法の有効性を検討する。
本研究は,従来のカスケードシステムと比較して,ゼロショットSQAアプローチを導入している。
8つの医療タスクと48時間の合成音声のオープンベンチマークで実施した総合的な評価により,本手法は1.55BパラメータASRモデルと組み合わせた1.3BパラメータLLMの最大14.7倍のリソースが必要であり,平均精度は0.5\%向上することを示した。
これらの知見は,資源制約条件下でのSQAに対するE2E法の可能性を明らかにするものである。
関連論文リスト
- Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Exploring Pathological Speech Quality Assessment with ASR-Powered Wav2Vec2 in Data-Scarce Context [7.567181073057191]
本稿では,データ不足にもかかわらずセグメントではなく,音声レベルで学習する手法を提案する。
その結果, ASR に基づく Wav2Vec2 モデルが最高の結果をもたらし, ASR と音声品質評価との間に強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2024-03-29T13:59:34Z) - Zero-Shot Multi-task Hallucination Detection [8.539639901976594]
幻覚は、生成したテキストがソースへの忠実さを欠いているモデルにおいて、創発的な状態である。
幻覚を正式に定義し,ゼロショット設定における定量的検出のための枠組みを提案する。
幻覚検出では, モデル認識設定では0.78, モデル認識設定では0.61の精度が得られた。
論文 参考訳(メタデータ) (2024-03-18T20:50:26Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - UNIMIB at TREC 2021 Clinical Trials Track [2.840363325289377]
この貢献は、UNIMIBチームのTREC 2021臨床試験トラックへの参加を要約している。
本研究では,クエリ表現と複数の検索モデルの組み合わせが検索性能に与える影響について検討した。
論文 参考訳(メタデータ) (2022-07-27T13:39:30Z) - A Lottery Ticket Hypothesis Framework for Low-Complexity Device-Robust
Neural Acoustic Scene Classification [78.04177357888284]
デバイス・ロバスト音響シーン分類(ASC)のためのデータ拡張、知識伝達、プルーニング、量子化を組み合わせた新しいニューラルモデル圧縮戦略を提案する。
本稿では,低複雑マルチデバイスASCのためのアコースティック・ロッテリー(Austratic Lottery)という,効率的なジョイント・フレームワークについて報告する。
論文 参考訳(メタデータ) (2021-07-03T16:25:24Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。