論文の概要: MaLa-ASR: Multimedia-Assisted LLM-Based ASR
- arxiv url: http://arxiv.org/abs/2406.05839v1
- Date: Sun, 9 Jun 2024 16:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:47:48.408455
- Title: MaLa-ASR: Multimedia-Assisted LLM-Based ASR
- Title(参考訳): MaLa-ASR:マルチメディアLLMベースのASR
- Authors: Guanrou Yang, Ziyang Ma, Fan Yu, Zhifu Gao, Shiliang Zhang, Xie Chen,
- Abstract要約: プレゼンテーションスライドから抽出したテキストキーワードを統合して,会議内容の認識を改善する,LLMベースのASRモデルであるMaLa-ASRを提案する。
MaLa-ASR の平均 WER は L95 と S95 のサブセットで 9.4% と 11.7% であり、ベースラインモデルでは 27.9% と 44.7% の減少を示している。
- 参考スコア(独自算出の注目度): 46.0533623182935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As more and more information-rich data like video become available, utilizing multi-modal auxiliary information to enhance audio tasks has sparked widespread research interest. The recent surge in research on LLM-based audio models provides fresh perspectives for tackling audio tasks. Given that LLM can flexibly ingest multiple inputs, we propose MaLa-ASR, an LLM-based ASR model that can integrate textual keywords extracted from presentation slides to improve recognition of conference content. MaLa-ASR yields average WERs of 9.4% and 11.7% on the L95 and S95 subsets of the SlideSpeech corpus, representing a significant relative WER drop of 27.9% and 44.7% over the baseline model reported in SlideSpeech. MaLa-ASR underscores LLM's strong performance in speech tasks and the capability to integrate auxiliary information conveniently. By adding keywords to the input prompt, the biased word error rate (B-WER) reduces relatively by 46.0% and 44.2%, establishing a new SOTA on this dataset.
- Abstract(参考訳): ビデオのような情報に富むデータがますます多くなり、音声タスクの強化にマルチモーダル補助情報を利用するようになり、研究の関心が高まっている。
LLMベースのオーディオモデルに関する最近の研究の急増は、オーディオタスクに取り組むための新しい視点を提供する。
LLMが複数の入力を柔軟に取り込み得ることを考慮し、会議内容の認識を改善するためにプレゼンテーションスライドから抽出したテキストキーワードを統合可能なLLMベースのASRモデルであるMaLa-ASRを提案する。
MaLa-ASR の平均 WER は L95 と S95 のサブセットで 9.4% と 11.7% であり、SlideSpeech で報告されたベースラインモデルよりも 27.9% と 44.7% の相対的な WER の減少を示している。
MaLa-ASRは、LLMの音声タスクにおける強い性能と補助情報を便利に統合する能力を強調している。
入力プロンプトにキーワードを追加することで、バイアス付き単語誤り率(B-WER)は46.0%と44.2%と相対的に減少し、このデータセットに新しいSOTAを確立する。
関連論文リスト
- Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation [39.857198257988685]
大規模言語モデル(LLM)は、日常生活のアプリケーションにおけるAIの統合に革命をもたらしている。
彼らは幻覚を起こしやすく、確立した事実に矛盾する主張を生じさせ、同じプロンプトが複数回提示されたときに矛盾する反応を生じさせる。
本稿では,8つの領域にまたがる75,000以上のプロンプトからなる総合ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-13T14:18:13Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。
我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。
テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文 参考訳(メタデータ) (2023-12-30T14:20:04Z) - Audio-Visual LLM for Video Understanding [25.963166809113005]
本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。
GPT-4から派生した高品質のビデオ命令データセットを提案する。
実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。
論文 参考訳(メタデータ) (2023-12-11T02:50:46Z) - Prompting Large Language Models with Speech Recognition Abilities [31.77576008965215]
我々は,音声認識を行うための小型オーディオエンコーダを直接取り付けることで,大規模言語モデルの能力を拡張した。
MultilingualSpeechの実験では、コンバータエンコーダをオープンソースのLLaMA-7Bに組み込むことで、モノリンガルベースラインを18%上回る結果となった。
論文 参考訳(メタデータ) (2023-07-21T08:39:15Z) - Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。
LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。