Fugu-MT 論文翻訳(概要): An Embarrassingly Simple Approach for LLM with Strong ASR Capacity

論文の概要: An Embarrassingly Simple Approach for LLM with Strong ASR Capacity

arxiv url: http://arxiv.org/abs/2402.08846v1
Date: Tue, 13 Feb 2024 23:25:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-15 17:17:59.523683
Title: An Embarrassingly Simple Approach for LLM with Strong ASR Capacity
Title（参考訳）: 強 ASR 容量 LLM に対する恥ずかしい簡単なアプローチ
Authors: Ziyang Ma, Guanrou Yang, Yifan Yang, Zhifu Gao, Jiaming Wang, Zhihao Du, Fan Yu, Qian Chen, Siqi Zheng, Shiliang Zhang, Xie Chen
Abstract要約: 我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
参考スコア（独自算出の注目度）: 56.30595787061546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we focus on solving one of the most important tasks in the field of speech processing, i.e., automatic speech recognition (ASR), with speech foundation encoders and large language models (LLM). Recent works have complex designs such as compressing the output temporally for the speech encoder, tackling modal alignment for the projector, and utilizing parameter-efficient fine-tuning for the LLM. We found that delicate designs are not necessary, while an embarrassingly simple composition of off-the-shelf speech encoder, LLM, and the only trainable linear projector is competent for the ASR task. To be more specific, we benchmark and explore various combinations of LLMs and speech encoders, leading to the optimal LLM-based ASR system, which we call SLAM-ASR. The proposed SLAM-ASR provides a clean setup and little task-specific design, where only the linear projector is trained. To the best of our knowledge, SLAM-ASR achieves the best performance on the Librispeech benchmark among LLM-based ASR models and even outperforms the latest LLM-based audio-universal model trained on massive pair data. Finally, we explore the capability emergence of LLM-based ASR in the process of modal alignment. We hope that our study can facilitate the research on extending LLM with cross-modality capacity and shed light on the LLM-based ASR community.
Abstract（参考訳）: 本稿では,音声認識(asr)という音声処理分野における最も重要な課題の1つを,音声認識基盤エンコーダと大規模言語モデル(llm)を用いて解決することに焦点を当てる。最近の作品では、音声エンコーダの出力を時間的に圧縮する、プロジェクタのモードアライメントに取り組む、llmのパラメータ効率の良い微調整を行うといった複雑な設計がなされている。そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。より具体的には、LLMと音声エンコーダの様々な組み合わせをベンチマークし、探索することにより、SLAM-ASRと呼ばれる最適なLLMベースのASRシステムを実現する。提案されたSLAM-ASRはクリーンなセットアップと、線形プロジェクタのみを訓練するタスク固有の設計を提供する。我々の知る限り、SLAM-ASR は LLM ベースの ASR モデルの中で Librispeech ベンチマークで最高の性能を達成し、また、大規模なペアデータに基づいてトレーニングされた最新の LLM ベースのオーディオユニバーサルモデルよりも優れています。最後に,LLMに基づくASRのモーダルアライメントプロセスにおける能力の出現について検討する。我々は,LLMを多機能化して拡張する研究を促進し,LLMベースのASRコミュニティに光を当てることを望む。

関連論文リスト

Leveraging Large Language Models in Visual Speech Recognition: Model Scaling, Context-Aware Decoding, and Iterative Polishing [12.635121718700217]
視覚音声認識(VSR)は、唇の動きを分析して音声を転写する。大きな言語モデル(LLM)はVSRシステムに統合され、顕著な性能改善につながった。本稿では,VSRタスクにLLMを効果的に活用する方法を体系的に検討する。
論文参考訳（メタデータ） (2025-05-27T21:00:12Z)
Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach [37.690797152736465]
Llama-SMoPは、推論コストを増大させることなくモデル容量をスケールするためにスパース・ミクチャー・オブ・プロジェクター(SMoP)モジュールを使用している。 ASR、VSR、AVSRタスクにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2025-05-20T13:20:55Z)
Delayed Fusion: Integrating Large Language Models into First-Pass Decoding in End-to-end Speech Recognition [17.376550014426623]
本稿では,大規模言語モデル(LLM)を用いたエンドツーエンド自動音声認識(E2E-ASR)の効率的な復号化手法を提案する。復号時に遅延を伴うASR仮説にLLMスコアを適用する「遅延融合」を提案する。遅延核融合により、浅い核融合やN-best再コーディングに比べてデコード速度と精度が向上することを示した。
論文参考訳（メタデータ） (2025-01-16T03:01:50Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
Prior Knowledge Integration via LLM Encoding and Pseudo Event Regulation for Video Moment Retrieval [23.94611751368491]
本稿では,大言語モデル(LLM)を一般知識の統合に活用し,擬似イベントを時間的コンテンツ配信の先駆けとして活用する可能性について検討する。これらの制限を克服するために,デコーダの代わりにLLMエンコーダを提案する。 LLMエンコーダを既存のVMRアーキテクチャ、特に核融合モジュールに組み込むための一般的なフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-21T04:39:06Z)
New Solutions on LLM Acceleration, Optimization, and Application [14.995654657013741]
大規模言語モデル (LLM) は、様々な応用において人間のような文章を解釈・生成する能力を持つ非常に強力な機器となっている。しかし、LLMのサイズと複雑さの増大は、トレーニングとデプロイメントの両方において大きな課題をもたらしている。これらの課題に対処するための最近の進歩と研究の方向性について概観する。
論文参考訳（メタデータ） (2024-06-16T11:56:50Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
Boosting Large Language Model for Speech Synthesis: An Empirical Study [86.89548753080432]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、言語能力は音声や視覚など他のモダリティにも拡張されている。我々は,事前学習したLLM LLaMA/OPTと音声合成モデルVALL-Eを組み合わせることで,LLMの強化と音声生成能力の総合的な実証調査を行う。テキストエンコーダとしてLLMとVALL-Eを組み合わせることで,LLMとVALL-Eの3つの統合手法を比較した。
論文参考訳（メタデータ） (2023-12-30T14:20:04Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。