Fugu-MT 論文翻訳(概要): How to Connect Speech Foundation Models and Large Language Models? What Matters and What Does Not

論文の概要: How to Connect Speech Foundation Models and Large Language Models? What Matters and What Does Not

arxiv url: http://arxiv.org/abs/2409.17044v2
Date: Fri, 08 Nov 2024 12:44:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.081611
Title: How to Connect Speech Foundation Models and Large Language Models? What Matters and What Does Not
Title（参考訳）: 音声基礎モデルと大言語モデルとの接続法 : 何が重要か,何が重要でないか
Authors: Francesco Verdini, Pierfrancesco Melucci, Stefano Perna, Francesco Cariaggi, Marco Gaido, Sara Papi, Szymon Mazurek, Marek Kasztelnik, Luisa Bentivogli, Sébastien Bratières, Paolo Merialdo, Simone Scardapane,
Abstract要約: 音声テキスト(S2T)タスクでは、新興ソリューションは、音声基礎モデル(SFM)のエンコーダの出力をアダプタモジュールを介して埋め込み空間に投影する。 5つのアダプタモジュール, 2つのLLM(ralMistとLlama), 2つのSFM(WhisperとSeamlessM4T)の組み合わせを2つのS2Tタスク、すなわち自動音声認識と音声翻訳で評価した。その結果、SFMは下流性能において重要な役割を担い、アダプタの選択は適度な影響があり、SFMとLLMに依存していることがわかった。
参考スコア（独自算出の注目度）: 13.947678509920308
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The remarkable performance achieved by Large Language Models (LLM) has driven research efforts to leverage them for a wide range of tasks and input modalities. In speech-to-text (S2T) tasks, the emerging solution consists of projecting the output of the encoder of a Speech Foundational Model (SFM) into the LLM embedding space through an adapter module. However, no work has yet investigated how much the downstream-task performance depends on each component (SFM, adapter, LLM) nor whether the best design of the adapter depends on the chosen SFM and LLM. To fill this gap, we evaluate the combination of 5 adapter modules, 2 LLMs (Mistral and Llama), and 2 SFMs (Whisper and SeamlessM4T) on two widespread S2T tasks, namely Automatic Speech Recognition and Speech Translation. Our results demonstrate that the SFM plays a pivotal role in downstream performance, while the adapter choice has moderate impact and depends on the SFM and LLM.
Abstract（参考訳）: LLM(Large Language Models)によって達成された顕著なパフォーマンスは、幅広いタスクや入力のモダリティにそれらを活用する研究を推進してきた。音声テキスト(S2T)タスクにおいて、出現するソリューションは、音声基礎モデル(SFM)のエンコーダの出力をアダプタモジュールを介してLLM埋め込み空間に投影する。しかし、ダウンストリームタスクの性能が各コンポーネント(SFM、アダプタ、LSM)にどの程度依存するか、あるいはアダプタの最適設計が選択したSFMとLSMに依存しているかどうかはまだ調査されていない。このギャップを埋めるために,5つのアダプタモジュール,2つのLLM(ミストラルとラマ)と2つのSFM(WhisperとSeamlessM4T)の組み合わせを評価した。その結果、SFMは下流性能において重要な役割を担い、アダプタの選択は適度な影響があり、SFMとLLMに依存していることがわかった。

関連論文リスト

Equipping LLM with Directional Multi-Talker Speech Understanding Capabilities [20.51281468416298]
指向性を大規模言語モデル(LLM)に統合する2つの新しいアプローチを提案する。これらのアプローチはすべて、スマートグラスに埋め込まれたマルチマイクロホンアレイを使用して、指向性解釈と処理をストリーミング的に最適化する。
論文参考訳（メタデータ） (2026-02-06T21:45:48Z)
SLAM-LLM: A Modular, Open-Source Multimodal Large Language Model Framework and Best Practice for Speech, Language, Audio and Music Processing [77.87631792556942]
SLAM-LLMは、カスタマイズされたマルチモーダル言語モデル(MLLM)をトレーニングするために設計されたオープンソースのフレームワークである。異なるエンコーダ、プロジェクタ、LCM、パラメータ効率の良い微調整プラグインのモジュール構成を提供する。これには、ASR(Automatic Speech Recognition)、AAC(Automated Audio Captioning)、MC(Music Captioning)といった高性能なチェックポイントが含まれている。
論文参考訳（メタデータ） (2026-01-14T11:25:36Z)
FastSLM: Hierarchical Frame Q-Former for Effective Speech Modality Adaptation [3.8125534288516683]
FastSLMは、長文音声に対する効果的な理解と推論のために設計された軽量で効率的な音声言語モデル(SLM)である。本稿では,多岐にわたる音声関連タスクの一般化を促進する新しい3段階学習戦略を提案する。実験結果から,FastSLMは既存の最先端モデルと比較して競争性能が向上することが示された。
論文参考訳（メタデータ） (2026-01-08T07:46:03Z)
MoDA: Modulation Adapter for Fine-Grained Visual Grounding in Instructional MLLMs [48.467434164863086]
MoDAは、命令誘導変調により、事前整列された視覚的特徴を洗練するために設計された軽量モジュールである。実験の結果,MoDAは視覚的接地を改善し,文脈的に適切な応答を生成することがわかった。
論文参考訳（メタデータ） (2025-06-02T16:38:50Z)
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。 InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文参考訳（メタデータ） (2025-01-21T18:59:00Z)
Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文参考訳（メタデータ） (2024-12-24T17:37:11Z)
MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文参考訳（メタデータ） (2024-07-17T16:31:38Z)
Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-03T14:42:49Z)
WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。 ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文参考訳（メタデータ） (2024-03-31T12:01:32Z)
FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文参考訳（メタデータ） (2024-02-28T19:23:27Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
Tuning Large language model for End-to-end Speech Translation [7.297914077124909]
本稿では,E2E-STタスクを最適化した大規模マルチモーダルモデルであるLSTを紹介する。 MuST-C 音声翻訳ベンチマークの実験結果は、En-De/En-Fr/En-Es 言語ペアの LST-13B BLEU スコアが 30.39/41.55/35.33 であり、以前のモデルを超え、新しい最先端技術を確立したことを示している。
論文参考訳（メタデータ） (2023-10-03T13:43:50Z)
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。 MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文参考訳（メタデータ） (2023-05-24T11:06:15Z)
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文参考訳（メタデータ） (2023-04-27T13:27:01Z)
LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文参考訳（メタデータ） (2023-04-04T16:31:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。