Fugu-MT 論文翻訳(概要): Contrastive Learning for Task-Independent SpeechLLM-Pretraining

論文の概要: Contrastive Learning for Task-Independent SpeechLLM-Pretraining

arxiv url: http://arxiv.org/abs/2412.15712v1
Date: Fri, 20 Dec 2024 09:33:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:08.909149
Title: Contrastive Learning for Task-Independent SpeechLLM-Pretraining
Title（参考訳）: タスク非依存型音声LLM-Pretrainingにおけるコントラスト学習
Authors: Maike Züfle, Jan Niehues,
Abstract要約: 大規模言語モデル(LLM)は自然言語処理に優れている。タスク固有の微調整は、リスク、データ要求、計算コストの過度な適合によって制限される。スケーラブルな2段階トレーニング手法を提案する。
参考スコア（独自算出の注目度）: 14.531386555183596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) excel in natural language processing but adapting these LLMs to speech processing tasks efficiently is not straightforward. Direct task-specific fine-tuning is limited by overfitting risks, data requirements, and computational costs. To address these challenges, we propose a scalable, two-stage training approach: (1) A task-independent speech pretraining stage using contrastive learning to align text and speech representations over all layers, followed by (2) a task-specific fine-tuning stage requiring minimal data. This approach outperforms traditional ASR pretraining and enables the model to surpass models specialized on speech translation and question answering while being trained on only 10% of the task-specific data.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理に優れているが、これらのLLMを音声処理タスクに効率的に適応することは容易ではない。タスク固有の微調整は、リスク、データ要求、計算コストの過度な適合によって制限される。これらの課題に対処するために,(1)対照的な学習を用いたタスク非依存の事前訓練段階を用いて,すべての層にテキストと音声表現をアライメントし,(2)最小限のデータを必要とするタスク固有の微調整段階を提案する。このアプローチは従来のASR事前学習よりも優れており、タスク固有のデータの10%しか訓練されていない間に、音声翻訳や質問応答に特化したモデルを上回ることができる。

関連論文リスト

SpeechMapper: Speech-to-text Embedding Projector for LLMs [8.608235759695287]
SpeechMapper はコスト効率のよい音声からLLMへの埋め込み訓練手法である。過度な適合を緩和し、より堅牢で一般化可能なモデルを可能にする。
論文参考訳（メタデータ） (2026-01-28T09:22:58Z)
AzeroS: Extending LLM to Speech with Self-Generated Instruction-Free Tuning [49.68129589035101]
AZeroS (Auden Zero-Instruction-tuned Speech-LLM) を導入する。 AZeroSはセマンティックベンチマークとパラ言語ベンチマークの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-12-31T04:05:04Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文参考訳（メタデータ） (2024-05-14T03:33:31Z)
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2023-05-24T07:42:15Z)
Bridging the Gap between Language Models and Cross-Lingual Sequence Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文参考訳（メタデータ） (2022-04-11T15:55:20Z)
An Exploration of Prompt Tuning on Generative Spoken Language Model for Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文参考訳（メタデータ） (2022-03-31T03:26:55Z)
AdaPrompt: Adaptive Model Training for Prompt-based NLP [77.12071707955889]
PLMの継続事前学習のための外部データを適応的に検索するAdaPromptを提案する。 5つのNLPベンチマークの実験結果から、AdaPromptは数ショット設定で標準PLMよりも改善可能であることが示された。ゼロショット設定では、標準のプロンプトベースの手法を26.35%の相対誤差削減で上回ります。
論文参考訳（メタデータ） (2022-02-10T04:04:57Z)
SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文参考訳（メタデータ） (2021-10-20T00:59:36Z)
Task-specific Objectives of Pre-trained Language Models for Dialogue Adaptation [79.0866650271659]
PrLMを利用する一般的なプロセスは、まずタスク非依存のLMトレーニング目標を持つ大規模汎用コーパス上で事前トレーニングを行い、タスク固有のトレーニング目標を持つタスクデータセットを微調整する。タスク固有の目的を持つドメイン内タスク関連コーパスにタスク固有の事前学習を導入する。この手順は、特定のタスクのモデル理解能力を高めるために、元の2つのステージの間に置かれる。
論文参考訳（メタデータ） (2020-09-10T16:46:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。