論文の概要: Modality Adaption or Regularization? A Case Study on End-to-End Speech
Translation
- arxiv url: http://arxiv.org/abs/2306.07650v1
- Date: Tue, 13 Jun 2023 09:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 14:20:51.855924
- Title: Modality Adaption or Regularization? A Case Study on End-to-End Speech
Translation
- Title(参考訳): モダリティ適応か正規化か?
エンドツーエンド音声翻訳の事例研究
- Authors: Yuchen Han, Chen Xu, Tong Xiao and Jingbo Zhu
- Abstract要約: 音声とテキストデータの「モダリティギャップ」は、事前学習と微調整の間に一貫性のない入力をもたらすことが多い。
このギャップは微調整の初期段階で発生するが、最終的なパフォーマンスに大きな影響を与えない。
ケーススタディでは、正規化はよく設計されたモダリティ法よりも重要な役割を担っている。
- 参考スコア(独自算出の注目度): 38.47720366489274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training and fine-tuning is a paradigm for alleviating the data scarcity
problem in end-to-end speech translation (E2E ST). The commonplace "modality
gap" between speech and text data often leads to inconsistent inputs between
pre-training and fine-tuning. However, we observe that this gap occurs in the
early stages of fine-tuning, but does not have a major impact on the final
performance. On the other hand, we find that there has another gap, which we
call the "capacity gap": high resource tasks (such as ASR and MT) always
require a large model to fit, when the model is reused for a low resource task
(E2E ST), it will get a sub-optimal performance due to the over-fitting. In a
case study, we find that the regularization plays a more important role than
the well-designed modality adaption method, which achieves 29.0 for en-de and
40.3 for en-fr on the MuST-C dataset. Code and models are available at
https://github.com/hannlp/TAB.
- Abstract(参考訳): 事前学習と微調整は、エンドツーエンド音声翻訳(E2E ST)におけるデータ不足問題を緩和するためのパラダイムである。
音声とテキストデータの共通する「モダリティギャップ」はしばしば事前学習と微調整の間に矛盾する入力をもたらす。
しかし、このギャップは微調整の初期段階で発生するが、最終的な性能に大きな影響を与えない。
高いリソースタスク(asrやmtなど)は常に大きなモデルが必要で、モデルが低リソースタスク(e2e st)のために再利用された場合、オーバーフィッティングのために最適化されたパフォーマンスが得られます。
ケーススタディでは,MST-Cデータセット上では en-de が29.0, en-fr が40.3 となり, 規則化は well-designed modality adaption 法よりも重要な役割を果たすことがわかった。
コードとモデルはhttps://github.com/hannlp/tabで入手できる。
関連論文リスト
- Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting [15.251425165987987]
下流タスクで事前訓練されたモデルを微調整すると、元の能力は劣化することが多い。
本稿では,事前学習したモデルの損失に基づく微調整データのサンプル重み付け手法を提案する。
我々は,言語と視覚の両方における手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-02-05T00:49:59Z) - Train More Parameters But Mind Their Placement: Insights into Language Adaptation with PEFT [0.8702432681310401]
我々は、構造化されていないテキストコーパスを用いて、LLMの生成性能を向上させることを目的としている。
トレーニング可能なパラメータの数が増加すると、言語適応性が向上し、堅牢になる。
0ショットの要約では改善は一貫しているが、いくつかの適応されたモデルは、より長いコンテキストの長さで苦労する。
論文 参考訳(メタデータ) (2024-12-17T08:44:00Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - Universal Test-time Adaptation through Weight Ensembling, Diversity
Weighting, and Prior Correction [3.5139431332194198]
テスト時適応(TTA)はデプロイ後もモデルを更新し続け、現在のテストデータを活用する。
我々は、自己学習ベースの手法が対処しなければならないいくつかの課題を特定し、強調する。
モデルがバイアスを受けるのを防ぐために、データセットとモデルに依存しない確実性と多様性の重み付けを利用する。
論文 参考訳(メタデータ) (2023-06-01T13:16:10Z) - Pre-training for Speech Translation: CTC Meets Optimal Transport [29.807861658249923]
本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。
本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
論文 参考訳(メタデータ) (2023-01-27T14:03:09Z) - Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。
本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2022-07-15T22:41:30Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。
情報不足と後部崩壊という2つの課題に悩まされている。
本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文 参考訳(メタデータ) (2021-06-16T06:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。