Fugu-MT 論文翻訳(概要): Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation

論文の概要: Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation

arxiv url: http://arxiv.org/abs/2306.07650v1
Date: Tue, 13 Jun 2023 09:42:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-14 14:20:51.855924
Title: Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation
Title（参考訳）: モダリティ適応か正規化か? エンドツーエンド音声翻訳の事例研究
Authors: Yuchen Han, Chen Xu, Tong Xiao and Jingbo Zhu
Abstract要約: 音声とテキストデータの「モダリティギャップ」は、事前学習と微調整の間に一貫性のない入力をもたらすことが多い。このギャップは微調整の初期段階で発生するが、最終的なパフォーマンスに大きな影響を与えない。ケーススタディでは、正規化はよく設計されたモダリティ法よりも重要な役割を担っている。
参考スコア（独自算出の注目度）: 38.47720366489274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-training and fine-tuning is a paradigm for alleviating the data scarcity problem in end-to-end speech translation (E2E ST). The commonplace "modality gap" between speech and text data often leads to inconsistent inputs between pre-training and fine-tuning. However, we observe that this gap occurs in the early stages of fine-tuning, but does not have a major impact on the final performance. On the other hand, we find that there has another gap, which we call the "capacity gap": high resource tasks (such as ASR and MT) always require a large model to fit, when the model is reused for a low resource task (E2E ST), it will get a sub-optimal performance due to the over-fitting. In a case study, we find that the regularization plays a more important role than the well-designed modality adaption method, which achieves 29.0 for en-de and 40.3 for en-fr on the MuST-C dataset. Code and models are available at https://github.com/hannlp/TAB.
Abstract（参考訳）: 事前学習と微調整は、エンドツーエンド音声翻訳(E2E ST)におけるデータ不足問題を緩和するためのパラダイムである。音声とテキストデータの共通する「モダリティギャップ」はしばしば事前学習と微調整の間に矛盾する入力をもたらす。しかし、このギャップは微調整の初期段階で発生するが、最終的な性能に大きな影響を与えない。高いリソースタスク(asrやmtなど)は常に大きなモデルが必要で、モデルが低リソースタスク(e2e st)のために再利用された場合、オーバーフィッティングのために最適化されたパフォーマンスが得られます。ケーススタディでは,MST-Cデータセット上では en-de が29.0, en-fr が40.3 となり, 規則化は well-designed modality adaption 法よりも重要な役割を果たすことがわかった。コードとモデルはhttps://github.com/hannlp/tabで入手できる。

関連論文リスト

Upweighting Easy Samples in Fine-Tuning Mitigates Forgetting [15.251425165987987]
下流タスクで事前訓練されたモデルを微調整すると、元の能力は劣化することが多い。本稿では,事前学習したモデルの損失に基づく微調整データのサンプル重み付け手法を提案する。我々は,言語と視覚の両方における手法の有効性を実証的に実証した。
論文参考訳（メタデータ） (2025-02-05T00:49:59Z)
Train More Parameters But Mind Their Placement: Insights into Language Adaptation with PEFT [0.8702432681310401]
我々は、構造化されていないテキストコーパスを用いて、LLMの生成性能を向上させることを目的としている。トレーニング可能なパラメータの数が増加すると、言語適応性が向上し、堅牢になる。 0ショットの要約では改善は一貫しているが、いくつかの適応されたモデルは、より長いコンテキストの長さで苦労する。
論文参考訳（メタデータ） (2024-12-17T08:44:00Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
A Semantic-based Layer Freezing Approach to Efficient Fine-Tuning of Language Models [32.178931149612644]
下流のデータやタスクにモデルを適応させるには、微調整言語モデル(LM)が不可欠である。パラメータ効率の微調整(PEFT)のような既存の作業は、しばしば微細化のためのthithowに焦点を当てるが、微細化のためのtextitwhereの問題を無視している。
論文参考訳（メタデータ） (2024-06-17T17:13:08Z)
Empirical Analysis of Efficient Fine-Tuning Methods for Large Pre-Trained Language Models [4.096453902709292]
BitFitとアダプタモジュールは、標準のフルモデルファインチューニングと比較される。 BitFitアプローチは、さまざまなトレーニングデータにわたる完全な微調整パフォーマンスと一致します。アダプタモジュールは、デフォルトモデルよりも一貫性のないゲインを持つ、高い可変性を示す。
論文参考訳（メタデータ） (2024-01-08T17:44:43Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)
Universal Test-time Adaptation through Weight Ensembling, Diversity Weighting, and Prior Correction [3.5139431332194198]
テスト時適応(TTA)はデプロイ後もモデルを更新し続け、現在のテストデータを活用する。我々は、自己学習ベースの手法が対処しなければならないいくつかの課題を特定し、強調する。モデルがバイアスを受けるのを防ぐために、データセットとモデルに依存しない確実性と多様性の重み付けを利用する。
論文参考訳（メタデータ） (2023-06-01T13:16:10Z)
Pre-training for Speech Translation: CTC Meets Optimal Transport [29.807861658249923]
本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
論文参考訳（メタデータ） (2023-01-27T14:03:09Z)
AdaTranS: Adapting with Boundary-based Shrinking for End-to-End Speech Translation [36.12146100483228]
AdaTranSは、音声特徴とテキスト特徴との間の長さミスマッチを軽減するために、新しい縮小機構で音声特徴に適応する。 MUST-Cデータセットの実験では、AdaTranSは他の縮小ベースの方法よりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-12-17T16:14:30Z)
Segment-level Metric Learning for Few-shot Bioacoustic Event Detection [56.59107110017436]
本稿では,モデル最適化時の肯定的事象と否定的事象の両方を利用するセグメントレベルの数ショット学習フレームワークを提案する。本システムでは,DCASE2022チャレンジタスク5(DCASE2022-T5)のF値62.73の検証を行い,ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで向上させる。
論文参考訳（メタデータ） (2022-07-15T22:41:30Z)
Self-Supervised Pre-Training for Transformer-Based Person Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文参考訳（メタデータ） (2021-11-23T18:59:08Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
Discrete Auto-regressive Variational Attention Models for Text Modeling [53.38382932162732]
変分オートエンコーダ(VAE)はテキストモデリングに広く応用されている。情報不足と後部崩壊という2つの課題に悩まされている。本稿では,自己回帰変動注意モデル(DAVAM)を提案する。
論文参考訳（メタデータ） (2021-06-16T06:36:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。