Fugu-MT 論文翻訳(概要): Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

論文の概要: Order Matters in the Presence of Dataset Imbalance for Multilingual Learning

arxiv url: http://arxiv.org/abs/2312.06134v1
Date: Mon, 11 Dec 2023 05:46:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 16:53:27.215518
Title: Order Matters in the Presence of Dataset Imbalance for Multilingual Learning
Title（参考訳）: 多言語学習におけるデータセット不均衡の有無の順序
Authors: Dami Choi, Derrick Xin, Hamid Dadkhahi, Justin Gilmer, Ankush Garg, Orhan Firat, Chih-Kuan Yeh, Andrew M. Dai, Behrooz Ghorbani
Abstract要約: 本稿では,高リソースタスクの事前学習をシンプルかつ効果的に行う方法と,高リソースタスクと低リソースタスクの混合による微調整について述べる。ニューラルネットワーク翻訳(NMT)と多言語言語モデリングの改善について述べる。
参考スコア（独自算出の注目度）: 53.74649778447903
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we empirically study the optimization dynamics of multi-task learning, particularly focusing on those that govern a collection of tasks with significant data imbalance. We present a simple yet effective method of pre-training on high-resource tasks, followed by fine-tuning on a mixture of high/low-resource tasks. We provide a thorough empirical study and analysis of this method's benefits showing that it achieves consistent improvements relative to the performance trade-off profile of standard static weighting. We analyze under what data regimes this method is applicable and show its improvements empirically in neural machine translation (NMT) and multi-lingual language modeling.
Abstract（参考訳）: 本稿では,マルチタスク学習の最適化力学を実証的に研究し,特にデータ不均衡の大きいタスク群を管理するものに着目した。本稿では,高リソースタスクの事前学習と,高リソースタスクと低リソースタスクの混合タスクの微調整について述べる。本稿では,標準静的重み付けの性能トレードオフプロファイルに対して一貫した改善を達成できることを示す,本手法の利点に関する詳細な実証研究と分析を行う。本稿では,この手法がどのようなデータレジームで適用可能かを分析し,ニューラルネットワーク翻訳(nmt)および多言語言語モデリングにおける経験的改善を示す。

関連論文リスト

Improving Data and Parameter Efficiency of Neural Language Models Using Representation Analysis [0.0]
この論文は、ニューラルネットワークモデルにおけるデータとパラメータ効率に関する課題に対処する。第1部では、ニューラルネットワーク内の言語表現の特性と力学を考察し、堅牢性と一般化の強化におけるそれらの重要性を強調している。第2部では、アクティブ学習戦略とパラメータ効率の微調整を統合することにより、データとパラメータ効率を大幅に向上させる手法に焦点を当てている。第3部では、文脈内学習によって強化された弱い監視手法を探求し、ラベルなしデータを効果的に活用する。
論文参考訳（メタデータ） (2025-07-16T07:58:20Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文参考訳（メタデータ） (2024-11-17T01:16:37Z)
Mitigating Training Imbalance in LLM Fine-Tuning via Selective Parameter Merging [11.223074654129915]
大型言語モデル(LLM)を特定のタスクに適応させるためには、SFT(Supervised Fine-tuning)が不可欠である。本稿では,SFTモデルとデータ順序の微調整を併用することにより,この不均衡を軽減することを提案する。
論文参考訳（メタデータ） (2024-10-01T08:44:31Z)
One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2023-12-16T03:33:12Z)
Multi-Task Learning with Summary Statistics [4.871473117968554]
様々な情報源からの要約統計を利用した柔軟なマルチタスク学習フレームワークを提案する。また,Lepskiの手法の変種に基づく適応パラメータ選択手法を提案する。この研究は、さまざまな領域にわたる関連するモデルをトレーニングするための、より柔軟なツールを提供する。
論文参考訳（メタデータ） (2023-07-05T15:55:23Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
Learning Neural Models for Natural Language Processing in the Face of Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文参考訳（メタデータ） (2021-09-03T14:29:20Z)
Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文参考訳（メタデータ） (2021-01-02T07:13:41Z)
Fine-tuning BERT for Low-Resource Natural Language Understanding via Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文参考訳（メタデータ） (2020-12-04T08:34:39Z)
DAGA: Data Augmentation with a Generation Approach for Low-resource Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文参考訳（メタデータ） (2020-11-03T07:49:15Z)
Reinforced Curriculum Learning on Pre-trained Neural Machine Translation Models [20.976165305749777]
我々は,既存のトレーニングセットから影響力のあるデータサンプルを再選択することで,事前学習したNMTモデルを改善するカリキュラムを学習する。本稿では,決定論的アクタ批判に基づくデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2020-04-13T03:40:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。