論文の概要: Training Dynamics for Curriculum Learning: A Study on Monolingual and
Cross-lingual NLU
- arxiv url: http://arxiv.org/abs/2210.12499v1
- Date: Sat, 22 Oct 2022 17:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:17:54.063802
- Title: Training Dynamics for Curriculum Learning: A Study on Monolingual and
Cross-lingual NLU
- Title(参考訳): カリキュラム学習のための学習ダイナミクス--単言語・クロス言語nluの検討
- Authors: Fenia Christopoulou, Gerasimos Lampouras, Ignacio Iacobacci
- Abstract要約: カリキュラム学習(Curriculum Learning, CL)は、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する技法である。
本研究では,学習力学を難易度指標として活用することにより,自然言語理解(NLU)タスクにCLを用いる。
実験によると、トレーニングのダイナミクスは、他の難しいメトリクスと比較して、スムーズなトレーニングでより良いパフォーマンスのモデルをもたらす可能性がある。
- 参考スコア(独自算出の注目度): 19.42920238320109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curriculum Learning (CL) is a technique of training models via ranking
examples in a typically increasing difficulty trend with the aim of
accelerating convergence and improving generalisability. Current approaches for
Natural Language Understanding (NLU) tasks use CL to improve in-distribution
data performance often via heuristic-oriented or task-agnostic difficulties. In
this work, instead, we employ CL for NLU by taking advantage of training
dynamics as difficulty metrics, i.e., statistics that measure the behavior of
the model at hand on specific task-data instances during training and propose
modifications of existing CL schedulers based on these statistics. Differently
from existing works, we focus on evaluating models on in-distribution (ID),
out-of-distribution (OOD) as well as zero-shot (ZS) cross-lingual transfer
datasets. We show across several NLU tasks that CL with training dynamics can
result in better performance mostly on zero-shot cross-lingual transfer and OOD
settings with improvements up by 8.5% in certain cases. Overall, experiments
indicate that training dynamics can lead to better performing models with
smoother training compared to other difficulty metrics while being 20% faster
on average. In addition, through analysis we shed light on the correlations of
task-specific versus task-agnostic metrics.
- Abstract(参考訳): カリキュラムラーニング(Curriculum Learning, CL)は、収束の加速と一般化可能性の向上を目的として、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する手法である。
自然言語理解(NLU)タスクの現在のアプローチでは、CLを使用して、ヒューリスティック指向やタスクに依存しない困難によって、分散データのパフォーマンスを改善する。
そこで本研究では,NLU における CL を,学習中の特定のタスクデータインスタンス上でのモデルの振る舞いを計測する統計値として利用し,これらの統計に基づいて既存の CL スケジューラの修正を提案する。
既存の研究と異なり、我々は、in-distribution(ID)、out-of-distribution(OOD)、zero-shot(ZS)の言語間転送データセットのモデルを評価することに重点を置いている。
トレーニングダイナミクスを備えたCLは、ゼロショットのクロスランガル転送とOOD設定でパフォーマンスが向上し、特定のケースでは8.5%向上することを示す。
全体としては、トレーニングダイナミクスは、他の難易度指標よりもスムーズなトレーニングでモデルのパフォーマンスを向上し、平均で20%高速であることを示している。
さらに、分析を通じて、タスク固有のメトリクスとタスクに依存しないメトリクスの相関関係を明らかにした。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - An Effective Incorporating Heterogeneous Knowledge Curriculum Learning
for Sequence Labeling [9.237399190335598]
シーケンスラベリングタスクに特化して設計された2段階のカリキュラム学習(TCL)フレームワークを提案する。
このフレームワークは、データインスタンスを容易から困難に徐々に導入し、パフォーマンスとトレーニング速度の両方を改善することで、トレーニングを強化する。
論文 参考訳(メタデータ) (2024-02-21T05:04:29Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Efficient Semi-Supervised Federated Learning for Heterogeneous
Participants [23.664515443297674]
そこで本研究では,SFLをクラスタリング正規化して,未ラベルおよび非IIDクライアントデータを用いたより実践的なシナリオ下でSFLを実行する,新しいセミSFLシステムを提案する。
我々のシステムは、トレーニングデータセットの3.0倍のスピードアップを提供し、通信コストを目標精度まで約70.3%削減する。
論文 参考訳(メタデータ) (2023-07-29T02:35:37Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Data Curation Alone Can Stabilize In-context Learning [20.874674130060388]
In-context Learning (ICL) は、大規模な言語モデルに対して、一連のトレーニング例でそれらを促すことで、新しいタスクを実行することを可能にする。
トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。
トレーニングデータのサブセットを慎重にキュレートすることは、ICLアルゴリズムに他の変更を加えることなく、ICLのパフォーマンスを大幅に安定化させることを示す。
論文 参考訳(メタデータ) (2022-12-20T15:58:54Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。