論文の概要: Training Dynamics for Curriculum Learning: A Study on Monolingual and
Cross-lingual NLU
- arxiv url: http://arxiv.org/abs/2210.12499v1
- Date: Sat, 22 Oct 2022 17:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:17:54.063802
- Title: Training Dynamics for Curriculum Learning: A Study on Monolingual and
Cross-lingual NLU
- Title(参考訳): カリキュラム学習のための学習ダイナミクス--単言語・クロス言語nluの検討
- Authors: Fenia Christopoulou, Gerasimos Lampouras, Ignacio Iacobacci
- Abstract要約: カリキュラム学習(Curriculum Learning, CL)は、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する技法である。
本研究では,学習力学を難易度指標として活用することにより,自然言語理解(NLU)タスクにCLを用いる。
実験によると、トレーニングのダイナミクスは、他の難しいメトリクスと比較して、スムーズなトレーニングでより良いパフォーマンスのモデルをもたらす可能性がある。
- 参考スコア(独自算出の注目度): 19.42920238320109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curriculum Learning (CL) is a technique of training models via ranking
examples in a typically increasing difficulty trend with the aim of
accelerating convergence and improving generalisability. Current approaches for
Natural Language Understanding (NLU) tasks use CL to improve in-distribution
data performance often via heuristic-oriented or task-agnostic difficulties. In
this work, instead, we employ CL for NLU by taking advantage of training
dynamics as difficulty metrics, i.e., statistics that measure the behavior of
the model at hand on specific task-data instances during training and propose
modifications of existing CL schedulers based on these statistics. Differently
from existing works, we focus on evaluating models on in-distribution (ID),
out-of-distribution (OOD) as well as zero-shot (ZS) cross-lingual transfer
datasets. We show across several NLU tasks that CL with training dynamics can
result in better performance mostly on zero-shot cross-lingual transfer and OOD
settings with improvements up by 8.5% in certain cases. Overall, experiments
indicate that training dynamics can lead to better performing models with
smoother training compared to other difficulty metrics while being 20% faster
on average. In addition, through analysis we shed light on the correlations of
task-specific versus task-agnostic metrics.
- Abstract(参考訳): カリキュラムラーニング(Curriculum Learning, CL)は、収束の加速と一般化可能性の向上を目的として、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する手法である。
自然言語理解(NLU)タスクの現在のアプローチでは、CLを使用して、ヒューリスティック指向やタスクに依存しない困難によって、分散データのパフォーマンスを改善する。
そこで本研究では,NLU における CL を,学習中の特定のタスクデータインスタンス上でのモデルの振る舞いを計測する統計値として利用し,これらの統計に基づいて既存の CL スケジューラの修正を提案する。
既存の研究と異なり、我々は、in-distribution(ID)、out-of-distribution(OOD)、zero-shot(ZS)の言語間転送データセットのモデルを評価することに重点を置いている。
トレーニングダイナミクスを備えたCLは、ゼロショットのクロスランガル転送とOOD設定でパフォーマンスが向上し、特定のケースでは8.5%向上することを示す。
全体としては、トレーニングダイナミクスは、他の難易度指標よりもスムーズなトレーニングでモデルのパフォーマンスを向上し、平均で20%高速であることを示している。
さらに、分析を通じて、タスク固有のメトリクスとタスクに依存しないメトリクスの相関関係を明らかにした。
関連論文リスト
- Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes [6.652837942112205]
大規模言語モデル(LLM)は、テキストとして提供される少数の例に基づいて、目に見えないタスクを実行するという異常な能力を示している。
我々は、ICLモデルによるデータ効率の向上と、より安定した収束を実現するための効果的なカリキュラム学習戦略をいくつか提案する。
実験の結果, ICLモデルでは, 従来の課題を混在させながら, 段階的に難しいタスクを学習することで, 難易度を効果的に学習できることが判明した。
論文 参考訳(メタデータ) (2024-04-04T16:15:23Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Data Curation Alone Can Stabilize In-context Learning [20.874674130060388]
In-context Learning (ICL) は、大規模な言語モデルに対して、一連のトレーニング例でそれらを促すことで、新しいタスクを実行することを可能にする。
トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。
トレーニングデータのサブセットを慎重にキュレートすることは、ICLアルゴリズムに他の変更を加えることなく、ICLのパフォーマンスを大幅に安定化させることを示す。
論文 参考訳(メタデータ) (2022-12-20T15:58:54Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。