Fugu-MT 論文翻訳(概要): Training Dynamics for Curriculum Learning: A Study on Monolingual and Cross-lingual NLU

論文の概要: Training Dynamics for Curriculum Learning: A Study on Monolingual and Cross-lingual NLU

arxiv url: http://arxiv.org/abs/2210.12499v1
Date: Sat, 22 Oct 2022 17:10:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 16:17:54.063802
Title: Training Dynamics for Curriculum Learning: A Study on Monolingual and Cross-lingual NLU
Title（参考訳）: カリキュラム学習のための学習ダイナミクス--単言語・クロス言語nluの検討
Authors: Fenia Christopoulou, Gerasimos Lampouras, Ignacio Iacobacci
Abstract要約: カリキュラム学習(Curriculum Learning, CL)は、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する技法である。本研究では,学習力学を難易度指標として活用することにより,自然言語理解(NLU)タスクにCLを用いる。実験によると、トレーニングのダイナミクスは、他の難しいメトリクスと比較して、スムーズなトレーニングでより良いパフォーマンスのモデルをもたらす可能性がある。
参考スコア（独自算出の注目度）: 19.42920238320109
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Curriculum Learning (CL) is a technique of training models via ranking examples in a typically increasing difficulty trend with the aim of accelerating convergence and improving generalisability. Current approaches for Natural Language Understanding (NLU) tasks use CL to improve in-distribution data performance often via heuristic-oriented or task-agnostic difficulties. In this work, instead, we employ CL for NLU by taking advantage of training dynamics as difficulty metrics, i.e., statistics that measure the behavior of the model at hand on specific task-data instances during training and propose modifications of existing CL schedulers based on these statistics. Differently from existing works, we focus on evaluating models on in-distribution (ID), out-of-distribution (OOD) as well as zero-shot (ZS) cross-lingual transfer datasets. We show across several NLU tasks that CL with training dynamics can result in better performance mostly on zero-shot cross-lingual transfer and OOD settings with improvements up by 8.5% in certain cases. Overall, experiments indicate that training dynamics can lead to better performing models with smoother training compared to other difficulty metrics while being 20% faster on average. In addition, through analysis we shed light on the correlations of task-specific versus task-agnostic metrics.
Abstract（参考訳）: カリキュラムラーニング(Curriculum Learning, CL)は、収束の加速と一般化可能性の向上を目的として、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する手法である。自然言語理解(NLU)タスクの現在のアプローチでは、CLを使用して、ヒューリスティック指向やタスクに依存しない困難によって、分散データのパフォーマンスを改善する。そこで本研究では,NLU における CL を,学習中の特定のタスクデータインスタンス上でのモデルの振る舞いを計測する統計値として利用し,これらの統計に基づいて既存の CL スケジューラの修正を提案する。既存の研究と異なり、我々は、in-distribution(ID)、out-of-distribution(OOD)、zero-shot(ZS)の言語間転送データセットのモデルを評価することに重点を置いている。トレーニングダイナミクスを備えたCLは、ゼロショットのクロスランガル転送とOOD設定でパフォーマンスが向上し、特定のケースでは8.5%向上することを示す。全体としては、トレーニングダイナミクスは、他の難易度指標よりもスムーズなトレーニングでモデルのパフォーマンスを向上し、平均で20%高速であることを示している。さらに、分析を通じて、タスク固有のメトリクスとタスクに依存しないメトリクスの相関関係を明らかにした。

関連論文リスト

What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Does the Definition of Difficulty Matter? Scoring Functions and their Role for Curriculum Learning [42.4526628515253]
CL(Curriculum Learning)は、サンプルを学習プロセスに徐々に導入する機械学習トレーニング戦略である。サンプル難易度推定のための最も一般的なスコアリング関数のロバスト性と類似性について検討する。その結果,ランダムシード間のスコアリング関数のロバスト性はCL性能と正の相関関係があることが判明した。
論文参考訳（メタデータ） (2024-11-01T18:55:31Z)
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。 MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文参考訳（メタデータ） (2024-10-09T17:59:04Z)
A Psychology-based Unified Dynamic Framework for Curriculum Learning [5.410910735259908]
本稿では、心理学に基づくカリキュラム学習のための統一動的フレームワーク(PUDF)を提案する。我々は、人工集団(AC)からの応答にIRT(Item Response Theory)を適用して、データトレーニングの難しさを定量化する。本稿では,モデル学習中に適切なデータ量をスケジュールするDDS-MAE戦略を提案する。
論文参考訳（メタデータ） (2024-08-09T20:30:37Z)
Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。 ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2024-06-20T06:37:47Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes [6.652837942112205]
大規模言語モデル(LLM)は、テキストとして提供される少数の例に基づいて、目に見えないタスクを実行するという異常な能力を示している。我々は、ICLモデルによるデータ効率の向上と、より安定した収束を実現するための効果的なカリキュラム学習戦略をいくつか提案する。実験の結果, ICLモデルでは, 従来の課題を混在させながら, 段階的に難しいタスクを学習することで, 難易度を効果的に学習できることが判明した。
論文参考訳（メタデータ） (2024-04-04T16:15:23Z)
On Task Performance and Model Calibration with Supervised and Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文参考訳（メタデータ） (2023-12-21T11:55:10Z)
ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。 ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。 ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T21:51:04Z)
Data Curation Alone Can Stabilize In-context Learning [20.874674130060388]
In-context Learning (ICL) は、大規模な言語モデルに対して、一連のトレーニング例でそれらを促すことで、新しいタスクを実行することを可能にする。トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。トレーニングデータのサブセットを慎重にキュレートすることは、ICLアルゴリズムに他の変更を加えることなく、ICLのパフォーマンスを大幅に安定化させることを示す。
論文参考訳（メタデータ） (2022-12-20T15:58:54Z)
MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文参考訳（メタデータ） (2021-10-29T17:42:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。