Fugu-MT 論文翻訳(概要): Level Up: Defining and Exploiting Transitional Problems for Curriculum Learning

論文の概要: Level Up: Defining and Exploiting Transitional Problems for Curriculum Learning

arxiv url: http://arxiv.org/abs/2603.13761v1
Date: Sat, 14 Mar 2026 05:17:45 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.390736
Title: Level Up: Defining and Exploiting Transitional Problems for Curriculum Learning
Title（参考訳）: レベルアップ:カリキュラム学習における遷移問題の定義と展開
Authors: Zhenwei Tang, Amogh Inamdar, Ashton Anderson, Richard Zemel,
Abstract要約: 本稿では,与えられたモデルの能力に対して,個々の問題インスタンスの難易度を直接測定する新しい手法を提案する。より簡単からより難しいトランザクショナルな問題まで"レベルアップ"するカリキュラムでのトレーニングは、モデルを次のレベルの能力レベルに最も効率的に改善します。
参考スコア（独自算出の注目度）: 11.76670314650204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Curriculum learning--ordering training examples in a sequence to aid machine learning--takes inspiration from human learning, but has not gained widespread acceptance. Static strategies for scoring item difficulty rely on indirect proxy scores of varying quality and produce curricula that are not specific to the learner at hand. Dynamic approaches base difficulty estimates on gradient information, requiring considerable extra computation during training. We introduce a novel method for measuring the difficulty of individual problem instances directly relative to the ability of a given model, and identify transitional problems that are consistently easier as model ability increases. Applying this method to chess and mathematics, we find that training on a curriculum that "levels up" from easier to harder transitional problems most efficiently improves a model to the next tier of competence. These problems induce a natural progression from easier to harder items, which outperforms other training strategies. By measuring difficulty directly relative to model competence, our method yields interpretable problems, learner-specific curricula, and a principled basis for step-by-step improvement.
Abstract（参考訳）: カリキュラム学習(Curriculum learning) - 機械学習を支援するためのトレーニング例をシーケンスで順序付けする - 人間の学習からインスピレーションを得るが、広く受け入れられていない。アイテムの難易度を評価するための静的戦略は、様々な品質の間接的なプロキシスコアに頼り、目の前の学習者に特有でないカリキュラムを生成する。動的アプローチは、勾配情報に基づいて基礎的困難を推定し、トレーニング中にかなりの余分な計算を必要とする。本稿では,与えられたモデルの能力に対して個々の問題インスタンスの難易度を直接測定する新しい手法を提案する。この手法をチェスや数学に適用することにより、より簡単からより難しいトランジショナルな問題まで"レベルアップ"するカリキュラムのトレーニングが、モデルの次のレベルの能力向上を最も効率的に行うことが分かりました。これらの問題は、より簡単なものからより難しいものへと自然な進歩をもたらし、他のトレーニング戦略よりも優れています。本手法は,モデル能力と直接的に比較し難易度を測定することにより,解釈可能な問題,学習者固有のカリキュラム,ステップバイステップ改善の原理的基礎を与える。

関連論文リスト

What Makes a Good Curriculum? Disentangling the Effects of Data Ordering on LLM Mathematical Reasoning [47.10036442634749]
大規模言語モデル(LLMs)における推論改善戦略として,カリキュラム学習(CL)が普及している。しかし、以前の作業では、異なる難易度メトリクスとトレーニングのセットアップを採用しており、オープンな根本的な疑問を残している。我々は,カリキュラムの難易度を5つの相補的な次元に分解する統合されたオフライン評価フレームワークを通じて,これらの疑問に対処する。
論文参考訳（メタデータ） (2025-10-21T21:43:38Z)
CLPO: Curriculum Learning meets Policy Optimization for LLM Reasoning [10.544900224321415]
政策最適化プロセス内に動的教育フィードバックループを生成する新しいアルゴリズムであるCLPOを提案する。 Curriculum-Guided Learning for Policy Optimizationは、静的トレーニング手順を、モデルの能力と共進化する動的なプロセスに変換する。実験により、CLPOは8つの挑戦的な数学的および一般的な推論ベンチマークで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2025-09-29T16:29:04Z)
Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文参考訳（メタデータ） (2025-07-13T19:36:17Z)
Learning Like Humans: Advancing LLM Reasoning Capabilities via Adaptive Difficulty Curriculum Learning and Expert-Guided Self-Reformulation [5.380680926225087]
本稿では,大規模言語モデルの複雑な問題を解決する能力を高めるための2つの新しい戦略を提案する。まず,適応困難カリキュラム学習(adaptive Difficulty Curriculum Learning,ADCL)は,難易度シフト(Difficulty Shift)現象に対処する新しいカリキュラム学習戦略である。第2に、Expert-Guided Self-Reformulation(EGSR)は、模倣学習と純粋探索のギャップを埋める新しい強化学習戦略である。
論文参考訳（メタデータ） (2025-05-13T09:10:48Z)
Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文参考訳（メタデータ） (2024-03-14T15:12:38Z)
IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文参考訳（メタデータ） (2021-06-23T03:43:10Z)
Curriculum Learning with Diversity for Supervised Computer Vision Tasks [1.5229257192293197]
本稿では,学習データの多様性と入力の難しさを考慮に入れた,新たなカリキュラムサンプリング戦略を提案する。我々は、我々の戦略が不均衡なデータセットに対して非常に効率的であることを証明し、より高速な収束とより正確な結果をもたらす。
論文参考訳（メタデータ） (2020-09-22T15:32:49Z)
Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文参考訳（メタデータ） (2020-09-10T14:16:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。