論文の概要: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
- arxiv url: http://arxiv.org/abs/2510.13008v1
- Date: Tue, 14 Oct 2025 21:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.431428
- Title: CurLL: A Developmental Framework to Evaluate Continual Learning in Language Models
- Title(参考訳): CurLL: 言語モデルにおける継続的な学習を評価するための開発フレームワーク
- Authors: Pavan Kalyan, Shubhra Mishra, Satya Lokam, Navin Goyal,
- Abstract要約: 5歳から10歳までの発達軌跡を基盤とした総合的な連続学習データセットとベンチマーク(CurlL)を導入する。
CurlLは5歳から10歳までの5つの発達段階(0-4)にまたがっており、幅広いスキルを小さな能力に分解するスキルグラフによって支えられている。
我々は23.4Bの合成データセットを作成し、スキルの進歩、語彙の複雑さ、フォーマットの多様性を制御した。
- 参考スコア(独自算出の注目度): 6.333098807183056
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce a comprehensive continual learning dataset and benchmark (CurlL) grounded in human developmental trajectories from ages 5-10, enabling systematic and fine-grained assessment of models' ability to progressively acquire new skills. CurlL spans five developmental stages (0-4) covering ages 5-10, supported by a skill graph that breaks down broad skills into smaller abilities, concrete goals, and measurable indicators, while also capturing which abilities build on others. We generate a 23.4B-token synthetic dataset with controlled skill progression, vocabulary complexity, and format diversity, comprising paragraphs, comprehension-based QA (CQA), skill-testing QA (CSQA), and instruction-response (IR) pairs. Stage-wise token counts range from 2.12B to 6.78B tokens, supporting precise analysis of forgetting, forward transfer, and backward transfer. Using a 135M-parameter transformer trained under independent, joint, and sequential (continual) setups, we show trade-offs in skill retention and transfer efficiency. By mirroring human learning patterns and providing fine-grained control over skill dependencies, this work advances continual learning evaluations for language models.
- Abstract(参考訳): 5歳から10歳までの発達過程を基盤とした総合的な連続学習データセットとベンチマーク(CurlL)を導入し,新たなスキルを段階的に獲得するモデルの能力の体系的かつきめ細かな評価を可能にした。
CurlLは5歳から10歳までの発達段階(0-4)をカバーし、幅広いスキルをより小さな能力、具体的な目標、測定可能な指標に分割するスキルグラフによって支えられている。
我々は、制御されたスキル進歩、語彙複雑性、形式多様性を備えた23.4Bの合成データセットを生成し、段落、理解ベースQA(CQA)、スキルテストQA(CSQA)、命令応答(IR)ペアを含む。
ステージ単位のトークン数は2.12Bから6.78Bまでの範囲で、忘れ、転送、転送の正確な分析をサポートする。
独立系, 連系型, 連続型 (連続型) 構成下で訓練された135Mパラメータを用いて, 技能維持と伝達効率のトレードオフを示す。
人間の学習パターンを反映し、スキル依存のきめ細かい制御を提供することで、この研究は言語モデルの継続的な学習評価を進める。
関連論文リスト
- TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。
TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。
我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文 参考訳(メタデータ) (2025-08-07T15:11:17Z) - Dynamic Skill Adaptation for Large Language Models [78.31322532135272]
動的スキル適応(Dynamic Skill Adaptation, DSA)は, 言語モデル(LLM)に新しい複雑なスキルを適応させる適応的かつ動的フレームワークである。
各スキルに対して,学習前スキルの詳細な記述を含む教科書的データと,学習前スキルの具体的活用を目標とした演習的データの両方を生成する。
LLAMA や Mistral のような大規模言語モデルを用いた実験は,提案手法が数学推論スキルや社会学習スキルに適応する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-12-26T22:04:23Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - A Mathematical Theory for Learning Semantic Languages by Abstract Learners [9.139188656944429]
本研究では,学習過程を考慮に入れて,学習スキルの出現を説明する数学的理論を開発する。
トレーニングテキスト数とスキル数との比率が一定の閾値を超えた場合、学習スキルの出現を実証する。
本研究では, サイトパーコレーション解析を用いて, スキルアソシエーショングラフにおける巨大成分の存在条件を導出する。
論文 参考訳(メタデータ) (2024-04-10T13:50:46Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - Skill-it! A Data-Driven Skills Framework for Understanding and Training
Language Models [29.17711426767209]
本稿では,タスク間のダウンストリームモデルの性能向上につながるデータの選択方法について検討する。
簡単な仮説に基づく新しいフレームワークを開発する。人間が意図的な順序で相互依存するスキルを取得するのと同じように、言語モデルもトレーニングデータから一連のスキルを学ぶ際に自然な順序に従う。
論文 参考訳(メタデータ) (2023-07-26T18:01:49Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Continual-T0: Progressively Instructing 50+ Tasks to Language Models
Without Forgetting [43.26527621636809]
モデルは、以前のスキルを忘れずに、その知識と能力を拡張し続けることができるべきだ、と私たちは主張する。
我々は、この成功の理由を実証的に調査し、継続学習は自己超越的な事前学習から生まれると結論づける。
得られたモデルであるContinual-T0(CT0)は、さまざまな新しいタスクを学習すると同時に、以前のタスクでも優れたパフォーマンスを維持しながら、合計70のデータセットに著しく分散しています。
論文 参考訳(メタデータ) (2022-05-24T22:53:34Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。