論文の概要: Small Models, Smarter Learning: The Power of Joint Task Training
- arxiv url: http://arxiv.org/abs/2505.18369v1
- Date: Fri, 23 May 2025 20:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.373461
- Title: Small Models, Smarter Learning: The Power of Joint Task Training
- Title(参考訳): 小さなモデル, よりスマートな学習: 共同作業訓練の力
- Authors: Csaba Both, Benjamin Hoover, Hendrik Strobelt, Dmitry Krotov, Daniel Karl I. Weidele, Mauro Martino, Nima Dehmamy,
- Abstract要約: 本研究では,ネストした数学的操作からなるListOpsデータセットに着目した。
我々は和 modulo n が最も学習が難しいことを観察する。
ジョイントトレーニングは,パフォーマンスの向上だけでなく,定性的に異なるモデル行動をもたらすことを示す。
- 参考スコア(独自算出の注目度): 23.91574901740084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of a model to learn a task depends strongly on both the task difficulty and the model size. We aim to understand how task difficulty relates to the minimum number of parameters required for learning specific tasks in small transformer models. Our study focuses on the ListOps dataset, which consists of nested mathematical operations. We gradually increase task difficulty by introducing new operations or combinations of operations into the training data. We observe that sum modulo n is the hardest to learn. Curiously, when combined with other operations such as maximum and median, the sum operation becomes easier to learn and requires fewer parameters. We show that joint training not only improves performance but also leads to qualitatively different model behavior. We show evidence that models trained only on SUM might be memorizing and fail to capture the number structure in the embeddings. In contrast, models trained on a mixture of SUM and other operations exhibit number-like representations in the embedding space, and a strong ability to distinguish parity. Furthermore, the SUM-only model relies more heavily on its feedforward layers, while the jointly trained model activates the attention mechanism more. Finally, we show that learning pure SUM can be induced in models below the learning threshold of pure SUM, by pretraining them on MAX+MED. Our findings indicate that emergent abilities in language models depend not only on model size, but also the training curriculum.
- Abstract(参考訳): モデルがタスクを学習する能力は、タスクの難しさとモデルのサイズの両方に強く依存する。
我々は,タスクの難易度が,小さなトランスフォーマーモデルにおいて,特定のタスクの学習に必要なパラメータの最小値とどのように関連しているかを理解することを目的としている。
本研究では,ネストした数学的操作からなるListOpsデータセットに着目した。
トレーニングデータに新たな操作や操作の組み合わせを導入することで、タスクの難易度を徐々に向上させます。
我々は和 modulo n が最も学習が難しいことを観察する。
皮肉なことに、最大値や中央値などの他の演算と組み合わせると、和演算は学習しやすくなり、パラメータが少なくなる。
ジョイントトレーニングは,パフォーマンスの向上だけでなく,定性的に異なるモデル行動をもたらすことを示す。
我々は,SUMのみをトレーニングしたモデルが記憶している可能性を示し,埋め込みにおける数構造を捉えることができないことを示す。
対照的に、SUMと他の操作の混合で訓練されたモデルは、埋め込み空間において数のような表現を示し、パリティを区別する強力な能力を示す。
さらに、SUMのみのモデルはフィードフォワード層に強く依存する一方、共同で訓練されたモデルはアテンション機構をより活性化する。
最後に、MAX+MEDで事前学習することで、純粋なSUMの学習しきい値以下のモデルで純粋なSUMを学習することができることを示す。
その結果,言語モデルにおける創発能力は,モデルのサイズだけでなく,学習カリキュラムにも依存していることがわかった。
関連論文リスト
- The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - An exactly solvable model for emergence and scaling laws in the multitask sparse parity problem [2.598133279943607]
本稿では,新たな能力(スキル)を基礎関数として表現するフレームワークを提案する。
新たなスキルの出現と、トレーニング時間、データサイズ、モデルサイズ、最適計算による損失の法則のスケーリングに関する分析式を見つける。
私たちの単純なモデルでは、単一の適合パラメータを使用して、トレーニング時間、データサイズ、モデルサイズが増大するにつれて、複数の新しいスキルのシグモダルな出現を捉えます。
論文 参考訳(メタデータ) (2024-04-26T17:45:32Z) - How does Multi-Task Training Affect Transformer In-Context Capabilities? Investigations with Function Classes [6.652837942112205]
大規模言語モデル(LLM)は、テキストとして提供される少数の例に基づいて、目に見えないタスクを実行するという異常な能力を示している。
我々は、ICLモデルによるデータ効率の向上と、より安定した収束を実現するための効果的なカリキュラム学習戦略をいくつか提案する。
実験の結果, ICLモデルでは, 従来の課題を混在させながら, 段階的に難しいタスクを学習することで, 難易度を効果的に学習できることが判明した。
論文 参考訳(メタデータ) (2024-04-04T16:15:23Z) - Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in
Transformer Models [9.340409961107955]
トランスフォーマーモデルには、コンテキスト内学習(ICL)を実行する驚くべき能力がある
本研究は, トランスフォーマーが事前学習データ混合物間の橋渡しを効果的に行う方法について検討する。
以上の結果から,高容量シーケンスモデルの印象的なICL能力は,インダクティブバイアスよりも事前学習データ混合のカバレッジに密接に関係している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-01T21:41:08Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。