論文の概要: ADAPT: Learning Task Mixtures for Budget-Constrained Instruction Tuning
- arxiv url: http://arxiv.org/abs/2512.04555v1
- Date: Thu, 04 Dec 2025 08:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.062667
- Title: ADAPT: Learning Task Mixtures for Budget-Constrained Instruction Tuning
- Title(参考訳): ADAPT:予算制約のある授業チューニングのためのタスクミックス学習
- Authors: Pritam Kadasi, Abhishek Upperwal, Mayank SIngh,
- Abstract要約: ADAPTは、命令チューニングのための明示的なトークン予算の下でタスクサンプリング比率を学習するメタ学習アルゴリズムである。
我々は、推論、読解、コード生成、命令追従にまたがる11のドメイン外のベンチマークの評価を行う。
- 参考スコア(独自算出の注目度): 1.0039548765955955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose ADAPT, a meta-learning algorithm that \emph{learns} task sampling proportions under an explicit token budget for multi-task instruction tuning. Instead of fixing task weights by hand, \adapt{} maintains a continuous distribution over tasks and updates it via meta-gradients of a smooth worst-case validation objective, inducing an adaptive curriculum that allocates more tokens to useful tasks while avoiding collapse. We instantiate ADAPT on three $\sim$1B-parameter open-weight LLMs (Gemma-3-1B, LLaMA-3.2-1B, Qwen-0.6B), training on 20 Natural Instructions task types under budgets of $1\%$, $5\%$, and $10\%$ of the available supervised tokens, and compare against strong supervised fine-tuning baselines with uniform and size-proportional mixing. We conduct evaluations on 11 out-of-domain benchmarks spanning reasoning, reading comprehension, code generation, and instruction following, we find that ADAPT matches or slightly improves average downstream performance relative to the best static mixture, while using fewer effective training tokens and reallocating budget toward harder, benchmark-aligned tasks.
- Abstract(参考訳): 本稿では,マルチタスク命令チューニングのための明示的なトークン予算の下で,タスクサンプリング比率を付与するメタ学習アルゴリズムADAPTを提案する。
タスクの重みを手作業で修正する代わりに,‘adapt{} はタスクの継続的な分散を維持して,スムーズな最悪の検証目標のメタグラディエントを通じて更新する。
ADAPTは3つの$\sim$1B-parameter Open-weight LLMs (Gemma-3-1B, LLaMA-3.2-1B, Qwen-0.6B) でインスタンス化され、20種類のNatural Instructionsタスクタイプを1\%$, 5,\%$, 10\%$の予算でトレーニングし、一様および多様混合の強い教師付き微調整ベースラインと比較する。
我々は、推論、読解、コード生成、命令に続く11のドメイン外のベンチマークの評価を行い、ADAPTは、より効率的なトレーニングトークンを減らし、より難しいベンチマーク整合タスクに向けて予算を再配置しながら、最高の静的な混合に対して平均ダウンストリームパフォーマンスを適合またはわずかに改善することを発見した。
関連論文リスト
- BOTS: A Unified Framework for Bayesian Online Task Selection in LLM Reinforcement Finetuning [82.925106913459]
強化微調整(Reinforcement Finetuning, RFT)は、大規模言語モデル(LLM)を人間の嗜好と整合させ、推論を強化するための重要な手法である。
RFT強化微調整におけるベイズオンラインタスク選択のための統合フレームワークBOTSを紹介する。
論文 参考訳(メタデータ) (2025-10-30T11:15:23Z) - Aligning Instruction Tuning with Pre-training [61.50161961371844]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - From Instance Training to Instruction Learning: Task Adapters Generation from Instructions [29.452006810725184]
本稿では,事例学習の欠点に対処するために,人間の学習をシミュレートすることに焦点を当てる。
タスク固有のモデルを自動的に構築するTAGI(Task Adapters from Instructions)を導入する。
超自然的インストラクションとP3データセットを用いたTAGIの評価を行った。
論文 参考訳(メタデータ) (2024-06-18T08:14:28Z) - Robust Multi-Task Learning with Excess Risks [24.695243608197835]
マルチタスク学習(MTL)は、全てのタスク損失の凸結合を最適化することにより、複数のタスクのジョイントモデルを学ぶことを検討する。
既存の方法は適応的な重み更新方式を用いており、各損失に基づいてタスク重みを動的に調整し、困難なタスクを優先順位付けする。
本稿では,過度リスクに基づくタスクバランス手法であるMulti-Task Learning with Excess Risks (ExcessMTL)を提案する。
論文 参考訳(メタデータ) (2024-02-03T03:46:14Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Boosting Natural Language Generation from Instructions with
Meta-Learning [43.64522457686405]
最近の研究によると、言語モデル(LM)はマルチタスクで訓練されている。
Textitinstructional Learning (MTIL) は多様なNLPを解くことができる。
即時チューニングよりもパフォーマンスが向上したタスク。
本稿では,MTILに適用したメタラーニングが,ゼロショット設定における未確認タスクへの一般化をさらに改善できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-10-20T22:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。