論文の概要: Data-Efficient Finetuning Using Cross-Task Nearest Neighbors
- arxiv url: http://arxiv.org/abs/2212.00196v1
- Date: Thu, 1 Dec 2022 00:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:46:37.175420
- Title: Data-Efficient Finetuning Using Cross-Task Nearest Neighbors
- Title(参考訳): クロスタスク近傍を用いたデータ効率の良い微調整
- Authors: Hamish Ivison and Noah A. Smith and Hannaneh Hajishirzi and Pradeep
Dasigi
- Abstract要約: 慎重に選択されたインスタンスのサブセットでのトレーニングは、さまざまなデータセットで利用可能なすべてのデータでのトレーニングよりも優れていることを示す。
我々の手法は単一のマルチタスクモデルをトレーニングするよりもデータ効率が高いが、それでも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 75.07773863013001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models trained on massive prompted multitask datasets like T0 (Sanh
et al., 2021) or FLAN (Wei et al., 2021a) can generalize to tasks unseen during
training. We show that training on a carefully chosen subset of instances can
outperform training on all available data on a variety of datasets. We assume
access to a small number (250--1000) of unlabeled target task instances, select
their nearest neighbors from a pool of multitask data, and use the retrieved
data to train target task-specific models. Our method is more data-efficient
than training a single multitask model, while still outperforming it by large
margins. We evaluate across a diverse set of tasks not in the multitask pool we
retrieve from, including those used to evaluate T0 and additional complex tasks
including legal and scientific document QA. We retrieve small subsets of P3
(the collection of prompted datasets from which T0's training data was sampled)
and finetune T5 models that outperform the 3-billion parameter variant of T0
(T0-3B) by 3--30% on 12 out of 14 evaluation datasets while using at most 2% of
the data used to train T0-3B. These models also provide a better initialization
than T0-3B for few-shot finetuning on target-task data, as shown by a 2--23%
relative improvement over few-shot finetuned T0-3B models on 8 datasets. Our
code is available at https://github.com/allenai/data-efficient-finetuning.
- Abstract(参考訳): T0(Sanh et al., 2021)やFLAN(Wei et al., 2021a)のような大規模なマルチタスクデータセットに基づいてトレーニングされた言語モデルは、トレーニング中に見えないタスクに一般化することができる。
慎重に選択されたインスタンスのサブセットでのトレーニングは、さまざまなデータセットで利用可能なすべてのデータでのトレーニングよりも優れていることを示す。
ラベルなしのターゲットタスクインスタンス(250~1000)へのアクセスを想定し、マルチタスクデータのプールから最寄りの隣接インスタンスを選択し、取得したデータを使用してターゲットタスク固有のモデルをトレーニングする。
本手法は,単一のマルチタスクモデルをトレーニングするよりもデータ効率が良いが,大きなマージンをも上回っている。
我々は、T0の評価や法的および科学的な文書QAを含む複雑なタスクを含むマルチタスクプールにない様々なタスクについて評価する。
また,T0-3Bのトレーニングに使用するデータのうち,T0-3Bのトレーニングに使用するデータのうち,T0-3Bのトレーニングに使用したデータのうち,T0(T0-3B)の3ビリオンパラメータを3~30%上回る,P3(T0(T0-3B)の小さなサブセットを検索した。
これらのモデルはまた、8つのデータセット上の2~23%の相対的な改善で示されるように、ターゲット-タスクデータのマイニングにt0-3bよりも優れた初期化を提供する。
私たちのコードはhttps://github.com/allenai/data- efficient-finetuningで利用可能です。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - Foundation Model is Efficient Multimodal Multitask Model Selector [47.017463595702274]
ブルートフォースアプローチは、すべてのターゲットデータセット上のすべてのモデルを微調整し、高い計算コストをもたらす。
マルチタスクモデルセレクタ(EMMS)を提案し,多様なラベル形式を統一的な雑音ラベル埋め込みに変換する。
EMMSは、事前訓練されたモデルの転送可能性を評価するのに十分な高速で効果的で汎用的であり、マルチタスクシナリオにおける最初のモデル選択方法である。
論文 参考訳(メタデータ) (2023-08-11T17:54:44Z) - Text Alignment Is An Efficient Unified Model for Massive NLP Tasks [24.069447197357164]
次単語予測は、多くのNLPタスクの効率的な定式化ではないことが多い。
テキストアライメントは、幅広い重要なタスクに対して効率的な統一モデルとして提案する。
私たちのモデルは、より小さなモデルサイズで同等か、あるいはさらに優れたパフォーマンスを提供します。
論文 参考訳(メタデータ) (2023-07-06T02:28:31Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Label-Efficient Multi-Task Segmentation using Contrastive Learning [0.966840768820136]
比較学習に基づくサブタスクを用いたマルチタスクセグメンテーションモデルを提案し、その性能を他のマルチタスクモデルと比較する。
提案手法は,アノテートデータの量に制限がある場合に,最先端の完全教師付きモデルを含む他のマルチタスク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-23T14:12:17Z) - Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning
in NLP Using Fewer Parameters & Less Data [5.689320790746046]
マルチタスク学習(MTL)ネットワークは、異なるタスク間で学習知識を伝達するための有望な方法として登場した。
しかし、MTLは、低リソースタスクへの過度な適合、破滅的な忘れ込み、負のタスク転送といった課題に対処しなければならない。
本稿では,新しい条件付アテンション機構とタスク条件付きモジュール群からなるトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-19T02:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。