論文の概要: How to distribute data across tasks for meta-learning?
- arxiv url: http://arxiv.org/abs/2103.08463v1
- Date: Mon, 15 Mar 2021 15:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 18:04:11.811707
- Title: How to distribute data across tasks for meta-learning?
- Title(参考訳): メタ学習のためのタスク間でデータを分散する方法?
- Authors: Alexandru Cioba, Michael Bromberg, Qian Wang, Ritwik Niyogi, Georgios
Batzolis, Da-shan Shiu, Alberto Bernacchia
- Abstract要約: タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
- 参考スコア(独自算出の注目度): 59.608652082495624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-learning models transfer the knowledge acquired from previous tasks to
quickly learn new ones. They are tested on benchmarks with a fixed number of
data points per training task. This number is usually arbitrary and it is
unknown how it affects the performance. Since labelling of data is expensive,
finding the optimal allocation of labels across training tasks may reduce
costs: given a fixed budget of labels, should we use a small number of highly
labelled tasks, or many tasks with few labels each? We show that: 1) The
optimal number of data points per task depends on the budget, but it converges
to a unique constant value for large budgets; 2) Convergence occurs around the
interpolation threshold of the model. We prove our results mathematically on
mixed linear regression, and we show empirically that the same results hold for
nonlinear regression and few-shot image classification on CIFAR-FS and
mini-ImageNet. Our results suggest a simple and efficient procedure for data
collection: the optimal allocation of data can be computed at low cost, by
using relatively small data, and collection of additional data can be optimized
by the knowledge of the optimal allocation.
- Abstract(参考訳): メタ学習モデルは、以前のタスクから得た知識を素早く新しいタスクを学習するために転送する。
トレーニングタスク毎に一定の数のデータポイントを持つベンチマークでテストされる。
この数は通常任意であり、パフォーマンスにどのように影響するかは不明である。
データのラベル付けは高価であるため、トレーニングタスク間でラベルの最適な割り当てを見つけることでコストが削減される可能性がある。
1) タスク毎のデータポイントの最適数は予算に依存するが,大きな予算に対して一意の定数値に収束し,2) モデルの補間しきい値付近に収束する。
我々は,混合線形回帰を数学的に証明し,CIFAR-FS と mini-ImageNet による非線形回帰と少数ショット画像の分類において,同じ結果が成り立つことを実証的に示す。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。データの最適な割り当ては比較的小さなデータを用いて低コストで計算でき,データの収集は最適なアロケーションの知識によって最適化できる。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - Variance Alignment Score: A Simple But Tough-to-Beat Data Selection
Method for Multimodal Contrastive Learning [17.40655778450583]
本稿では、Sigma_texttest, Sigma_irangle$という形式を持つVariance Alignment Score(VAS)という原則付き計量を提案する。
VASとCLIPのスコアを合わせると、ノイズの多いデータセットDataCompの38評価セットに1.3%、高品質なデータセットCC12MのVTABに2.5%の差でベースラインを上回ります。
論文 参考訳(メタデータ) (2024-02-03T06:29:04Z) - DiffusAL: Coupling Active Learning with Graph Diffusion for
Label-Efficient Node Classification [1.0602247913671219]
我々はDiffusALと呼ばれる新しいグラフ学習手法を導入し、多様な設定において大きな堅牢性を示す。
取得とトレーニングの計算のほとんどは事前処理が可能であり、Diffusalは多様な選択基準を組み合わせたアプローチに比べて効率的である。
各種ベンチマークデータセットを用いた実験により, 従来の手法と異なり, テスト対象のデータセットとラベルの予算の100%において, ランダム選択を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-07-31T20:30:13Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Budget-aware Few-shot Learning via Graph Convolutional Network [56.41899553037247]
本稿では,いくつかの例から新しい視覚概念を学習することを目的とした,数ショット学習の課題に取り組む。
数ショット分類における一般的な問題設定は、データラベルの取得においてランダムサンプリング戦略を前提としている。
そこで我々は,新しい対象カテゴリーの学習を目的とした,予算に配慮した数発の学習問題を新たに導入する。
論文 参考訳(メタデータ) (2022-01-07T02:46:35Z) - Active clustering for labeling training data [0.8029049649310211]
本稿では,人間専門家がペアワイズクエリに応答する比較的安価なタスクを実行するための,データ収集のトレーニング環境を提案する。
我々は、アイテムをクラスタリングし、その複雑さを分析するのに必要なクエリの平均数を最小化するアルゴリズムを解析する。
論文 参考訳(メタデータ) (2021-10-27T15:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。