論文の概要: A Few More Examples May Be Worth Billions of Parameters
- arxiv url: http://arxiv.org/abs/2110.04374v1
- Date: Fri, 8 Oct 2021 20:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 07:53:58.393975
- Title: A Few More Examples May Be Worth Billions of Parameters
- Title(参考訳): 数十億のパラメータを持つ例がいくつかありますが
- Authors: Yuval Kirstain, Patrick Lewis, Sebastian Riedel, Omer Levy
- Abstract要約: モデルパラメータ数の増加とラベル付き例数の増加のダイナミクスについて検討する。
オープンな質問応答タスクでは、トレーニングセットを拡大してもパフォーマンスは向上しない。
対照的に、分類、抽出的質問応答、および複数の選択タスクは、追加の例から非常に恩恵を受けており、数百のサンプルを集めることは、しばしば「価値のある」数十億のパラメータである。
- 参考スコア(独自算出の注目度): 26.116279417066284
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We investigate the dynamics of increasing the number of model parameters
versus the number of labeled examples across a wide variety of tasks. Our
exploration reveals that while scaling parameters consistently yields
performance improvements, the contribution of additional examples highly
depends on the task's format. Specifically, in open question answering tasks,
enlarging the training set does not improve performance. In contrast,
classification, extractive question answering, and multiple choice tasks
benefit so much from additional examples that collecting a few hundred examples
is often "worth" billions of parameters. We hypothesize that unlike open
question answering, which involves recalling specific information, solving
strategies for tasks with a more restricted output space transfer across
examples, and can therefore be learned with small amounts of labeled data.
- Abstract(参考訳): 様々なタスクにわたるラベル付きサンプル数に対して,モデルパラメータ数を増加させるダイナミクスについて検討する。
我々の調査では、パラメータのスケーリングが一貫してパフォーマンス改善をもたらす一方で、追加例の寄与はタスクの形式に大きく依存している。
具体的には、オープン質問応答タスクでは、トレーニングセットを拡大してもパフォーマンスは向上しない。
対照的に、分類、抽出的質問応答、複数の選択タスクは、追加の例から多くの利益を得るので、数百のサンプルを集めることは、しばしば数十億のパラメータに"価値がある"。
特定の情報をリコールするオープン質問応答とは異なり、サンプル間でより制限されたアウトプットスペース転送を持つタスクの戦略を解決し、少量のラベル付きデータで学ぶことができると仮定する。
関連論文リスト
- Mixture of Parrots: Experts improve memorization more than reasoning [72.445819694797]
専門家の数が増えるにつれて、推論能力が飽和している間に記憶性能が一貫して向上することを示す。
専門家の増加は知識集約的なタスクの解決に役立ちますが、推論タスクには同じようなメリットが得られません。
論文 参考訳(メタデータ) (2024-10-24T17:54:41Z) - Addressing the Abstraction and Reasoning Corpus via Procedural Example Generation [0.0]
本研究は、ARCトレーニングタスクの例を手続き的に生成するコードを提示する。
400のタスクごとに、元の例の変換ロジックに従うサンプルジェネレータが作成されました。
論文 参考訳(メタデータ) (2024-04-10T21:16:59Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Finding Support Examples for In-Context Learning [73.90376920653507]
本稿では,この課題を2段階に解決するためのfilter-thEN-Search法であるLENSを提案する。
まず、データセットをフィルタリングして、個別に情報的インコンテキストの例を得る。
そこで本研究では,反復的に改良し,選択したサンプル順列を評価可能な多様性誘導型サンプル探索を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:32:45Z) - ScatterShot: Interactive In-context Example Curation for Text
Transformation [44.9405895390925]
In-context Learning のための高品質な実演セットを構築するための対話型システム ScatterShot を提案する。
ScatterShotは、未ラベルデータをタスク固有のパターンに反復的にスライスし、未探索または未飽和スライスからの情報入力をアクティブに学習する。
ユーザスタディでは、ScatterShotは入力空間の異なるパターンをカバーし、テキスト内のサンプルをより効率的にラベル付けするのに役立つ。
論文 参考訳(メタデータ) (2023-02-14T21:13:31Z) - Structured Prompting: Scaling In-Context Learning to 1,000 Examples [78.41281805608081]
長さ制限を破り、文脈内学習を数千の例に拡張する構造化プロンプトを導入する。
具体的には、デモ例は、適切に設計された位置埋め込みで別々にエンコードされ、その後、再スケールされた注意機構を使用してテスト例に共同で出席する。
論文 参考訳(メタデータ) (2022-12-13T16:31:21Z) - DiSparse: Disentangled Sparsification for Multitask Model Compression [92.84435347164435]
DiSparseは、シンプルで効果的で、第一級のマルチタスクプルーニングとスパーストレーニングスキームである。
実験の結果,様々な設定や設定において優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-09T17:57:46Z) - Instance-Level Task Parameters: A Robust Multi-task Weighting Framework [17.639472693362926]
最近の研究によると、ディープニューラルネットワークは、複数の関連するタスク間で共有表現を学習することで、マルチタスク学習の恩恵を受けている。
トレーニングプロセスは、データセットの各インスタンスに対するタスクの最適な重み付けを規定します。
我々は,SURREALとCityScapesのデータセットを用いて,人間の形状とポーズ推定,深さ推定,セマンティックセグメンテーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-06-11T02:35:42Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。