論文の概要: Data Distributional Properties Drive Emergent Few-Shot Learning in
Transformers
- arxiv url: http://arxiv.org/abs/2205.05055v2
- Date: Thu, 12 May 2022 08:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 02:16:38.874944
- Title: Data Distributional Properties Drive Emergent Few-Shot Learning in
Transformers
- Title(参考訳): 変圧器におけるデータ分散特性の創発的Few-Shot学習
- Authors: Stephanie C.Y. Chan, Adam Santoro, Andrew K. Lampinen, Jane X. Wang,
Aaditya Singh, Pierre H. Richemond, Jay McClelland, Felix Hill
- Abstract要約: 適切なデータ分散に適切なアーキテクチャを適用することで、少しの学習が生まれます。
適切なアーキテクチャを適切なデータ分散に適用することによってのみ、数ショットの学習が生まれることが分かっています。
- 参考スコア(独自算出の注目度): 21.762476711948338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large transformer-based language models are able to perform few-shot learning
(also known as in-context learning), without having been explicitly trained for
it. We hypothesized that specific distributional properties of natural language
might drive this emergent phenomenon, as these characteristics might lead to a
kind of interpolation between few-shot meta-training (designed to elicit rapid
few-shot learning) and standard supervised training (designed to elicit gradual
in-weights learning). We also hypothesized that these distributional properties
could lead to emergent few-shot learning in domains outside of language.
Inspired by this idea, we ran a series of experiments on a standard image-based
few-shot dataset. We discovered that a number of data properties did indeed
promote the emergence of few-shot learning in transformer models. All of these
properties are present in natural language -- burstiness, long-tailedness, and
many-to-one or one-to-many label mappings. The data influenced whether models
were biased towards either few-shot learning vs. memorizing information in
their weights; models could generally perform well at only one or the other.
However, we discovered that an additional distributional property could allow
the two capabilities to co-exist in the same model -- a skewed, Zipfian
distribution over classes -- which occurs in language as well. Notably,
training data that could elicit few-shot learning in transformers were unable
to elicit few-shot learning in recurrent models. In sum, we find that few-shot
learning emerges only from applying the right architecture to the right data
distribution; neither component is sufficient on its own.
- Abstract(参考訳): 大規模なトランスフォーマーベースの言語モデルは、明示的にトレーニングされることなく、少数ショット学習(インコンテキスト学習とも呼ばれる)を行うことができる。
自然言語の特定の分布特性は、これらの特徴が、数発メタトレーニング(迅速な数発学習を促すために設計された)と標準教師付きトレーニング(段階的インウェイト学習を引き出すために設計された)のある種の補間に繋がる可能性があるため、この創発的な現象を引き起こす可能性があると仮定した。
また,これらの分布特性が言語以外の領域における創発的少数発学習につながると仮定した。
このアイデアに触発されて、私たちは標準的なイメージベースの少数ショットデータセットで一連の実験を行いました。
多くのデータ特性が、トランスフォーマーモデルにおける数発の学習の出現を促進することを発見した。
これらの特性はすべて自然言語で存在します -- バーストネス、ロングテールネス、多対多ラベルマッピングなどです。
このデータは、モデルが数ショットの学習に偏っているか、重みの情報を記憶しているかに影響を与えている。
しかし、この2つの機能は、クラス上のスキューでZipfianの分布である同じモデルで共存することができ、言語でも同様に発生する可能性があることが判明した。
特に、トランスフォーマーの少数ショット学習を誘発するトレーニングデータは、リカレントモデルにおける少数ショット学習を誘発することができなかった。
結論として、適切なデータ分散に適切なアーキテクチャを適用することでのみ、わずかなショット学習が生まれるということが分かりました。
関連論文リスト
- Exploring the Learning Capabilities of Language Models using LEVERWORLDS [23.40759867281453]
設定のモデルを学ぶには、一般的な構造ルールとインスタンスの特定の特性の両方を学ぶ必要がある。
本稿では,様々な学習方法における一般学習と特定学習の相互作用について,サンプル効率に着目して検討する。
論文 参考訳(メタデータ) (2024-10-01T09:02:13Z) - Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Modelling Commonsense Properties using Pre-Trained Bi-Encoders [40.327695801431375]
概念とその特性をモデル化するための微調整言語モデルの可能性について検討する。
実験結果から,得られたエンコーダにより,より高い精度でコモンセンス特性を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-10-06T09:17:34Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - CoLLIE: Continual Learning of Language Grounding from Language-Image
Embeddings [2.8478710949588284]
CoLLIEは、言語がどのように視覚に根ざされているかの継続的な学習のモデルである。
新しい言語の使用に対応するために必要な言語埋め込みを調整する変換関数を学習する。
ごく少数の例から,CoLLIEが効率的に学習し,一般化できることが示される。
論文 参考訳(メタデータ) (2021-11-15T18:54:58Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。