論文の概要: In-Context Language Learning: Architectures and Algorithms
- arxiv url: http://arxiv.org/abs/2401.12973v2
- Date: Tue, 30 Jan 2024 18:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 18:09:10.403654
- Title: In-Context Language Learning: Architectures and Algorithms
- Title(参考訳): インコンテキスト言語学習: アーキテクチャとアルゴリズム
- Authors: Ekin Aky\"urek, Bailin Wang, Yoon Kim, Jacob Andreas
- Abstract要約: 我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
- 参考スコア(独自算出の注目度): 73.93205821154605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale neural language models exhibit a remarkable capacity for
in-context learning (ICL): they can infer novel functions from datasets
provided as input. Most of our current understanding of when and how ICL arises
comes from LMs trained on extremely simple learning problems like linear
regression and associative recall. There remains a significant gap between
these model problems and the "real" ICL exhibited by LMs trained on large text
corpora, which involves not just retrieval and function approximation but
free-form generation of language and other structured outputs. In this paper,
we study ICL through the lens of a new family of model problems we term in
context language learning (ICLL). In ICLL, LMs are presented with a set of
strings from a formal language, and must generate additional strings from the
same language. We focus on in-context learning of regular languages generated
by random finite automata. We evaluate a diverse set of neural sequence models
(including several RNNs, Transformers, and state-space model variants) on
regular ICLL tasks, aiming to answer three questions: (1) Which model classes
are empirically capable of ICLL? (2) What algorithmic solutions do successful
models implement to perform ICLL? (3) What architectural changes can improve
ICLL in less performant models? We first show that Transformers significantly
outperform neural sequence models with recurrent or convolutional
representations on ICLL tasks. Next, we provide evidence that their ability to
do so relies on specialized "n-gram heads" (higher-order variants of induction
heads) that compute input-conditional next-token distributions. Finally, we
show that hard-wiring these heads into neural models improves performance not
just on ICLL, but natural language modeling -- improving the perplexity of
340M-parameter models by up to 1.14 points (6.7%) on the SlimPajama dataset.
- Abstract(参考訳): 大規模ニューラルネットワークモデルは、インコンテキスト学習(ICL)において顕著な能力を示し、入力として提供されるデータセットから新しい関数を推論することができる。
現在のICLの理解のほとんどは、線形回帰や連想的リコールといった極めて単純な学習問題に基づいて訓練されたLMから来ています。
これらのモデル問題と、大きなテキストコーパスでトレーニングされたlmsによって提示された「本物の」iclの間には、大きなギャップが残っている。
本稿では、文脈言語学習(icll)におけるモデル問題の新たなファミリーのレンズを通して、iclについて検討する。
icllでは、lmsは形式言語からの文字列の集合で示され、同じ言語から追加文字列を生成する必要がある。
ランダム有限オートマトンによって生成される正規言語の文脈内学習に焦点をあてる。
我々は,通常のicllタスクにおける様々なニューラルネットワークモデル(複数のrnn,トランスフォーマー,状態空間モデルを含む)の評価を行い,(1)どのモデルクラスがicllを経験的に利用できるか,という3つの疑問に答えることを目的としている。
(2) 成功したモデルがicllを実行するために実装するアルゴリズム的ソリューションは何か?
3) パフォーマンスの低いモデルでicllを改善できるアーキテクチャ変更は何ですか?
まず、トランスフォーマーがicllタスクで繰り返しあるいは畳み込み表現を持つニューラルネットワークモデルを大幅に上回ることを示す。
次に,入力条件次値分布を計算する特殊なn-gramヘッド (higher-order variants of induction head) にその能力が依存していることを示す。
最後に、これらのヘッドをニューラルネットワークモデルに切り換えることで、ICLLだけでなく、自然言語モデリング -- SlimPajamaデータセットで最大1.14ポイント(6.7%)まで340Mパラメータモデルの複雑度を改善する -- のパフォーマンスが向上することを示す。
関連論文リスト
- Meta predictive learning model of languages in neural circuits [2.5690340428649328]
本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。
我々のモデルでは、ほとんどの接続は学習後に決定論的になる。
本モデルは,脳計算,次点予測,一般知能の関連性を調べるための出発点となる。
論文 参考訳(メタデータ) (2023-09-08T03:58:05Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Logical Natural Language Generation from Open-Domain Tables [107.04385677577862]
本稿では,その事実に関連付けられた自然言語文をモデルで生成するタスクを提案する。
提案した論理的 NLG 問題の研究を容易にするために,幅広い論理的・記号的推論を特徴とする既存の TabFact データセットcitechen 2019tabfact を用いる。
新しいタスクは、シーケンス順序と論理順序のミスマッチのため、既存のモノトニック生成フレームワークに課題をもたらす。
論文 参考訳(メタデータ) (2020-04-22T06:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。