論文の概要: In-Context Language Learning: Architectures and Algorithms
- arxiv url: http://arxiv.org/abs/2401.12973v2
- Date: Tue, 30 Jan 2024 18:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 18:09:10.403654
- Title: In-Context Language Learning: Architectures and Algorithms
- Title(参考訳): インコンテキスト言語学習: アーキテクチャとアルゴリズム
- Authors: Ekin Aky\"urek, Bailin Wang, Yoon Kim, Jacob Andreas
- Abstract要約: 我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
- 参考スコア(独自算出の注目度): 73.93205821154605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale neural language models exhibit a remarkable capacity for
in-context learning (ICL): they can infer novel functions from datasets
provided as input. Most of our current understanding of when and how ICL arises
comes from LMs trained on extremely simple learning problems like linear
regression and associative recall. There remains a significant gap between
these model problems and the "real" ICL exhibited by LMs trained on large text
corpora, which involves not just retrieval and function approximation but
free-form generation of language and other structured outputs. In this paper,
we study ICL through the lens of a new family of model problems we term in
context language learning (ICLL). In ICLL, LMs are presented with a set of
strings from a formal language, and must generate additional strings from the
same language. We focus on in-context learning of regular languages generated
by random finite automata. We evaluate a diverse set of neural sequence models
(including several RNNs, Transformers, and state-space model variants) on
regular ICLL tasks, aiming to answer three questions: (1) Which model classes
are empirically capable of ICLL? (2) What algorithmic solutions do successful
models implement to perform ICLL? (3) What architectural changes can improve
ICLL in less performant models? We first show that Transformers significantly
outperform neural sequence models with recurrent or convolutional
representations on ICLL tasks. Next, we provide evidence that their ability to
do so relies on specialized "n-gram heads" (higher-order variants of induction
heads) that compute input-conditional next-token distributions. Finally, we
show that hard-wiring these heads into neural models improves performance not
just on ICLL, but natural language modeling -- improving the perplexity of
340M-parameter models by up to 1.14 points (6.7%) on the SlimPajama dataset.
- Abstract(参考訳): 大規模ニューラルネットワークモデルは、インコンテキスト学習(ICL)において顕著な能力を示し、入力として提供されるデータセットから新しい関数を推論することができる。
現在のICLの理解のほとんどは、線形回帰や連想的リコールといった極めて単純な学習問題に基づいて訓練されたLMから来ています。
これらのモデル問題と、大きなテキストコーパスでトレーニングされたlmsによって提示された「本物の」iclの間には、大きなギャップが残っている。
本稿では、文脈言語学習(icll)におけるモデル問題の新たなファミリーのレンズを通して、iclについて検討する。
icllでは、lmsは形式言語からの文字列の集合で示され、同じ言語から追加文字列を生成する必要がある。
ランダム有限オートマトンによって生成される正規言語の文脈内学習に焦点をあてる。
我々は,通常のicllタスクにおける様々なニューラルネットワークモデル(複数のrnn,トランスフォーマー,状態空間モデルを含む)の評価を行い,(1)どのモデルクラスがicllを経験的に利用できるか,という3つの疑問に答えることを目的としている。
(2) 成功したモデルがicllを実行するために実装するアルゴリズム的ソリューションは何か?
3) パフォーマンスの低いモデルでicllを改善できるアーキテクチャ変更は何ですか?
まず、トランスフォーマーがicllタスクで繰り返しあるいは畳み込み表現を持つニューラルネットワークモデルを大幅に上回ることを示す。
次に,入力条件次値分布を計算する特殊なn-gramヘッド (higher-order variants of induction head) にその能力が依存していることを示す。
最後に、これらのヘッドをニューラルネットワークモデルに切り換えることで、ICLLだけでなく、自然言語モデリング -- SlimPajamaデータセットで最大1.14ポイント(6.7%)まで340Mパラメータモデルの複雑度を改善する -- のパフォーマンスが向上することを示す。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Scaling Laws for Linear Complexity Language Models [18.787664489713332]
線形複雑性言語モデルのスケーリング法則を提示し、その拡張性の基礎を確立する。
この研究は、既存の線形複雑性言語モデルが従来のトランスフォーマーベースモデルと同様のスケーリング能力を示すことを示した。
論文 参考訳(メタデータ) (2024-06-24T14:51:31Z) - Brain-Like Language Processing via a Shallow Untrained Multihead Attention Network [16.317199232071232]
大規模言語モデル(LLM)は、人間の言語システムの効果的なモデルであることが示されている。
本研究では、未学習モデルの驚くほどのアライメントを駆動する重要なアーキテクチャコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-21T12:54:03Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。