論文の概要: Schema-learning and rebinding as mechanisms of in-context learning and
emergence
- arxiv url: http://arxiv.org/abs/2307.01201v1
- Date: Fri, 16 Jun 2023 00:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-09 13:51:17.920762
- Title: Schema-learning and rebinding as mechanisms of in-context learning and
emergence
- Title(参考訳): インコンテキスト学習と創発のメカニズムとしてのスキーマ学習と再結合
- Authors: Sivaramakrishnan Swaminathan, Antoine Dedieu, Rajkumar Vasudeva Raju,
Murray Shanahan, Miguel Lazaro-Gredilla, Dileep George
- Abstract要約: In-context Learning (ICL)は、最近のトランスフォーマーベース大規模言語モデル(LLM)において、最も強力で予期せぬ能力の1つである。
我々は、クローン構造因果グラフ(CSCG)を用いた代替シーケンス予測学習法により、同等のICL能力を取得できることを実証した。
- 参考スコア(独自算出の注目度): 10.370506005311091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) is one of the most powerful and most unexpected
capabilities to emerge in recent transformer-based large language models
(LLMs). Yet the mechanisms that underlie it are poorly understood. In this
paper, we demonstrate that comparable ICL capabilities can be acquired by an
alternative sequence prediction learning method using clone-structured causal
graphs (CSCGs). Moreover, a key property of CSCGs is that, unlike
transformer-based LLMs, they are {\em interpretable}, which considerably
simplifies the task of explaining how ICL works. Specifically, we show that it
uses a combination of (a) learning template (schema) circuits for pattern
completion, (b) retrieving relevant templates in a context-sensitive manner,
and (c) rebinding of novel tokens to appropriate slots in the templates. We go
on to marshall evidence for the hypothesis that similar mechanisms underlie ICL
in LLMs. For example, we find that, with CSCGs as with LLMs, different
capabilities emerge at different levels of overparameterization, suggesting
that overparameterization helps in learning more complex template (schema)
circuits. By showing how ICL can be achieved with small models and datasets, we
open up a path to novel architectures, and take a vital step towards a more
general understanding of the mechanics behind this important capability.
- Abstract(参考訳): In-context Learning (ICL)は、最近のトランスフォーマーベースの大規模言語モデル(LLM)において、最も強力で予期せぬ能力の1つである。
しかし、その根底にあるメカニズムはよく分かっていない。
本稿では,クローン構造因果グラフ (CSCG) を用いた代替シーケンス予測学習法により,同等のICL能力を得られることを示す。
さらに、cscgsの鍵となる特性は、トランスフォーマーベースのllmとは異なり、それらは「em interpretable」であり、iclの動作を説明する作業を大幅に単純化する。
具体的には 組み合わせが使われています
(a)パターン完了のための学習テンプレート(スキーマ)回路
b)関連テンプレートを文脈に敏感な方法で検索し、
(c)テンプレート内の適切なスロットへの新規トークンの再結合。
我々は、同様の機構がLSMのICLを下降させるという仮説の証拠をマーシャリングする。
例えば、LCMと同様のCSCGでは、オーバーパラメータ化の異なるレベルで異なる能力が出現し、オーバーパラメータ化がより複雑なテンプレート(スキーマ)回路の学習に役立つことが示唆されている。
iclが小さなモデルやデータセットでどのように達成できるかを示すことで、私たちは新しいアーキテクチャへの道を開き、この重要な能力の背後にあるメカニズムをより一般的な理解に向けて重要な一歩を踏み出します。
関連論文リスト
- In-Context Exemplars as Clues to Retrieving from Large Associative
Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。
文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。
本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文 参考訳(メタデータ) (2023-11-06T20:13:29Z) - In-context Learning with Transformer Is Really Equivalent to a
Contrastive Learning Pattern [11.329953476499712]
本稿では,逆学習パターンの勾配降下過程としてICLの推論過程を解釈する。
我々の知識を最大限に活用するために、我々の研究は、対照的な学習の観点からICLの理解を提供する最初のものである。
論文 参考訳(メタデータ) (2023-10-20T01:55:34Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - A Mechanism for Solving Relational Tasks in Transformer Language Models [36.29933464955979]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスクを解くための単純な計算機構を利用する場合があることを示す。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - ECML: An Ensemble Cascade Metric Learning Mechanism towards Face
Verification [50.137924223702264]
特に、階層的メートル法学習はカスケード方式で実行され、不適合を緩和する。
顔の特徴分布特性を考慮し, 閉形解を用いたロバストなマハラノビス計量学習法(RMML)を提案する。
EC-RMMLは、顔認証のための最先端のメトリック学習法よりも優れている。
論文 参考訳(メタデータ) (2020-07-11T08:47:07Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。