論文の概要: Schema-learning and rebinding as mechanisms of in-context learning and
emergence
- arxiv url: http://arxiv.org/abs/2307.01201v1
- Date: Fri, 16 Jun 2023 00:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-09 13:51:17.920762
- Title: Schema-learning and rebinding as mechanisms of in-context learning and
emergence
- Title(参考訳): インコンテキスト学習と創発のメカニズムとしてのスキーマ学習と再結合
- Authors: Sivaramakrishnan Swaminathan, Antoine Dedieu, Rajkumar Vasudeva Raju,
Murray Shanahan, Miguel Lazaro-Gredilla, Dileep George
- Abstract要約: In-context Learning (ICL)は、最近のトランスフォーマーベース大規模言語モデル(LLM)において、最も強力で予期せぬ能力の1つである。
我々は、クローン構造因果グラフ(CSCG)を用いた代替シーケンス予測学習法により、同等のICL能力を取得できることを実証した。
- 参考スコア(独自算出の注目度): 10.370506005311091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) is one of the most powerful and most unexpected
capabilities to emerge in recent transformer-based large language models
(LLMs). Yet the mechanisms that underlie it are poorly understood. In this
paper, we demonstrate that comparable ICL capabilities can be acquired by an
alternative sequence prediction learning method using clone-structured causal
graphs (CSCGs). Moreover, a key property of CSCGs is that, unlike
transformer-based LLMs, they are {\em interpretable}, which considerably
simplifies the task of explaining how ICL works. Specifically, we show that it
uses a combination of (a) learning template (schema) circuits for pattern
completion, (b) retrieving relevant templates in a context-sensitive manner,
and (c) rebinding of novel tokens to appropriate slots in the templates. We go
on to marshall evidence for the hypothesis that similar mechanisms underlie ICL
in LLMs. For example, we find that, with CSCGs as with LLMs, different
capabilities emerge at different levels of overparameterization, suggesting
that overparameterization helps in learning more complex template (schema)
circuits. By showing how ICL can be achieved with small models and datasets, we
open up a path to novel architectures, and take a vital step towards a more
general understanding of the mechanics behind this important capability.
- Abstract(参考訳): In-context Learning (ICL)は、最近のトランスフォーマーベースの大規模言語モデル(LLM)において、最も強力で予期せぬ能力の1つである。
しかし、その根底にあるメカニズムはよく分かっていない。
本稿では,クローン構造因果グラフ (CSCG) を用いた代替シーケンス予測学習法により,同等のICL能力を得られることを示す。
さらに、cscgsの鍵となる特性は、トランスフォーマーベースのllmとは異なり、それらは「em interpretable」であり、iclの動作を説明する作業を大幅に単純化する。
具体的には 組み合わせが使われています
(a)パターン完了のための学習テンプレート(スキーマ)回路
b)関連テンプレートを文脈に敏感な方法で検索し、
(c)テンプレート内の適切なスロットへの新規トークンの再結合。
我々は、同様の機構がLSMのICLを下降させるという仮説の証拠をマーシャリングする。
例えば、LCMと同様のCSCGでは、オーバーパラメータ化の異なるレベルで異なる能力が出現し、オーバーパラメータ化がより複雑なテンプレート(スキーマ)回路の学習に役立つことが示唆されている。
iclが小さなモデルやデータセットでどのように達成できるかを示すことで、私たちは新しいアーキテクチャへの道を開き、この重要な能力の背後にあるメカニズムをより一般的な理解に向けて重要な一歩を踏み出します。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。
本稿では,コンテキスト構造化という新しい概念を提案する。
具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文 参考訳(メタデータ) (2024-07-23T12:33:58Z) - Identifiable Causal Representation Learning: Unsupervised, Multi-View, and Multi-Environment [10.814585613336778]
因果表現学習は、機械学習のコアとなる強みと因果性を組み合わせることを目的としている。
この論文は、CRLが直接の監督なしに何が可能であるかを調査し、理論的基礎に寄与する。
論文 参考訳(メタデータ) (2024-06-19T09:14:40Z) - From Unstructured Data to In-Context Learning: Exploring What Tasks Can Be Learned and When [19.841163050181194]
トランスフォーマーのような大きな言語モデル(LLM)は、インコンテキスト学習(ICL)機能を示す。
我々は、非構造化データで訓練されたモデルにおいて、ICLを実現するために、重要なシーケンスモデル要件とデータ構造について検討する。
我々は,非構造化データにおける意味的関連語対の共起から,多くのICL機能が出現することを発見した。
In one in logic reasoning task that requires generalization to new, unseen pattern, and another in analogy completion where relevant word pairs appears in fixed training position。
論文 参考訳(メタデータ) (2024-05-31T18:46:06Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - In-Context Exemplars as Clues to Retrieving from Large Associative
Memory [1.2952137350423816]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)がトレーニングなしでインコンテキストの例からパターンを学習することを可能にする。
文脈内学習の仕組みの理解が欠如しているため、模範をどう選ぶかはいまだ不明である。
本研究は、メモリ検索に接続することで、ICLのメカニズムに新たな光を当てる。
論文 参考訳(メタデータ) (2023-11-06T20:13:29Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。