論文の概要: Spin glass model of in-context learning
- arxiv url: http://arxiv.org/abs/2408.02288v1
- Date: Mon, 5 Aug 2024 07:54:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 14:16:18.629220
- Title: Spin glass model of in-context learning
- Title(参考訳): テキスト内学習におけるスピングラスモデル
- Authors: Yuhao Li, Ruoran Bai, Haiping Huang,
- Abstract要約: 大規模な言語モデルは、驚くべきコンテキスト内学習能力を示している -- クエリの予測にプロンプトを使用することができるが、追加のトレーニングを必要としない。
この構造を実数値スピンを持つスピンガラスモデルにマッピングする。
我々の理論は、単一インスタンス学習においてタスクの多様性の増大がコンテキスト内学習の出現に繋がることを示している。
- 参考スコア(独自算出の注目度): 2.285821277711785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models show a surprising in-context learning ability -- being able to use a prompt to form a prediction for a query, yet without additional training, in stark contrast to old-fashioned supervised learning. Providing a mechanistic interpretation and linking the empirical phenomenon to physics are thus challenging and remain unsolved. We study a simple yet expressive transformer with linear attention, and map this structure to a spin glass model with real-valued spins, where the couplings and fields explain the intrinsic disorder in data. The spin glass model explains how the weight parameters interact with each other during pre-training, and most importantly why an unseen function can be predicted by providing only a prompt yet without training. Our theory reveals that for single instance learning, increasing the task diversity leads to the emergence of the in-context learning, by allowing the Boltzmann distribution to converge to a unique correct solution of weight parameters. Therefore the pre-trained transformer displays a prediction power in a novel prompt setting. The proposed spin glass model thus establishes a foundation to understand the empirical success of large language models.
- Abstract(参考訳): 大規模な言語モデルは、従来の教師付き学習とは対照的に、驚くべきコンテキスト内学習能力を示します。
したがって、力学的な解釈を提供し、経験的現象を物理学に結びつけることは困難であり、未解決のままである。
この構造を実数値スピンを持つスピンガラスモデルにマッピングし、データ中の内在的障害を結合とフィールドで説明する。
スピングラスモデルでは、事前トレーニング中に重みパラメータが相互にどのように相互作用するかを説明しており、最も重要な理由は、トレーニングなしでもプロンプトのみを提供することで、目に見えない関数を予測できる理由である。
我々の理論は、単一インスタンス学習の場合、タスクの多様性の増大が、ボルツマン分布をウェイトパラメータのユニークな正しい解に収束させることで、文脈内学習の出現につながることを明らかにしている。
そのため、事前訓練された変圧器は、新規なプロンプト設定で予測パワーを表示する。
提案したスピングラスモデルにより,大規模言語モデルの実証的成功を理解する基盤が確立される。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Cross-Entropy Is All You Need To Invert the Data Generating Process [29.94396019742267]
経験的現象は、教師付きモデルが線形な方法で変化の解釈可能な要因を学習できることを示唆している。
近年の自己教師型学習の進歩により,データ生成過程を反転させることで潜在構造を復元できることが示されている。
標準分類タスクにおいても,モデルが線形変換までの変動の基底構造因子の表現を学習することが証明された。
論文 参考訳(メタデータ) (2024-10-29T09:03:57Z) - A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Parallel Sentence-Level Explanation Generation for Real-World
Low-Resource Scenarios [18.5713713816771]
本論文は,弱教師付き学習から教師なし学習へ,問題を円滑に探求する最初の試みである。
並列説明生成と同時予測を容易にする非自己回帰解釈モデルを提案する。
論文 参考訳(メタデータ) (2023-02-21T14:52:21Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。