論文の概要: The Developmental Landscape of In-Context Learning
- arxiv url: http://arxiv.org/abs/2402.02364v1
- Date: Sun, 4 Feb 2024 06:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:13:01.371247
- Title: The Developmental Landscape of In-Context Learning
- Title(参考訳): インテクスト学習の展開する景観
- Authors: Jesse Hoogland, George Wang, Matthew Farrugia-Roberts, Liam Carroll,
Susan Wei, Daniel Murfet
- Abstract要約: 本稿では,言語モデルや線形回帰タスクで学習した場合に,コンテクスト内学習が個別発達段階のトランスフォーマーに現れることを示す。
パラメータ空間と関数空間の両方において、人口損失の幾何学を探索することにより、これらの段階を分離するマイルストーンを検出する2つの方法を提案する。
本研究は, これらの手法を用いて, 行動指標と構造指標を用いて, それらの妥当性を検証した。
- 参考スコア(独自算出の注目度): 2.0451307225357427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that in-context learning emerges in transformers in discrete
developmental stages, when they are trained on either language modeling or
linear regression tasks. We introduce two methods for detecting the milestones
that separate these stages, by probing the geometry of the population loss in
both parameter space and function space. We study the stages revealed by these
new methods using a range of behavioral and structural metrics to establish
their validity.
- Abstract(参考訳): 本稿では,言語モデルや線形回帰タスクで学習した場合に,コンテクスト内学習が個別発達段階のトランスフォーマーに現れることを示す。
パラメータ空間と関数空間の両方における人口減少の幾何を探索することにより,これらの段階を分離するマイルストーンを検出する2つの方法を提案する。
本研究では,これらの手法を用いて,行動指標と構造指標を用いて,その妥当性を実証する。
関連論文リスト
- Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。
本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文 参考訳(メタデータ) (2024-11-07T05:43:50Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient [0.49478969093606673]
特異学習理論に基づくモデル複雑性の尺度である局所学習係数 (LLC) の洗練された変種を導入する。
本研究では,トランスフォーマー言語モデルにおける内部構造の開発について検討する。
論文 参考訳(メタデータ) (2024-10-03T20:51:02Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Procedural Text Mining with Large Language Models [0.21756081703275998]
本研究では,非構造化PDFテキストからの手順を段階的に問合せ方式で抽出する問題に対処する。
我々は、現在最先端のGPT-4(Generative Pre-trained Transformer 4)モデルを活用し、文脈内学習の2つのバリエーションを伴っている。
この結果は、このアプローチの約束と、コンテキスト内学習のカスタマイズの価値の両方を強調している。
論文 参考訳(メタデータ) (2023-10-05T08:27:33Z) - Latent Traversals in Generative Models as Potential Flows [113.4232528843775]
我々は,学習された動的ポテンシャルランドスケープを持つ潜在構造をモデル化することを提案する。
物理、最適輸送、神経科学にインスパイアされたこれらの潜在的景観は、物理的に現実的な偏微分方程式として学習される。
本手法は,最先端のベースラインよりも定性的かつ定量的に歪んだ軌跡を実現する。
論文 参考訳(メタデータ) (2023-04-25T15:53:45Z) - The Geometry of Self-supervised Learning Models and its Impact on
Transfer Learning [62.601681746034956]
自己教師型学習(SSL)はコンピュータビジョンにおいて望ましいパラダイムとして登場した。
本稿では,各特徴空間内の局所的近傍を用いて異なるSSLモデルを分析するためのデータ駆動幾何学的手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T18:15:38Z) - A Survey on Deep Semi-supervised Learning [51.26862262550445]
まず,既存の手法を分類した深層半指導学習の分類法を提案する。
次に、損失の種類、貢献度、アーキテクチャの違いの観点から、これらのメソッドを詳細に比較します。
論文 参考訳(メタデータ) (2021-02-28T16:22:58Z) - Introducing Orthogonal Constraint in Structural Probes [0.2538209532048867]
言語ベクトル空間の線形射影を同型空間回転と線形スケーリング方向に分解する。
提案手法がマルチタスク環境で実行可能であることを実験的に示す。
論文 参考訳(メタデータ) (2020-12-30T17:14:25Z) - APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。
適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。
言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-04-30T19:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。