論文の概要: How In-Context Learning Emerges from Training on Unstructured Data: On the Role of Co-Occurrence, Positional Information, and Noise Structures
- arxiv url: http://arxiv.org/abs/2406.00131v1
- Date: Fri, 31 May 2024 18:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:33:32.397100
- Title: How In-Context Learning Emerges from Training on Unstructured Data: On the Role of Co-Occurrence, Positional Information, and Noise Structures
- Title(参考訳): 非構造化データの学習から学ぶインテクスト学習 : 共起・位置情報・騒音構造の役割について
- Authors: Kevin Christian Wibisono, Yixin Wang,
- Abstract要約: トランスフォーマーのような大きな言語モデル(LLM)は、インコンテキスト学習(ICL)機能を備えている。
構造化されていないデータに対する教師なしトレーニングからICLがどのように現れるかを検討する。
我々は、ICLを未知のデータに一般化するための位置情報とノイズ構造の必要性を確立する。
- 参考スコア(独自算出の注目度): 19.841163050181194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) like transformers have impressive in-context learning (ICL) capabilities; they can generate predictions for new queries based on input-output sequences in prompts without parameter updates. While many theories have attempted to explain ICL, they often focus on structured training data similar to ICL tasks, such as regression. In practice, however, these models are trained in an unsupervised manner on unstructured text data, which bears little resemblance to ICL tasks. To this end, we investigate how ICL emerges from unsupervised training on unstructured data. The key observation is that ICL can arise simply by modeling co-occurrence information using classical language models like continuous bag of words (CBOW), which we theoretically prove and empirically validate. Furthermore, we establish the necessity of positional information and noise structure to generalize ICL to unseen data. Finally, we present instances where ICL fails and provide theoretical explanations; they suggest that the ICL ability of LLMs to identify certain tasks can be sensitive to the structure of the training data.
- Abstract(参考訳): 変換器のような大規模言語モデル(LLM)は印象的なインコンテキスト学習(ICL)機能を備えており、パラメータ更新なしでインプット出力シーケンスに基づいた新しいクエリの予測を生成することができる。
多くの理論がICLの説明を試みているが、回帰のようなICLのタスクに似た構造化されたトレーニングデータに焦点を当てることが多い。
しかし、実際には、これらのモデルは、ICLタスクとほとんど類似しない非構造化テキストデータに基づいて教師なしの方法で訓練されている。
そこで本研究では,非構造化データに対する教師なしトレーニングからICLがどのように現れるかを検討する。
鍵となる観察は、ICLは、理論上証明され実証的に検証される連続的な単語の袋(CBOW)のような古典的な言語モデルを用いて、共起情報を単にモデル化することによって生じる可能性があることである。
さらに、位置情報とノイズ構造が、ICLを見えないデータに一般化する必要性を確立する。
最後に、ICLが失敗し理論的に説明できない事例を提示し、LCMが特定のタスクを識別するICL能力は、トレーニングデータの構造に敏感であることが示唆された。
関連論文リスト
- What Matters for In-Context Learning: A Balancing Act of Look-up and In-Weight Learning [42.8453045943264]
ICLには,データシーケンスにおける概念的反復が不可欠であることを示す。
また、ICLの出現は、重み付き学習目標とコンテキスト内問題解決能力のバランスに依存することを示した。
論文 参考訳(メタデータ) (2025-01-09T09:45:05Z) - Struct-X: Enhancing Large Language Models Reasoning with Structured Data [38.558614152006975]
構造Xは5つの重要なフェーズを通して動作する:read-model-fill-reflect-reason'
構造化データをグラフ埋め込みを用いて位相空間にエンコードする。
行方不明のエンティティ情報を知識検索モジュールで埋める。
最後のフェーズでは、選択したトークンでトポロジネットワークを構築する。
論文 参考訳(メタデータ) (2024-07-17T13:06:25Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Parallel Structures in Pre-training Data Yield In-Context Learning [41.27837171531926]
我々は、事前学習データのパターンが文脈内学習(ICL)にどのような寄与するかを検討する。
LMのICL能力は、事前学習データで$textitparallel構造に依存している。
論文 参考訳(メタデータ) (2024-02-19T20:40:48Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-09T06:57:45Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。