論文の概要: From Unstructured Data to In-Context Learning: Exploring What Tasks Can Be Learned and When
- arxiv url: http://arxiv.org/abs/2406.00131v2
- Date: Sun, 10 Nov 2024 13:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:32.633694
- Title: From Unstructured Data to In-Context Learning: Exploring What Tasks Can Be Learned and When
- Title(参考訳): 構造化されていないデータからコンテキスト内学習へ - どのようなタスクをいつ学べるかを探る
- Authors: Kevin Christian Wibisono, Yixin Wang,
- Abstract要約: トランスフォーマーのような大きな言語モデル(LLM)は、インコンテキスト学習(ICL)機能を示す。
我々は、非構造化データで訓練されたモデルにおいて、ICLを実現するために、重要なシーケンスモデル要件とデータ構造について検討する。
我々は,非構造化データにおける意味的関連語対の共起から,多くのICL機能が出現することを発見した。
In one in logic reasoning task that requires generalization to new, unseen pattern, and another in analogy completion where relevant word pairs appears in fixed training position。
- 参考スコア(独自算出の注目度): 19.841163050181194
- License:
- Abstract: Large language models (LLMs) like transformers demonstrate impressive in-context learning (ICL) capabilities, allowing them to make predictions for new tasks based on prompt exemplars without parameter updates. While existing ICL theories often assume structured training data resembling ICL tasks (e.g., x-y pairs for linear regression), LLMs are typically trained unsupervised on unstructured text, such as web content, which lacks clear parallels to tasks like word analogy. To address this gap, we examine what enables ICL in models trained on unstructured data, focusing on critical sequence model requirements and training data structure. We find that many ICL capabilities can emerge simply from co-occurrence of semantically related word pairs in unstructured data; word analogy completion, for example, can provably arise purely through co-occurrence modeling, using classical language models like continuous bag of words (CBOW), without needing positional information or attention mechanisms. However, positional information becomes crucial for logic reasoning tasks requiring generalization to unseen tokens. Finally, we identify two cases where ICL fails: one in logic reasoning tasks that require generalizing to new, unseen patterns, and another in analogy completion where relevant word pairs appear only in fixed training positions. These findings suggest that LLMs' ICL abilities depend heavily on the structural elements within their training data.
- Abstract(参考訳): トランスフォーマーのような大きな言語モデル(LLM)は、印象的なインコンテキスト学習(ICL)機能を示し、パラメータを更新せずにプロンプトエクスプローラに基づいた新しいタスクの予測を可能にする。
既存のICL理論では、ICLタスクに似た構造化トレーニングデータ(例えば、線形回帰のためのx-yペア)を仮定することが多いが、LLMは通常、Webコンテンツのような構造化されていないテキストで教師なしで訓練される。
このギャップに対処するために、重要シーケンスモデルの要求とデータ構造のトレーニングに焦点をあて、非構造化データで訓練されたモデルにおいてICLを実現する方法を検討する。
例えば、単語の類似補完は、位置情報や注意機構を必要とせず、連続的な単語の袋(CBOW)のような古典的な言語モデルを用いて、共起モデリングによって純粋に生じる。
しかし、位置情報は、未知のトークンの一般化を必要とする論理的推論タスクにおいて重要である。
最後に、ICLが失敗する2つのケースを特定する。1つは、新しい、見えないパターンへの一般化を必要とする論理推論タスクであり、もう1つは、関連する単語ペアが固定されたトレーニング位置にのみ現れるアナログ補完である。
これらの結果から,LSMのICL能力はトレーニングデータの構造的要素に大きく依存していることが示唆された。
関連論文リスト
- Struct-X: Enhancing Large Language Models Reasoning with Structured Data [38.558614152006975]
構造Xは5つの重要なフェーズを通して動作する:read-model-fill-reflect-reason'
構造化データをグラフ埋め込みを用いて位相空間にエンコードする。
行方不明のエンティティ情報を知識検索モジュールで埋める。
最後のフェーズでは、選択したトークンでトポロジネットワークを構築する。
論文 参考訳(メタデータ) (2024-07-17T13:06:25Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Parallel Structures in Pre-training Data Yield In-Context Learning [41.27837171531926]
我々は、事前学習データのパターンが文脈内学習(ICL)にどのような寄与するかを検討する。
LMのICL能力は、事前学習データで$textitparallel構造に依存している。
論文 参考訳(メタデータ) (2024-02-19T20:40:48Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - In-Context Learning Learns Label Relationships but Is Not Conventional
Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。
ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T16:54:41Z) - Understanding In-Context Learning via Supportive Pretraining Data [55.648777340129364]
In-context Learning (ICL)は、推論時にいくつかの例を示すだけで、様々なNLPタスクにおける言語モデルの性能を改善する。
ICLの能力がなぜ出現するかはよく分かっていないが、モデルがそのようなデモで特別に訓練されたことはない。
我々の研究は、インスタンスレベルの事前学習データを分析して、ICLを理解するための第一歩を踏み出した。
論文 参考訳(メタデータ) (2023-06-26T22:14:04Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。