論文の概要: Unlabeled Data Can Provably Enhance In-Context Learning of Transformers
- arxiv url: http://arxiv.org/abs/2601.10058v1
- Date: Thu, 15 Jan 2026 04:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.984574
- Title: Unlabeled Data Can Provably Enhance In-Context Learning of Transformers
- Title(参考訳): ラベルのないデータはトランスフォーマーの文脈内学習を確実に促進できる
- Authors: Renpu Liu, Jing Yang,
- Abstract要約: 大規模言語モデル(LLM)は、印象的なインコンテキスト学習(ICL)能力を示すが、その予測の品質は基本的に制限されている。
本稿では,ラベルなし入力のブロックとともにラベル付きサンプルの小さなセットを含む新しい拡張ICLフレームワークを提案する。
これにより、ラベル付きデータとラベルなしデータの両方から暗黙的に有用な情報を抽出することができ、ICLの精度が向上する。
- 参考スコア(独自算出の注目度): 6.129841115228296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit impressive in-context learning (ICL) capabilities, yet the quality of their predictions is fundamentally limited by the few costly labeled demonstrations that can fit into a prompt. Meanwhile, there exist vast and continuously growing amounts of unlabeled data that may be closely related to the ICL task. How to utilize such unlabeled data to provably enhance the performance of ICL thus becomes an emerging fundamental question. In this work, we propose a novel augmented ICL framework, in which the prompt includes a small set of labeled examples alongside a block of unlabeled inputs. We focus on the multi-class linear classification setting and demonstrate that, with chain-of-thought (CoT) prompting, a multi-layer transformer can effectively emulate an expectation-maximization (EM) algorithm. This enables the transformer to implicitly extract useful information from both labeled and unlabeled data, leading to provable improvements in ICL accuracy. Moreover, we show that such a transformer can be trained via teacher forcing, with its parameters converging to the desired solution at a linear rate. Experiments demonstrate that the augmented ICL framework consistently outperforms conventional few-shot ICL, providing empirical support for our theoretical findings. To the best of our knowledge, this is the first theoretical study on the impact of unlabeled data on the ICL performance of transformers.
- Abstract(参考訳): 大規模言語モデル(LLM)は、印象的なインコンテキスト学習(ICL)能力を示すが、その予測の質は、プロンプトに適合する少数のコストでラベル付けされたデモによって根本的に制限されている。
一方、ICLタスクと密接に関連している可能性のある、膨大な量のラベルなしデータが存在する。
このようなラベルのないデータを用いて、ICLの性能を確実に向上させる方法が、新たな根本的な問題となっている。
本研究では,ラベルなし入力のブロックとともにラベル付きサンプルの小さなセットを含む新しい拡張ICLフレームワークを提案する。
我々は,多層線形分類に焦点をあて,チェーン・オブ・シント(CoT)の促進により,多層トランスフォーマーが期待最大化(EM)アルゴリズムを効果的にエミュレートできることを実証した。
これにより、ラベル付きデータとラベルなしデータの両方から暗黙的に有用な情報を抽出することができ、ICLの精度が向上する。
さらに,そのような変圧器を教師の強制によって訓練することが可能であり,そのパラメータは線形速度で所望の解に収束することを示す。
実験の結果,拡張型ICLフレームワークは従来型の少数ショットICCより一貫して優れており,理論的な知見を実証的に支援できることがわかった。
我々の知る限り、これはトランスのICL性能に対するラベルなしデータの影響に関する最初の理論的研究である。
関連論文リスト
- MAPLE: Many-Shot Adaptive Pseudo-Labeling for In-Context Learning [53.02571749383208]
In-Context Learning (ICL)は、大規模言語モデル(LLM)に複数のインプット・アウトプット・サンプルを組み込むことで、多様なタスクに対処する権限を与える。
Many-Shot Adaptive Pseudo-LabEling (MAPLE)は、ラベル情報の欠如を補うために擬似ラベル付きサンプルを利用する新しいインフルエンスベースのマルチショットICLフレームワークである。
論文 参考訳(メタデータ) (2025-05-22T04:54:27Z) - Mechanistic Fine-tuning for In-context Learning [9.323350140914922]
In-context Learning (ICL) は、本来ICLスタイルのデータに基づいて事前訓練されていない言語モデル (LM) 上の少数ショット学習を誘導する。
ICLと事前学習のギャップを埋めるために、計算コストの大きいエンドツーエンドパラダイムを用いて、大規模なICLスタイルのデータセット上での微調整LMにアプローチするものもある。
本稿では,アテンション行動ファインタニング(ABFT)を提案し,アテンションスコアを最終的な出力ではなく,適切なラベルトークンに集中させる。
論文 参考訳(メタデータ) (2025-05-20T11:41:21Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Positional Information Matters for Invariant In-Context Learning: A Case
Study of Simple Function Classes [39.08988313527199]
インコンテキストラーニング(In-context Learning, ICL)とは、新しいクエリ入力に対する応答を生成するために、いくつかのインコンテキストデモでモデルに条件を付ける能力である。
LLMの印象的なICL能力にもかかわらず、LSMのICLは入力デモに敏感であり、短い文脈長に限定されている。
論文 参考訳(メタデータ) (2023-11-30T02:26:55Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。