論文の概要: In-Context Learning with Hypothesis-Class Guidance
- arxiv url: http://arxiv.org/abs/2502.19787v2
- Date: Fri, 28 Feb 2025 16:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 14:31:44.257647
- Title: In-Context Learning with Hypothesis-Class Guidance
- Title(参考訳): 仮説クラス指導によるインテクスト学習
- Authors: Ziqian Lin, Shubham Kumar Bharti, Kangwook Lee,
- Abstract要約: 本稿では,仮説クラスガイダンス(ICL-HCG)を用いたICLを提案する。
i)新しい仮説クラスに対する様々な一般化能力、(ii)異なるモデルアーキテクチャ、(iii)サンプル複雑性、(iv)命令の役割、(vi)仮説の事前学習の効果。
- 参考スコア(独自算出の注目度): 9.323460118695932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has investigated the underlying mechanisms of in-context learning (ICL) both theoretically and empirically, often using data generated from simple function classes. However, the existing work often focuses on the sequence consisting solely of labeled examples, while in practice, labeled examples are typically accompanied by an instruction, providing some side information about the task. In this work, we propose ICL with hypothesis-class guidance (ICL-HCG), a novel synthetic data model for ICL where the input context consists of the literal description of a (finite) hypothesis class H and $(x,y)$ pairs from a hypothesis chosen from H. Under our framework ICL-HCG, we conduct extensive experiments to explore: (i) a variety of generalization abilities to new hypothesis classes; (ii) different model architectures; (iii) sample complexity; (iv) in-context data imbalance; (v) the role of instruction; and (vi) the effect of pretraining hypothesis diversity. As a result, we show that (a) Transformers can successfully learn ICL-HCG and generalize to unseen hypotheses and unseen hypothesis classes, and (b) compared with ICL without instruction, ICL-HCG achieves significantly higher accuracy, demonstrating the role of instructions.
- Abstract(参考訳): 近年の研究では、単純な関数クラスから生成されたデータを用いて、理論的にも経験的にも、インコンテキスト学習(ICL)の基盤となるメカニズムについて研究している。
しかし、既存の研究はラベル付き例のみからなるシーケンスに重点を置いていることが多いが、実際には、ラベル付き例には通常命令が伴い、タスクに関する副次的な情報を提供する。
本研究は,仮説クラスガイダンス(ICL-HCG)を用いたICLを提案する。ICLの入力コンテキストは,Hから選択した仮説から(有限)仮説クラスHと$(x,y)$ペアのリテラル記述から構成される。
i) 新しい仮説クラスに対する様々な一般化能力
(ii)異なるモデルアーキテクチャ
(三)サンプル複雑性
(四) 文脈内データ不均衡
(v)指示の役割,及び
(vi)事前学習仮説の多様性の効果。
結果として、私たちはそのことを示します。
(a)トランスフォーマーはICL-HCGの学習に成功し、未確認仮説や未確認仮説クラスに一般化することができる。
b) ICL-HCG は命令のない ICL と比較して有意に精度が向上し,命令の役割が示された。
関連論文リスト
- Towards Auto-Regressive Next-Token Prediction: In-Context Learning Emerges from Generalization [26.9153121765435]
大規模言語モデル(LLM)は、文脈内学習能力を顕著に示している。
本稿では,ICLの出現と事前学習がICLに与える影響について検討する。
我々の理論は、数値線形力学系、合成GINC、実世界の言語データセットの実験によって支持されている。
論文 参考訳(メタデータ) (2025-02-24T10:26:29Z) - Can In-context Learning Really Generalize to Out-of-distribution Tasks? [36.11431280689549]
本研究は,訓練中に遭遇したことのないアウト・オブ・ディストリビューション(OOD)課題に対する,イン・コンテクスト・ラーニング(ICL)のメカニズムについて検討した。
我々は、トランスフォーマーがICLを通してOODタスク機能を学ぶのに苦労していることを明らかにする。
論文 参考訳(メタデータ) (2024-10-13T02:10:26Z) - Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - Dive into the Chasm: Probing the Gap between In- and Cross-Topic
Generalization [66.4659448305396]
本研究は,3つの探索型実験を用いて種々のLMを解析し,In- vs. クロストピック一般化ギャップの背景にある理由を明らかにした。
はじめに、一般化ギャップと埋め込み空間の堅牢性は、LM間で大きく異なることを示した。
論文 参考訳(メタデータ) (2024-02-02T12:59:27Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Do pretrained Transformers Learn In-Context by Gradient Descent? [21.23795112800977]
本稿では,自然データを用いた言語モデル(LLaMa-7B)における文脈内学習(ICL)の出現について検討する。
ICL と Gradient Descent (GD) は言語モデルの出力分布を異なる方法で変更する。
これらの結果は、ICLとGDの同値性は未解決の仮説であり、さらなる研究が必要であることを示唆している。
論文 参考訳(メタデータ) (2023-10-12T17:32:09Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。