論文の概要: In-Context Learning with Hypothesis-Class Guidance
- arxiv url: http://arxiv.org/abs/2502.19787v1
- Date: Thu, 27 Feb 2025 05:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:56:42.383638
- Title: In-Context Learning with Hypothesis-Class Guidance
- Title(参考訳): 仮説クラス指導によるインテクスト学習
- Authors: Ziqian Lin, Shubham Kumar Bharti, Kangwook Lee,
- Abstract要約: 本稿では,仮説クラスガイダンス(ICL-HCG)を用いたICLを提案する。
i)新しい仮説クラスに対する様々な一般化能力、(ii)異なるモデルアーキテクチャ、(iii)サンプル複雑性、(iv)命令の役割、(vi)仮説の事前学習の効果。
- 参考スコア(独自算出の注目度): 9.323460118695932
- License:
- Abstract: Recent research has investigated the underlying mechanisms of in-context learning (ICL) both theoretically and empirically, often using data generated from simple function classes. However, the existing work often focuses on the sequence consisting solely of labeled examples, while in practice, labeled examples are typically accompanied by an instruction, providing some side information about the task. In this work, we propose ICL with hypothesis-class guidance (ICL-HCG), a novel synthetic data model for ICL where the input context consists of the literal description of a (finite) hypothesis class $\mathcal{H}$ and $(x,y)$ pairs from a hypothesis chosen from $\mathcal{H}$. Under our framework ICL-HCG, we conduct extensive experiments to explore: (i) a variety of generalization abilities to new hypothesis classes; (ii) different model architectures; (iii) sample complexity; (iv) in-context data imbalance; (v) the role of instruction; and (vi) the effect of pretraining hypothesis diversity. As a result, we show that (a) Transformers can successfully learn ICL-HCG and generalize to unseen hypotheses and unseen hypothesis classes, and (b) compared with ICL without instruction, ICL-HCG achieves significantly higher accuracy, demonstrating the role of instructions.
- Abstract(参考訳): 近年の研究では、単純な関数クラスから生成されたデータを用いて、理論的にも経験的にも、インコンテキスト学習(ICL)の基盤となるメカニズムについて研究している。
しかしながら、既存の研究はしばしばラベル付き例のみからなるシーケンスに焦点を合わせ、実際にはラベル付き例は典型的には命令を伴い、タスクに関するいくつかのサイド情報を提供する。
本研究では、ICLの新たな合成データモデルである仮説クラス誘導(ICL-HCG)を用いたICLを提案し、入力コンテキストは、(有限)仮説クラス$\mathcal{H}$と$(x,y)$のペアを$\mathcal{H}$から選択した仮説から記述する。
フレームワーク ICL-HCG では、探索のための広範な実験を行います。
i) 新しい仮説クラスに対する様々な一般化能力
(ii)異なるモデルアーキテクチャ
(三)サンプル複雑性
(四) 文脈内データ不均衡
(v)指示の役割,及び
(vi)事前学習仮説の多様性の効果。
結果として、私たちはそのことを示します。
(a)トランスフォーマーはICL-HCGの学習に成功し、未確認仮説や未確認仮説クラスに一般化することができる。
b) ICL-HCG は命令のない ICL と比較して有意に精度が向上し,命令の役割が示された。
関連論文リスト
- Can In-context Learning Really Generalize to Out-of-distribution Tasks? [36.11431280689549]
本研究は,訓練中に遭遇したことのないアウト・オブ・ディストリビューション(OOD)課題に対する,イン・コンテクスト・ラーニング(ICL)のメカニズムについて検討した。
我々は、トランスフォーマーがICLを通してOODタスク機能を学ぶのに苦労していることを明らかにする。
論文 参考訳(メタデータ) (2024-10-13T02:10:26Z) - Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - Dual Operating Modes of In-Context Learning [8.664657381613695]
In-context Learning (ICL)は、タスク学習とタスク検索という2つの操作モードを示す。
最近の理論的研究は、ICLを解析するための様々な数学的モデルについて研究している。
本稿では,ICLの二重動作モードを同時に説明できる確率モデルを提案する。
論文 参考訳(メタデータ) (2024-02-29T03:06:10Z) - Invariant Causal Prediction with Local Models [52.161513027831646]
観測データから対象変数の因果親を特定するタスクについて検討する。
L-ICP(textbfL$ocalized $textbfI$nvariant $textbfCa$usal $textbfP$rediction)と呼ばれる実用的手法を導入する。
論文 参考訳(メタデータ) (2024-01-10T15:34:42Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Comparative Learning: A Sample Complexity Theory for Two Hypothesis
Classes [5.194264506657145]
比較学習は、PAC学習における実現可能な設定と不可知な設定の組み合わせとして導入する。
たとえ$S$と$B$が無限のVC次元を持つとしても、比較学習の複雑さは小さい。
比較学習のサンプルの複雑さは、相互VC次元$mathsfVC(S,B)$によって特徴づけられる。
論文 参考訳(メタデータ) (2022-11-16T18:38:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。