論文の概要: Understanding In-Context Learning with a Pelican Soup Framework
- arxiv url: http://arxiv.org/abs/2402.10424v1
- Date: Fri, 16 Feb 2024 03:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:42:56.190693
- Title: Understanding In-Context Learning with a Pelican Soup Framework
- Title(参考訳): Pelican Soup Frameworkによる文脈学習の理解
- Authors: Ting-Rui Chiang, Dani Yogatama
- Abstract要約: 本稿では,自然言語処理における文脈内学習の理論的枠組みを提案する。
本研究は,文脈内学習におけるフレームワークの有効性を実証するものである。
- 参考スコア(独自算出の注目度): 27.144616560712493
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many existing theoretical analyses of in-context learning for natural
language processing are based on latent variable models that leaves gaps
between theory and practice. We aim to close these gaps by proposing a
theoretical framework, the Pelican Soup Framework. In this framework, we
introduce (1) the notion of a common sense knowledge base, (2) a general
formalism for natural language classification tasks, and the notion of (3)
meaning association. Under this framework, we can establish a
$\mathcal{O}(1/T)$ loss bound for in-context learning, where $T$ is the number
of example-label pairs in the demonstration. Compared with previous works, our
bound reflects the effect of the choice of verbalizers and the effect of
instruction tuning. An additional notion of \textit{atom concepts} makes our
framework possible to explain the generalization to tasks unseen in the
language model training data. Finally, we propose a toy setup, Calcutec, and a
digit addition task that mimics types of distribution shifts a model needs to
overcome to perform in-context learning. We also experiment with GPT2-Large on
real-world NLP tasks. Our empirical results demonstrate the efficacy of our
framework to explain in-context learning.
- Abstract(参考訳): 自然言語処理のための文脈内学習の理論的解析の多くは、理論と実践のギャップを埋める潜在変数モデルに基づいている。
理論的枠組みであるペリカン・スープ・フレームワークを提案し、これらのギャップを埋めることを目指している。
本稿では,(1)常識知識ベースの概念,(2)自然言語分類タスクの一般的な形式主義,(3)意味関係の概念を紹介する。
このフレームワークの下では、実演で$t$がサンプルラベルペアの数であるin-context learningに対して、$\mathcal{o}(1/t)$のバウンドを確立することができる。
従来の研究と比較すると,我々の限界は動詞選択の効果と指導指導の効果を反映している。
textit{atom concepts} という新たな概念によって,言語モデルのトレーニングデータでは理解できないタスクの一般化を,フレームワークで説明することが可能になりました。
最後に,モデルが克服すべき分散シフトのタイプを模倣してコンテキスト内学習を行うための玩具セット,Calcutec,および桁加算タスクを提案する。
GPT2-Largeを実世界のNLPタスクで実験する。
実験結果は,文脈内学習を説明するためのフレームワークの有効性を示す。
関連論文リスト
- Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method [7.261306002808739]
特徴学習理論を用いて,素早いフェデレーション学習のための理論的分析フレームワークを構築した。
具体的には,信号学習と雑音記憶の進化を,プロンプトに基づくフェデレーション学習で監視する。
本研究では,タスク関連係数とタスク関連係数の比率によって性能を評価することができることを示す。
論文 参考訳(メタデータ) (2024-09-29T08:31:26Z) - What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - Ontology Completion with Natural Language Inference and Concept Embeddings: An Analysis [26.918368764004796]
本研究では,特定のオントロジーから欠落する有能な知識の発見という課題を,よく研究された分類学拡張タスクの一般化として考察する。
1行の作業は、このタスクを自然言語推論(NLI)問題として扱い、不足した知識を特定するために言語モデルによって取得された知識に依存します。
別の研究の行では、概念埋め込みを使用して、カテゴリベースの帰納のための認知モデルからインスピレーションを得て、異なる概念が共通しているものを特定する。
論文 参考訳(メタデータ) (2024-03-25T21:46:35Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z) - The Learnability of In-Context Learning [16.182561312622315]
そこで本研究では,文脈内学習のための初歩的なPACベースのフレームワークを提案する。
本フレームワークは,事前学習に適合する初期事前学習フェーズを含む。
文脈内学習は、タスクを学習することよりも、タスクを特定することにあることを示す。
論文 参考訳(メタデータ) (2023-03-14T13:28:39Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。