論文の概要: A Data Generation Perspective to the Mechanism of In-Context Learning
- arxiv url: http://arxiv.org/abs/2402.02212v2
- Date: Fri, 16 Aug 2024 01:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 20:45:34.209591
- Title: A Data Generation Perspective to the Mechanism of In-Context Learning
- Title(参考訳): インコンテキスト学習のメカニズムに対するデータ生成の視点
- Authors: Haitao Mao, Guangliang Liu, Yao Ma, Rongrong Wang, Kristen Johnson, Jiliang Tang,
- Abstract要約: In-Context Learning (ICL)は、大規模言語モデル(LLM)にコンテキストで学習する能力を与える。
経験的成功を奨励するにもかかわらず、ICLの基盤となるメカニズムは未だ不明である。
- 参考スコア(独自算出の注目度): 37.933016939520684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Context Learning (ICL) empowers Large Language Models (LLMs) with the capacity to learn in context, achieving downstream generalization without gradient updates but with a few in-context examples. Despite the encouraging empirical success, the underlying mechanism of ICL remains unclear, and existing research offers various viewpoints of understanding. These studies propose intuition-driven and ad-hoc technical solutions for interpreting ICL, illustrating an ambiguous road map. In this paper, we leverage a data generation perspective to reinterpret recent efforts and demonstrate the potential broader usage of popular technical solutions, approaching a systematic angle. For a conceptual definition, we rigorously adopt the terms of skill learning and skill recognition. The difference between them is skill learning can learn new data generation functions from in-context data. We also provide a comprehensive study on the merits and weaknesses of different solutions, and highlight the uniformity among them given the perspective of data generation, establishing a technical foundation for future research to incorporate the strengths of different lines of research.
- Abstract(参考訳): In-Context Learning (ICL)は、大規模言語モデル(LLM)に、文脈で学習する能力を与える。
実証的な成功を奨励しているにもかかわらず、ICLの根底にあるメカニズムはいまだ不明であり、既存の研究は様々な理解の視点を提供している。
これらの研究は,不明瞭な道路地図を具現化した直観駆動型・アドホックなICLの解釈手法を提案する。
本稿では、データ生成の観点から最近の取り組みを再解釈し、体系的な角度に近づき、一般的な技術ソリューションの幅広い利用の可能性を示す。
概念的定義として、私たちは、スキル学習とスキル認識という用語を厳格に採用しています。
両者の違いは、スキル学習がコンテキスト内データから新しいデータ生成関数を学習できることだ。
また、さまざまなソリューションのメリットと弱点を総合的に研究し、データ生成の観点からそれらの均一性を強調し、異なる研究ラインの強みを組み込むための将来の研究のための技術基盤を確立する。
関連論文リスト
- In-Context Learning with Topological Information for Knowledge Graph Completion [3.035601871864059]
我々は,知識グラフの性能を向上させるために,文脈内学習を通じてトポロジ情報を組み込む新しい手法を開発した。
提案手法は,テストグラフデータセット内のノードがトレーニンググラフデータセットに存在するような,トランスダクティブな設定において,高いパフォーマンスを実現する。
提案手法は,ILPC小データセットとILPC大データセットのベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-11T19:29:36Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - The Contribution of Knowledge in Visiolinguistic Learning: A Survey on
Tasks and Challenges [0.0]
視覚言語学(VL)事前学習に用いられる現在のデータセットは、限られた量の視覚的知識と言語的知識しか含まない。
知識グラフ(KG)やLarge Language Model(LLM)といった外部知識ソースは、そのような一般化ギャップをカバーすることができる。
論文 参考訳(メタデータ) (2023-03-04T13:12:18Z) - Semi-Supervised and Unsupervised Deep Visual Learning: A Survey [76.2650734930974]
半教師なし学習と教師なし学習は、ラベルなしの視覚データから学ぶための有望なパラダイムを提供する。
本稿では, 半教師付き学習(SSL)と非教師付き学習(UL)の先進的な深層学習アルゴリズムについて, 統一的な視点による視覚的認識について概説する。
論文 参考訳(メタデータ) (2022-08-24T04:26:21Z) - Semantics of the Black-Box: Can knowledge graphs help make deep learning
systems more interpretable and explainable? [4.2111286819721485]
近年のディープラーニング(DL)の革新は、個人や社会に大きな影響を与える可能性がある。
DLモデルのブラックボックスの性質と大量のデータへの過度依存は、システムの解釈可能性と説明可能性に課題をもたらす。
本稿では,知識グラフとして提供される知識が,知識注入学習を用いたDL手法にどのように組み込まれているかを示す。
論文 参考訳(メタデータ) (2020-10-16T22:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。