論文の概要: Investigating the Learning Behaviour of In-context Learning: A
Comparison with Supervised Learning
- arxiv url: http://arxiv.org/abs/2307.15411v2
- Date: Tue, 1 Aug 2023 16:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 11:35:01.976146
- Title: Investigating the Learning Behaviour of In-context Learning: A
Comparison with Supervised Learning
- Title(参考訳): 文脈内学習の学習行動の検討--教師付き学習との比較
- Authors: Xindi Wang, Yufei Wang, Can Xu, Xiubo Geng, Bowen Zhang, Chongyang
Tao, Frank Rudzicz, Robert E. Mercer and Daxin Jiang
- Abstract要約: 大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な能力を示している。
我々は、ICLと教師あり学習(SL)を通して、同じ実演例で同じLLMを訓練し、ラベル摂動下での性能を調査する。
まず、特に大規模言語モデルにおいて、ゴールドラベルがダウンストリーム・イン・コンテクストのパフォーマンスに大きな影響を与えることを発見した。
第2に、SLと比較すると、ICLはSLよりもラベル摂動に敏感で、モデルサイズが大きくなるにつれて徐々にSLに匹敵する性能が得られることが実証的に示される。
- 参考スコア(独自算出の注目度): 67.25698169440818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable capacity for in-context
learning (ICL), where learning a new task from just a few training examples is
done without being explicitly pre-trained. However, despite the success of
LLMs, there has been little understanding of how ICL learns the knowledge from
the given prompts. In this paper, to make progress toward understanding the
learning behaviour of ICL, we train the same LLMs with the same demonstration
examples via ICL and supervised learning (SL), respectively, and investigate
their performance under label perturbations (i.e., noisy labels and label
imbalance) on a range of classification tasks. First, via extensive
experiments, we find that gold labels have significant impacts on the
downstream in-context performance, especially for large language models;
however, imbalanced labels matter little to ICL across all model sizes. Second,
when comparing with SL, we show empirically that ICL is less sensitive to label
perturbations than SL, and ICL gradually attains comparable performance to SL
as the model size increases.
- Abstract(参考訳): 大規模言語モデル(llm)は、いくつかのトレーニング例から新しいタスクを明示的に事前学習することなく学習する、インコンテキスト学習(icl)において顕著な能力を示している。
しかし、LSMの成功にもかかわらず、ICLが与えられたプロンプトからどのように知識を学ぶかについてはほとんど理解されていない。
本稿では, iclの学習行動の理解に向けて, iclと教師付き学習(sl)を用いて, 同じ実演例を用いて同一のllmを訓練し, 分類タスクにおけるラベル摂動(雑音ラベル, ラベル不均衡)下での性能について検討する。
まず、大規模な実験により、特に大規模言語モデルにおいて、ゴールドラベルがダウンストリーム・イン・コンテクストのパフォーマンスに大きな影響を及ぼすことがわかったが、不均衡なラベルはすべてのモデルサイズでICLにはほとんど影響しない。
第2に、SLと比較すると、ICLはSLよりもラベル摂動に敏感で、モデルサイズが大きくなるにつれて徐々にSLに匹敵する性能が得られることが実証的に示される。
関連論文リスト
- DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning [61.85871109164743]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - Let's Learn Step by Step: Enhancing In-Context Learning Ability with
Curriculum Learning [10.053004550486214]
デモオーダリングは,大規模言語モデル(LLM)の性能に大きく影響する。
我々は,ICLの簡易かつ効果的な実演順序付け手法であるICCLを提唱する。
論文 参考訳(メタデータ) (2024-02-16T14:55:33Z) - SSLCL: An Efficient Model-Agnostic Supervised Contrastive Learning
Framework for Emotion Recognition in Conversations [20.856739541819056]
会話における感情認識(ERC)は、自然言語処理コミュニティの中で急速に進化している課題である。
We propose a efficient and model-agnostic SCL framework named Supervised Sample-Label Contrastive Learning with Soft-HGR Maximal correlation (SSLCL)。
浅い多層パーセプトロンを通して、離散ラベルを密度の高い埋め込みに投影することで、ラベル表現を活用する新しい視点を導入する。
論文 参考訳(メタデータ) (2023-10-25T14:41:14Z) - In-Context Learning Learns Label Relationships but Is Not Conventional
Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。
ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T16:54:41Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Understanding (Generalized) Label Smoothing when Learning with Noisy
Labels [57.37057235894054]
ラベルスムーシング(LS)は、ハードトレーニングラベルと一様分散ソフトラベルの両方の正の重み付け平均を使用する学習パラダイムである。
雑音ラベルを用いた学習において,一般化ラベル平滑化(GLS)の特性について理解する。
論文 参考訳(メタデータ) (2021-06-08T07:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。