論文の概要: Larger language models do in-context learning differently
- arxiv url: http://arxiv.org/abs/2303.03846v2
- Date: Wed, 8 Mar 2023 07:37:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 16:33:12.326422
- Title: Larger language models do in-context learning differently
- Title(参考訳): 大規模言語モデルでは文脈内学習が異なる
- Authors: Jerry Wei and Jason Wei and Yi Tay and Dustin Tran and Albert Webson
and Yifeng Lu and Xinyun Chen and Hanxiao Liu and Da Huang and Denny Zhou and
Tengyu Ma
- Abstract要約: 言語モデルにおけるインコンテキスト学習(ICL)は、セマンティックな事前とインプット・ラベルのマッピングの影響を受けます。
ラベルをフリップしたICLと意味的無関係なラベルを持つICLの2つのセットアップについて検討した。
- 参考スコア(独自算出の注目度): 93.90674531127559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how in-context learning (ICL) in language models is affected by
semantic priors versus input-label mappings. We investigate two setups-ICL with
flipped labels and ICL with semantically-unrelated labels-across various model
families (GPT-3, InstructGPT, Codex, PaLM, and Flan-PaLM). First, experiments
on ICL with flipped labels show that overriding semantic priors is an emergent
ability of model scale. While small language models ignore flipped labels
presented in-context and thus rely primarily on semantic priors from
pretraining, large models can override semantic priors when presented with
in-context exemplars that contradict priors, despite the stronger semantic
priors that larger models may hold. We next study semantically-unrelated label
ICL (SUL-ICL), in which labels are semantically unrelated to their inputs
(e.g., foo/bar instead of negative/positive), thereby forcing language models
to learn the input-label mappings shown in in-context exemplars in order to
perform the task. The ability to do SUL-ICL also emerges primarily with scale,
and large-enough language models can even perform linear classification in a
SUL-ICL setting. Finally, we evaluate instruction-tuned models and find that
instruction tuning strengthens both the use of semantic priors and the capacity
to learn input-label mappings, but more of the former.
- Abstract(参考訳): 本研究では,言語モデルにおけるインコンテキスト学習(ICL)が,意味的先行と入力ラベルマッピングの影響について検討する。
そこで本研究では,複数のモデルファミリー (GPT-3, InstructGPT, Codex, PaLM, Flan-PaLM) にまたがる意味的無関係なラベルを持つICLとフリップラベルを持つICLについて検討する。
第一に、リフテッドラベルを用いたICLの実験は、オーバーライドセマンティック先行がモデルスケールの創発的な能力であることを示している。
小さな言語モデルは、コンテキスト内に表示されるフリップラベルを無視して、主に事前学習からのセマンティクス優先に依存するが、大きなモデルは、より大きなモデルが保持するであろうより強いセマンティクス優先性にもかかわらず、先行と矛盾するインコンテキストの例で示されるセマンティクス優先をオーバーライドすることができる。
次に,意味的無関係ラベルivl (sul-icl) について検討を行い,各ラベルが入力と意味的に無関係(例えば,否定的/肯定的ではなくfoo/bar)であることを示す。
SUL-ICLの処理能力は、主にスケールで実現され、大きな言語モデルでもSUL-ICL設定で線形分類を行うことができる。
最後に,インストラクションチューニングモデルの評価を行い,インストラクションチューニングにより,セマンティック事前の使用とインプットラベルマッピングの学習能力の両方が強化されることを確認した。
関連論文リスト
- Explore Spurious Correlations at the Concept Level in Language Models for Text Classification [28.832684088975622]
言語モデル(LM)は多くのNLPタスクで顕著な成功を収めた。
トレーニングデータやICLの実践者の不均衡なラベル分布から生じる急激な相関による堅牢性の問題に直面している。
本稿では,2つの主なコントリビューションを紹介する。まず,概念ラベルをテキストに割り当てるためにChatGPTを用い,テストデータ上での微調整時のモデルにおける概念バイアスやICLを評価する。
第2に,ChatGPT生成した反ファクトデータを組み込んだデータ再バランス手法を導入し,ラベル分布のバランスを保ち,突発的相関を緩和する。
論文 参考訳(メタデータ) (2023-11-15T01:58:54Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - In-Context Learning for Text Classification with Many Labels [34.87532045406169]
多くのラベルを持つタスクに対して大きな言語モデルを用いたインコンテキスト学習(ICL)は、コンテキストウィンドウが限られているため困難である。
我々は、この制限を回避するために、事前訓練された高密度検索モデルを使用する。
我々は、コンテキスト内サンプルの数と異なるモデルスケールのパフォーマンスを分析します。
論文 参考訳(メタデータ) (2023-09-19T22:41:44Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。