論文の概要: Prompt-Augmented Linear Probing: Scaling Beyond The Limit of Few-shot
In-Context Learners
- arxiv url: http://arxiv.org/abs/2212.10873v1
- Date: Wed, 21 Dec 2022 09:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 13:52:32.907201
- Title: Prompt-Augmented Linear Probing: Scaling Beyond The Limit of Few-shot
In-Context Learners
- Title(参考訳): Prompt-Augmented Linear Probing: 少数のインテクスト学習者の限界を越えるスケーリング
- Authors: Hyunsoo Cho, Hyuhng Joon Kim, Junyeob Kim, Sang-Woo Lee, Sang-goo Lee,
Kang Min Yoo, Taeuk Kim
- Abstract要約: 本稿では,線形探索とインコンテクスト学習のハイブリッドであるPALP(Properced-augmented linear probing)を提案する。
PALPは、データハングリーシナリオにおけるICL間のギャップを閉じる入力表現と、トレーニングオーバーヘッドの少ないデータバウンダントシナリオにおける微調整を大幅に強化する。
- 参考スコア(独自算出の注目度): 25.262774179224945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Through in-context learning (ICL), large-scale language models are effective
few-shot learners without additional model fine-tuning. However, the ICL
performance does not scale well with the number of available training samples
as it is limited by the inherent input length constraint of the underlying
language model. Meanwhile, many studies have revealed that language models are
also powerful feature extractors, allowing them to be utilized in a black-box
manner and enabling the linear probing paradigm, where lightweight
discriminators are trained on top of the pre-extracted input representations.
This paper proposes prompt-augmented linear probing (PALP), a hybrid of linear
probing and ICL, which leverages the best of both worlds. PALP inherits the
scalability of linear probing and the capability of enforcing language models
to derive more meaningful representations via tailoring input into a more
conceivable form. Throughout in-depth investigations on various datasets, we
verified that PALP significantly enhances the input representations closing the
gap between ICL in the data-hungry scenario and fine-tuning in the
data-abundant scenario with little training overhead, potentially making PALP a
strong alternative in a black-box scenario.
- Abstract(参考訳): In-context Learning (ICL) を通じて、大規模言語モデルは、追加のモデル微調整なしで効果的な数ショット学習者となる。
しかし、ICLの性能は、基礎となる言語モデル固有の入力長制約によって制限されるため、利用可能なトレーニングサンプルの数に匹敵しない。
一方、言語モデルもまた強力な特徴抽出器であり、ブラックボックス方式で利用でき、事前抽出された入力表現の上に軽量な識別器を訓練する線形探索パラダイムを可能にすることが多くの研究で明らかにされている。
本稿では,両世界の最善を生かす線形プローブと icl のハイブリッドである promp-augmented linear probing (palp) を提案する。
PALPは線形探索のスケーラビリティと言語モデルを強制することで、入力をより知覚可能な形式に調整することでより意味のある表現を導き出す能力を継承する。
各種データセットの詳細な調査を通じて、PALPは、データ・ハングリーシナリオにおけるICL間のギャップを閉じる入力表現と、トレーニングオーバーヘッドの少ないデータ・バウンダントシナリオでの微調整を著しく強化し、ブラックボックスシナリオにおいてPALPが強力な代替手段となる可能性を検証した。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。
複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。
提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文 参考訳(メタデータ) (2024-07-30T17:57:32Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。
インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。
パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-31T05:56:15Z) - Improving In-context Learning via Bidirectional Alignment [41.214003703218914]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。
我々は,学生モデルのICL能力を向上させるために,ICL事例に対するモデルの嗜好を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
具体的には、新しいランキング損失を取り入れることで、学生と教師のモデル間の入力好みのアライメントを導入する。
論文 参考訳(メタデータ) (2023-12-28T15:02:03Z) - Proto-lm: A Prototypical Network-Based Framework for Built-in
Interpretability in Large Language Models [27.841725567976315]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させてきたが、その解釈可能性の欠如が大きな関心事となっている。
本稿では,LLMが即座に解釈可能な埋め込みを学習できるネットワークベースのホワイトボックスフレームワークであるproto-lmを紹介する。
提案手法の適用性と解釈性は,幅広いNLPタスクの実験を通じて実証され,性能を犠牲にすることなく解釈可能なモデルを作成する新たな可能性を示す。
論文 参考訳(メタデータ) (2023-11-03T05:55:32Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。