論文の概要: Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning
- arxiv url: http://arxiv.org/abs/2404.12897v1
- Date: Fri, 19 Apr 2024 14:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 14:46:18.498708
- Title: Enabling Natural Zero-Shot Prompting on Encoder Models via Statement-Tuning
- Title(参考訳): ステートメントチューニングによるエンコーダモデル上での自然ゼロショットプロンプトの実現
- Authors: Ahmed Elshabrawy, Yongix Huang, Iryna Gurevych, Alham Fikri Aji,
- Abstract要約: ステートメント・チューニング(英: Statement-Tuning)は、有限文の集合として識別的タスクをモデル化し、潜在的なステートメントを識別してラベルを決定するモデルを訓練する手法である。
実験結果から,ステートメントチューニングは,パラメータが著しく少ない最先端のLLMと比較して,競争性能が向上することが示された。
- 参考スコア(独自算出の注目度): 55.265138447400744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) exhibit remarkable capabilities in zero-shot and few-shot scenarios, they often require computationally prohibitive sizes. Conversely, smaller Masked Language Models (MLMs) like BERT and RoBERTa achieve state-of-the-art results through fine-tuning but struggle with extending to few-shot and zero-shot settings due to their architectural constraints. Hence, we propose Statement-Tuning, a technique that models discriminative tasks as a set of finite statements and trains an Encoder model to discriminate between the potential statements to determine the label. We do Statement-Tuning on multiple tasks to enable cross-task generalization. Experimental results demonstrate that Statement Tuning achieves competitive performance compared to state-of-the-art LLMs with significantly fewer parameters. Moreover, the study investigates the impact of several design choices on few-shot and zero-shot generalization, revealing that Statement Tuning can achieve sufficient performance with modest training data and benefits from task and statement diversity for unseen task generalizability.
- Abstract(参考訳): 大規模言語モデル(LLM)はゼロショットと少数ショットのシナリオにおいて顕著な能力を示すが、計算的に禁止されたサイズを必要とすることが多い。
逆に、BERT や RoBERTa のような小さな Masked Language Model (MLMs) は、微調整によって最先端の結果を得るが、アーキテクチャ上の制約のため、ほとんどショットやゼロショットの設定にまで拡張することは困難である。
そこで本稿では,有限文の集合として識別的タスクをモデル化し,潜在的な文を識別してラベルを決定するエンコーダモデルを訓練する手法であるステートメント・チューニングを提案する。
複数のタスクをステートメントチューニングして、クロスタスクの一般化を実現します。
実験結果から,ステートメントチューニングは,パラメータが著しく少ない最先端のLLMと比較して,競争性能が向上することが示された。
さらに、本研究では、いくつかの設計選択が少数ショットおよびゼロショットの一般化に与える影響を調査し、ステートメントチューニングが、控えめなトレーニングデータとタスクとステートメントの多様性から、見えないタスクの一般化性に対する十分なパフォーマンスを達成できることを明らかにした。
関連論文リスト
- Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスタ条件付きLoRAエキスパート(MoCLE)の混合は、命令クラスタに基づいてタスクカストマイズされたモデルパラメータを活性化するように設計されている。
新たな命令に対するMoCLEの一般化能力を改善するために、別個のユニバーサルエキスパートが組み込まれている。
11のゼロショットタスクの実験では、MoCLEの有効性が示されている。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - PromptSum: Parameter-Efficient Controllable Abstractive Summarization [4.145362426026615]
本稿では,PTとマルチタスク目的と個別エンティティプロンプトを組み合わせた抽象的な要約手法であるPromptSumを紹介する。
我々のモデル競合ROUGEは、一般的な抽象的な要約ベンチマークと、エンティティによる強い制御性を組み合わせた結果である。
論文 参考訳(メタデータ) (2023-08-06T13:54:14Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。