論文の概要: SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations
- arxiv url: http://arxiv.org/abs/2305.13235v3
- Date: Sun, 11 Aug 2024 11:43:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 01:18:22.929837
- Title: SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations
- Title(参考訳): SPARSEFIT:Sparse Fine-tuningを用いたFew-shot Promptingによる予測と自然言語説明の同時生成
- Authors: Jesus Solano, Mardhiyah Sanni, Oana-Maria Camburu, Pasquale Minervini,
- Abstract要約: 命令型学習と組み合わせた微調整事前学習言語モデル(PLM)は,近年,有望な結果を示している。
我々は、離散的なプロンプトを利用して予測とNLEを共同生成する数ショットの微調整戦略であるSparseFitを提案する。
モデルパラメータの6.8%のみを微調整することで,タスク性能と生成したNLEの品質の両面での競争結果が得られることがわかった。
- 参考スコア(独自算出の注目度): 17.972111965568384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models that generate natural language explanations (NLEs) for their predictions have recently gained increasing interest. However, this approach usually demands large datasets of human-written NLEs for the ground-truth answers at training time, which can be expensive and potentially infeasible for some applications. When only a few NLEs are available (a few-shot setup), fine-tuning pre-trained language models (PLMs) in conjunction with prompt-based learning has recently shown promising results. However, PLMs typically have billions of parameters, making full fine-tuning expensive. We propose SparseFit, a sparse few-shot fine-tuning strategy that leverages discrete prompts to jointly generate predictions and NLEs. We experiment with SparseFit on three sizes of the T5 language model and four datasets and compare it against existing state-of-the-art Parameter-Efficient Fine-Tuning (PEFT) techniques. We find that fine-tuning only 6.8% of the model parameters leads to competitive results for both the task performance and the quality of the generated NLEs compared to full fine-tuning of the model and produces better results on average than other PEFT methods in terms of predictive accuracy and NLE quality.
- Abstract(参考訳): 自然言語の説明(NLE)を生成するモデルは近年,関心が高まっている。
しかし、このアプローチは通常、トレーニング時に人間の手書きのNLEの大規模なデータセットを必要とする。
数個のNLE(数ショットのセットアップ)しか利用できないとき、プロンプトベースの学習と合わせて微調整済みの言語モデル(PLM)が、最近、有望な結果を示している。
しかし、PLMは通常数十億のパラメータを持ち、完全な微調整コストがかかる。
我々は、離散的なプロンプトを利用して予測とNLEを共同生成するスパース数発の微調整戦略であるSparseFitを提案する。
我々は、T5言語モデルと4つのデータセットの3つのサイズでSparseFitを実験し、既存のパラメータ効率の良い細調整(PEFT)技術と比較した。
モデルパラメータの6.8%しか微調整を行えば,タスク性能と生成したNLEの品質の両面での競争結果が得られ,予測精度とNLE品質の点で他のPEFT法よりも平均的に優れた結果が得られることがわかった。
関連論文リスト
- Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [90.4820014819937]
本稿では,分布域外領域を積極的に探索するために,潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観的手法を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整すると,SELMは命令追従ベンチマークの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - A synthetic data approach for domain generalization of NLI models [13.840374911669167]
自然言語推論(NLI)はLLMにとって重要なベンチマークタスクである。
合成された高品質データセットは、下流アプリケーションでゼロショット使用にNLIモデルを適用することができることを示す。
我々は、このデータに基づいてトレーニングされたモデルが、完全に下流のテスト設定に最適な一般化があることを示します。
論文 参考訳(メタデータ) (2024-02-19T18:55:16Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Large Language Models as Annotators: Enhancing Generalization of NLP
Models at Minimal Cost [6.662800021628275]
入力のアノテートやNLPモデルの一般化のための大言語モデル(LLM)について検討する。
ベースモデルと微調整NLPモデルとの予測スコアの差に基づくサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-27T19:29:55Z) - KNOW How to Make Up Your Mind! Adversarially Detecting and Alleviating
Inconsistencies in Natural Language Explanations [52.33256203018764]
不整合性NLEを検出するために既存の敵攻撃を大幅に改善するために,外部知識ベースを活用する。
高いNLE品質のモデルが必ずしも矛盾を生じさせるとは限らないことを示す。
論文 参考訳(メタデータ) (2023-06-05T15:51:58Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - Automated essay scoring using efficient transformer-based language
models [0.5161531917413708]
Automated Essay Scoring(AES)は、教育、言語学、自然言語処理(NLP)を含む学際的な取り組みです。
大規模なプリトレーニングトランスフォーマーベースの言語モデルは、多くのNLPタスクで現在の最先端を支配しています。
この論文は、AESに関しては、より大きなNLPのパラダイムに挑むことを目的としています。
論文 参考訳(メタデータ) (2021-02-25T19:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。