Fugu-MT 論文翻訳(概要): SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations

論文の概要: SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations

arxiv url: http://arxiv.org/abs/2305.13235v3
Date: Sun, 11 Aug 2024 11:43:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-14 01:18:22.929837
Title: SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations
Title（参考訳）: SPARSEFIT:Sparse Fine-tuningを用いたFew-shot Promptingによる予測と自然言語説明の同時生成
Authors: Jesus Solano, Mardhiyah Sanni, Oana-Maria Camburu, Pasquale Minervini,
Abstract要約: 命令型学習と組み合わせた微調整事前学習言語モデル(PLM)は,近年,有望な結果を示している。我々は、離散的なプロンプトを利用して予測とNLEを共同生成する数ショットの微調整戦略であるSparseFitを提案する。モデルパラメータの6.8%のみを微調整することで,タスク性能と生成したNLEの品質の両面での競争結果が得られることがわかった。
参考スコア（独自算出の注目度）: 17.972111965568384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Models that generate natural language explanations (NLEs) for their predictions have recently gained increasing interest. However, this approach usually demands large datasets of human-written NLEs for the ground-truth answers at training time, which can be expensive and potentially infeasible for some applications. When only a few NLEs are available (a few-shot setup), fine-tuning pre-trained language models (PLMs) in conjunction with prompt-based learning has recently shown promising results. However, PLMs typically have billions of parameters, making full fine-tuning expensive. We propose SparseFit, a sparse few-shot fine-tuning strategy that leverages discrete prompts to jointly generate predictions and NLEs. We experiment with SparseFit on three sizes of the T5 language model and four datasets and compare it against existing state-of-the-art Parameter-Efficient Fine-Tuning (PEFT) techniques. We find that fine-tuning only 6.8% of the model parameters leads to competitive results for both the task performance and the quality of the generated NLEs compared to full fine-tuning of the model and produces better results on average than other PEFT methods in terms of predictive accuracy and NLE quality.
Abstract（参考訳）: 自然言語の説明(NLE)を生成するモデルは近年,関心が高まっている。しかし、このアプローチは通常、トレーニング時に人間の手書きのNLEの大規模なデータセットを必要とする。数個のNLE(数ショットのセットアップ)しか利用できないとき、プロンプトベースの学習と合わせて微調整済みの言語モデル(PLM)が、最近、有望な結果を示している。しかし、PLMは通常数十億のパラメータを持ち、完全な微調整コストがかかる。我々は、離散的なプロンプトを利用して予測とNLEを共同生成するスパース数発の微調整戦略であるSparseFitを提案する。我々は、T5言語モデルと4つのデータセットの3つのサイズでSparseFitを実験し、既存のパラメータ効率の良い細調整(PEFT)技術と比較した。モデルパラメータの6.8%しか微調整を行えば,タスク性能と生成したNLEの品質の両面での競争結果が得られ,予測精度とNLE品質の点で他のPEFT法よりも平均的に優れた結果が得られることがわかった。

関連論文リスト

MoLEx: Mixture of Layer Experts for Finetuning with Sparse Upcycling [2.1605931466490795]
深層モデルの大規模事前学習と微調整が自然言語処理(NLP)の基盤となっている。本稿では,異なるタイプの言語情報の抽出器としてレイヤについて検討する。我々は,事前学習モデルのレイヤーである専門家の疎結合であるMix of Layer Experts(Molex)を提案する。
論文参考訳（メタデータ） (2025-03-14T07:22:07Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Multilingual Sentence-T5: Scalable Sentence Encoders for Multilingual Applications [4.240899165468488]
NLIに基づく多言語文埋め込みのモデルとして,Multilingual Sentence T5(m-ST5)を導入する。低ランク適応(LoRA)技術を用いることで、モデルのサイズを570億のパラメータに拡張することに成功した。特に、リソースが少ない言語や、英語との言語的類似性が低い言語は、パラメータの増加の恩恵を受けていた。
論文参考訳（メタデータ） (2024-03-26T09:31:55Z)
Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。 UPETは性能と効率の面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-10-19T02:18:29Z)
Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文参考訳（メタデータ） (2023-09-18T06:38:24Z)
Predicting Fine-Tuning Performance with Probing [18.129450295108423]
本稿では,モデル開発に広く用いられているプロキシ信号を抽出するために,深部NLPモデルの探索の有用性について検討する。基準値よりも40%$ -80%$小さい精度で微調整性能を予測するために,たった3つの試行テストの精度を利用することが可能であることが判明した。
論文参考訳（メタデータ） (2022-10-13T20:58:14Z)
ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-25T11:38:48Z)
Clinical Prompt Learning with Frozen Language Models [4.077071350659386]
大規模だが凍結した事前学習言語モデル (PLMs) は、より小型で微調整されたモデルよりも高速に学習できる。臨床的に有意な意思決定課題における即時学習の実現可能性について検討した。結果は、学習の速さと部分的に一致しており、学習の速さは従来の微調整と一致したり改善したりすることができる。
論文参考訳（メタデータ） (2022-05-11T14:25:13Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)
Parameter Space Factorization for Zero-Shot Learning across Tasks and Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文参考訳（メタデータ） (2020-01-30T16:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。