Fugu-MT 論文翻訳(概要): SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations

論文の概要: SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations

arxiv url: http://arxiv.org/abs/2305.13235v2
Date: Tue, 23 May 2023 09:26:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 10:52:29.634335
Title: SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations
Title（参考訳）: SPARSEFIT:Sparse Fine-tuningを用いたFew-shot Promptingによる予測と自然言語説明の同時生成
Authors: Jesus Solano, Oana-Maria Camburu, Pasquale Minervini
Abstract要約: 我々は、離散的なプロンプトを利用して予測とNLEを共同生成するスパース数発の微調整戦略であるSparseFitを提案する。我々は,モデル生成NLEの品質を評価するために,自動的および人為的評価を行い,モデルパラメータの6.8%のみを微調整することで,競争結果が得られた。
参考スコア（独自算出の注目度）: 22.280037513501338
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Explaining the decisions of neural models is crucial for ensuring their trustworthiness at deployment time. Using Natural Language Explanations (NLEs) to justify a model's predictions has recently gained increasing interest. However, this approach usually demands large datasets of human-written NLEs for the ground-truth answers, which are expensive and potentially infeasible for some applications. For models to generate high-quality NLEs when only a few NLEs are available, the fine-tuning of Pre-trained Language Models (PLMs) in conjunction with prompt-based learning recently emerged. However, PLMs typically have billions of parameters, making fine-tuning expensive. We propose SparseFit, a sparse few-shot fine-tuning strategy that leverages discrete prompts to jointly generate predictions and NLEs. We experiment with SparseFit on the T5 model and four datasets and compare it against state-of-the-art parameter-efficient fine-tuning techniques. We perform automatic and human evaluations to assess the quality of the model-generated NLEs, finding that fine-tuning only 6.8% of the model parameters leads to competitive results for both the task performance and the quality of the NLEs.
Abstract（参考訳）: 神経モデルの決定を説明することは、デプロイ時に信頼性を確保するために不可欠である。モデルの予測を正当化するために自然言語説明(NLE)を使用すると、最近関心が高まっている。しかし、このアプローチは通常、人間によって書かれたNLEの大規模なデータセットを地道な答えとして要求する。数個のNLEしか利用できない場合、モデルが高品質なNLEを生成するために、プロンプトベースの学習とともにPLM(Pre-trained Language Models)の微調整が最近現れた。しかし、PLMは通常数十億のパラメータを持ち、微調整は高価である。離散的なプロンプトを利用して予測とNLEを共同生成するスパース数発の微調整戦略であるSparseFitを提案する。 t5モデルと4つのデータセットでsparsefitを実験し、それを最先端のパラメータ効率の良い微調整技術と比較する。我々は,モデル生成NLEの品質を評価するための自動評価と人為評価を行い,モデルパラメータの6.8%のみを微調整することで,タスク性能とNLEの品質の両面での競争結果が得られることを示した。

関連論文リスト

MoLEx: Mixture of Layer Experts for Finetuning with Sparse Upcycling [2.1605931466490795]
深層モデルの大規模事前学習と微調整が自然言語処理(NLP)の基盤となっている。本稿では,異なるタイプの言語情報の抽出器としてレイヤについて検討する。我々は,事前学習モデルのレイヤーである専門家の疎結合であるMix of Layer Experts(Molex)を提案する。
論文参考訳（メタデータ） (2025-03-14T07:22:07Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Multilingual Sentence-T5: Scalable Sentence Encoders for Multilingual Applications [4.240899165468488]
NLIに基づく多言語文埋め込みのモデルとして,Multilingual Sentence T5(m-ST5)を導入する。低ランク適応(LoRA)技術を用いることで、モデルのサイズを570億のパラメータに拡張することに成功した。特に、リソースが少ない言語や、英語との言語的類似性が低い言語は、パラメータの増加の恩恵を受けていた。
論文参考訳（メタデータ） (2024-03-26T09:31:55Z)
Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。 UPETは性能と効率の面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-10-19T02:18:29Z)
Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文参考訳（メタデータ） (2023-09-18T06:38:24Z)
Predicting Fine-Tuning Performance with Probing [18.129450295108423]
本稿では,モデル開発に広く用いられているプロキシ信号を抽出するために,深部NLPモデルの探索の有用性について検討する。基準値よりも40%$ -80%$小さい精度で微調整性能を予測するために,たった3つの試行テストの精度を利用することが可能であることが判明した。
論文参考訳（メタデータ） (2022-10-13T20:58:14Z)
ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-25T11:38:48Z)
Clinical Prompt Learning with Frozen Language Models [4.077071350659386]
大規模だが凍結した事前学習言語モデル (PLMs) は、より小型で微調整されたモデルよりも高速に学習できる。臨床的に有意な意思決定課題における即時学習の実現可能性について検討した。結果は、学習の速さと部分的に一致しており、学習の速さは従来の微調整と一致したり改善したりすることができる。
論文参考訳（メタデータ） (2022-05-11T14:25:13Z)
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文参考訳（メタデータ） (2021-10-30T03:29:47Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文参考訳（メタデータ） (2021-04-14T06:30:36Z)
Parameter Space Factorization for Zero-Shot Learning across Tasks and Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文参考訳（メタデータ） (2020-01-30T16:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。