論文の概要: Model Tuning or Prompt Tuning? A Study of Large Language Models for
Clinical Concept and Relation Extraction
- arxiv url: http://arxiv.org/abs/2310.06239v1
- Date: Tue, 10 Oct 2023 01:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 21:08:11.869133
- Title: Model Tuning or Prompt Tuning? A Study of Large Language Models for
Clinical Concept and Relation Extraction
- Title(参考訳): モデルチューニングか、プロンプトチューニングか?
臨床概念と関係抽出のための大規模言語モデルの検討
- Authors: Cheng Peng, Xi Yang, Kaleb E Smith, Zehao Yu, Aokun Chen, Jiang Bian,
Yonghui Wu
- Abstract要約: 我々は,大規模言語モデル(LLM)のためのソフトプロンプトベース学習アルゴリズムを開発した。
本研究では, プロンプトのない微調整, 凍結LDMによるハードプロンプト, 凍結LDMによるソフトプロンプト, 凍結LDMによるソフトプロンプトの4つのトレーニング戦略を比較した。
クロスインスティテュート・セッティングにおいて,プロンプト・ベース・ラーニング・アルゴリズムの伝達学習能力を評価する。
- 参考スコア(独自算出の注目度): 26.504643007899592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective To develop soft prompt-based learning algorithms for large language
models (LLMs), examine the shape of prompts, prompt-tuning using
frozen/unfrozen LLMs, transfer learning, and few-shot learning abilities.
Methods We developed a soft prompt-based LLM model and compared 4 training
strategies including (1) fine-tuning without prompts; (2) hard-prompt with
unfrozen LLMs; (3) soft-prompt with unfrozen LLMs; and (4) soft-prompt with
frozen LLMs. We evaluated 7 pretrained LLMs using the 4 training strategies for
clinical concept and relation extraction on two benchmark datasets. We
evaluated the transfer learning ability of the prompt-based learning algorithms
in a cross-institution setting. We also assessed the few-shot learning ability.
Results and Conclusion When LLMs are unfrozen, GatorTron-3.9B with soft
prompting achieves the best strict F1-scores of 0.9118 and 0.8604 for concept
extraction, outperforming the traditional fine-tuning and hard prompt-based
models by 0.6~3.1% and 1.2~2.9%, respectively; GatorTron-345M with soft
prompting achieves the best F1-scores of 0.8332 and 0.7488 for end-to-end
relation extraction, outperforming the other two models by 0.2~2% and
0.6~11.7%, respectively. When LLMs are frozen, small (i.e., 345 million
parameters) LLMs have a big gap to be competitive with unfrozen models; scaling
LLMs up to billions of parameters makes frozen LLMs competitive with unfrozen
LLMs. For cross-institute evaluation, soft prompting with a frozen
GatorTron-8.9B model achieved the best performance. This study demonstrates
that (1) machines can learn soft prompts better than humans, (2) frozen LLMs
have better few-shot learning ability and transfer learning ability to
facilitate muti-institution applications, and (3) frozen LLMs require large
models.
- Abstract(参考訳): 目的 大規模言語モデル(LLM)のためのソフトプロンプトベース学習アルゴリズムの開発,プロンプトの形状,凍結・凍結LDMを用いたプロンプトチューニング,トランスファラーニング,少数ショット学習能力について検討する。
方法 ソフトプロンプトベースLLMモデルを開発し,(1)プロンプトなしの微調整,(2)凍結LLM付きハードプロンプト,(3)凍結LLM付きソフトプロンプト,(4)凍結LLM付きソフトプロンプトの4つのトレーニング戦略を比較した。
2つのベンチマークデータセットを用いて,臨床概念と関係抽出のための4つのトレーニング戦略を用いて,事前学習した7つのLSMを評価した。
クロスインスティテュート環境下では,プロンプトベース学習アルゴリズムの伝達学習能力を評価した。
また,学習能力も評価した。
結果と結論 LLM が凍結しない場合、GatorTron-3.9B はソフトプロンプトの F1 スコアを0.9118 と 0.8604 でそれぞれ0.6~3.1% と 1.2~2.9% で上回り、ソフトプロンプトの GatorTron-345M は0.8332 と 0.7488 で最高 F1 スコアをそれぞれ0.22% と 0.6~11.7% で上回ります。
LLMが凍結されると(すなわち3億4500万のパラメータ)、LLMは未凍結モデルと競合する大きなギャップを持つ。
クロスインフォーマル評価では、凍ったGatorTron-8.9Bモデルによるソフトプロンプトが最高性能を達成した。
本研究は,(1)機械が人間よりもソフトプロンプトを学習できること,(2)冷凍LLMはミューティ・インスティテュート・アプリケーションを促進するために,より少ないショット学習能力とトランスファー学習能力を有すること,(3)冷凍LLMは大きなモデルを必要とすることを実証する。
関連論文リスト
- OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination
Detection with Weakly Supervised Data [1.3981625092173873]
本稿では,LLMの幻覚検出システムについて述べる。
SemEval-2024 Task 6のモデル非依存トラックで2位を獲得した。
論文 参考訳(メタデータ) (2024-02-20T11:01:39Z) - Identifying Factual Inconsistency in Summaries: Towards Effective
Utilization of Large Language Model [50.71344457241456]
この研究は2つの重要な疑問に焦点をあてる: 現実の不整合検出に大規模言語モデル(LLM)を利用する最善の方法は何か、そして、どのようにしてより小さなLCMを高い効率と有効性で蒸留できるのか?
実験の結果、LLM自体が適切なパラダイム設計の下でこのタスクを無断で解決でき、訓練されたベースラインが平均2.8%を超えることが示唆された。
実用性をさらに向上するため,我々はより小型のオープンソースLCMを蒸留し,要約全体を高精度にまとめることを目指す訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。