Fugu-MT 論文翻訳(概要): Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare

論文の概要: Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare

arxiv url: http://arxiv.org/abs/2504.21191v1
Date: Tue, 29 Apr 2025 21:50:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 23:19:04.731846
Title: Small or Large? Zero-Shot or Finetuned? Guiding Language Model Choice for Specialized Applications in Healthcare
Title（参考訳）: 小さいか大きいか?ゼロショットかファインチューニングか : 医療専門分野の言語モデル選択を指導する
Authors: Lovedeep Gondara, Jonathan Simkin, Graham Sayle, Shebnum Devji, Gregory Arbour, Raymond Ng,
Abstract要約: ファインタニングは、ゼロショット結果と比較して、すべてのシナリオでSLMのパフォーマンスを著しく改善した。ドメイン依存のSLMは、特に難しいタスクにおいて、微調整後の一般的なSLMよりもパフォーマンスが良くなった。さらなるドメイン固有の事前訓練は、より簡単なタスクでは控えめなゲインを得たが、複雑なデータスカースタスクでは大幅に改善された。
参考スコア（独自算出の注目度）: 1.9296797946506608
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study aims to guide language model selection by investigating: 1) the necessity of finetuning versus zero-shot usage, 2) the benefits of domain-adjacent versus generic pretrained models, 3) the value of further domain-specific pretraining, and 4) the continued relevance of Small Language Models (SLMs) compared to Large Language Models (LLMs) for specific tasks. Using electronic pathology reports from the British Columbia Cancer Registry (BCCR), three classification scenarios with varying difficulty and data size are evaluated. Models include various SLMs and an LLM. SLMs are evaluated both zero-shot and finetuned; the LLM is evaluated zero-shot only. Finetuning significantly improved SLM performance across all scenarios compared to their zero-shot results. The zero-shot LLM outperformed zero-shot SLMs but was consistently outperformed by finetuned SLMs. Domain-adjacent SLMs generally performed better than the generic SLM after finetuning, especially on harder tasks. Further domain-specific pretraining yielded modest gains on easier tasks but significant improvements on the complex, data-scarce task. The results highlight the critical role of finetuning for SLMs in specialized domains, enabling them to surpass zero-shot LLM performance on targeted classification tasks. Pretraining on domain-adjacent or domain-specific data provides further advantages, particularly for complex problems or limited finetuning data. While LLMs offer strong zero-shot capabilities, their performance on these specific tasks did not match that of appropriately finetuned SLMs. In the era of LLMs, SLMs remain relevant and effective, offering a potentially superior performance-resource trade-off compared to LLMs.
Abstract（参考訳）: 本研究の目的は,言語モデル選択の指導である。 1) 微調整とゼロショットの使用の必要性。 2)ドメイン・アジャセントとジェネリック事前学習モデルの利点。 3) さらなるドメイン特化事前訓練の価値,及び 4) SLM(Small Language Models)とLLM(Large Language Models)の関連性について検討した。ブリティッシュコロンビア癌登録簿 (British Columbia Cancer Registry, BCCR) の電子病理報告を用いて, 難易度とデータサイズが異なる3つの分類シナリオを評価する。モデルには様々なSLMとLSMが含まれる。 SLMはゼロショットと微調整の両方で評価され、LSMはゼロショットのみの評価である。ファインタニングは、ゼロショット結果と比較して、すべてのシナリオでSLMのパフォーマンスを著しく改善した。ゼロショットのLLMはゼロショットのSLMよりも優れていたが、微調整のSLMより一貫して優れていた。ドメイン依存のSLMは、特に難しいタスクにおいて、微調整後の一般的なSLMよりもパフォーマンスが良くなった。さらなるドメイン固有の事前訓練は、より簡単なタスクでは控えめなゲインを得たが、複雑なデータスカースタスクでは大幅に改善された。その結果、特殊領域におけるSLMの微調整が重要な役割を担い、ターゲットの分類タスクにおいてゼロショットLLMのパフォーマンスを超越できることを示した。ドメイン依存データやドメイン固有のデータに対する事前トレーニングは、特に複雑な問題や限られた微調整データに対して、さらなるアドバンテージを提供する。 LLMは強力なゼロショット機能を提供するが、これらの特定のタスクにおけるそれらの性能は適切に調整されたSLMと一致しなかった。 LLMの時代には、SLMはLLMよりも優れた性能とリソースのトレードオフを提供するため、関連性があり、効果的である。

関連論文リスト

Revisiting LLMs as Zero-Shot Time-Series Forecasters: Small Noise Can Break Large Models [32.30528039193554]
大規模言語モデル(LLM)は、ドメイン固有のトレーニングなしで、様々なタスクにまたがる顕著なパフォーマンスを示している。近年の研究では、LLMは予測に固有の効果を欠いていることが示唆されている。実験の結果,LLMベースのゼロショット予測器はノイズに敏感なため,高い精度を達成するのに苦慮していることがわかった。
論文参考訳（メタデータ） (2025-05-31T08:24:01Z)
An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。本研究は,LLMのM2MS能力に関する系統的研究である。
論文参考訳（メタデータ） (2025-05-19T11:18:54Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
A Comprehensive Evaluation of Large Language Models on Aspect-Based Sentiment Analysis [26.505386645322506]
大規模言語モデル(LLM)は自然言語処理の分野で注目を集めている。本稿では,ABSA分野におけるLLMの包括的評価に光を当て,13のデータセット,8のABSAサブタスク,6のLLMを含む。実験により,LLMは微調整型小言語モデル (SLM) と比較して,微調整型に依存したパラダイムで,新しい最先端性能を実現することが示された。
論文参考訳（メタデータ） (2024-12-03T08:54:17Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
Stacking Small Language Models for Generalizability [0.0]
大規模言語モデル(LLM)は、異なる自然言語ベンチマークで強いパフォーマンスを一般化する。本稿では,言語モデルの微調整スタック (FSLM) と呼ばれる新しいアプローチを提案する。特定のタスクを実行するために各SLMを微調整することにより、このアプローチは、特定のSLMが責任を負う複数の低レベルステップに高レベル推論を分解する。その結果、FSLMはトレーニングと推論のコストを低減し、各SLMが後続のSLMと自然言語を介して通信するので、モデルの解釈性を向上させることができる。
論文参考訳（メタデータ） (2024-10-21T01:27:29Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。 BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文参考訳（メタデータ） (2024-03-27T08:57:21Z)
Task Contamination: Language Models May Not Be Few-Shot Anymore [9.696290050028237]
大きな言語モデル(LLM)は、様々なゼロショットおよび少数ショットタスクで素晴らしいパフォーマンスを提供する。しかし、ゼロショットや少数ショットの設定での成功はタスクの汚染に影響される可能性がある。本稿では,LLMのゼロショット性能と少数ショット性能が,時間とともに時間とともにどのように変化したかを検討する。
論文参考訳（メタデータ） (2023-12-26T21:17:46Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。 4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文参考訳（メタデータ） (2023-05-22T22:07:50Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
Large Language Model Is Not a Good Few-shot Information Extractor, but a Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。 LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文参考訳（メタデータ） (2023-03-15T12:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。