論文の概要: Prompt-Efficient Fine-Tuning for GPT-like Deep Models to Reduce Hallucination and to Improve Reproducibility in Scientific Text Generation Using Stochastic Optimisation Techniques
- arxiv url: http://arxiv.org/abs/2411.06445v1
- Date: Sun, 10 Nov 2024 12:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:20.111040
- Title: Prompt-Efficient Fine-Tuning for GPT-like Deep Models to Reduce Hallucination and to Improve Reproducibility in Scientific Text Generation Using Stochastic Optimisation Techniques
- Title(参考訳): 確率的最適化手法を用いた科学的テキスト生成における幻覚の低減と再現性向上のためのGPT様深部モデルのプロンプト効率の良い微調整
- Authors: Daniil Sulimov,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な科学的テキスト生成タスクにますます採用されている。
彼らはしばしば正確性、一貫性、幻覚制御の限界に悩まされる。
この論文はAを紹介します。
Fine-Tuning’アプローチは、幻覚を緩和し、アダプタを強化することを目的として、GPTライクなモデルに適したものだ。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large Language Models (LLMs) are increasingly adopted for complex scientific text generation tasks, yet they often suffer from limitations in accuracy, consistency, and hallucination control. This thesis introduces a Parameter-Efficient Fine-Tuning (PEFT) approach tailored for GPT-like models, aiming to mitigate hallucinations and enhance reproducibility, particularly in the computational domain of mass spectrometry. We implemented Low-Rank Adaptation (LoRA) adapters to refine GPT-2, termed MS-GPT, using a specialized corpus of mass spectrometry literature. Through novel evaluation methods applied to LLMs, including BLEU, ROUGE, and Perplexity scores, the fine-tuned MS-GPT model demonstrated superior text coherence and reproducibility compared to the baseline GPT-2, confirmed through statistical analysis with the Wilcoxon rank-sum test. Further, we propose a reproducibility metric based on cosine similarity of model outputs under controlled prompts, showcasing MS-GPT's enhanced stability. This research highlights PEFT's potential to optimize LLMs for scientific contexts, reducing computational costs while improving model reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な科学的テキスト生成タスクにますます採用されているが、精度、一貫性、幻覚制御の限界に悩まされることが多い。
この論文では、特に質量分析の計算領域において、幻覚を緩和し再現性を高めることを目的として、GPTのようなモデルに適したパラメータ効率の良い微細チューニング(PEFT)アプローチを導入する。
我々は,MS-GPTと呼ばれるGPT-2を改良するために,MS-GPT(Lo-Rank Adaptation)アダプタを実装した。
BLEU,ROUGE,PerplexityなどのLSMに適用した新しい評価手法により,細調整したMS-GPTモデルは,Wilcoxonランクサム検定による統計的解析により,ベースラインのGPT-2よりも優れたテキストコヒーレンスと再現性を示した。
さらに,制御されたプロンプト下でのモデル出力のコサイン類似性に基づく再現性指標を提案し,MS-GPTの安定性の向上を示す。
この研究は、PEFTが科学的な文脈でLLMを最適化し、計算コストを削減し、モデルの信頼性を向上する可能性を強調している。
関連論文リスト
- Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models [0.0]
事実的に誤ったコンテンツの生成である幻覚は、大規模言語モデルにおいてますます困難になっている。
本稿では,このギャップに対処する統合フレームワークとライブラリであるTHaMESを紹介する。
THaMES は LLM における幻覚の評価と緩和のためのエンドツーエンドのソリューションを提供する。
論文 参考訳(メタデータ) (2024-09-17T16:55:25Z) - GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs [51.02233412547456]
我々は,Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW)と呼ばれる新しいPEFT法を提案する。
本手法では, ガウス雑音を非正弦波に注入しながら, 正弦波列のみを更新する。
LLaMAモデルによる実験により、GIFT-SWは、同じ計算予算の下で、完全な微調整および現代的なPEFTメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-27T14:41:14Z) - Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization [17.20276556057748]
大規模言語モデル(LLM)は、トレーニングセットの冗長性からいくつかのテキストシーケンスを暗記し、引用することが発見されている。
このTSM(Textual Sequence Memorization)現象は、特定の記憶されたテキストを生成するのを防ぐために、LCM出力の調整を要求される。
TSM消去のための既存の方法は、モデルユーティリティを実質的に損なうことなく、大量の記憶されたサンプルを忘れることができない。
論文 参考訳(メタデータ) (2024-08-09T10:26:11Z) - GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning [48.71952325015267]
PEFT法を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。
本稿では、RETROモデルが、独自の事前学習プロセスにより、ゼロショット設定でGPTモデルより優れていることを示す。
本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法をRAGと統合した最初の包括的比較である。
論文 参考訳(メタデータ) (2024-07-05T14:16:47Z) - Biomedical knowledge graph-optimized prompt generation for large language models [1.6658478064349376]
大規模言語モデル(LLM)は前例のない速度で採用されているが、バイオメディシンのような知識集約ドメインでは依然として課題に直面している。
本稿では,トークン最適化およびロバストな知識グラフに基づくRetrieval Augmented Generationフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-11-29T03:07:00Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - Physics-based Reduced Order Modeling for Uncertainty Quantification of
Guided Wave Propagation using Bayesian Optimization [0.0]
ガイド波伝搬(GWP)は、構造健康モニタリング(SHM)における構造物の検査に一般的に用いられる。
不確実量化(UQ)は、予測の信頼性を向上させるために定期的に適用される。
本稿では,機械学習(ML)に基づくリダクションオーダーモデル(ROM)を提案し,GWPのシミュレーションに関する計算時間を短縮する。
論文 参考訳(メタデータ) (2023-07-18T22:03:43Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Spectral Tensor Train Parameterization of Deep Learning Layers [136.4761580842396]
重み行列の低ランクパラメータ化をDeep Learningコンテキストに埋め込まれたスペクトル特性を用いて検討する。
分類設定におけるニューラルネットワーク圧縮の効果と,生成的対角トレーニング設定における圧縮および安定性トレーニングの改善について述べる。
論文 参考訳(メタデータ) (2021-03-07T00:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。