論文の概要: Establishing Performance Baselines in Fine-Tuning, Retrieval-Augmented
Generation and Soft-Prompting for Non-Specialist LLM Users
- arxiv url: http://arxiv.org/abs/2311.05903v1
- Date: Fri, 10 Nov 2023 07:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 15:43:23.162723
- Title: Establishing Performance Baselines in Fine-Tuning, Retrieval-Augmented
Generation and Soft-Prompting for Non-Specialist LLM Users
- Title(参考訳): 非専門LLMユーザのための微調整・検索・拡張・ソフトプロンピングにおけるパフォーマンスベースラインの確立
- Authors: Jennifer Dodgson, Lin Nanzheng, Julian Peh, Akira Rafhael Janson
Pattirane, Alfath Daryl Alhajir, Eko Ridho Dinarto, Joseph Lim, Syed Danyal
Ahmad
- Abstract要約: 本稿では,ベクトル化RAGデータベースへのアクセスが許された場合,GPT 3.5の修正されていないバージョン,微調整されたバージョン,および修正されていないモデルをテストする。
それぞれのケースで、主に2021年9月以降に発生したイベントに関連する100の質問に、モデルが答える能力を試しました。
GPT 3.5 Turboでは,商用プラットフォームを使用,デフォルト設定をイテレーションなしで適用してアウトプットのベースラインセットを確立すると,微調整モデルの性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research into methods for improving the performance of large language models
(LLMs) through fine-tuning, retrieval-augmented generation (RAG) and
soft-prompting has tended to focus on the use of highly technical or high-cost
techniques, making many of the newly discovered approaches comparatively
inaccessible to non-technical users. In this paper we tested an unmodified
version of GPT 3.5, a fine-tuned version, and the same unmodified model when
given access to a vectorised RAG database, both in isolation and in combination
with a basic, non-algorithmic soft prompt. In each case we tested the model's
ability to answer a set of 100 questions relating primarily to events that
occurred after September 2021 (the point at which GPT 3.5's training data set
ends). We found that if commercial platforms are used and default settings are
applied with no iteration in order to establish a baseline set of outputs, a
fine-tuned model outperforms GPT 3.5 Turbo, while the RAG approach
out-performed both. The application of a soft prompt significantly improved the
performance of each approach.
- Abstract(参考訳): 小型言語モデル(llm)の性能向上のための細かなチューニング、検索型生成(rag)、ソフトプロパンティングによる手法の研究は、高度に技術的または高コストな技術の使用に焦点をあてる傾向にあり、新しく発見されたアプローチの多くは、非技術ユーザに対して比較的アクセス不能である。
本稿では,GPT 3.5の修正されていないバージョン,微調整されたバージョン,およびベクトル化RAGデータベースへのアクセスを分離した上で,基本的でないソフトプロンプトと組み合わせて検討した。
それぞれのケースで、2021年9月以降(GPT 3.5のトレーニングデータセットが終了する時点)に主に発生したイベントに関連する100の質問に答えるモデルの能力をテストしました。
市販のプラットフォームを使用して,出力のベースラインセットを確立するために,デフォルト設定をイテレーションなしで適用した場合,微調整モデルの方がGPT 3.5 Turboより優れ,RAGアプローチはどちらも優れることがわかった。
ソフトプロンプトの適用は、各アプローチのパフォーマンスを大幅に改善した。
関連論文リスト
- Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - APrompt4EM: Augmented Prompt Tuning for Generalized Entity Matching [5.92432068962337]
Generalized Entity Matching (GEM)は、異なるフォーマットで表される2つのレコードが同じ現実世界のエンティティを指すかどうかを判定することを目的としている。
本稿では,2つの主な改善点からなる課題に対する拡張的プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-08T05:38:56Z) - Controllable Prompt Tuning For Balancing Group Distributional Robustness [59.94489781153899]
グループ間で優れたパフォーマンスを実現するための最適化スキームを導入し、それらの性能を著しく犠牲にすることなく、全員に良い解決策を見出す。
本稿では,制御可能なプロンプトチューニング(CPT)を提案する。
突発的相関ベンチマークでは, 変換器と非変換器の両アーキテクチャ, および非モーダルおよびマルチモーダルデータにまたがって, 最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-03-05T06:23:55Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of
Prompting Strategies [51.485598133884615]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - Enhancing Large Language Models for Text-to-Testcase Generation [12.864685900686158]
大規模言語モデル(GPT-3.5)に基づくテキスト・ツー・テストケース生成手法を提案する。
提案手法の有効性を,5つの大規模オープンソースプロジェクトを用いて評価した。
論文 参考訳(メタデータ) (2024-02-19T07:50:54Z) - Efficient Classification of Student Help Requests in Programming Courses
Using Large Language Models [2.5949084781328744]
本研究では,GPT-3.5 モデルと GPT-4 モデルを用いて,導入プログラミングクラスにおける学生のヘルプ要求の分類を行った。
GPT-3.5モデルの微調整により性能が向上し、2人のラッカー間で観察されたカテゴリ間の精度と一貫性が近似された。
論文 参考訳(メタデータ) (2023-10-31T00:56:33Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Train/Test-Time Adaptation with Retrieval [129.8579208970529]
Train/Test-Time Adaptation with Retrieval(rm T3AR$)を紹介します。
$rm T3AR$は、洗練された擬似ラベルと自己教師付きコントラスト目的関数を使用して、所定のモデルを下流タスクに適合させる。
検索モジュールのおかげで、ユーザまたはサービスプロバイダは、下流タスクのモデル適応を改善することができる。
論文 参考訳(メタデータ) (2023-03-25T02:44:57Z) - Fine-grained Retrieval Prompt Tuning [149.9071858259279]
微粒な検索プロンプトチューニングは, サンプルプロンプトと特徴適応の観点から, きめの細かい検索タスクを実行するために, 凍結した事前学習モデルを操る。
学習可能なパラメータが少ないFRPTは、広く使われている3つの細粒度データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-29T04:10:04Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。