論文の概要: FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?
- arxiv url: http://arxiv.org/abs/2411.05059v2
- Date: Mon, 11 Nov 2024 21:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:22:12.645837
- Title: FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?
- Title(参考訳): FineTuneBench: 商用の微調整APIは、どのように知識をLLMに注入しますか?
- Authors: Eric Wu, Kevin Wu, James Zou,
- Abstract要約: FineTuneBenchは、商用の微調整APIがいかに新しい知識や更新知識を学べるかを理解するための評価フレームワークであり、データセットである。
GPT-4oやGemini 1.5 Proなど,市販のファインチューニングAPIを用いて,5つのフロンティア大言語モデル(LLM)を分析した。
本結果から,全モデルにおいて,ファインチューニングにより新たな情報を効果的に学習する能力において,平均一般化精度が37%の欠点が明らかとなった。
- 参考スコア(独自算出の注目度): 22.89240200094172
- License:
- Abstract: There is great interest in fine-tuning frontier large language models (LLMs) to inject new information and update existing knowledge. While commercial LLM fine-tuning APIs from providers such as OpenAI and Google promise flexible adaptation for various applications, the efficacy of fine-tuning remains unclear. In this study, we introduce FineTuneBench, an evaluation framework and dataset for understanding how well commercial fine-tuning APIs can successfully learn new and updated knowledge. We analyze five frontier LLMs with commercially available fine-tuning APIs, including GPT-4o and Gemini 1.5 Pro, on their effectiveness in two settings: (1) ingesting novel information, such as recent news events and new people profiles, and (2) updating existing knowledge, such as updated medical guidelines and code frameworks. Our results reveal substantial shortcomings in all the models' abilities to effectively learn new information through fine-tuning, with an average generalization accuracy of 37% across all models. When updating existing knowledge, such as incorporating medical guideline updates, commercial fine-tuning APIs show even more limited capability (average generalization accuracy of 19%). Overall, fine-tuning GPT-4o mini is the most effective for infusing new knowledge and updating knowledge, followed by GPT-3.5 Turbo and GPT-4o. The fine-tuning APIs for Gemini 1.5 Flesh and Gemini 1.5 Pro are unable to learn new knowledge or update existing knowledge. These findings underscore a major shortcoming in using current commercial fine-tuning services to achieve reliable knowledge infusion in common scenarios. We open source the FineTuneBench dataset at https://github.com/kevinwu23/StanfordFineTuneBench.
- Abstract(参考訳): 新たな情報を注入し、既存の知識を更新するための細調整されたフロンティア大言語モデル(LLM)に大きな関心がある。
OpenAIやGoogleなどのプロバイダによる商用のLCMファインチューニングAPIは、さまざまなアプリケーションに柔軟な適応を約束するが、ファインチューニングの有効性はまだ不明である。
本研究では,FineTuneBenchについて紹介する。FineTuneBenchは,商用のファインチューニングAPIが新しい知識と更新知識をいかにうまく学習できるかを理解するための評価フレームワークであり,データセットである。
GPT-4o や Gemini 1.5 Pro など,市販のファインチューニング API を持つ5つのフロンティア LLM を,(1) 最新のニュースイベントや新人プロフィールなどの新しい情報を取り込み,(2) 最新の医療ガイドラインやコードフレームワークなどの既存の知識を更新する,という2つの設定で分析する。
本結果から,全モデルに対して平均一般化精度が37%の微調整により,新しい情報を効果的に学習する能力の欠点が明らかとなった。
医療ガイドライン更新などの既存の知識を更新する際には、商用の微調整APIはさらに制限された能力を示している(平均一般化精度は19%)。
全体としては、GPT-4o miniは、GPT-3.5 TurboとGPT-4oに次いで、新しい知識を注入し、知識を更新するのに最も効果的である。
Gemini 1.5 FleshとGemini 1.5 Pro用の微調整APIは、新しい知識を習得したり、既存の知識を更新したりすることができない。
これらの知見は、一般的なシナリオにおける信頼性の高い知識注入を実現するために、現在の商業ファインチューニングサービスを使用する際の大きな欠点を浮き彫りにしている。
FineTuneBenchデータセットをhttps://github.com/kevinwu23/StanfordFineTuneBenchで公開しています。
関連論文リスト
- Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - CodeUpdateArena: Benchmarking Knowledge Editing on API Updates [77.81663273436375]
コードドメインの知識編集のためのベンチマークであるCodeUpdateArenaを提示する。
私たちのベンチマークのインスタンスは、プログラム合成例と組み合わせた合成API関数のアップデートで構成されています。
ベンチマークでは、7つのPythonパッケージから54の関数へ、さまざまなタイプの更新をカバーしています。
論文 参考訳(メタデータ) (2024-07-08T17:55:04Z) - Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。
さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。
その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2024-03-30T01:56:07Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - Forgetting before Learning: Utilizing Parametric Arithmetic for
Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。
2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文 参考訳(メタデータ) (2023-11-14T09:12:40Z) - Implicit meta-learning may lead language models to trust more reliable sources [9.073765860925395]
合成微調整データセットにおける有用性の指標としてランダム文字列(タグ)を導入する。
このデータセットの微調整は暗黙的メタラーニング(IML)につながる
私たちは、将来のAIシステムの能力、リスク、制御可能性について、私たちの結果が示唆するものを反映しています。
論文 参考訳(メタデータ) (2023-10-23T15:50:08Z) - Can We Edit Factual Knowledge by In-Context Learning? [38.2498067309258]
In-context knowledge editing (IKE) は勾配に基づく手法と比較して競争的な成功率を達成する。
IKEは、類似の事実や無関係な事実に対する過度な編集を減らし、従来記憶されていた知識を忘れる知識を減らしていることを示す。
論文 参考訳(メタデータ) (2023-05-22T06:07:58Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z) - Embedding Code Contexts for Cryptographic API Suggestion:New
Methodologies and Comparisons [9.011910726620536]
APIレコメンデーションのための新しいニューラルネットワークベースのアプローチであるMulti-HyLSTMを提案する。
プログラム分析を使用して、APIの埋め込みと推奨をガイドします。
245のテストケースの分析では、商用ツールのCodotaと比較して、トップ1の推奨精度は88.98%に達した。
論文 参考訳(メタデータ) (2021-03-15T22:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。