Fugu-MT 論文翻訳(概要): FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?

論文の概要: FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?

arxiv url: http://arxiv.org/abs/2411.05059v2
Date: Mon, 11 Nov 2024 21:48:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.575418
Title: FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?
Title（参考訳）: FineTuneBench: 商用の微調整APIは、どのように知識をLLMに注入しますか?
Authors: Eric Wu, Kevin Wu, James Zou,
Abstract要約: FineTuneBenchは、商用の微調整APIがいかに新しい知識や更新知識を学べるかを理解するための評価フレームワークであり、データセットである。 GPT-4oやGemini 1.5 Proなど,市販のファインチューニングAPIを用いて,5つのフロンティア大言語モデル(LLM)を分析した。本結果から,全モデルにおいて,ファインチューニングにより新たな情報を効果的に学習する能力において,平均一般化精度が37%の欠点が明らかとなった。
参考スコア（独自算出の注目度）: 22.89240200094172
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is great interest in fine-tuning frontier large language models (LLMs) to inject new information and update existing knowledge. While commercial LLM fine-tuning APIs from providers such as OpenAI and Google promise flexible adaptation for various applications, the efficacy of fine-tuning remains unclear. In this study, we introduce FineTuneBench, an evaluation framework and dataset for understanding how well commercial fine-tuning APIs can successfully learn new and updated knowledge. We analyze five frontier LLMs with commercially available fine-tuning APIs, including GPT-4o and Gemini 1.5 Pro, on their effectiveness in two settings: (1) ingesting novel information, such as recent news events and new people profiles, and (2) updating existing knowledge, such as updated medical guidelines and code frameworks. Our results reveal substantial shortcomings in all the models' abilities to effectively learn new information through fine-tuning, with an average generalization accuracy of 37% across all models. When updating existing knowledge, such as incorporating medical guideline updates, commercial fine-tuning APIs show even more limited capability (average generalization accuracy of 19%). Overall, fine-tuning GPT-4o mini is the most effective for infusing new knowledge and updating knowledge, followed by GPT-3.5 Turbo and GPT-4o. The fine-tuning APIs for Gemini 1.5 Flesh and Gemini 1.5 Pro are unable to learn new knowledge or update existing knowledge. These findings underscore a major shortcoming in using current commercial fine-tuning services to achieve reliable knowledge infusion in common scenarios. We open source the FineTuneBench dataset at https://github.com/kevinwu23/StanfordFineTuneBench.
Abstract（参考訳）: 新たな情報を注入し、既存の知識を更新するための細調整されたフロンティア大言語モデル(LLM)に大きな関心がある。 OpenAIやGoogleなどのプロバイダによる商用のLCMファインチューニングAPIは、さまざまなアプリケーションに柔軟な適応を約束するが、ファインチューニングの有効性はまだ不明である。本研究では,FineTuneBenchについて紹介する。FineTuneBenchは,商用のファインチューニングAPIが新しい知識と更新知識をいかにうまく学習できるかを理解するための評価フレームワークであり,データセットである。 GPT-4o や Gemini 1.5 Pro など,市販のファインチューニング API を持つ5つのフロンティア LLM を,(1) 最新のニュースイベントや新人プロフィールなどの新しい情報を取り込み,(2) 最新の医療ガイドラインやコードフレームワークなどの既存の知識を更新する,という2つの設定で分析する。本結果から,全モデルに対して平均一般化精度が37%の微調整により,新しい情報を効果的に学習する能力の欠点が明らかとなった。医療ガイドライン更新などの既存の知識を更新する際には、商用の微調整APIはさらに制限された能力を示している(平均一般化精度は19%)。全体としては、GPT-4o miniは、GPT-3.5 TurboとGPT-4oに次いで、新しい知識を注入し、知識を更新するのに最も効果的である。 Gemini 1.5 FleshとGemini 1.5 Pro用の微調整APIは、新しい知識を習得したり、既存の知識を更新したりすることができない。これらの知見は、一般的なシナリオにおける信頼性の高い知識注入を実現するために、現在の商業ファインチューニングサービスを使用する際の大きな欠点を浮き彫りにしている。 FineTuneBenchデータセットをhttps://github.com/kevinwu23/StanfordFineTuneBenchで公開しています。

関連論文リスト

Model Merging for Knowledge Editing [53.799891745131724]
大規模言語モデル(LLM)は、世界が進化するにつれて正確で現在の知識を維持するために継続的な更新を必要とする。既存の知識編集アプローチは知識更新のための様々なソリューションを提供するが、しばしば連続的な編集シナリオに苦労する。本稿では,頑健な教師付き微調整(R-SFT)とモデルマージを組み合わせた2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-14T07:42:39Z)
How new data permeates LLM knowledge and how to dilute it [19.96863816288517]
大規模言語モデルは、勾配ベースの更新の蓄積を通じて学び、継続的に学習する。新たな事実を学習することで、モデルは無関係な文脈でその知識を不適切に適用することができる。学習前のキーワードのトークン確率を計測することにより,新しい情報学習後のプライミングの度合いを予測することができることを示す。
論文参考訳（メタデータ） (2025-04-13T11:25:04Z)
Efficient Tuning of Large Language Models for Knowledge-Grounded Dialogue Generation [21.52726424882653]
KEDiTは、知識基底対話生成のための大規模言語モデルを微調整する効率的な方法である。まず、検索した知識を学習可能なパラメータに圧縮するために情報ボトルネックを使用し、計算オーバーヘッドを最小限に抑えながら重要な情報を保持する。ウィキペディアのウィザードと新しく構築されたPubMed-Dialogデータセットの実験結果は、KEDiTが文脈的に関連があり、情報的な応答を生成するのに優れていることを示している。
論文参考訳（メタデータ） (2025-04-10T13:54:36Z)
External Knowledge Injection for CLIP-Based Class-Incremental Learning [62.516402566610395]
CIL(Class-Incremental Learning)は、学習システムが進化するデータストリームに継続的に適応できるようにする。本稿では,CLIP ベースの CIL のための ExterNal knowledGe INjEction (ENGINE) を紹介する。
論文参考訳（メタデータ） (2025-03-11T15:00:22Z)
Label Privacy in Split Learning for Large Models with Parameter-Efficient Training [51.28799334394279]
ラベルを非公開にしながら、API上でモデルを微調整する方法を探します。 P$3$EFTは、既存のPEFTプロパティを利用して、より低いパフォーマンスオーバーヘッドでプライバシを維持するマルチパーティ分割学習アルゴリズムである。
論文参考訳（メタデータ） (2024-12-21T15:32:03Z)
Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文参考訳（メタデータ） (2024-10-08T08:35:16Z)
CodeUpdateArena: Benchmarking Knowledge Editing on API Updates [77.81663273436375]
コードドメインの知識編集のためのベンチマークであるCodeUpdateArenaを提示する。私たちのベンチマークのインスタンスは、プログラム合成例と組み合わせた合成API関数のアップデートで構成されています。ベンチマークでは、7つのPythonパッケージから54の関数へ、さまざまなタイプの更新をカバーしています。
論文参考訳（メタデータ） (2024-07-08T17:55:04Z)
Injecting New Knowledge into Large Language Models via Supervised Fine-Tuning [13.371405067535814]
本稿では,Large Language Models(LLMs)における知識注入手法としてのスーパーバイザードファインタニング(SFT)の有効性について検討する。さまざまなデータセット生成戦略 – トークンベースとファクトベースのスケーリング – を比較して,モデルが新たな情報を学ぶためのトレーニングデータを生成します。その結果、ドメイン外知識に関連するQ&Aタスクのパフォーマンスが大幅に向上した。
論文参考訳（メタデータ） (2024-03-30T01:56:07Z)
Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文参考訳（メタデータ） (2024-03-26T06:57:23Z)
Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models [53.52344131257681]
本稿では,F-Learningと呼ばれるファインチューニングのための新しいパラダイムを提案する。これはパラメトリック算術を用いて,古い知識の忘れと新しい知識の学習を容易にする。 2つの公開データセットによる実験結果から、提案したFラーニングは、完全な微調整とLoRA微調整の両方の知識更新性能を向上させることが明らかに示されている。
論文参考訳（メタデータ） (2023-11-14T09:12:40Z)
Implicit meta-learning may lead language models to trust more reliable sources [9.073765860925395]
合成微調整データセットにおける有用性の指標としてランダム文字列(タグ)を導入する。このデータセットの微調整は暗黙的メタラーニング(IML)につながる私たちは、将来のAIシステムの能力、リスク、制御可能性について、私たちの結果が示唆するものを反映しています。
論文参考訳（メタデータ） (2023-10-23T15:50:08Z)
Can We Edit Factual Knowledge by In-Context Learning? [38.2498067309258]
In-context knowledge editing (IKE) は勾配に基づく手法と比較して競争的な成功率を達成する。 IKEは、類似の事実や無関係な事実に対する過度な編集を減らし、従来記憶されていた知識を忘れる知識を減らしていることを示す。
論文参考訳（メタデータ） (2023-05-22T06:07:58Z)
Can LMs Learn New Entities from Descriptions? Challenges in Propagating Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文参考訳（メタデータ） (2023-05-02T17:59:46Z)
Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。 knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。 2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文参考訳（メタデータ） (2021-04-16T15:24:42Z)
Embedding Code Contexts for Cryptographic API Suggestion:New Methodologies and Comparisons [9.011910726620536]
APIレコメンデーションのための新しいニューラルネットワークベースのアプローチであるMulti-HyLSTMを提案する。プログラム分析を使用して、APIの埋め込みと推奨をガイドします。 245のテストケースの分析では、商用ツールのCodotaと比較して、トップ1の推奨精度は88.98%に達した。
論文参考訳（メタデータ） (2021-03-15T22:27:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。