Fugu-MT 論文翻訳(概要): Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models

論文の概要: Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models

arxiv url: http://arxiv.org/abs/2406.11201v2
Date: Sun, 30 Jun 2024 14:42:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 13:21:08.938729
Title: Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models
Title（参考訳）: ファインチューニングかファインフィリングか? 大規模言語モデルにおけるパフォーマンスの謎を解き明かす
Authors: Scott Barnett, Zac Brannelly, Stefanus Kurniawan, Sheng Wong,
Abstract要約: 大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
参考スコア（独自算出の注目度）: 0.8399688944263842
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have the unique capability to understand and generate human-like text from input queries. When fine-tuned, these models show enhanced performance on domain-specific queries. OpenAI highlights the process of fine-tuning, stating: "To fine-tune a model, you are required to provide at least 10 examples. We typically see clear improvements from fine-tuning on 50 to 100 training examples, but the right number varies greatly based on the exact use case." This study extends this concept to the integration of LLMs within Retrieval-Augmented Generation (RAG) pipelines, which aim to improve accuracy and relevance by leveraging external corpus data for information retrieval. However, RAG's promise of delivering optimal responses often falls short in complex query scenarios. This study aims to specifically examine the effects of fine-tuning LLMs on their ability to extract and integrate contextual data to enhance the performance of RAG systems across multiple domains. We evaluate the impact of fine-tuning on the LLMs' capacity for data extraction and contextual understanding by comparing the accuracy and completeness of fine-tuned models against baseline performances across datasets from multiple domains. Our findings indicate that fine-tuning resulted in a decline in performance compared to the baseline models, contrary to the improvements observed in standalone LLM applications as suggested by OpenAI. This study highlights the need for vigorous investigation and validation of fine-tuned models for domain-specific tasks.
Abstract（参考訳）: 大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成するユニークな機能を持つ。微調整すると、これらのモデルではドメイン固有のクエリのパフォーマンスが向上する。 OpenAIは、細調整のプロセスを強調し、「モデルを微調整するには、少なくとも10の例を提供する必要がある。通常、50から100のトレーニング例で微調整から明らかな改善が見られるが、正しい数は正確なユースケースによって大きく異なる。」と述べている。本研究では、この概念を、情報検索に外部コーパスデータを活用することにより、精度と妥当性を向上させることを目的とした、レトリーバル拡張ジェネレーション(RAG)パイプライン内のLLMの統合に拡張する。しかしながら、最適なレスポンスを提供するというRAGの約束は、複雑なクエリシナリオでは不十分であることが多い。本研究の目的は,複数の領域にまたがるRAGシステムの性能を高めるために,微調整LDMがコンテキストデータを抽出・統合する能力に与える影響を具体的に検討することである。複数のドメインからのデータセット間のベースライン性能に対する微調整モデルの精度と完全性を比較することにより,データ抽出と文脈理解におけるLCMの能力に及ぼす微調整の影響を評価する。その結果,OpenAI が提案するスタンドアロン LLM アプリケーションで見られる改善とは対照的に,ファインチューニングはベースラインモデルに比べて性能が低下することがわかった。本研究は、ドメイン固有タスクのための細調整モデルの精力的な調査と検証の必要性を強調した。

関連論文リスト

Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization [56.97588709890706]
LongMab-POは、長文モデリングタスクのための高品質で多様な応答を生成する新しいフレームワークである。実験の結果,LongMab-POは嗜好データペアの多様性と品質を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-08-19T16:33:55Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。 ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。 TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文参考訳（メタデータ） (2025-05-22T09:04:03Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
Rethinking Data: Towards Better Performing Domain-Specific Small Language Models [0.0]
本稿では,小言語モデル(LM)の微調整について述べる。 LMトレーニングパイプラインの各段階でのデータ品質を改善することで、これを実現する。我々は、異なるデータサブセット上の異なるパラメータで微調整されたモデルをマージすることで、モデル一般化能力を向上させる。
論文参考訳（メタデータ） (2025-03-03T12:19:12Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Auto-GDA: Automatic Domain Adaptation for Efficient Grounding Verification in Retrieval Augmented Generation [13.120801609024147]
検索拡張生成(RAG)は,大規模言語モデル(LLM)出力の現実性を高めることが示されている。 RAG入力は、NLIモデルのトレーニングに使用されるほとんどのデータセットよりも複雑である。教師なしドメイン適応を実現するために自動生成ドメイン適応(Auto-GDA)を導入する。
論文参考訳（メタデータ） (2024-10-04T14:21:27Z)
Fine-tuning Large Language Models for Entity Matching [3.7277730514654555]
生成型大規模言語モデル(LLM)は、エンティティマッチングのための事前訓練された言語モデルに代わる有望な代替品である。本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
論文参考訳（メタデータ） (2024-09-12T16:20:57Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Enhancing LLM Factual Accuracy with RAG to Counter Hallucinations: A Case Study on Domain-Specific Queries in Private Knowledge-Bases [9.478012553728538]
大規模言語モデル(LLM)の現実的精度を向上させるために,検索拡張生成(RAG)を利用するエンド・ツー・エンドのシステム設計を提案する。我々のシステムはRAGパイプラインと上流データセット処理と下流性能評価を統合している。本実験は,ドメイン固有で時間に敏感な質問に対して,より正確な回答を生成するシステムの有効性を実証する。
論文参考訳（メタデータ） (2024-03-15T16:30:14Z)
Learning to Reduce: Optimal Representations of Structured Data in Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文参考訳（メタデータ） (2024-02-22T00:41:23Z)
Enhancing Large Language Model Performance To Answer Questions and Extract Information More Accurately [2.1715455600756646]
大きな言語モデル(LLM)は質問に対する応答を生成する。それらの効果は、答えの最適でない品質や、質問に対する正確な回答を提供するための失敗によってしばしば妨げられる。これらの課題に対処するため、モデルを改善するためのフィードバックやサンプルを含む、微調整プロセスが採用されている。
論文参考訳（メタデータ） (2024-01-27T00:18:07Z)
Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文参考訳（メタデータ） (2023-10-05T09:09:44Z)
CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文参考訳（メタデータ） (2023-09-14T16:16:40Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。