Fugu-MT 論文翻訳(概要): Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models

論文の概要: Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models

arxiv url: http://arxiv.org/abs/2502.08130v2
Date: Thu, 20 Feb 2025 06:10:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 13:23:53.233719
Title: Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models
Title（参考訳）: 大規模言語モデルにおける一般化のための選択的自己監督ファインチューニング
Authors: Sonam Gupta, Yatin Nandwani, Asaf Yehudai, Dinesh Khandelwal, Dinesh Raghu, Sachindra Joshi,
Abstract要約: 本稿では,S3FT(Selective Self-to-Supervised Fine-Tuning)を紹介する。 S3FTは、一般化を改善しつつ、標準教師付き微調整(SFT)よりも優れた性能を実現する。 S3FTの有効性は、数学的推論、Pythonプログラミング、読解タスクの実験を通じて実証される。
参考スコア（独自算出の注目度）: 24.659722730219134
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning Large Language Models (LLMs) on specific datasets is a common practice to improve performance on target tasks. However, this performance gain often leads to overfitting, where the model becomes too specialized in either the task or the characteristics of the training data, resulting in a loss of generalization. This paper introduces Selective Self-to-Supervised Fine-Tuning (S3FT), a fine-tuning approach that achieves better performance than the standard supervised fine-tuning (SFT) while improving generalization. S3FT leverages the existence of multiple valid responses to a query. By utilizing the model's correct responses, S3FT reduces model specialization during the fine-tuning stage. S3FT first identifies the correct model responses from the training set by deploying an appropriate judge. Then, it fine-tunes the model using the correct model responses and the gold response (or its paraphrase) for the remaining samples. The effectiveness of S3FT is demonstrated through experiments on mathematical reasoning, Python programming and reading comprehension tasks. The results show that standard SFT can lead to an average performance drop of up to $4.4$ on multiple benchmarks, such as MMLU and TruthfulQA. In contrast, S3FT reduces this drop by half, i.e. $2.5$, indicating better generalization capabilities than SFT while performing significantly better on the fine-tuning tasks.
Abstract（参考訳）: 特定のデータセット上での微調整大型言語モデル(LLM)は、ターゲットタスクのパフォーマンスを改善するための一般的なプラクティスである。しかし、この性能向上はしばしば過度に適合し、そこではモデルがタスクやトレーニングデータの特徴に過度に特化し、一般化が失われる。本稿では,S3FT(Selective Self-to-Supervised Fine-Tuning)を提案する。 S3FTは、クエリに対する複数の有効な応答の存在を活用する。モデルの正しい応答を利用することで、S3FTは微調整段階におけるモデルの特殊化を減らす。 S3FTはまず、適切な判断器を配置することにより、トレーニングセットから正しいモデル応答を識別する。そして、残りのサンプルに対して正しいモデル応答とゴールド応答(またはそのパラフレーズ)を使用してモデルを微調整する。 S3FTの有効性は、数学的推論、Pythonプログラミング、読解タスクの実験を通じて実証される。その結果、標準のSFTはMMLUやTruthfulQAのような複数のベンチマークで平均4.4ドルまで性能が低下することを示した。対照的に、S3FTは2.5ドルというこの減額を半分に減らし、SFTよりもより優れた一般化能力を示しながら、微調整タスクでは大幅に性能が向上した。

関連論文リスト

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [50.30835290642069]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文参考訳（メタデータ） (2025-08-07T17:59:04Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Assessing Robustness to Spurious Correlations in Post-Training Language Models [0.9071144333827891]
我々は,多種多様な合成課題と刺激条件にまたがる3つのポストトレーニングアルゴリズム – Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), KTO – を評価した。以上の結果から,高刺激下ではモデルが常に劣化するとは限らないことが示唆された。
論文参考訳（メタデータ） (2025-05-09T00:39:43Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
The Best Instruction-Tuning Data are Those That Fit [17.401088816596054]
事前訓練された大言語モデル(LLM)から強機能を引き出すためには,SFT(Supervised Fine-tuning)データが必要である。 GRAPE*は,対象モデルの特異な特徴を考慮に入れた,新しいSFTフレームワークである。各命令に対して、様々なLSMからの応答を収集し、ターゲットモデルによって測定された最も高い確率の命令を選択する。
論文参考訳（メタデータ） (2025-02-06T16:31:21Z)
DELIFT: Data Efficient Language model Instruction Fine Tuning [13.538140114667772]
本稿では,3段階の微調整におけるデータ選択を体系的に最適化する新しいアルゴリズムであるDELIFTを紹介する。さまざまなタスクやモデルスケールにわたる実験により、DELIFTはパフォーマンスを損なうことなく、微調整データサイズを最大70%削減できることが示された。
論文参考訳（メタデータ） (2024-11-07T04:38:29Z)
Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models [19.752712857873043]
本稿では,SSR(Selective Self-Rehearsal)を導入し,SFT(Selective Self-Rehearsal)に匹敵する性能を実現する。モデルの正しい応答を利用することで、SSRは微調整段階におけるモデルの特殊化を減らす。 SSRの有効性は、様々なデータセットにまたがる解決不可能なクエリを識別するタスクに関する実験を通じて実証される。
論文参考訳（メタデータ） (2024-09-07T10:21:03Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
AutoFT: Learning an Objective for Robust Fine-Tuning [60.641186718253735]
ファンデーションモデルは、微調整によって下流タスクに適応できるリッチな表現をエンコードする。手作り正則化技術を用いた頑健な微調整への最近のアプローチ我々は、堅牢な微調整のためのデータ駆動型アプローチであるAutoFTを提案する。
論文参考訳（メタデータ） (2024-01-18T18:58:49Z)
Empirical Analysis of Efficient Fine-Tuning Methods for Large Pre-Trained Language Models [4.096453902709292]
BitFitとアダプタモジュールは、標準のフルモデルファインチューニングと比較される。 BitFitアプローチは、さまざまなトレーニングデータにわたる完全な微調整パフォーマンスと一致します。アダプタモジュールは、デフォルトモデルよりも一貫性のないゲインを持つ、高い可変性を示す。
論文参考訳（メタデータ） (2024-01-08T17:44:43Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)
Two-stage LLM Fine-tuning with Less Specialization and More Generalization [93.12197594813378]
本稿では,Model Tuning (ProMoT) を用いた Prompt Tuning を提案する。 ProMoTは、タスク固有のフォーマット学習を、最初はプロンプトチューニングを行い、次にこのソフトプロンプトでモデル自体を微調整することで、追加的で取り外し可能なパラメータにオフロードする。 ProMoTは、微調整タスクと意味的に関連するコンテキスト内学習タスクの一般化を強化することもできる。
論文参考訳（メタデータ） (2022-11-01T17:56:57Z)
Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文参考訳（メタデータ） (2022-05-11T17:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。