Fugu-MT 論文翻訳(概要): Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models

論文の概要: Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models

arxiv url: http://arxiv.org/abs/2409.04787v1
Date: Sat, 7 Sep 2024 10:21:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 20:41:31.857131
Title: Selective Self-Rehearsal: A Fine-Tuning Approach to Improve Generalization in Large Language Models
Title（参考訳）: Selective Self-Rehearsal:大規模言語モデルにおける一般化改善のための微調整アプローチ
Authors: Sonam Gupta, Yatin Nandwani, Asaf Yehudai, Mayank Mishra, Gaurav Pandey, Dinesh Raghu, Sachindra Joshi,
Abstract要約: 本稿では,SSR(Selective Self-Rehearsal)を導入し,SFT(Selective Self-Rehearsal)に匹敵する性能を実現する。モデルの正しい応答を利用することで、SSRは微調整段階におけるモデルの特殊化を減らす。 SSRの有効性は、様々なデータセットにまたがる解決不可能なクエリを識別するタスクに関する実験を通じて実証される。
参考スコア（独自算出の注目度）: 19.752712857873043
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning Large Language Models (LLMs) on specific datasets is a common practice to improve performance on target tasks. However, this performance gain often leads to overfitting, where the model becomes too specialized in either the task or the characteristics of the training data, resulting in a loss of generalization. This paper introduces Selective Self-Rehearsal (SSR), a fine-tuning approach that achieves performance comparable to the standard supervised fine-tuning (SFT) while improving generalization. SSR leverages the fact that there can be multiple valid responses to a query. By utilizing the model's correct responses, SSR reduces model specialization during the fine-tuning stage. SSR first identifies the correct model responses from the training set by deploying an appropriate LLM as a judge. Then, it fine-tunes the model using the correct model responses and the gold response for the remaining samples. The effectiveness of SSR is demonstrated through experiments on the task of identifying unanswerable queries across various datasets. The results show that standard SFT can lead to an average performance drop of up to $16.7\%$ on multiple benchmarks, such as MMLU and TruthfulQA. In contrast, SSR results in close to $2\%$ drop on average, indicating better generalization capabilities compared to standard SFT.
Abstract（参考訳）: 特定のデータセット上での微調整大型言語モデル(LLM)は、ターゲットタスクのパフォーマンスを改善するための一般的なプラクティスである。しかし、この性能向上はしばしば過度に適合し、そこではモデルがタスクやトレーニングデータの特徴に過度に特化し、一般化が失われる。本稿では、SSR(Selective Self-Rehearsal)を提案する。これは、一般化を改善しつつ、標準教師付き微調整(SFT)に匹敵する性能を実現するための微調整手法である。 SSRは、クエリに対して複数の有効な応答が可能であるという事実を活用する。モデルの正しい応答を利用することで、SSRは微調整段階におけるモデルの特殊化を減らす。 SSRはまず、適切なLCMを審査員として配置することで、トレーニングセットから正しいモデル応答を識別する。そして、モデルに正しいモデル応答と、残りのサンプルに対するゴールド応答を用いて、モデルを微調整する。 SSRの有効性は、様々なデータセットにまたがる解決不可能なクエリを識別するタスクに関する実験を通じて実証される。その結果、標準SFTはMMLUやTruthfulQAといった複数のベンチマークで平均性能が16.7 %まで低下する可能性が示唆された。対照的に、SSR は平均で 2 % 近く下落し、標準 SFT よりも優れた一般化能力を示している。

関連論文リスト

Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。 GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-18T23:38:21Z)
Selective Self-to-Supervised Fine-Tuning for Generalization in Large Language Models [24.659722730219134]
本稿では,S3FT(Selective Self-to-Supervised Fine-Tuning)を紹介する。 S3FTは、一般化を改善しつつ、標準教師付き微調整(SFT)よりも優れた性能を実現する。 S3FTの有効性は、数学的推論、Pythonプログラミング、読解タスクの実験を通じて実証される。
論文参考訳（メタデータ） (2025-02-12T05:24:21Z)
Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文参考訳（メタデータ） (2025-01-08T20:11:09Z)
Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。 SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。 SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-07T17:56:53Z)
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文参考訳（メタデータ） (2024-06-17T04:35:17Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy Minimization [30.61075178799518]
テスト時間適応(TTA)法は、ソースデータなしで未ラベルのテストインスタンスに事前学習されたASRモデルを適用するために最近提案されている。我々は、一般的なASRモデルに対して、SGEMと呼ばれる新しいTTAフレームワークを提案する。 SGEMは、ドメインシフトの異なる3つのメインストリームASRモデルの最先端性能を達成する。
論文参考訳（メタデータ） (2023-06-03T02:27:08Z)
Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-11T03:37:57Z)
Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文参考訳（メタデータ） (2022-03-27T06:38:39Z)
Representative Subset Selection for Efficient Fine-Tuning in Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-18T10:12:24Z)
Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。 GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文参考訳（メタデータ） (2021-03-10T17:40:48Z)
One for More: Selecting Generalizable Samples for Generalizable ReID Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文参考訳（メタデータ） (2020-12-10T06:37:09Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。