Fugu-MT 論文翻訳(概要): The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains

論文の概要: The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains

arxiv url: http://arxiv.org/abs/2507.06187v1
Date: Tue, 08 Jul 2025 17:14:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:38.360547
Title: The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains
Title（参考訳）: デルタ学習仮説:弱データによる予測チューニングは強力な利得を達成できる
Authors: Scott Geng, Hamish Ivison, Chun-Liang Li, Maarten Sap, Jerry Li, Ranjay Krishna, Pang Wei Koh,
Abstract要約: 個々のデータポイントからなるペアの嗜好データにより、個々のデータポイントの強度を超える利得が得られることを示す。私たちの研究は、モデルが一般的に弱いと考えられるペアデータから驚くほどうまく学習できることを示しています。
参考スコア（独自算出の注目度）: 50.66245575710432
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Improvements in language models are often driven by improving the quality of the data we train them on, which can be limiting when strong supervision is scarce. In this work, we show that paired preference data consisting of individually weak data points can enable gains beyond the strength of each individual data point. We formulate the delta learning hypothesis to explain this phenomenon, positing that the relative quality delta between points suffices to drive learning via preference tuning--even when supervised finetuning on the weak data hurts. We validate our hypothesis in controlled experiments and at scale, where we post-train 8B models on preference data generated by pairing a small 3B model's responses with outputs from an even smaller 1.5B model to create a meaningful delta. Strikingly, on a standard 11-benchmark evaluation suite (MATH, MMLU, etc.), our simple recipe matches the performance of Tulu 3, a state-of-the-art open model tuned from the same base model while relying on much stronger supervisors (e.g., GPT-4o). Thus, delta learning enables simpler and cheaper open recipes for state-of-the-art post-training. To better understand delta learning, we prove in logistic regression that the performance gap between two weak teacher models provides useful signal for improving a stronger student. Overall, our work shows that models can learn surprisingly well from paired data that might typically be considered weak.
Abstract（参考訳）: 言語モデルの改善は、トレーニングするデータの品質の向上によって引き起こされることが多い。本研究では,各データポイントの強度を超える利得が得られることを示す。この現象を説明するためにデルタ学習仮説を定式化し、弱いデータの微調整を監督しても、ポイント間の相対的な品質差は好みのチューニングによって学習を駆動するのに十分であることを示した。そこでは,より小さな3Bモデルの応答を,さらに小さな1.5Bモデルからの出力とペアリングして,有意なデルタを生成することで生成した選好データに基づいて,8Bモデルを訓練後評価する。興味深いことに、標準の11ベンチマーク評価スイート(MATH, MMLUなど)では、非常に強力なスーパーバイザ(GPT-4oなど)を頼りながら、同じベースモデルから調整された最先端のオープンモデルであるTulu 3の性能と、簡単なレシピが一致している。このようにデルタ学習は、最先端のポストトレーニングのためのシンプルで安価なオープンレシピを可能にする。デルタ学習をよりよく理解するために、ロジスティック回帰において、2つの弱い教師モデル間の性能差が、より強い学生を改善するのに有用な信号であることを証明した。全体として、私たちの研究は、モデルが一般的に弱いと考えられるペアデータから驚くほどうまく学習できることを示しています。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [53.398270878295754]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文参考訳（メタデータ） (2025-08-06T11:22:23Z)
EpiCoDe: Boosting Model Performance Beyond Training with Extrapolation and Contrastive Decoding [50.29046178980637]
EpiCoDeは、余分なトレーニングなしでデータスカシティシナリオにおけるモデルパフォーマンスを向上させる方法である。 EpiCoDeは、既存のメソッドよりも大幅に、堅牢に改善されていることを示す。
論文参考訳（メタデータ） (2025-06-04T02:11:54Z)
Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling [18.23215026159686]
強力な言語モデル(LM)を用いた高品質な合成データの学習は、LMの推論性能を向上させるための一般的な戦略である。より強力なSEモデルと弱いが安価なWCモデルによる合成データ生成のトレードオフについて検討する。
論文参考訳（メタデータ） (2024-08-29T17:32:35Z)
Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems [17.10762463903638]
我々は人的評価を近似するために評価モデルを訓練し、高い合意を得る。そこで本研究では,アノテートデータの一部を用いて評価モデルを訓練する弱強監督手法を提案する。
論文参考訳（メタデータ） (2024-06-26T10:48:14Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文参考訳（メタデータ） (2023-07-14T07:01:48Z)
Towards a robust and reliable deep learning approach for detection of compact binary mergers in gravitational wave data [0.0]
我々は、段階的に深層学習モデルを開発し、その堅牢性と信頼性の向上に取り組みます。我々はGAN(Generative Adversarial Network)を含む新しいフレームワークでモデルを再訓練する。絶対ロバスト性は事実上達成できないが、そのような訓練によって得られるいくつかの根本的な改善を実証する。
論文参考訳（メタデータ） (2023-06-20T18:00:05Z)
Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。 CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文参考訳（メタデータ） (2021-05-18T15:13:00Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。