論文の概要: Weight Ensembling Improves Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2504.10478v1
- Date: Mon, 14 Apr 2025 17:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:54:20.426636
- Title: Weight Ensembling Improves Reasoning in Language Models
- Title(参考訳): ウェイトアンセブリングは言語モデルにおける推論を改善する
- Authors: Xingyu Dang, Christina Baek, Kaiyue Wen, Zico Kolter, Aditi Raghunathan,
- Abstract要約: 本研究では,世代間の多様性が崩壊し始める推論モデルのトレーニング中に発生する障害モードについて検討する。
最新のSFTチェックポイントの重みをWiSE-FTと呼ばれる早期チェックポイントで補間する簡単な介入は、Pass@kをほぼ完全に回復し、Pass@1も改善する。
- 参考スコア(独自算出の注目度): 20.235279783624797
- License:
- Abstract: We investigate a failure mode that arises during the training of reasoning models, where the diversity of generations begins to collapse, leading to suboptimal test-time scaling. Notably, the Pass@1 rate reliably improves during supervised finetuning (SFT), but Pass@k rapidly deteriorates. Surprisingly, a simple intervention of interpolating the weights of the latest SFT checkpoint with an early checkpoint, otherwise known as WiSE-FT, almost completely recovers Pass@k while also improving Pass@1. The WiSE-FT variant achieves better test-time scaling (Best@k, majority vote) and achieves superior results with less data when tuned further by reinforcement learning. Finally, we find that WiSE-FT provides complementary performance gains that cannot be achieved only through diversity-inducing decoding strategies, like temperature scaling. We formalize a bias-variance tradeoff of Pass@k with respect to the expectation and variance of Pass@1 over the test distribution. We find that WiSE-FT can reduce bias and variance simultaneously, while temperature scaling inherently trades-off between bias and variance.
- Abstract(参考訳): 推論モデルのトレーニング中に発生するフェールモードについて検討し、世代間の多様性が崩壊し始め、最適テストタイムのスケーリングに繋がることを示す。
特に、Pass@1レートは教師付き微調整(SFT)中に確実に改善されるが、Pass@kは急速に悪化する。
驚いたことに、最新のSFTチェックポイントの重みを、WiSE-FTと呼ばれる早期チェックポイントで補うための簡単な介入は、Pass@kをほぼ完全に回復し、Pass@1も改善した。
WiSE-FTの変種は、より良いテスト時間スケーリング(Best@k, majority vote)を達成し、強化学習によってさらに調整された場合、より少ないデータで優れた結果を得る。
最後に、WiSE-FTは、温度スケーリングのような多様性を伴う復号化戦略によってのみ達成できない相補的な性能向上を提供する。
テスト分布に対するPass@1の期待と分散に関して、Pass@kのバイアス分散トレードオフを定式化する。
We found that WiSE-FT could reduce bias and variance, while temperature scaling originally trades-off between bias and variance。
関連論文リスト
- Lessons and Insights from a Unifying Study of Parameter-Efficient Fine-Tuning (PEFT) in Visual Recognition [36.031972728327894]
視覚変換器を用いた代表PEFT手法の統一実験を行った。
VTAB-1Kでは,異なるPEFT法で類似の精度が得られた。
類似した精度にもかかわらず、PEFT法は、異なる帰納バイアスのために、異なる誤りと高い信頼率の予測を行う。
論文 参考訳(メタデータ) (2024-09-24T19:57:40Z) - ETAGE: Enhanced Test Time Adaptation with Integrated Entropy and Gradient Norms for Robust Model Performance [18.055032898349438]
テスト時間適応(TTA)は、トレーニング分布から逸脱した未確認のテストデータを扱うために、ディープラーニングモデルを備えている。
本稿では,エントロピー最小化と勾配ノルム,PLPDを統合した改良TTA手法ETAGEを紹介する。
提案手法は,高エントロピーと高勾配ノルムを適応から組み合わせることで,不安定を生じにくいサンプルを優先する。
論文 参考訳(メタデータ) (2024-09-14T01:25:52Z) - ESCAPE: Energy-based Selective Adaptive Correction for Out-of-distribution 3D Human Pose Estimation [14.363715758647873]
ESCAPEは軽量な修正および選択的適応フレームワークである。
OODデータに対するコストの高いTTAを保ちながら、ほとんどのデータに対して高速で前方通過補正を施す。
5つの人気のあるHPEモデルの遠位MPJPEを、目に見えないデータで最大7%改善する。
論文 参考訳(メタデータ) (2024-07-19T18:01:26Z) - SAFT: Towards Out-of-Distribution Generalization in Fine-Tuning [8.566687323389264]
Sparse Adaptation for Fine-Tuning (SAFT) を導入する。これは、ファインチューニングが事前訓練されたモデルにおける一般的な知識を忘れないようにする手法である。
モデルパラメータのわずか0.1%で、SAFTはCLIPの性能を大幅に改善できる。
ImageNetのほんの数ショットの学習ベンチマークで、SAFTはOOD設定における従来の微調整法よりも平均5.15%向上した。
論文 参考訳(メタデータ) (2024-07-03T11:56:55Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z) - The Gaps between Pre-train and Downstream Settings in Bias Evaluation
and Debiasing [74.7319697510621]
In-Context Learning (ICL)は、FTベースのデバイアス法と比較して、PLMの変更を小さくする。
ICL-based debiasing method is a higher correlation between intrinsic and extrinsic bias scores than FT-based method。
論文 参考訳(メタデータ) (2024-01-16T17:15:08Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Vanishing Gradients in Reinforcement Finetuning of Language Models [14.750767288441017]
本研究は、強化微細化(RFT)における基本最適化障害を特定する。
モデル下での報酬標準偏差が小さい場合には,入力に対する期待勾配が消えることを示す。
次に、報酬標準偏差の小さいため、失効する勾配が一般的であり、有害であることを示す。
論文 参考訳(メタデータ) (2023-10-31T17:59:05Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。