論文の概要: Logits-Based Finetuning
- arxiv url: http://arxiv.org/abs/2505.24461v2
- Date: Wed, 11 Jun 2025 16:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.225831
- Title: Logits-Based Finetuning
- Title(参考訳): ログベースファインタニング
- Authors: Jingyao Li, Senqiao Yang, Sitong Wu, Han Shi, Chuanyang Zheng, Hong Xu, Jiaya Jia,
- Abstract要約: 本稿では,教師付き学習と知識蒸留の強みを統合したロジットに基づく微調整フレームワークを提案する。
提案手法は,教師のロジットと地上の真理ラベルを組み合わせ,正確性と言語的多様性を両立させることにより,充実した訓練目標を構築する。
- 参考スコア(独自算出の注目度): 48.18151583153572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, developing compact and efficient large language models (LLMs) has emerged as a thriving area of research. Traditional Supervised Fine-Tuning (SFT), which relies on singular ground truth labels, often fails to capture token-level dependencies and linguistic diversity. To address these limitations, we propose a logits-based fine-tuning framework that integrates the strengths of supervised learning and knowledge distillation. Our approach constructs enriched training targets by combining teacher logits with ground truth labels, preserving both correctness and linguistic diversity. This ensures more reliable and effective training. We constructed a large-scale 1.2M logits dataset and trained a series of science-focused models. Experimental results demonstrate that our method achieves significant improvements, with accuracy gains of 18% on Mawps and 22.7% on TabMWP. Across nine widely used mathematical benchmarks, our method consistently outperforms prior SFT models, achieving an average improvement of 7.28%. Codes are available at https://github.com/dvlab-research/Logits-Based-Finetuning.
- Abstract(参考訳): 近年,コンパクトで効率的な大規模言語モデル (LLM) の開発が盛んに行われている。
単一基底の真理ラベルに依存する伝統的なスーパービジョン・ファインチューニング(SFT)は、トークンレベルの依存関係と言語的な多様性を捉えるのに失敗することが多い。
これらの制約に対処するために,教師付き学習と知識蒸留の強みを統合したロジットに基づく微調整フレームワークを提案する。
提案手法は,教師のロジットと地上の真理ラベルを組み合わせ,正確性と言語的多様性を両立させることにより,充実した訓練目標を構築する。
これにより、より信頼性と効果的なトレーニングが可能になる。
我々は大規模な1.2Mロジットデータセットを構築し、科学に焦点を当てた一連のモデルを訓練した。
その結果,Mawpsでは18%,TabMWPでは22.7%の精度向上が得られた。
9つの広く使われている数学ベンチマークで、我々の手法は従来のSFTモデルよりも一貫して優れており、平均7.28%の改善が達成されている。
コードはhttps://github.com/dvlab-research/Logits-Based-Finetuning.comで公開されている。
関連論文リスト
- Iterative Deployment Exposure for Unsupervised Out-of-Distribution Detection [5.019613806273252]
Iterative Deployment Exposure (IDE)は、アウト・オブ・ディストリビューション(OOD)検出のための、新しくより現実的な設定である。
CSOは、マハラノビス距離と最寄りのアプローチを組み合わせた新しいU-OODスコアリング関数を使用している。
提案手法は, 医用画像の3つのモダリティに対して, 強いベースラインで大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-06-04T13:57:34Z) - WeiPer: OOD Detection using Weight Perturbations of Class Projections [11.130659240045544]
入力のよりリッチな表現を生成する最終完全連結層にクラスプロジェクションの摂動を導入する。
我々はOpenOODフレームワークの複数のベンチマークで最先端のOOD検出結果を得る。
論文 参考訳(メタデータ) (2024-05-27T13:38:28Z) - Scaling for Training Time and Post-hoc Out-of-distribution Detection
Enhancement [41.650761556671775]
本稿では,最近の最先端のアウト・オブ・ディストリビューション(OOD)検出手法に関する知見と分析を行う。
我々は,活性化拡大がOOD検出に有害な影響を及ぼす一方で,活性化スケーリングが促進されることを実証した。
OpenOOD v1.5 ImageNet-1Kベンチマークで、AUROCスコアは、近OODでは+1.85%、遠OODデータセットでは+0.74%である。
論文 参考訳(メタデータ) (2023-09-30T02:10:54Z) - OpenOOD v1.5: Enhanced Benchmark for Out-of-Distribution Detection [82.85303878718207]
アウト・オブ・ディストリビューション(OOD)検出は、オープンワールド・インテリジェントシステムの信頼性の高い運用に不可欠である。
本稿では,OOD検出手法の正確かつ標準化された評価を実現するために,OpenOOD v1.5を提案する。
論文 参考訳(メタデータ) (2023-06-15T17:28:00Z) - Unsupervised Evaluation of Out-of-distribution Detection: A Data-centric
Perspective [55.45202687256175]
アウト・オブ・ディストリビューション(OOD)検出法は、個々のテストサンプルがイン・ディストリビューション(IND)なのかOODなのかという、試験対象の真実を持っていると仮定する。
本稿では,OOD検出における教師なし評価問題を初めて紹介する。
我々は,OOD検出性能の教師なし指標としてGscoreを計算する3つの方法を提案する。
論文 参考訳(メタデータ) (2023-02-16T13:34:35Z) - Rethinking Out-of-distribution (OOD) Detection: Masked Image Modeling is
All You Need [52.88953913542445]
簡単な再構築手法を用いることで,OOD検出の性能が大幅に向上する可能性が示唆された。
我々は、OOD検出フレームワーク(MOOD)のプリテキストタスクとして、マスケ画像モデリング(Masked Image Modeling)を採用する。
論文 参考訳(メタデータ) (2023-02-06T08:24:41Z) - Robust Out-of-distribution Detection for Neural Networks [51.19164318924997]
既存の検出機構は, 分布内およびOOD入力の評価において, 極めて脆弱であることを示す。
ALOE と呼ばれる実効性のあるアルゴリズムを提案する。このアルゴリズムは,逆向きに構築された逆数と外数の両方の例にモデルを公開することにより,堅牢なトレーニングを行う。
論文 参考訳(メタデータ) (2020-03-21T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。