論文の概要: Logits-Based Finetuning
- arxiv url: http://arxiv.org/abs/2505.24461v2
- Date: Wed, 11 Jun 2025 16:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.225831
- Title: Logits-Based Finetuning
- Title(参考訳): ログベースファインタニング
- Authors: Jingyao Li, Senqiao Yang, Sitong Wu, Han Shi, Chuanyang Zheng, Hong Xu, Jiaya Jia,
- Abstract要約: 本稿では,教師付き学習と知識蒸留の強みを統合したロジットに基づく微調整フレームワークを提案する。
提案手法は,教師のロジットと地上の真理ラベルを組み合わせ,正確性と言語的多様性を両立させることにより,充実した訓練目標を構築する。
- 参考スコア(独自算出の注目度): 48.18151583153572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, developing compact and efficient large language models (LLMs) has emerged as a thriving area of research. Traditional Supervised Fine-Tuning (SFT), which relies on singular ground truth labels, often fails to capture token-level dependencies and linguistic diversity. To address these limitations, we propose a logits-based fine-tuning framework that integrates the strengths of supervised learning and knowledge distillation. Our approach constructs enriched training targets by combining teacher logits with ground truth labels, preserving both correctness and linguistic diversity. This ensures more reliable and effective training. We constructed a large-scale 1.2M logits dataset and trained a series of science-focused models. Experimental results demonstrate that our method achieves significant improvements, with accuracy gains of 18% on Mawps and 22.7% on TabMWP. Across nine widely used mathematical benchmarks, our method consistently outperforms prior SFT models, achieving an average improvement of 7.28%. Codes are available at https://github.com/dvlab-research/Logits-Based-Finetuning.
- Abstract(参考訳): 近年,コンパクトで効率的な大規模言語モデル (LLM) の開発が盛んに行われている。
単一基底の真理ラベルに依存する伝統的なスーパービジョン・ファインチューニング(SFT)は、トークンレベルの依存関係と言語的な多様性を捉えるのに失敗することが多い。
これらの制約に対処するために,教師付き学習と知識蒸留の強みを統合したロジットに基づく微調整フレームワークを提案する。
提案手法は,教師のロジットと地上の真理ラベルを組み合わせ,正確性と言語的多様性を両立させることにより,充実した訓練目標を構築する。
これにより、より信頼性と効果的なトレーニングが可能になる。
我々は大規模な1.2Mロジットデータセットを構築し、科学に焦点を当てた一連のモデルを訓練した。
その結果,Mawpsでは18%,TabMWPでは22.7%の精度向上が得られた。
9つの広く使われている数学ベンチマークで、我々の手法は従来のSFTモデルよりも一貫して優れており、平均7.28%の改善が達成されている。
コードはhttps://github.com/dvlab-research/Logits-Based-Finetuning.comで公開されている。
関連論文リスト
- A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning [0.40964539027092906]
監督された微調整と強化学習が主要な訓練パラダイムである。
本稿では,オンライン推論から拡張SFTとRLを戦略的に統合する実践的で効果的なトレーニングレシピを提案する。
実験の結果,SFTを最大10時間拡張することは,パフォーマンスのブレークスルーに不可欠であることが判明した。
この研究は、コミュニティに最先端の数学的推論器を開発するための、テスト済みの青写真を提供する。
論文 参考訳(メタデータ) (2025-07-11T02:26:01Z) - OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。
私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文 参考訳(メタデータ) (2025-04-02T17:50:31Z) - FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy Distillation [29.606646251624923]
微調整は「微調整による誤校正」により、まだ満足のいく信頼性には程遠い
本稿では,教師の知識のごく一部を有効活用して,信頼性の高い言語モデルを低コストで得るための信頼に値する蒸留(FIRST)を提案する。
実験の結果, 精度が2.3%, 誤校正率が10%以下となる手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-22T07:31:00Z) - Iterative Deployment Exposure for Unsupervised Out-of-Distribution Detection [5.019613806273252]
Iterative Deployment Exposure (IDE)は、アウト・オブ・ディストリビューション(OOD)検出のための、新しくより現実的な設定である。
CSOは、マハラノビス距離と最寄りのアプローチを組み合わせた新しいU-OODスコアリング関数を使用している。
提案手法は, 医用画像の3つのモダリティに対して, 強いベースラインで大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-06-04T13:57:34Z) - WeiPer: OOD Detection using Weight Perturbations of Class Projections [11.130659240045544]
入力のよりリッチな表現を生成する最終完全連結層にクラスプロジェクションの摂動を導入する。
我々はOpenOODフレームワークの複数のベンチマークで最先端のOOD検出結果を得る。
論文 参考訳(メタデータ) (2024-05-27T13:38:28Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - BAL: Balancing Diversity and Novelty for Active Learning [53.289700543331925]
多様な不確実なデータのバランスをとるために適応的なサブプールを構築する新しいフレームワークであるBalancing Active Learning (BAL)を導入する。
我々のアプローチは、広く認識されているベンチマークにおいて、確立されたすべてのアクティブな学習方法より1.20%優れています。
論文 参考訳(メタデータ) (2023-12-26T08:14:46Z) - Scaling for Training Time and Post-hoc Out-of-distribution Detection
Enhancement [41.650761556671775]
本稿では,最近の最先端のアウト・オブ・ディストリビューション(OOD)検出手法に関する知見と分析を行う。
我々は,活性化拡大がOOD検出に有害な影響を及ぼす一方で,活性化スケーリングが促進されることを実証した。
OpenOOD v1.5 ImageNet-1Kベンチマークで、AUROCスコアは、近OODでは+1.85%、遠OODデータセットでは+0.74%である。
論文 参考訳(メタデータ) (2023-09-30T02:10:54Z) - OpenOOD v1.5: Enhanced Benchmark for Out-of-Distribution Detection [82.85303878718207]
アウト・オブ・ディストリビューション(OOD)検出は、オープンワールド・インテリジェントシステムの信頼性の高い運用に不可欠である。
本稿では,OOD検出手法の正確かつ標準化された評価を実現するために,OpenOOD v1.5を提案する。
論文 参考訳(メタデータ) (2023-06-15T17:28:00Z) - Accurate Knowledge Distillation with n-best Reranking [2.9526110883017433]
我々は,n-best re rankを利用してシーケンスレベル知識蒸留を強化することを提案する(Kim and Rush, 2016)。
我々は、様々な帰納バイアス、客観的関数またはアーキテクチャを持つ多種多様なモデルの集合を活用し、公開可能ないくつかの大きな言語モデルを含む、ラベルとして最高の仮説を選択する。
その結果,n-bestリランカが生成した擬似ラベルを用いることで,より正確な学生モデルが得られた。
論文 参考訳(メタデータ) (2023-05-20T01:53:03Z) - Unsupervised Evaluation of Out-of-distribution Detection: A Data-centric
Perspective [55.45202687256175]
アウト・オブ・ディストリビューション(OOD)検出法は、個々のテストサンプルがイン・ディストリビューション(IND)なのかOODなのかという、試験対象の真実を持っていると仮定する。
本稿では,OOD検出における教師なし評価問題を初めて紹介する。
我々は,OOD検出性能の教師なし指標としてGscoreを計算する3つの方法を提案する。
論文 参考訳(メタデータ) (2023-02-16T13:34:35Z) - Rethinking Out-of-distribution (OOD) Detection: Masked Image Modeling is
All You Need [52.88953913542445]
簡単な再構築手法を用いることで,OOD検出の性能が大幅に向上する可能性が示唆された。
我々は、OOD検出フレームワーク(MOOD)のプリテキストタスクとして、マスケ画像モデリング(Masked Image Modeling)を採用する。
論文 参考訳(メタデータ) (2023-02-06T08:24:41Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - Towards Few-Shot Fact-Checking via Perplexity [40.11397284006867]
そこで本研究では,言語モデルの強力な伝達学習能力をパープレキシティスコアで活用する新しい手法を提案する。
私たちの方法論は、F1-Macroメトリックの絶対10%以上のメジャークラスベースラインをすでに上回ることができます。
COVID-19に関連する2つの新しいファクトチェックデータセットを構築し、公開します。
論文 参考訳(メタデータ) (2021-03-17T09:43:19Z) - Robust Out-of-distribution Detection for Neural Networks [51.19164318924997]
既存の検出機構は, 分布内およびOOD入力の評価において, 極めて脆弱であることを示す。
ALOE と呼ばれる実効性のあるアルゴリズムを提案する。このアルゴリズムは,逆向きに構築された逆数と外数の両方の例にモデルを公開することにより,堅牢なトレーニングを行う。
論文 参考訳(メタデータ) (2020-03-21T17:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。