論文の概要: Dual-Head Reasoning Distillation: Improving Classifier Accuracy with Train-Time-Only Reasoning
- arxiv url: http://arxiv.org/abs/2509.21487v2
- Date: Mon, 29 Sep 2025 02:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.643439
- Title: Dual-Head Reasoning Distillation: Improving Classifier Accuracy with Train-Time-Only Reasoning
- Title(参考訳): Dual-Head Reasoning Distillation:Train-Time-Only Reasoningによる分類精度の向上
- Authors: Jillian Xu, Dylan Zhou, Vinay Shukla, Yang Yang, Junrui Ruan, Shuhuai Lin, Wenfei Zou, Yinxiao Liu, Karthik Lakshmanan,
- Abstract要約: 本稿では,デコーダのみの言語モデル(LM)の簡易訓練法であるDHRDを紹介する。
7つのスーパーGLUEタスクにおいて、DHRDはプールされたベースラインよりも0.65-5.47%の相対的なゲインを得る。
テスト時に推論ヘッドを無効にするため、推論スループットはプール化された分類器と一致し、同じバックボーン上のCoTデコーディングをQPSで96-142倍超える。
- 参考スコア(独自算出の注目度): 4.1343183246697475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting often improves classification accuracy, but it introduces a significant throughput penalty with rationale generation (Wei et al., 2022; Cheng and Van Durme, 2024). To resolve this trade-off, we introduce Dual-Head Reasoning Distillation (DHRD), a simple training method for decoder-only language models (LMs) that adds (i) a pooled classification head used during training and inference and (ii) a reasoning head supervised by teacher rationales used only in training. We train with a loss function that is a weighted sum of label cross-entropy and token-level LM loss over input-plus-rationale sequences. On seven SuperGLUE tasks, DHRD yields relative gains of 0.65-5.47% over pooled baselines, with notably larger gains on entailment/causal tasks. Since we disable the reasoning head at test time, inference throughput matches pooled classifiers and exceeds CoT decoding on the same backbones by 96-142 times in QPS.
- Abstract(参考訳): CoT(Chain-of-Thought)は、しばしば分類精度を向上するが、合理的な生成を伴う顕著なスループットのペナルティを導入する(Wei et al , 2022; Cheng and Van Durme, 2024)。
このトレードオフを解決するために、DHRD(Dual-Head Reasoning Distillation)を導入します。
一 訓練及び推論に使用する校正頭
(二 教師の合理性によって指導された理性頭であって、修業にのみ用いられるもの。)
ラベルのクロスエントロピーとトークンレベルのLM損失の重み付き和である損失関数を用いて学習する。
7つのスーパーGLUEタスクにおいて、DHRDはプールされたベースラインよりも0.65-5.47%の相対的なゲインを得る。
テスト時に推論ヘッドを無効にするため、推論スループットはプール化された分類器と一致し、同じバックボーン上のCoTデコーディングをQPSで96-142倍超える。
関連論文リスト
- Inducing Faithfulness in Structured Reasoning via Counterfactual Sensitivity [6.908972852063454]
大規模言語モデルは、欠陥や無関係な推論トレースに依存しながら、正しい答えを生成することが多い。
本稿では,新しい学習目標であるtextbfCounterfactual Sensitivity Regularization (CSR)を紹介する。
CSRは、標準的な微調整とプロセスの監督に対する忠実度を最大70パーセント向上させる。
論文 参考訳(メタデータ) (2025-09-01T15:18:46Z) - Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster [51.89995713333108]
CoT (Chain-of-Thought) 蒸留により、大きな言語モデル (LLM) がタスクを推論するために小さな言語モデル (SLM) を導くことができる。
既存の方法は、SLMに1イテレーションで長い合理性を学ぶように訓練する。
本稿では,論理を内部意味的コヒーレントなチャンクに分割するために探索を用いるチャンクワイズトレーニング(CWT)を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:04:52Z) - Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation [14.489157453882767]
この研究は、推論トレースと最終的なパフォーマンスとの相関を評価することの課題に対処することを目的としている。
規則に基づく問題分解を利用して解釈可能なトレースを生成する。
具体的には、この問題を分類ステップと情報検索ステップに分解して、オープンブックQAにおけるこのアプローチを実証する。
論文 参考訳(メタデータ) (2025-05-20T00:49:19Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Dual Compensation Residual Networks for Class Imbalanced Learning [98.35401757647749]
そこで本研究では,尾と頭の両方に適合する2次元補償残差ネットワークを提案する。
オーバーフィッティングを引き起こす重要な要因は、トレーニングとテールクラスのテストデータの間に深刻な特徴ドリフトがあることである。
また,不適合問題を軽減するためにResidual Balanced Multi-Proxies分類器を提案する。
論文 参考訳(メタデータ) (2023-08-25T04:06:30Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。