論文の概要: Dual-Head Reasoning Distillation: Improving Classifier Accuracy with Train-Time-Only Reasoning
- arxiv url: http://arxiv.org/abs/2509.21487v2
- Date: Mon, 29 Sep 2025 02:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.643439
- Title: Dual-Head Reasoning Distillation: Improving Classifier Accuracy with Train-Time-Only Reasoning
- Title(参考訳): Dual-Head Reasoning Distillation:Train-Time-Only Reasoningによる分類精度の向上
- Authors: Jillian Xu, Dylan Zhou, Vinay Shukla, Yang Yang, Junrui Ruan, Shuhuai Lin, Wenfei Zou, Yinxiao Liu, Karthik Lakshmanan,
- Abstract要約: 本稿では,デコーダのみの言語モデル(LM)の簡易訓練法であるDHRDを紹介する。
7つのスーパーGLUEタスクにおいて、DHRDはプールされたベースラインよりも0.65-5.47%の相対的なゲインを得る。
テスト時に推論ヘッドを無効にするため、推論スループットはプール化された分類器と一致し、同じバックボーン上のCoTデコーディングをQPSで96-142倍超える。
- 参考スコア(独自算出の注目度): 4.1343183246697475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting often improves classification accuracy, but it introduces a significant throughput penalty with rationale generation (Wei et al., 2022; Cheng and Van Durme, 2024). To resolve this trade-off, we introduce Dual-Head Reasoning Distillation (DHRD), a simple training method for decoder-only language models (LMs) that adds (i) a pooled classification head used during training and inference and (ii) a reasoning head supervised by teacher rationales used only in training. We train with a loss function that is a weighted sum of label cross-entropy and token-level LM loss over input-plus-rationale sequences. On seven SuperGLUE tasks, DHRD yields relative gains of 0.65-5.47% over pooled baselines, with notably larger gains on entailment/causal tasks. Since we disable the reasoning head at test time, inference throughput matches pooled classifiers and exceeds CoT decoding on the same backbones by 96-142 times in QPS.
- Abstract(参考訳): CoT(Chain-of-Thought)は、しばしば分類精度を向上するが、合理的な生成を伴う顕著なスループットのペナルティを導入する(Wei et al , 2022; Cheng and Van Durme, 2024)。
このトレードオフを解決するために、DHRD(Dual-Head Reasoning Distillation)を導入します。
一 訓練及び推論に使用する校正頭
(二 教師の合理性によって指導された理性頭であって、修業にのみ用いられるもの。)
ラベルのクロスエントロピーとトークンレベルのLM損失の重み付き和である損失関数を用いて学習する。
7つのスーパーGLUEタスクにおいて、DHRDはプールされたベースラインよりも0.65-5.47%の相対的なゲインを得る。
テスト時に推論ヘッドを無効にするため、推論スループットはプール化された分類器と一致し、同じバックボーン上のCoTデコーディングをQPSで96-142倍超える。
関連論文リスト
- Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models [66.36240676392502]
CoT(Chain-of- Thought)推論は、LLM(Large Language Models)が複雑な問題を解決するための標準パラダイムとなっている。
近年の研究では、ホップ一般化シナリオの推論性能が急落している。
推論過程におけるEPヘッドを動的に識別・非活性化する軽量な介入法である推論の試験時間補正を提案する。
論文 参考訳(メタデータ) (2026-01-29T03:24:32Z) - Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - Can Large Reasoning Models Improve Accuracy on Mathematical Tasks Using Flawed Thinking? [0.0]
思考の連鎖(CoT)の促進は、大きな言語モデルにおける数学的推論の中心となっている。
故意に欠陥のある推論トレースのトレーニングが、そのようなエラーを検出して回復するモデルを教えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2025-12-18T21:20:21Z) - Generative Adversarial Reasoner: Enhancing LLM Reasoning with Adversarial Reinforcement Learning [19.473649388687484]
大きな言語モデル(LLM)と明確な推論能力は、数学的推論では優れているが、プロセスエラーをコミットする。
本稿では,理論の強化を目的としたオンライン共同学習フレームワークGeneversarative Adrial Reasonerを紹介する。
計算効率の高いレビュースケジュールは、各推論チェーンを、同等の長さの論理的に完全なスライスに分割し、判別器は、構造化された正当化により、各スライスの音質を評価する。
論文 参考訳(メタデータ) (2025-12-18T18:59:54Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - Inducing Faithfulness in Structured Reasoning via Counterfactual Sensitivity [6.908972852063454]
大規模言語モデルは、欠陥や無関係な推論トレースに依存しながら、正しい答えを生成することが多い。
本稿では,新しい学習目標であるtextbfCounterfactual Sensitivity Regularization (CSR)を紹介する。
CSRは、標準的な微調整とプロセスの監督に対する忠実度を最大70パーセント向上させる。
論文 参考訳(メタデータ) (2025-09-01T15:18:46Z) - Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster [51.89995713333108]
CoT (Chain-of-Thought) 蒸留により、大きな言語モデル (LLM) がタスクを推論するために小さな言語モデル (SLM) を導くことができる。
既存の方法は、SLMに1イテレーションで長い合理性を学ぶように訓練する。
本稿では,論理を内部意味的コヒーレントなチャンクに分割するために探索を用いるチャンクワイズトレーニング(CWT)を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:04:52Z) - Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation [14.489157453882767]
この研究は、推論トレースと最終的なパフォーマンスとの相関を評価することの課題に対処することを目的としている。
規則に基づく問題分解を利用して解釈可能なトレースを生成する。
具体的には、この問題を分類ステップと情報検索ステップに分解して、オープンブックQAにおけるこのアプローチを実証する。
論文 参考訳(メタデータ) (2025-05-20T00:49:19Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Dual Compensation Residual Networks for Class Imbalanced Learning [98.35401757647749]
そこで本研究では,尾と頭の両方に適合する2次元補償残差ネットワークを提案する。
オーバーフィッティングを引き起こす重要な要因は、トレーニングとテールクラスのテストデータの間に深刻な特徴ドリフトがあることである。
また,不適合問題を軽減するためにResidual Balanced Multi-Proxies分類器を提案する。
論文 参考訳(メタデータ) (2023-08-25T04:06:30Z) - You Only Need End-to-End Training for Long-Tailed Recognition [8.789819609485225]
クロスエントロピー損失は、不均衡なデータに非常に相関した特徴をもたらす傾向にある。
ブロックベース相対平衡バッチサンプリング(B3RS)とバッチ埋め込みトレーニング(BET)の2つの新しいモジュールを提案する。
CIFAR-LT と ImageNet-LT の長期分類ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-11T11:44:09Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。