論文の概要: Regularization Through Reasoning: Systematic Improvements in Language Model Classification via Explanation-Enhanced Fine-Tuning
- arxiv url: http://arxiv.org/abs/2511.02044v1
- Date: Mon, 03 Nov 2025 20:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.673552
- Title: Regularization Through Reasoning: Systematic Improvements in Language Model Classification via Explanation-Enhanced Fine-Tuning
- Title(参考訳): 推論による正規化:説明強化ファインチューニングによる言語モデル分類の体系的改善
- Authors: Vivswan Shah, Randy Cogill, Hanwei Yue, Gopinath Chennupati, Rinat Khaziev,
- Abstract要約: 細調整中に各ラベルに簡単な説明を付けると、より優れたモデルが得られるかどうかを評価する。
我々は、人間による説明を、構文的に不整合でありながら原文と一致するテキストに置き換える。
この効果はデータセットにまたがって持続し、種子を訓練することで、ゲインは構造よりも意味から生じないことを示している。
- 参考スコア(独自算出の注目度): 2.247737938202007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning LLMs for classification typically maps inputs directly to labels. We ask whether attaching brief explanations to each label during fine-tuning yields better models. We evaluate conversational response quality along three axes: naturalness, comprehensiveness, and on-topic adherence, each rated on 5-point scales. Using ensemble-generated data from multiple LLMs, we fine-tune a 7B-parameter model and test across six diverse conversational datasets. Across 18 dataset, task settings, label-plus-explanation training outperforms label-only baselines. A central and unexpected result concerns random tokens. We replace human-written explanations with text that is syntactically incoherent yet vocabulary-aligned with the originals (e.g., shuffled or bag-of-words variants). Despite lacking semantics, these pseudo-explanations still improve accuracy over label-only training and often narrow much of the gap to true explanations. The effect persists across datasets and training seeds, indicating that gains arise less from meaning than from structure: the extra token budget encourages richer intermediate computation and acts as a regularizer that reduces over-confident shortcuts. Internal analyses support this view: explanation-augmented models exhibit higher activation entropy in intermediate layers alongside sharper predictive mass at the output layer, consistent with increased deliberation before decision. Overall, explanation-augmented fine-tuning, whether with genuine rationales or carefully constructed random token sequences, improves accuracy and reliability for LLM classification while clarifying how token-level scaffolding shapes computation during inference.
- Abstract(参考訳): 分類のための微調整 LLM は通常、入力をラベルに直接マップする。
微調整中に各ラベルに簡単な説明を付けると、より良いモデルが得られるかどうかを問う。
自然性,包括性,オントピー的付着性の3つの軸に沿った会話応答の質を,それぞれ5点の尺度で評価した。
複数のLLMからアンサンブル生成したデータを用いて、7Bパラメータモデルを微調整し、6つの多様な会話データセットでテストする。
18のデータセット、タスク設定、ラベル+説明トレーニングは、ラベルのみのベースラインを上回っている。
中央および予期せぬ結果はランダムトークンに関する。
我々は、人間による説明を、構文的に不整合でありながら、原文(例: shuffled、back-of-words variants)と語彙的に整合したテキストに置き換える。
セマンティクスの欠如にもかかわらず、これらの擬似説明はラベルのみの訓練よりも精度を向上し、しばしば真の説明にギャップの多くを狭める。
余剰トークン予算は、よりリッチな中間計算を奨励し、自信過剰なショートカットを減らす正規化要因として機能する。
説明拡張モデルでは、中間層で高い活性化エントロピーを示し、出力層ではよりシャープな予測質量を示す。
全体として、説明強化された微調整は、真に有理性を持つか、あるいは慎重に構成されたランダムトークンシーケンスであっても、トークンレベルの足場が推論中にどのように計算を形作るかを明確にしつつ、LLM分類の精度と信頼性を向上させる。
関連論文リスト
- Threading the Needle: Reweaving Chain-of-Thought Reasoning to Explain Human Label Variation [60.18907916989796]
大規模言語モデル(LLM)は最終答を出す前に思考の連鎖(CoT)を生成する。
本稿では,各回答オプションに対するサポート文と反対文を抽出するために,言語的に接頭した談話セグメンタを付加した新しいパイプラインを提案する。
また、正確なスコアよりも回答のランクを優先するランクベースHLV評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-29T11:47:18Z) - Uncovering Autoregressive LLM Knowledge of Thematic Fit in Event Representation [0.09558392439655014]
我々は,事前学習した自己回帰型LLMが,テーマ適合性に関する一貫した表現可能な知識を持っているかどうかを評価する。
いくつかの心理言語学的データセットを用いて, 閉じた状態とオープンな状態のLLMを評価した。
本結果は,自己説明型セマンティックロールラベルを持つデータセットに対して,連鎖推論がより効果的であることを示す。
論文 参考訳(メタデータ) (2024-10-19T18:25:30Z) - Explore Spurious Correlations at the Concept Level in Language Models for Text Classification [28.832684088975622]
言語モデル(LM)は多くのNLPタスクで顕著な成功を収めた。
トレーニングデータやICLの実践者の不均衡なラベル分布から生じる急激な相関による堅牢性の問題に直面している。
本稿では,2つの主なコントリビューションを紹介する。まず,概念ラベルをテキストに割り当てるためにChatGPTを用い,テストデータ上での微調整時のモデルにおける概念バイアスやICLを評価する。
第2に,ChatGPT生成した反ファクトデータを組み込んだデータ再バランス手法を導入し,ラベル分布のバランスを保ち,突発的相関を緩和する。
論文 参考訳(メタデータ) (2023-11-15T01:58:54Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。