論文の概要: Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation
- arxiv url: http://arxiv.org/abs/2509.05602v2
- Date: Tue, 09 Sep 2025 07:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.823675
- Title: Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation
- Title(参考訳): Chain-of-Thought Correctness Perception Distillation による質問と回答の相互関係の緩和
- Authors: Hongyan Xie, Yitong Yao, Yikun Ban, Zixuan Huang, Deqing Wang, Zhenhe Wu, Haoxiang Su, Chao Wang, Shuangyong Song,
- Abstract要約: CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
- 参考スコア(独自算出の注目度): 25.195244084313114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel at reasoning tasks but are expensive to deploy. Thus small language models (SLMs) are fine-tuned on CoT data generated by LLMs to copy LLMs' abilities. However, these CoT data may include noisy rationales that either fail to substantiate the answers or contribute no additional information to support answer prediction, which leads SLMs to capture spurious correlations between questions and answers and compromise the quality of reasoning. In this work, we propose Chain-of-Thought Correctness Perception Distillation (CoPeD), which aims to improve the reasoning quality of the student model from the perspectives of task setting and data utilization. Firstly, we introduce a correctness-aware task setting that encourages the student model to predict answers based on correct rationales and revise them when they are incorrect. This setting improves the faithfulness of reasoning and allows the model to learn from its mistakes. Then, we propose a Correctness-Aware Weighted loss, which dynamically adjusts the contribution of each training instance based on the combined loss of the rationale and the answer. This strategy encourages the model to focus more on samples where the rationale offers stronger support for the correct answer. Experiments have shown that CoPeD is effective on both in-distribution (IND) and out-of-distribution (OOD) benchmark reasoning datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論タスクに優れるが、デプロイには高価である。
従って、小さな言語モデル(SLM)は、LLMが生成したCoTデータに基づいて微調整され、LLMの能力を模倣する。
しかし、これらのCoTデータには、答えを裏付けることに失敗したり、答えの予測を支援するために追加情報を提供しなかったりするノイズのある合理性が含まれており、SLMは疑問と答えの間の急激な相関を捉え、推論の質を損なうことになる。
本研究では,課題設定とデータ利用の観点から,学生モデルの推論品質を向上させることを目的としたCoPeD(Chain-of-Thought Correctness Perception Distillation)を提案する。
まず,学生モデルに対して,正しい合理性に基づいて回答を予測し,正しい場合の修正を促す,正当性を考慮したタスク設定を提案する。
この設定は推論の忠実さを改善し、モデルがそのミスから学ぶことを可能にする。
そこで我々は,各トレーニングインスタンスの寄与度を,合理性と解答の複合的損失に基づいて動的に調整する,正当性を考慮した重み付き損失を提案する。
この戦略は、モデルが正しい回答に対してより強力なサポートを提供するようなサンプルにもっと焦点を合わせることを奨励します。
実験の結果、CoPeDはIn-distriion(IND)とout-of-distriion(OOD)ベンチマーク推論データセットの両方に有効であることがわかった。
関連論文リスト
- Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens [23.326813303795692]
CoT(Chain-of-Thought)プロンプトにより,様々なタスクにおいてLLM(Large Language Model)のパフォーマンスが向上することが示されている。
しかしながら、いくつかの初期の発見は、CoT推論が見かけよりも表面的であることを示唆している。
論文 参考訳(メタデータ) (2025-08-02T04:37:28Z) - From Answers to Rationales: Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought [43.07899102255169]
現在のメソッドは主に肯定的な論理に重点を置いており、通常は手動のアノテーションや複雑なシステムに依存している。
textbfSelf-Aligning textbfMultimodal Reasoning with textbfAnswertextbfriented Chain-of-textbfThought。
論文 参考訳(メタデータ) (2025-07-01T08:24:51Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。