Enhancing LLM Metacognition via Cognitive Pairwise Training
Abstractの概要
本論文は、メタ認知的な中間学習段階である認知的ペアワイズ学習(Cognitive Pairwise Training: CPT)を提案しています。これは、言語モデルに2つの推論プロセスのペアを比較させ、信頼性の高い推論と欠陥のある推論を区別するように教える手法です。この手法では、複数モデルの出力から難易度のバランスが取れたペアデータを構築し、強力な教師モデルを用いた4方向の比較手法でラベル付けを行い、通常の数学タスクのSFTやRLの前にポリシーモデルへこれらの比較判定を学習させます。主な動機は、結果レベルのRL報酬は回答の精度を向上させる一方で、モデルが不確実性を認識して適切に回答を控える(abstain)能力を弱めてしまう可能性に対処することにあり、様々なモデル規模や種別において、CPTが数学的推論性能とプロンプトに依存しない回答差し控えのトレードオフを改善するかを評価しています。
新規性
メタ認知のアライメントを、応答側の拒絶チューニングや事後的なキャリブレーションとしてではなく、中間的なペアワイズ推論プロセスの比較タスクとして定式化した点が特有の貢献です。CPTは推論プロセスに対する再利用可能な4方向の比較監督シグナルを使用することで、後のRLを経ても維持されることを意図した「推論品質の境界線」をモデルに内面化させます。
成果
Qwen3の4Bから14Bモデルにおいて、CPT+RLは各規模で最高の数学平均スコアを達成しつつ、通常プロンプトにおける回答差し控え(Normal-Prompt abstention)でも最も強力な手法の一つとなりました。14Bモデルでは、標準的なSFT+RLパイプラインと比較して数学平均が2.2ポイント、通常プロンプトの回答差し控えF1スコアが5.6ポイント向上しています。また、CPTは後続のRLを経ても回答差し控え能力を適切に保持し、情報源が競合するRAG設定へのゼロショット転移性を示し、独自の32B自己蒸留判定モデルを用いても有効であることが報告されています。
論文の注目点
- CPTは、モデル内・モデル間・反直感的な推論ペアと、自己整合性のある教師モデルのラベル付けを組み合わせることで、推論品質の識別を監督し、推論のペアを比較できるようにモデルを訓練する。
- 主な実験に基づく主張は推論とメタ認知のトレードオフの改善であり、標準的なSFT+RL、DPO+RL、回答差し控えRLのベースラインと比較して、より優れたあるいは同等の数学性能と、プロンプトに依存しない強力な回答差し控え能力を示す。
- 分析によると、CPTは表面的な拒絶行動だけでなく推論プロセス自体を変化させており、制御されたペアワイズ評価において推論品質を向上させ、数学タスクのRLによって引き起こされがちな回答差し控え能力の低下に対する高い頑健性を示す。