論文の概要: Evaluating GRPO and DPO for Faithful Chain-of-Thought Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2512.22631v1
- Date: Sat, 27 Dec 2025 16:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.150046
- Title: Evaluating GRPO and DPO for Faithful Chain-of-Thought Reasoning in LLMs
- Title(参考訳): LLMにおけるFhithful Chain-of-Thought ReasoningのためのGRPOとDPOの評価
- Authors: Hadi Mohammadi, Tamas Kozak, Anastasia Giachanou,
- Abstract要約: 大型言語モデル(LLM)の問題解決能力向上のための強力な手法として、チェーン・オブ・シント推論(CoT)が登場している。
- 参考スコア(独自算出の注目度): 0.7045900712659982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning has emerged as a powerful technique for improving the problem-solving capabilities of large language models (LLMs), particularly for tasks requiring multi-step reasoning. However, recent studies show that CoT explanations often fail to reflect the model's actual reasoning process, as models may produce coherent yet misleading justifications or modify answers without acknowledging external cues. Such discrepancies undermine the reliability of CoT-based methods for safety supervision and alignment monitoring, as models can generate plausible but deceptive rationales for incorrect answers. To better understand this limitation, we evaluate two optimization methods, Group Relative Policy Optimization (GRPO) and Direct Preference Optimization (DPO), in their ability to improve CoT faithfulness. Our experiments show that GRPO achieves higher performance than DPO in larger models, with the Qwen2.5-14B-Instruct model attaining the best results across all evaluation metrics. Both approaches exhibit positive correlations between model size and performance, but GRPO shows greater potential for improving faithfulness metrics, albeit with less stable behavior at smaller scales. These results suggest that GRPO offers a promising direction for developing more transparent and trustworthy reasoning in LLMs.
- Abstract(参考訳): CoT推論は大規模言語モデル(LLM)の問題解決能力を改善するための強力な手法として登場し、特に多段階推論を必要とするタスクに対して有効である。
しかし、最近の研究では、CoTの説明はモデルの実際の推論プロセスの反映に失敗することが多いことが示されており、モデルは一貫性に欠ける正当性を生み出したり、外部の手がかりを認めずに答えを変更したりする可能性がある。
このような不一致は、安全監視とアライメント監視のためのCoTベースの手法の信頼性を損なう。
この制限をよりよく理解するために,グループ相対政策最適化(GRPO)と直接選好最適化(DPO)の2つの最適化手法を,CoTの忠実性を改善する能力で評価した。
実験の結果,GRPOは大規模モデルではDPOよりも高い性能を達成でき,Qwen2.5-14B-Instructモデルでは評価指標全体で最高の結果が得られることがわかった。
どちらのアプローチもモデルのサイズと性能の間に正の相関関係を示すが、GRPOはより小さなスケールで安定した振る舞いをしないにもかかわらず、忠実度指標を改善する大きな可能性を示している。
これらの結果から,GRPO は LLM においてより透明で信頼性の高い推論を行う上で,有望な方向性を示すことが示唆された。
関連論文リスト
- DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - MURPHY: Multi-Turn GRPO for Self Correcting Code Generation [55.66642560374686]
Murphyは、トレーニング中に反復的な自己補正を導入することでGRPOを拡張するマルチターン反射最適化フレームワークである。
Murphy は GRPO に対して 8% の相対的な利得を達成し,同様の計算予算で性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2025-11-11T05:03:22Z) - Token-Regulated Group Relative Policy Optimization for Stable Reinforcement Learning in Large Language Models [18.785063555637613]
グループ相対政策最適化(GRPO)は、高いパフォーマンスを示している。
低確率トークンが不均等に勾配更新を支配している。
この不均衡は不安定なトレーニングをもたらし、高確率トークンの寄与を抑制する。
論文 参考訳(メタデータ) (2025-10-29T08:07:47Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - Can GRPO Help LLMs Transcend Their Pretraining Origin? [42.200901132315636]
グループ相対政策最適化は、大規模言語モデル(LLM)の推論能力を高めるための主要なアプローチである
広く採用されているにもかかわらず、GRPOの利益はしばしば矛盾している。
GRPOはどの条件で推論を改善し、アウト・オブ・ディストリビューション(OOD)を一般化するのか?
まず、GRPOは基本モデルの分布に縛られ、完全に新しい解を見つけることができない保守的な再重み付けスキームであることを理論的に証明する。
論文 参考訳(メタデータ) (2025-10-14T00:37:52Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。