論文の概要: Improving Rationality in the Reasoning Process of Language Models through Self-playing Game
- arxiv url: http://arxiv.org/abs/2506.22920v1
- Date: Sat, 28 Jun 2025 15:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.631374
- Title: Improving Rationality in the Reasoning Process of Language Models through Self-playing Game
- Title(参考訳): 自己演奏ゲームによる言語モデルの推論過程における連帯性の向上
- Authors: Pinzheng Wang, Juntao Li, Zecheng Tang, Haijia Gui, Min zhang,
- Abstract要約: 証明者が最初に与えられた問題に対する解を提供し、その後、その解に対する批判によって挑戦される、批判認識ゲーム(CDG)を設計する。
証明者の目的は、誤解を招くコメントに直面しながら、建設的なフィードバックに対する誤りを修正しながら正しい回答を維持することである。
数学的推論,ステップワイドな誤り検出,自己補正,長鎖推論を含む課題に関する実験により,CDGトレーニングは,その推論過程を理解するための整合性 LLM の能力を大幅に向上させることができることを示した。
- 参考スコア(独自算出の注目度): 25.193698725021108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated considerable reasoning abilities in various tasks such as mathematics and coding. However, recent studies indicate that even the best models lack true comprehension of their reasoning processes. In this paper, we explore how self-play can enhance the rationality of models in the reasoning process without supervision from humans or superior models. We design a Critic-Discernment Game(CDG) in which a prover first provides a solution to a given problem and is subsequently challenged by critiques of its solution. These critiques either aim to assist or mislead the prover. The objective of the prover is to maintain the correct answer when faced with misleading comments, while correcting errors in response to constructive feedback. Our experiments on tasks involving mathematical reasoning, stepwise error detection, self-correction, and long-chain reasoning demonstrate that CDG training can significantly improve the ability of well-aligned LLMs to comprehend their reasoning process.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学やコーディングといった様々なタスクにおいて、かなりの推論能力を示している。
しかし、最近の研究では、最高のモデルでさえ推論過程の真の理解を欠いていることが示されている。
本稿では,人間や優れたモデルに監督されることなく,推論過程におけるモデルの合理性を高める方法を検討する。
証明者が最初に与えられた問題に対する解を提供し、その後、その解に対する批判によって挑戦される、批判認識ゲーム(CDG)を設計する。
これらの批判は、証明者を支援したり、誤解させたりすることを目的としている。
証明者の目的は、誤解を招くコメントに直面しながら、建設的なフィードバックに対する誤りを修正しながら正しい回答を維持することである。
数学的推論,ステップワイドな誤り検出,自己補正,長鎖推論を含む課題に関する実験により,CDGトレーニングは,その推論過程を理解するための整合性 LLM の能力を大幅に向上させることができることを示した。
関連論文リスト
- LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation [1.2576388595811496]
自然言語を基盤とした挑戦的推論ベンチマークであるlingOLY-TOOを紹介する。
実言語で記述された推論問題をパーミュレートして、多数の質問のバリエーションを生成する。
実験と分析は、モデルが推論を回避し、事前の知識から回答できることを示している。
論文 参考訳(メタデータ) (2025-03-04T19:57:47Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。