論文の概要: Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique
- arxiv url: http://arxiv.org/abs/2503.17363v1
- Date: Fri, 21 Mar 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:16.874993
- Title: Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique
- Title(参考訳): 批判によるダンシング: ステップワイドな自然言語によるLLM推論の強化
- Authors: Yansi Li, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Qiuzhi Liu, Rui Wang, Zhuosheng Zhang, Zhaopeng Tu, Haitao Mi, Dong Yu,
- Abstract要約: 我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
- 参考スコア(独自算出の注目度): 66.94905631175209
- License:
- Abstract: Enhancing the reasoning capabilities of large language models (LLMs), particularly for complex tasks requiring multi-step logical deductions, remains a significant challenge. Traditional inference time scaling methods utilize scalar reward signals from process reward models to evaluate candidate reasoning steps, but these scalar rewards lack the nuanced qualitative information essential for understanding and justifying each step. In this paper, we propose a novel inference-time scaling approach -- stepwise natural language self-critique (PANEL), which employs self-generated natural language critiques as feedback to guide the step-level search process. By generating rich, human-readable critiques for each candidate reasoning step, PANEL retains essential qualitative information, facilitating better-informed decision-making during inference. This approach bypasses the need for task-specific verifiers and the associated training overhead, making it broadly applicable across diverse tasks. Experimental results on challenging reasoning benchmarks, including AIME and GPQA, demonstrate that PANEL significantly enhances reasoning performance, outperforming traditional scalar reward-based methods. Our code is available at https://github.com/puddingyeah/PANEL to support and encourage future research in this promising field.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力の強化、特に多段階論理的推論を必要とする複雑なタスクは、依然として大きな課題である。
従来の推論時間スケーリング手法では、プロセス報酬モデルからのスカラー報酬信号を使用して、候補推論ステップを評価するが、これらのスカラー報酬には各ステップの理解と正当化に欠かせないニュアンスな定性的情報がない。
本稿では,ステップレベルの探索プロセスのガイドとして,自己生成した自然言語批判をフィードバックとして利用する,新しい推論時間スケーリング手法であるPANELを提案する。
PANELは、候補推論ステップごとにリッチで可読な批評を生成することにより、本質的な質的な情報を保持し、推論中により良いインフォームドな意思決定を容易にする。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避し、多様なタスクに広く適用することができる。
AIME や GPQA などの挑戦的推論ベンチマークの実験結果から,PANEL は推論性能を大幅に向上し,従来のスカラー報酬法よりも優れた性能を示した。
私たちのコードはhttps://github.com/puddingyeah/PANELで公開されています。
関連論文リスト
- BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Enhancing Robotic Manipulation with AI Feedback from Multimodal Large
Language Models [41.38520841504846]
大規模言語モデル(LLM)は、画像入力から意思決定のガイドまで、自動的な好みフィードバックを提供する。
本研究では,ロボット操作作業における軌跡映像の理解が可能なマルチモーダルLLMであるCriticGPTを訓練する。
アルゴリズムの選好精度を実験的に評価すると、新しいタスクに対する効果的な一般化能力が示される。
Meta-Worldタスクのパフォーマンスは、CriticGPTの報酬モデルが、最先端の事前訓練された表現モデルに基づいて報酬を越え、ポリシー学習を効率的に導くことを示している。
論文 参考訳(メタデータ) (2024-02-22T03:14:03Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem Refinement [50.62461749446111]
Self-Polish(SP)は、与えられた問題を徐々に洗練し、より理解しやすく解けるように誘導することによって、モデルの推論を促進する新しい方法である。
SPは、CoTのような答え/推論サイドの他のすべてのプロンプトメソッドであり、最先端の技術とのシームレスな統合を可能にし、さらなる改善を可能にします。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。