Fugu-MT 論文翻訳(概要): Premise-Augmented Reasoning Chains Improve Error Identification in Math reasoning with LLMs

論文の概要: Premise-Augmented Reasoning Chains Improve Error Identification in Math reasoning with LLMs

arxiv url: http://arxiv.org/abs/2502.02362v1
Date: Tue, 04 Feb 2025 14:44:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:56.260796
Title: Premise-Augmented Reasoning Chains Improve Error Identification in Math reasoning with LLMs
Title（参考訳）: LLMを用いた数学推論における誤り同定の改善
Authors: Sagnik Mukherjee, Abhinav Chinta, Takyoung Kim, Tarun Anoop Sharma, Dilek Hakkani Tur,
Abstract要約: 大型言語モデル(LLM)の数学的推論を促進させるチェーン・オブ・ソート(CoT) 本稿では,各ステップの前提を識別し,推論の評価を改善するためのフレームワークを提案する。本研究は,複雑な問題解決課題に対処する前提中心表現の有用性を強調した。
参考スコア（独自算出の注目度）: 8.18629854246193
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Chain-of-Thought (CoT) prompting enhances mathematical reasoning in large language models (LLMs) by enabling detailed step-by-step solutions. However, due to the verbosity of LLMs, the resulting reasoning chains can be long, making it harder to verify the reasoning steps and trace issues resulting from dependencies between the steps that may be farther away in the sequence of steps. Importantly, mathematical reasoning allows each step to be derived from a small set of premises, which are a subset of the preceding steps in the reasoning chain. In this paper, we present a framework that identifies the premises for each step, to improve the evaluation of reasoning. We restructure conventional linear reasoning chains into Premise Augmented Reasoning Chains (PARC) by introducing premise links, resulting in a directed acyclic graph where the nodes are the steps and the edges are the premise links. Through experiments with a PARC-based dataset that we built, namely PERL (Premises and ERrors identification in LLMs), we demonstrate that LLMs can reliably identify premises within complex reasoning chains. In particular, even open-source LLMs achieve 90% recall in premise identification. We also show that PARC helps to identify errors in reasoning chains more reliably. The accuracy of error identification improves by 6% to 16% absolute when step-by-step verification is carried out in PARC under the premises. Our findings highlight the utility of premise-centric representations in addressing complex problem-solving tasks and open new avenues for improving the reliability of LLM-based reasoning evaluations.
Abstract（参考訳）: CoT(Chain-of-Thought)は、大規模言語モデル(LLM)の数学的推論を促進する。しかし、LSMの冗長性のため、結果として生じる推論連鎖は長くなり、推論ステップの検証が難しくなり、ステップ間の依存関係がステップのシーケンスから遠く離れてしまう可能性がある。重要なことに、数学的推論は、各ステップを推論チェーンの前のステップのサブセットである小さな前提セットから導出することができる。本稿では,各ステップの前提を識別し,推論の評価を改善するためのフレームワークを提案する。我々は,従来の線形推論チェーンを前提リンクを導入して,premise Augmented Reasoning Chains (PARC) に再構成し,ノードをステップとし,エッジを前提リンクとする有向非巡回グラフを作成する。 PERL (Premises and ERrors Identification in LLMs) と呼ばれる PARC ベースのデータセットを用いた実験により, LLM が複雑な推論チェーン内の前提を確実に識別できることを実証した。特に、オープンソースLLMでさえ、前提の識別において90%のリコールを達成する。また、PARCは、推論チェーンにおけるエラーをより確実に識別するのに役立つことを示す。前提条件下でPARCでステップバイステップ検証を行うと、エラー識別の精度が6%から16%向上する。本研究は,複雑な問題解決課題に対処する前提中心の表現の有用性を強調し,LCMに基づく推論評価の信頼性向上のための新たな道を開くことを目的とした。

関連論文リスト

Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。 RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。 RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-20T03:54:57Z)
Uncertainty-Guided Chain-of-Thought for Code Generation with LLMs [45.33160999781074]
大規模言語モデル(LLM)の問題解決能力向上に有効な手法として,チェーン・オブ・ソート(CoT)推論が実証されている。我々は、不確実性を認識したCoT推論機構を組み込むことで、コード生成を向上させるためのUnCert-CoTを導入する。
論文参考訳（メタデータ） (2025-03-19T15:40:45Z)
Stepwise Informativeness Search for Efficient and Effective LLM Reasoning [49.85349030928302]
最近の研究によると、Large Language Models (LLM) は長いコンテキストの途中で焦点を失う傾向にある。より正確かつ簡潔なステップ・バイ・ステップの合理性を生成するために, LLM を導くことを提案する。
論文参考訳（メタデータ） (2025-02-21T09:39:27Z)
Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文参考訳（メタデータ） (2025-02-08T19:49:32Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T05:22:56Z)
Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [95.07757789781213]
LLMの複雑な推論には2行のアプローチが採用されている。 1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。他方の行では、LCMのない宣言的解法を用いて推論処理を行い、推論精度は向上するが、解法のブラックボックスの性質により解釈性に欠ける。具体的には,Prologインタプリタが生成した中間検索ログにアクセスし,人間可読推論に解釈可能であることを示す。
論文参考訳（メタデータ） (2023-11-16T11:26:21Z)
Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding [10.421832675327712]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。 EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文参考訳（メタデータ） (2023-11-12T05:12:49Z)
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。 RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-19T08:02:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。