論文の概要: Draft-and-Prune: Improving the Reliability of Auto-formalization for Logical Reasoning
- arxiv url: http://arxiv.org/abs/2603.17233v1
- Date: Wed, 18 Mar 2026 00:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.457378
- Title: Draft-and-Prune: Improving the Reliability of Auto-formalization for Logical Reasoning
- Title(参考訳): ドラフト・アンド・プルーン:論理推論におけるオートフォーマル化の信頼性向上
- Authors: Zhiyu Ni, Zheng Liang, Liangcheng Song, Chenrui Cao, Xian Zhang, Alberto Sangiovanni-Vincentelli, Pierluigi Nuzzo,
- Abstract要約: 自動形式化(AF)は自然言語推論問題を解法実行プログラムに翻訳する。
D&P(Draft-and-Prune, Draft-and-Prune, Draft-and-Prune, D&P)は、AFに基づく論理的推論を多様性と検証によって改善する推論時フレームワークである。
D&Pは追加の監督なしにAFベースの推論を大幅に強化する。
- 参考スコア(独自算出の注目度): 5.119925615308174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auto-formalization (AF) translates natural-language reasoning problems into solver-executable programs, enabling symbolic solvers to perform sound logical deduction. In practice, however, AF pipelines are currently brittle: programs may fail to execute, or execute but encode incorrect semantics. While prior work largely mitigates syntactic failures via repairs based on solver feedback, reducing semantics failures remains a major bottleneck. We propose Draft-and-Prune (D&P), an inference-time framework that improves AF-based logical reasoning via diversity and verification. D&P first drafts multiple natural-language plans and conditions program generation on them. It further prunes executable but contradictory or ambiguous formalizations, and aggregates predictions from surviving paths via majority voting. Across four representative benchmarks (AR-LSAT, ProofWriter, PrOntoQA, LogicalDeduction), D&P substantially strengthens AF-based reasoning without extra supervision. On AR-LSAT, in the AF-only setting, D&P achieves 78.43% accuracy with GPT-4 and 78.00% accuracy with GPT-4o, significantly outperforming the strongest AF baselines MAD-LOGIC and CLOVER. D&P then attains near-ceiling performance on the other benchmarks, including 100% on PrOntoQA and LogicalDeduction.
- Abstract(参考訳): 自動形式化(AF)は、自然言語推論問題をソルバ実行可能プログラムに変換し、シンボリック・ソルバが論理的推論を行うことを可能にする。
プログラムは実行や実行に失敗することがあるが、誤ったセマンティクスをエンコードする。
事前の作業は、ソルバフィードバックに基づく修復を通じて、構文上の障害を軽減しますが、セマンティクスの失敗を減らすことは、依然として大きなボトルネックです。
D&P(Draft-and-Prune, Draft-and-Prune, Draft-and-Prune, D&P)は、AFに基づく論理的推論を多様性と検証によって改善する推論時フレームワークである。
D&Pの最初のドラフトは、複数の自然言語プランと条件プログラム生成である。
さらに、実行可能ではあるが矛盾するあるいは曖昧な形式化を行い、多数決によって生き残った経路からの予測を集約する。
4つの代表的なベンチマーク(AR-LSAT、ProofWriter、PrOntoQA、LogicalDeduction)で、D&Pは追加の監督なしにAFベースの推論を大幅に強化する。
AR-LSATでは、AFのみの設定で、D&PはGPT-4で78.43%の精度、GPT-4oで78.00%の精度を達成し、最強のAFベースラインMAD-LOGICとCLOVERを上回っている。
D&PはPrOntoQAとLogicalDeductionの100%を含む他のベンチマークでほぼシーリングのパフォーマンスを達成した。
関連論文リスト
- Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning [7.8668388431725695]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)推論によって強い推論性能を達成する。
最近の自己整合性に基づくアプローチは、精度をさらに向上するが、複数の推論軌道のサンプリングと集約が必要である。
本稿では,単一経路と複数経路の推論を適応的に選択するための単一経路推論軌道を解析する信頼度対応決定フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-09T22:34:06Z) - Training LLMs with LogicReward for Faithful and Rigorous Reasoning [75.30425553246177]
定理証明器を用いてステップレベルの論理的正しさを強制することでモデルトレーニングを指導する報酬システムであるLogicRewardを提案する。
LogicRewardで構築されたデータに基づいてトレーニングされた8Bモデルは、GPT-4oとo4-miniを11.6%、自然言語推論と論理的推論タスクで2%超えた。
論文 参考訳(メタデータ) (2025-12-20T03:43:02Z) - Incorporating Self-Rewriting into Large Language Model Reasoning Reinforcement [54.63337314382886]
自己書き起こしフレームワークを導入し、モデルが独自の推論テキストを書き直し、その後、書き直し推論から学習し、内部思考プロセスの品質を向上させる。
アルゴリズム設計において、モデルの一貫した正当性によって定義される「単純な」サンプルのみを書き換える選択的な書き換え手法を提案する。
モデルサイズが異なる多様なタスクの実験は、自己書き換えの有効性を検証する。
論文 参考訳(メタデータ) (2025-11-20T13:10:52Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - ViFP: A Framework for Visual False Positive Detection to Enhance Reasoning Reliability in VLMs [10.920311878186483]
視覚言語モデルにおける推論信頼性を高めるために,視覚的偽陽性検出のためのフレームワークであるViFPを提案する。
ViFPはマルチターンQAを通して効果的な推論パスを構築し、推論パスの一貫性を動的に解析する。
また、FP推論を修正するための標的推論チェーン補正機構を導入し、論理的一貫性と精度を向上させる。
論文 参考訳(メタデータ) (2025-08-06T08:31:11Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。