論文の概要: ORACLE: Optimizing Reasoning Abilities of Large Language Models via Constraint-Led Synthetic Data Elicitation
- arxiv url: http://arxiv.org/abs/2603.21140v1
- Date: Sun, 22 Mar 2026 09:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.256632
- Title: ORACLE: Optimizing Reasoning Abilities of Large Language Models via Constraint-Led Synthetic Data Elicitation
- Title(参考訳): ORACLE:制約付き合成データによる大規模言語モデルの推論能力の最適化
- Authors: Zhuojie Yang, Wentao Wan, Keze Wang,
- Abstract要約: 我々は、シロジック推論にインスパイアされた構造化データ生成フレームワークORACLEを紹介する。
これは、大きな言語モデルの生成的強みと象徴的な監督を統合する。
ORACLEは、きめ細かいステップレベルの検証を可能にし、高品質なマルチステップ推論データの構築を容易にする。
- 参考スコア(独自算出の注目度): 12.1004696670585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models (LLMs) with synthetic reasoning data has become a popular approach to enhancing their reasoning capabilities, while a key factor influencing the effectiveness of this paradigm is the quality of the generated multi-step reasoning data. To generate high-quality reasoning data, many recent methods generate synthetic reasoning paths and filter them based on final answer correctness, often overlooking flaws in intermediate reasoning steps. To enhance the verification of intermediate reasoning steps, prior work primarily resorts to code execution or symbolic reasoning engines. However, code-based validation is restricted to code or mathematical tasks, and reasoning engines require a well-structured and complete context. As a result, existing methods fail to function effectively in natural language reasoning tasks that involve ambiguous or incomplete contexts. In these tasks, synthetic data still lack reliable checks for verifying each reasoning step. To address this challenge, we introduce ORACLE, a structured data generation framework inspired by syllogistic reasoning. ORACLE integrates the generative strengths of LLMs with symbolic supervision: the LLM produces step-wise reasoning contexts, while a symbolic reasoning engine verifies the validity of each intermediate step. By employing a unified prompting template to elicit modular reasoning chains, ORACLE enables fine-grained, step-level validation, facilitating the construction of high-quality multi-step reasoning data. Across six logical, factual, and commonsense reasoning benchmarks, our ORACLE consistently outperforms strong baselines on multiple models.
- Abstract(参考訳): 合成推論データを用いた大規模言語モデル(LLM)の訓練は、その推論能力を高めるための一般的なアプローチとなり、このパラダイムの有効性に影響を与える重要な要因は、生成された多段階推論データの品質である。
高品質な推論データを生成するために、多くの手法が合成推論パスを生成し、最終的な答えの正しさに基づいてフィルタリングし、中間推論ステップの欠陥を見落としていることが多い。
中間推論ステップの検証を強化するために、事前の作業は主にコード実行やシンボリック推論エンジンに頼っている。
しかし、コードベースの検証はコードや数学的タスクに限定されており、推論エンジンは十分に構造化され完全なコンテキストを必要とする。
その結果、既存の手法は曖昧または不完全な文脈を含む自然言語推論タスクにおいて効果的に機能しない。
これらのタスクでは、合成データは、各推論ステップを検証するための信頼性の高いチェックをいまだに欠いている。
この課題に対処するために、シロジック推論にインスパイアされた構造化データ生成フレームワークORACLEを紹介する。
LLMはステップワイズ推論コンテキストを生成し、シンボル推論エンジンは各中間ステップの妥当性を検証する。
統一的なプロンプトテンプレートを使用してモジュラー推論チェーンを抽出することにより、ORACLEはきめ細かいステップレベルの検証を可能にし、高品質なマルチステップ推論データの構築を容易にする。
6つの論理的、事実的、常識的推論ベンチマークにおいて、ORACLEは複数のモデルに対する強いベースラインを一貫して上回ります。
関連論文リスト
- Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。
AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。
実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文 参考訳(メタデータ) (2025-10-06T09:30:05Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment [21.12989936864145]
CoT(Chain-of-Thought)のプロンプトによって,大規模言語モデル(LLM)の推論能力の向上が期待できる。
本稿では、生成したプログラムと対応するNL記述との間に論理単位を整列させることにより、より信頼性の高い推論経路を構築するReasoning-as-Logic-Units (RaLU)を提案する。
論文 参考訳(メタデータ) (2025-02-05T08:23:18Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - Are LLMs Rigorous Logical Reasoners? Empowering Natural Language Proof Generation by Stepwise Decoding with Contrastive Learning [14.718645333008332]
近年の大規模言語モデルの進歩は、自然言語の証明計画に大きな進歩をもたらした。
本稿では, 逆学習による段階的復号化手法を提案し, 発電機の復号処理中に発生する2つの一般的な誤りに対処する。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。