論文の概要: LogiNumSynth: Synthesizing Joint Logical-Numerical Reasoning Problems for Language Models
- arxiv url: http://arxiv.org/abs/2510.11031v1
- Date: Mon, 13 Oct 2025 06:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.215891
- Title: LogiNumSynth: Synthesizing Joint Logical-Numerical Reasoning Problems for Language Models
- Title(参考訳): LogiNumSynth:言語モデルにおける共同論理-数値推論問題の合成
- Authors: Yiwei Liu, Yucheng Li, Xiao Li, Gong Cheng,
- Abstract要約: LogiNum Synthは、共同論理的推論において習熟を必要とするタスクを合成する自然言語問題シンセサイザーである。
推論の世界豊かさ、論理的推論深度、数値計算の複雑さに対するきめ細かい制御をサポートする。
診断ツールと、統合推論スキルの進歩のための目標監督のソースの両方として機能する。
- 参考スコア(独自算出の注目度): 14.833385574931855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Joint logical-numerical reasoning remains a major challenge for language models, yet existing datasets rely on fixed rule sets and offer limited control over task complexity, constraining their generalizability for evaluation and training. We present LogiNumSynth, a flexible natural language problem synthesizer that synthesizes tasks requiring proficiency in joint logical reasoning (e.g., rule-based reasoning) and numerical reasoning (e.g., arithmetic computation). LogiNumSynth supports fine-grained control over reasoning world richness, logical reasoning depth, and the complexity of numerical computations, enabling flexible data synthesis across difficulty levels. We demonstrate three key contributions: (1) Synthesizer -- synthesizing fully controllable joint reasoning tasks over natural language; (2) Evaluation & Process Analysis -- evaluating both process accuracy and answer accuracy; (3) Targeted Training -- using synthesized data to enhance LLMs' reasoning performance. Experiments with multiple LLMs highlight persistent weaknesses in logical-numerical reasoning, showing that LogiNumSynth can serve as both a diagnostic tool and a source of targeted supervision for advancing integrated reasoning skills.
- Abstract(参考訳): しかし、既存のデータセットは一定のルールセットに依存し、タスクの複雑さを限定的に制御し、評価とトレーニングの一般化性を制限している。
本稿では,論理的論理的推論(例えば規則に基づく推論)と数値的推論(例えば算術計算)において習熟を必要とするタスクを合成する,フレキシブルな自然言語問題合成器であるLogiNumSynthを提案する。
LogiNumSynthは、推論の世界豊かさ、論理的推論深度、数値計算の複雑さに対するきめ細かい制御をサポートし、難易度にわたって柔軟なデータ合成を可能にする。
本研究では,(1) 自然言語による完全制御可能な共同推論タスクの合成,(2) プロセス精度と解答精度の両方を評価する評価とプロセス分析,(3) LLMの推論性能を高めるために合成データを用いた目標学習,の3つの重要な貢献について述べる。
複数のLSMを用いた実験では、論理的推論において永続的な弱点が強調され、LogiNumSynthが診断ツールと統合推論スキルを進化させるターゲット管理のソースの両方として機能できることが示されている。
関連論文リスト
- SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond [35.80475408913363]
多様な論理的推論データを大規模に生成するデータ合成フレームワークおよびデータセットであるSynLogicを提案する。
7Bおよび32Bモデルに基づくSynLogicデータセットにおけるRLトレーニングの有効性を検証する。
混合トレーニングモデルは、複数のベンチマークでDeepSeek-R1-Zero-Qwen-32Bより優れています。
論文 参考訳(メタデータ) (2025-05-26T07:59:36Z) - Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment [21.12989936864145]
CoT(Chain-of-Thought)のプロンプトによって,大規模言語モデル(LLM)の推論能力の向上が期待できる。
本稿では、生成したプログラムと対応するNL記述との間に論理単位を整列させることにより、より信頼性の高い推論経路を構築するReasoning-as-Logic-Units (RaLU)を提案する。
論文 参考訳(メタデータ) (2025-02-05T08:23:18Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。
2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T03:39:09Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。