論文の概要: SLR: An Automated Synthesis Framework for Scalable Logical Reasoning
- arxiv url: http://arxiv.org/abs/2506.15787v1
- Date: Wed, 18 Jun 2025 18:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.786232
- Title: SLR: An Automated Synthesis Framework for Scalable Logical Reasoning
- Title(参考訳): SLR: スケーラブル論理推論のための自動合成フレームワーク
- Authors: Lukas Helff, Ahmad Omar, Felix Friedrich, Wolfgang Stammer, Antonia Wüst, Tim Woydt, Rupert Mitchell, Patrick Schramowski, Kristian Kersting,
- Abstract要約: 大規模言語モデル(LLM)の体系的評価と訓練のためのエンドツーエンドフレームワークであるSLRを紹介する。
SLRは、正確に制御された困難を伴う帰納的推論タスクのスケーラブルで自動化された合成を可能にする。
各タスクについて、SLRは、(i)潜伏した基底真実規則、(ii)記号的判断者がモデル出力を確定的に検証するために使用する実行可能な検証プログラム、(iii)推論タスクの指示プロンプトを合成する。
- 参考スコア(独自算出の注目度): 22.7391470967708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SLR, an end-to-end framework for systematic evaluation and training of Large Language Models (LLMs) via Scalable Logical Reasoning. Given a user's task specification, SLR enables scalable, automated synthesis of inductive reasoning tasks with precisely controlled difficulty. For each task, SLR synthesizes (i) a latent ground-truth rule, (ii) an executable validation program used by a symbolic judge to deterministically verify model outputs, and (iii) an instruction prompt for the reasoning task. Using SLR, we create SLR-Bench, a benchmark comprising over 19k prompts spanning 20 curriculum levels that progressively increase in relational, arithmetic, and recursive complexity. Large-scale evaluation reveals that contemporary LLMs readily produce syntactically valid rules, yet often fail at correct logical inference. Recent reasoning LLMs do somewhat better, but incur substantial increases in test-time compute, sometimes exceeding 15k completion tokens. Finally, logic-tuning via SLR doubles Llama-3-8B accuracy on SLR-Bench, achieving parity with Gemini-Flash-Thinking at a fraction of computational cost. SLR is fully automated, requires no human annotation, ensures dataset novelty, and offers a scalable environment for probing and advancing LLMs' reasoning capabilities.
- Abstract(参考訳): SLRは,Large Language Models (LLMs) の体系的評価と訓練を行うための,スケーラブル論理推論によるエンドツーエンドフレームワークである。
ユーザのタスク仕様を考えると、SLRは正確に制御された困難を伴う帰納的推論タスクのスケーラブルで自動化された合成を可能にする。
各タスクに対して、SLRは合成する
(i)遅れた根本真理則
二 モデル出力を確定的に検証するために象徴的裁判官が使用する実行可能検証プログラム
三 推論の指示書
SLRを用いて、19k以上のプロンプトからなるベンチマークSLR-Benchを作成し、リレーショナル、算術、再帰的な複雑さを徐々に増加させる20のカリキュラムレベルにまたがる。
大規模評価では、現代のLLMは構文的に妥当な規則を容易に生成するが、正しい論理的推論では失敗することが多い。
近年のLCMは若干改善されているが、テスト時間計算が大幅に増加し、時には15kの完了トークンを超えることがある。
最後に、SLRによるロジックチューニングは、SLR-Bench上でLlama-3-8Bの精度を2倍にし、Gemini-Flash-Thinkingと同等の計算コストで実現した。
SLRは完全に自動化されており、人間のアノテーションを必要とせず、データセットの新規性を保証し、LLMの推論能力の探索と向上のためのスケーラブルな環境を提供する。
関連論文リスト
- Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment [21.12989936864145]
CoT(Chain-of-Thought)のプロンプトによって,大規模言語モデル(LLM)の推論能力の向上が期待できる。
本稿では、生成したプログラムと対応するNL記述との間に論理単位を整列させることにより、より信頼性の高い推論経路を構築するReasoning-as-Logic-Units (RaLU)を提案する。
論文 参考訳(メタデータ) (2025-02-05T08:23:18Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Logical Consistency of Large Language Models in Fact-checking [6.286017217366497]
大規模言語モデル(LLM)は、様々な自然言語タスクを実行する上で大きな成功を収めている。
人間のようなテキストを生成する素晴らしい能力にもかかわらず、LLMは一貫性のない反応で悪名高い。
論文 参考訳(メタデータ) (2024-12-20T17:42:25Z) - LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic [2.1073328551105623]
LLM-ARCは,Large Language Models (LLM) の論理的推論能力を高めるために設計された,ニューロシンボリックなフレームワークである。
LLM-ARC は Actor-Critic 方式を採用しており、LLM アクターは宣言論理プログラムと意味的正当性テストを生成し、Automated Reasoning Critic はコードを評価し、テストを実行し、反復的洗練のためのテスト失敗に対するフィードバックを提供する。
実験では,LLMのみのベースラインよりも大幅に改善され,論理的テスト生成と反復的自己精製の重要性が強調された。
論文 参考訳(メタデータ) (2024-06-25T15:52:15Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks [56.66010634895913]
学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。
本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。
また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
論文 参考訳(メタデータ) (2020-07-29T01:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。