論文の概要: SLR: Automated Synthesis for Scalable Logical Reasoning
- arxiv url: http://arxiv.org/abs/2506.15787v3
- Date: Tue, 29 Jul 2025 15:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 14:59:51.250364
- Title: SLR: Automated Synthesis for Scalable Logical Reasoning
- Title(参考訳): SLR:スケーラブル論理推論のための自動合成
- Authors: Lukas Helff, Ahmad Omar, Felix Friedrich, Antonia Wüst, Hikaru Shindo, Rupert Mitchell, Tim Woydt, Patrick Schramowski, and Wolfgang Stammer Kristian Kersting,
- Abstract要約: 大規模言語モデル(LLM)の体系的評価と訓練のためのエンドツーエンドフレームワークであるSLRを紹介する。
ユーザのタスク仕様を前提として、SLRは帰納的推論タスクの命令プロンプトを自動で生成する。
SLRを用いて、20のカリキュラムレベルに分類した19kプロンプトからなるベンチマークであるSLR-Benchを作成する。
- 参考スコア(独自算出の注目度): 7.550485603557395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SLR, an end-to-end framework for systematic evaluation and training of Large Language Models (LLMs) via Scalable Logical Reasoning. Given a user's task specification, SLR automatically synthesizes (i) an instruction prompt for an inductive reasoning task, (ii) a validation program, executable on model outputs to provide verifiable rewards, and (iii) the latent ground-truth rule. This process is fully automated, scalable, requires no human annotations, and offers precise control over task difficulty. Using SLR, we create SLR-Bench, a benchmark comprising 19k prompts organized into 20 curriculum levels that progressively increase in relational, arithmetic, and recursive complexity. Large-scale evaluation reveals that contemporary LLMs readily produce syntactically valid rules, yet often fail at correct logical inference. Recent reasoning LLMs demonstrate improved performance but incur very high test-time computation, with costs exceeding $300 for just 1,000 prompts. Finally, curriculum learning via SLR doubles Llama-3-8B accuracy on SLR-Bench, achieving parity with Gemini-Flash-Thinking at a fraction of computational cost. Moreover, these reasoning capabilities generalize to a wide range of established benchmarks, underscoring the effectiveness of SLR for downstream reasoning.
- Abstract(参考訳): SLRは,Large Language Models (LLMs) の体系的評価と訓練を行うための,スケーラブル論理推論によるエンドツーエンドフレームワークである。
ユーザのタスク仕様を考えると、SLRは自動的に合成する
一 帰納的推論の指示書
2バリデーションプログラム、検証可能な報酬を提供するためのモデル出力の実行、及び
(三)潜伏地道則
このプロセスは完全に自動化され、スケーラブルで、人間のアノテーションを必要としない。
SLRを用いて、19kのプロンプトを20のカリキュラムレベルにまとめたベンチマークSLR-Benchを作成し、リレーショナル、算術、再帰的な複雑さを徐々に増加させる。
大規模評価では、現代のLLMは構文的に妥当な規則を容易に生成するが、正しい論理的推論では失敗することが多い。
最近のLCMでは性能は向上しているが、1000プロンプトで300ドルを超えるような非常に高いテスト時間計算が可能である。
最後に、SLRによるカリキュラム学習は、SLR-Bench上でLlama-3-8Bの精度を2倍にし、Gemini-Flash-Thinkingと同等の計算コストで実現した。
さらに、これらの推論機能は幅広い確立されたベンチマークに一般化され、下流の推論におけるSLRの有効性が強調される。
関連論文リスト
- Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment [21.12989936864145]
CoT(Chain-of-Thought)のプロンプトによって,大規模言語モデル(LLM)の推論能力の向上が期待できる。
本稿では、生成したプログラムと対応するNL記述との間に論理単位を整列させることにより、より信頼性の高い推論経路を構築するReasoning-as-Logic-Units (RaLU)を提案する。
論文 参考訳(メタデータ) (2025-02-05T08:23:18Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Logical Consistency of Large Language Models in Fact-checking [6.286017217366497]
大規模言語モデル(LLM)は、様々な自然言語タスクを実行する上で大きな成功を収めている。
人間のようなテキストを生成する素晴らしい能力にもかかわらず、LLMは一貫性のない反応で悪名高い。
論文 参考訳(メタデータ) (2024-12-20T17:42:25Z) - LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic [2.1073328551105623]
LLM-ARCは,Large Language Models (LLM) の論理的推論能力を高めるために設計された,ニューロシンボリックなフレームワークである。
LLM-ARC は Actor-Critic 方式を採用しており、LLM アクターは宣言論理プログラムと意味的正当性テストを生成し、Automated Reasoning Critic はコードを評価し、テストを実行し、反復的洗練のためのテスト失敗に対するフィードバックを提供する。
実験では,LLMのみのベースラインよりも大幅に改善され,論理的テスト生成と反復的自己精製の重要性が強調された。
論文 参考訳(メタデータ) (2024-06-25T15:52:15Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks [56.66010634895913]
学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。
本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。
また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
論文 参考訳(メタデータ) (2020-07-29T01:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。