Fugu-MT 論文翻訳(概要): SLR: Automated Synthesis for Scalable Logical Reasoning

論文の概要: SLR: Automated Synthesis for Scalable Logical Reasoning

arxiv url: http://arxiv.org/abs/2506.15787v3
Date: Tue, 29 Jul 2025 15:26:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-30 14:59:51.250364
Title: SLR: Automated Synthesis for Scalable Logical Reasoning
Title（参考訳）: SLR:スケーラブル論理推論のための自動合成
Authors: Lukas Helff, Ahmad Omar, Felix Friedrich, Antonia Wüst, Hikaru Shindo, Rupert Mitchell, Tim Woydt, Patrick Schramowski, and Wolfgang Stammer Kristian Kersting,
Abstract要約: 大規模言語モデル(LLM)の体系的評価と訓練のためのエンドツーエンドフレームワークであるSLRを紹介する。ユーザのタスク仕様を前提として、SLRは帰納的推論タスクの命令プロンプトを自動で生成する。 SLRを用いて、20のカリキュラムレベルに分類した19kプロンプトからなるベンチマークであるSLR-Benchを作成する。
参考スコア（独自算出の注目度）: 7.550485603557395
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce SLR, an end-to-end framework for systematic evaluation and training of Large Language Models (LLMs) via Scalable Logical Reasoning. Given a user's task specification, SLR automatically synthesizes (i) an instruction prompt for an inductive reasoning task, (ii) a validation program, executable on model outputs to provide verifiable rewards, and (iii) the latent ground-truth rule. This process is fully automated, scalable, requires no human annotations, and offers precise control over task difficulty. Using SLR, we create SLR-Bench, a benchmark comprising 19k prompts organized into 20 curriculum levels that progressively increase in relational, arithmetic, and recursive complexity. Large-scale evaluation reveals that contemporary LLMs readily produce syntactically valid rules, yet often fail at correct logical inference. Recent reasoning LLMs demonstrate improved performance but incur very high test-time computation, with costs exceeding $300 for just 1,000 prompts. Finally, curriculum learning via SLR doubles Llama-3-8B accuracy on SLR-Bench, achieving parity with Gemini-Flash-Thinking at a fraction of computational cost. Moreover, these reasoning capabilities generalize to a wide range of established benchmarks, underscoring the effectiveness of SLR for downstream reasoning.
Abstract（参考訳）: SLRは,Large Language Models (LLMs) の体系的評価と訓練を行うための,スケーラブル論理推論によるエンドツーエンドフレームワークである。ユーザのタスク仕様を考えると、SLRは自動的に合成する一帰納的推論の指示書 2バリデーションプログラム、検証可能な報酬を提供するためのモデル出力の実行、及び (三)潜伏地道則このプロセスは完全に自動化され、スケーラブルで、人間のアノテーションを必要としない。 SLRを用いて、19kのプロンプトを20のカリキュラムレベルにまとめたベンチマークSLR-Benchを作成し、リレーショナル、算術、再帰的な複雑さを徐々に増加させる。大規模評価では、現代のLLMは構文的に妥当な規則を容易に生成するが、正しい論理的推論では失敗することが多い。最近のLCMでは性能は向上しているが、1000プロンプトで300ドルを超えるような非常に高いテスト時間計算が可能である。最後に、SLRによるカリキュラム学習は、SLR-Bench上でLlama-3-8Bの精度を2倍にし、Gemini-Flash-Thinkingと同等の計算コストで実現した。さらに、これらの推論機能は幅広い確立されたベンチマークに一般化され、下流の推論におけるSLRの有効性が強調される。

関連論文リスト

Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
Ask, Fail, Repeat: Meeseeks, an Iterative Feedback Benchmark for LLMs' Multi-turn Instruction-Following Ability [5.393872292662451]
Meeseeksは,反復的なフィードバックフレームワークを通じて,現実的な人間-LLMインタラクションをシミュレートする。 MeeseeksはマルチターンシナリオにおけるLLMの命令フォロー機能に関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2025-04-30T13:28:19Z)
TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-31T07:43:12Z)
Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment [21.12989936864145]
CoT(Chain-of-Thought)のプロンプトによって,大規模言語モデル(LLM)の推論能力の向上が期待できる。本稿では、生成したプログラムと対応するNL記述との間に論理単位を整列させることにより、より信頼性の高い推論経路を構築するReasoning-as-Logic-Units (RaLU)を提案する。
論文参考訳（メタデータ） (2025-02-05T08:23:18Z)
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。 ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文参考訳（メタデータ） (2025-02-03T06:44:49Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Logical Consistency of Large Language Models in Fact-checking [6.286017217366497]
大規模言語モデル(LLM)は、様々な自然言語タスクを実行する上で大きな成功を収めている。人間のようなテキストを生成する素晴らしい能力にもかかわらず、LLMは一貫性のない反応で悪名高い。
論文参考訳（メタデータ） (2024-12-20T17:42:25Z)
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文参考訳（メタデータ） (2024-12-12T06:08:46Z)
Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-11-27T18:04:05Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
LLM-ARC: Enhancing LLMs with an Automated Reasoning Critic [2.1073328551105623]
LLM-ARCは,Large Language Models (LLM) の論理的推論能力を高めるために設計された,ニューロシンボリックなフレームワークである。 LLM-ARC は Actor-Critic 方式を採用しており、LLM アクターは宣言論理プログラムと意味的正当性テストを生成し、Automated Reasoning Critic はコードを評価し、テストを実行し、反復的洗練のためのテスト失敗に対するフィードバックを提供する。実験では,LLMのみのベースラインよりも大幅に改善され,論理的テスト生成と反復的自己精製の重要性が強調された。
論文参考訳（メタデータ） (2024-06-25T15:52:15Z)
LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文参考訳（メタデータ） (2024-01-17T08:22:52Z)
When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文参考訳（メタデータ） (2023-08-29T17:22:39Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
MLR-SNet: Transferable LR Schedules for Heterogeneous Tasks [56.66010634895913]
学習率(LR)は、勾配降下(SGD)訓練ネットワーク(DNN)において最も重要なハイパーラーニングネットワークパラメータの1つである。本稿では,MLR-SNetタスクの適切なLRスケジュールを学習することを提案する。また、MLR-SNetを使用して、異なるノイズ、アーキテクチャ、データモダリティ、トレーニング用のサイズなどのタスクをクエリし、パフォーマンスを達成または改善します。
論文参考訳（メタデータ） (2020-07-29T01:18:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。