論文の概要: FOL-Pretrain: A complexity annotated corpus of first-order logic
- arxiv url: http://arxiv.org/abs/2505.14932v1
- Date: Tue, 20 May 2025 21:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.766057
- Title: FOL-Pretrain: A complexity annotated corpus of first-order logic
- Title(参考訳): FOL-Pretrain: 一階述語論理の複雑性注釈コーパス
- Authors: Isabelle Lee, Sarah Liaw, Dani Yogatama,
- Abstract要約: トランスフォーマーベースの大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMの振る舞いをリバースエンジニアリングしようとする最近の試みにもかかわらず、これらのモデルがどのように複雑なアルゴリズムの内部化と実行を行うかについての理解は依然として限られている。
本稿では,大規模かつ完全にオープンな,一階述語論理推論トレースの複雑性アノテーション付きデータセットを提案する。
- 参考スコア(独自算出の注目度): 16.061040115094592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models (LLMs) have demonstrated remarkable reasoning capabilities such as coding and solving mathematical problems to commonsense inference. While these tasks vary in complexity, they all require models to integrate and compute over structured information. Despite recent efforts to reverse-engineer LLM behavior through controlled experiments, our understanding of how these models internalize and execute complex algorithms remains limited. Progress has largely been confined to small-scale studies or shallow tasks such as basic arithmetic and grammatical pattern matching. One barrier to deeper understanding is the nature of pretraining data -- vast, heterogeneous, and often poorly annotated, making it difficult to isolate mechanisms of reasoning. To bridge this gap, we introduce a large-scale, fully open, complexity-annotated dataset of first-order logic reasoning traces, designed to probe and analyze algorithmic reasoning in LLMs. The dataset consists of 3.5 billion tokens, including 8.8 million LLM-augmented, human-annotated examples and 7.5 million synthetically generated examples. Each synthetic example is verifiably correct, produced by a custom automated theorem solver, and accompanied by metadata tracing its algorithmic provenance. We aim to provide a scalable, interpretable artifact for studying how LLMs learn and generalize symbolic reasoning processes, paving the way for more transparent and targeted investigations into the algorithmic capabilities of modern models.
- Abstract(参考訳): 変換器をベースとした大規模言語モデル (LLM) は, 数理問題からコモンセンス推論へのコーディングや解法など, 顕著な推論能力を示した。
これらのタスクは複雑さによって異なるが、構造化情報の統合と計算にはモデルが必要である。
制御された実験を通してLCMの挙動をリバースエンジニアリングしようとする最近の試みにもかかわらず、これらのモデルがどのように複雑なアルゴリズムを内部化し実行するかについての理解は限られている。
進歩は、主に小さな研究や基本的な算術や文法的なパターンマッチングのような浅いタスクに限られている。
深い理解の障壁の1つは事前学習するデータの性質である -- 巨大で不均一で、しばしば注釈が下がらないため、推論のメカニズムを分離することは困難である。
このギャップを埋めるために、LLMのアルゴリズム推論を探索・解析するために設計された、大規模で完全にオープンで複雑に注釈付けされた一階論理推論トレースデータセットを導入する。
データセットは350億個のトークンで構成されており、これには880万個のLDMが付加され、人間によって注釈付けされたサンプルと、750万個の合成されたサンプルが含まれる。
それぞれの合成例は検証可能であり、カスタムの自動定理解法によって生成され、アルゴリズムの証明をトレースするメタデータが伴う。
我々は、LLMがシンボリック推論プロセスをどのように学習し、一般化するかを研究するためのスケーラブルで解釈可能なアーティファクトを提供することを目標とし、近代モデルのアルゴリズム能力についてより透明でターゲットとした調査を行う。
関連論文リスト
- Do LLMs Dream of Discrete Algorithms? [0.7646713951724011]
大規模言語モデル(LLM)は、人工知能の風景を急速に変化させてきた。
確率的推論への依存は、厳密な論理的推論を必要とする領域における有効性を制限する。
本稿では,論理ベースの推論モジュールでLLMを増強するニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-29T22:03:01Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - Code Simulation as a Proxy for High-order Tasks in Large Language Models [6.71786454125056]
我々は、Large Language Models (LLM) の能力を評価するために、自然主義的および合成的推論タスクのペアを収集する。
我々は、プログラミングにおける共通構造を、自然主義的推論タスクの構成要素の1つとして活用する。
我々の貢献は、手作りの人間注記問題に対するスケーラブルな補完として、LLMの推論能力を総合的にテストすることの上に成り立っている。
論文 参考訳(メタデータ) (2025-02-05T19:30:28Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures [2.8311048083168657]
大型言語モデル (LLM) は顕著な数学的能力を示しており、主にチェーン・オブ・シント (CoT) のプロンプトによって駆動されている。
LLMは可換性や恒等性などの代数的構造を捉えることによって算術を学習する。
論文 参考訳(メタデータ) (2024-11-25T10:23:11Z) - On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。
LLMは素晴らしい経験的成功を収めた。
提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。