論文の概要: FOL-Pretrain: A complexity annotated corpus of first-order logic
- arxiv url: http://arxiv.org/abs/2505.14932v1
- Date: Tue, 20 May 2025 21:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.766057
- Title: FOL-Pretrain: A complexity annotated corpus of first-order logic
- Title(参考訳): FOL-Pretrain: 一階述語論理の複雑性注釈コーパス
- Authors: Isabelle Lee, Sarah Liaw, Dani Yogatama,
- Abstract要約: トランスフォーマーベースの大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMの振る舞いをリバースエンジニアリングしようとする最近の試みにもかかわらず、これらのモデルがどのように複雑なアルゴリズムの内部化と実行を行うかについての理解は依然として限られている。
本稿では,大規模かつ完全にオープンな,一階述語論理推論トレースの複雑性アノテーション付きデータセットを提案する。
- 参考スコア(独自算出の注目度): 16.061040115094592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models (LLMs) have demonstrated remarkable reasoning capabilities such as coding and solving mathematical problems to commonsense inference. While these tasks vary in complexity, they all require models to integrate and compute over structured information. Despite recent efforts to reverse-engineer LLM behavior through controlled experiments, our understanding of how these models internalize and execute complex algorithms remains limited. Progress has largely been confined to small-scale studies or shallow tasks such as basic arithmetic and grammatical pattern matching. One barrier to deeper understanding is the nature of pretraining data -- vast, heterogeneous, and often poorly annotated, making it difficult to isolate mechanisms of reasoning. To bridge this gap, we introduce a large-scale, fully open, complexity-annotated dataset of first-order logic reasoning traces, designed to probe and analyze algorithmic reasoning in LLMs. The dataset consists of 3.5 billion tokens, including 8.8 million LLM-augmented, human-annotated examples and 7.5 million synthetically generated examples. Each synthetic example is verifiably correct, produced by a custom automated theorem solver, and accompanied by metadata tracing its algorithmic provenance. We aim to provide a scalable, interpretable artifact for studying how LLMs learn and generalize symbolic reasoning processes, paving the way for more transparent and targeted investigations into the algorithmic capabilities of modern models.
- Abstract(参考訳): 変換器をベースとした大規模言語モデル (LLM) は, 数理問題からコモンセンス推論へのコーディングや解法など, 顕著な推論能力を示した。
これらのタスクは複雑さによって異なるが、構造化情報の統合と計算にはモデルが必要である。
制御された実験を通してLCMの挙動をリバースエンジニアリングしようとする最近の試みにもかかわらず、これらのモデルがどのように複雑なアルゴリズムを内部化し実行するかについての理解は限られている。
進歩は、主に小さな研究や基本的な算術や文法的なパターンマッチングのような浅いタスクに限られている。
深い理解の障壁の1つは事前学習するデータの性質である -- 巨大で不均一で、しばしば注釈が下がらないため、推論のメカニズムを分離することは困難である。
このギャップを埋めるために、LLMのアルゴリズム推論を探索・解析するために設計された、大規模で完全にオープンで複雑に注釈付けされた一階論理推論トレースデータセットを導入する。
データセットは350億個のトークンで構成されており、これには880万個のLDMが付加され、人間によって注釈付けされたサンプルと、750万個の合成されたサンプルが含まれる。
それぞれの合成例は検証可能であり、カスタムの自動定理解法によって生成され、アルゴリズムの証明をトレースするメタデータが伴う。
我々は、LLMがシンボリック推論プロセスをどのように学習し、一般化するかを研究するためのスケーラブルで解釈可能なアーティファクトを提供することを目標とし、近代モデルのアルゴリズム能力についてより透明でターゲットとした調査を行う。
関連論文リスト
- Code Simulation as a Proxy for High-order Tasks in Large Language Models [6.71786454125056]
我々は、Large Language Models (LLM) の能力を評価するために、自然主義的および合成的推論タスクのペアを収集する。
我々は、プログラミングにおける共通構造を、自然主義的推論タスクの構成要素の1つとして活用する。
我々の貢献は、手作りの人間注記問題に対するスケーラブルな補完として、LLMの推論能力を総合的にテストすることの上に成り立っている。
論文 参考訳(メタデータ) (2025-02-05T19:30:28Z) - Unraveling Arithmetic in Large Language Models: The Role of Algebraic Structures [2.8311048083168657]
大型言語モデル (LLM) は顕著な数学的能力を示しており、主にチェーン・オブ・シント (CoT) のプロンプトによって駆動されている。
LLMは可換性や恒等性などの代数的構造を捉えることによって算術を学習する。
論文 参考訳(メタデータ) (2024-11-25T10:23:11Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。