論文の概要: On the logical skills of large language models: evaluations using arbitrarily complex first-order logic problems
- arxiv url: http://arxiv.org/abs/2502.14180v1
- Date: Thu, 20 Feb 2025 01:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:30.364667
- Title: On the logical skills of large language models: evaluations using arbitrarily complex first-order logic problems
- Title(参考訳): 大規模言語モデルの論理的スキルについて:任意に複雑な一階述語論理問題を用いた評価
- Authors: Shokhrukh Ibragimov, Arnulf Jentzen, Benno Kuckuck,
- Abstract要約: 複雑度を複数の次元に沿って制御できる一階述語論理文を生成する方法を提案する。
この手法を用いて、一階述語論理文の真偽や真偽を問う質問からなる複数のデータセットを自動生成する。
- 参考スコア(独自算出の注目度): 3.6185342807265415
- License:
- Abstract: We present a method of generating first-order logic statements whose complexity can be controlled along multiple dimensions. We use this method to automatically create several datasets consisting of questions asking for the truth or falsity of first-order logic statements in Zermelo-Fraenkel set theory. While the resolution of these questions does not require any knowledge beyond basic notation of first-order logic and set theory, it does require a degree of planning and logical reasoning, which can be controlled up to arbitrarily high difficulty by the complexity of the generated statements. Furthermore, we do extensive evaluations of the performance of various large language models, including recent models such as DeepSeek-R1 and OpenAI's o3-mini, on these datasets. All of the datasets along with the code used for generating them, as well as all data from the evaluations is publicly available at https://github.com/bkuckuck/logical-skills-of-llms.
- Abstract(参考訳): 複雑度を複数の次元に沿って制御できる一階述語論理文を生成する方法を提案する。
本研究では,Zermelo-Fraenkel集合論における一階論理文の真偽を問う質問からなる複数のデータセットを自動生成する手法を提案する。
これらの疑問の解決には、一階述語論理と集合論の基本的な表記以上の知識は必要ないが、計画と論理的推論の程度は必要であり、生成されたステートメントの複雑さによって任意に高い難易度に制御できる。
さらに、これらのデータセット上で、DeepSeek-R1やOpenAIのo3-miniといった最近のモデルを含む、さまざまな大規模言語モデルのパフォーマンスを広範囲に評価する。
データセットとそれらを生成するコードと、評価から得られるすべてのデータは、https://github.com/bkuckuck/logical-skills-of-llmsで公開されている。
関連論文リスト
- A Semantic Parsing Algorithm to Solve Linear Ordering Problems [2.23890712706409]
線形順序付け問題を意味論的に解析するアルゴリズムを開発した。
提案手法は,複数の前提文と候補文を入力として扱う。
次に、制約論理プログラミングを用いて、注文に関する提案された文の真相を推測する。
論文 参考訳(メタデータ) (2025-02-12T13:58:42Z) - Transformer-based Language Models for Reasoning in the Description Logic ALCQ [2.8210912543324658]
自然言語のデータセット DELTA$_D$ を表現型記述論理言語 $mathcalALCQ$ を使って構築する。
教師付き細調整DeBERTaモデルと2つの大言語モデルの論理的推論能力について検討する。
データセットに微調整されたDeBERTaベースのモデルが、詳細チェックタスクをマスターできることを示します。
論文 参考訳(メタデータ) (2024-10-12T18:25:34Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
大規模言語モデル(LLM)に基づくKG上の複雑な推論スキーマを提案する。
任意の一階論理クエリを二分木分解により拡張し、LLMの推論能力を刺激する。
広く使われているデータセットに対する実験では、LACTは高度な手法よりも大幅に改善されている(平均+5.5% MRRスコア)。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Assessing Logical Reasoning Capabilities of Encoder-Only Transformer Models [0.13194391758295113]
本稿では,エンコーダのみのトランスフォーマー言語モデル (LM) が論理規則に従ってどの程度理にかなっているかを検討する。
様々なデータセットの論理的妥当性を決定するために,エンコーダのみのLMを適度に訓練できることを示す。
これらのデータセット上で微調整されたモデルをクロスプロブすることで、LMはそれらの仮定的論理的推論能力の伝達が困難であることを示す。
論文 参考訳(メタデータ) (2023-12-18T21:42:34Z) - Empower Nested Boolean Logic via Self-Supervised Curriculum Learning [67.46052028752327]
大規模言語モデルを含む事前学習された言語モデルは、多言語論理に直面するランダムセレクタのように振る舞う。
この基本的能力で言語モデルを強化するために,本稿では,新たな自己教師付き学習手法であるtextitCurriculum Logical Reasoning (textscClr) を提案する。
論文 参考訳(メタデータ) (2023-10-09T06:54:02Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z) - Logic-Driven Context Extension and Data Augmentation for Logical
Reasoning of Text [65.24325614642223]
論理的な記号や表現をテキストで理解し、答えにたどり着くよう提案します。
このような論理的情報に基づいて,文脈拡張フレームワークとデータ拡張アルゴリズムを提案する。
本手法は最先端の性能を実現し,論理駆動コンテキスト拡張フレームワークとデータ拡張アルゴリズムの両方が精度向上に寄与する。
論文 参考訳(メタデータ) (2021-05-08T10:09:36Z) - Logic2Text: High-Fidelity Natural Language Generation from Logical Forms [84.5687465831598]
我々は、制御可能、高忠実、忠実な世代を得るため、論理形式から生成する論理レベル NLG を定式化する。
提案する大規模データセットは TextscLogic2Text で,10,753 個の共通論理型を基礎となる論理形式と組み合わせて記述する。
論文 参考訳(メタデータ) (2020-04-30T04:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。