論文の概要: FOLIO: Natural Language Reasoning with First-Order Logic
- arxiv url: http://arxiv.org/abs/2209.00840v1
- Date: Fri, 2 Sep 2022 06:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:19:36.710558
- Title: FOLIO: Natural Language Reasoning with First-Order Logic
- Title(参考訳): FOLIO: 一階論理による自然言語推論
- Authors: Simeng Han, Hailey Schoelkopf, Yilun Zhao, Zhenting Qi, Martin
Riddell, Luke Benson, Lucy Sun, Ekaterina Zubova, Yujie Qiao, Matthew
Burtell, David Peng, Jonathan Fan, Yixin Liu, Brian Wong, Malcolm Sailor,
Ansong Ni, Linyong Nan, Jungo Kasai, Tao Yu, Rui Zhang, Shafiq Joty,
Alexander R. Fabbri, Wojciech Kryscinski, Xi Victoria Lin, Caiming Xiong,
Dragomir Radev
- Abstract要約: FOLIOは、一階述語論理(FOL)アノテーションを備えた自然言語(NL)の推論のためのデータセットである。
FOLペアは論理形式としてFOLを用いた新しいNL-FOL翻訳データセットを構成する。
以上の結果から,GPT-3 davinciは,数発のプロンプトによるランダムな結果よりもわずかに優れていることがわかった。
- 参考スコア(独自算出の注目度): 111.66631099683815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FOLIO, a human-annotated, open-domain, and logically complex and
diverse dataset for reasoning in natural language (NL), equipped with first
order logic (FOL) annotations. FOLIO consists of 1,435 examples (unique
conclusions), each paired with one of 487 sets of premises which serve as rules
to be used to deductively reason for the validity of each conclusion. The
logical correctness of premises and conclusions is ensured by their parallel
FOL annotations, which are automatically verified by our FOL inference engine.
In addition to the main NL reasoning task, NL-FOL pairs in FOLIO automatically
constitute a new NL-FOL translation dataset using FOL as the logical form. Our
experiments on FOLIO systematically evaluate the FOL reasoning ability of
supervised fine-tuning on medium-sized language models (BERT, RoBERTa) and
few-shot prompting on large language models (GPT-NeoX, OPT, GPT-3, Codex). For
NL-FOL translation, we experiment with GPT-3 and Codex. Our results show that
one of the most capable Large Language Model (LLM) publicly available, GPT-3
davinci, achieves only slightly better than random results with few-shot
prompting on a subset of FOLIO, and the model is especially bad at predicting
the correct truth values for False and Unknown conclusions. Our dataset and
code are available at https://github.com/Yale-LILY/FOLIO.
- Abstract(参考訳): 我々は、自然言語(NL)における推論のための、人間による注釈付き、オープンドメインで、論理的に複雑で多様なデータセットであるFOLIOについて述べる。
FOLIOは1,435の例(一意の結論)で構成され、それぞれが487の前提のうちの1つと組み合わせられ、それぞれの結論の妥当性を故意に推論するために使用される規則として機能する。
前提と結論の論理的正当性は、並列FOLアノテーションによって保証され、FOL推論エンジンによって自動的に検証される。
主要なNL推論タスクに加えて、FOLIOのNL-FOLペアは、FOLを論理形式とする新しいNL-FOL翻訳データセットを自動生成する。
本研究では,中規模言語モデル (BERT, RoBERTa) と大規模言語モデル (GPT-NeoX, OPT, GPT-3, Codex) で微調整を指導するFOL推論能力を体系的に評価した。
NL-FOL翻訳では GPT-3 と Codex を用いて実験を行った。
以上の結果から,最も有能な大規模言語モデル(LLM)の1つである GPT-3 davinci は,FOLIO のサブセットに数発のプロンプトを施したランダムな結果よりもわずかに優れており,False と Unknown の結論に対する正しい真理値の予測には特に不適当であることが示唆された。
データセットとコードはhttps://github.com/Yale-LILY/FOLIO.comで公開されています。
関連論文リスト
- P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification [9.36179617282876]
GPT-4o を用いて ProofWriter データセットの高品質な FOL アノテーション付きサブセットを作成する。
本稿では,LLaMA-2およびMistralモデル上でProofFOLを用いたProofWriterおよびProntoQAデータセットの最先端性能を示す。
論文 参考訳(メタデータ) (2024-09-24T21:24:07Z) - Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study [0.0]
自然言語推論(NLI)は自然言語処理(NLP)の基盤である
本研究では,ベンガル語のような低リソース言語におけるLLM(Large Language Models)の評価について検討した。
論文 参考訳(メタデータ) (2024-05-05T13:57:05Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Weakly Supervised Explainable Phrasal Reasoning with Neural Fuzzy Logic [24.868479255640718]
自然言語推論は,対象ラベルであるEntailment,Contradiction,Neutralの2つの文間の論理的関係を決定することを目的としている。
ディープラーニングモデルは、NLIに対する一般的なアプローチとなっているが、解釈可能性と説明性は欠如している。
本研究では,NLIの論理的推論の弱制御による説明可能性について論じる。
論文 参考訳(メタデータ) (2021-09-18T13:04:23Z) - LIREx: Augmenting Language Inference with Relevant Explanation [1.4780878458667916]
自然言語説明(NLE)は、アノテータがラベルをデータインスタンスに割り当てる際の有理性を識別するデータアノテーションの一種である。
nlesは人間の推論をより良く捉えているが、自然言語推論にはあまり役に立たない。
我々は、論理型説明生成器とインスタンスセレクタの両方を組み込んで、関連するNLEのみを選択する新しいフレームワーク LIREx を提案する。
論文 参考訳(メタデータ) (2020-12-16T18:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。