論文の概要: FOLIO: Natural Language Reasoning with First-Order Logic
- arxiv url: http://arxiv.org/abs/2209.00840v3
- Date: Fri, 11 Oct 2024 20:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:03:21.729125
- Title: FOLIO: Natural Language Reasoning with First-Order Logic
- Title(参考訳): FOLIO: 一階論理による自然言語推論
- Authors: Simeng Han, Hailey Schoelkopf, Yilun Zhao, Zhenting Qi, Martin Riddell, Wenfei Zhou, James Coady, David Peng, Yujie Qiao, Luke Benson, Lucy Sun, Alex Wardle-Solano, Hannah Szabo, Ekaterina Zubova, Matthew Burtell, Jonathan Fan, Yixin Liu, Brian Wong, Malcolm Sailor, Ansong Ni, Linyong Nan, Jungo Kasai, Tao Yu, Rui Zhang, Alexander R. Fabbri, Wojciech Kryscinski, Semih Yavuz, Ye Liu, Xi Victoria Lin, Shafiq Joty, Yingbo Zhou, Caiming Xiong, Rex Ying, Arman Cohan, Dragomir Radev,
- Abstract要約: 我々は、自然言語(NL)における推論のための人間注釈付き、論理的に複雑で多様なデータセットであるFOLIOを提示する。
FOLIOは1,430の例(一意の結論)で構成され、それぞれが487の前提のうちの1つと組み合わせて、それぞれの結論の妥当性を導出的に推論する。
NL推論とNL-FOL変換の両方において、複数の最先端言語モデルをベンチマークする。
- 参考スコア(独自算出の注目度): 147.50480350846726
- License:
- Abstract: Large language models (LLMs) have achieved remarkable performance on a variety of natural language understanding tasks. However, existing benchmarks are inadequate in measuring the complex logical reasoning capabilities of a model. We present FOLIO, a human-annotated, logically complex and diverse dataset for reasoning in natural language (NL), equipped with first-order logic (FOL) annotations. FOLIO consists of 1,430 examples (unique conclusions), each paired with one of 487 sets of premises used to deductively reason for the validity of each conclusion. The logical correctness of the premises and conclusions is ensured by their FOL annotations, which are automatically verified by an FOL inference engine. In addition to the main NL reasoning task, NL-FOL pairs in FOLIO constitute a new NL-FOL translation dataset. Our experiments on FOLIO systematically evaluate the FOL reasoning ability of supervised fine-tuning on medium-sized language models. For both NL reasoning and NL-FOL translation, we benchmark multiple state-of-the-art language models. Our results show that a subset of FOLIO presents a challenge for one of the most capable {Large Language Model (LLM)} publicly available, GPT-4.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著なパフォーマンスを達成した。
しかし、既存のベンチマークはモデルの複雑な論理的推論能力を測定するのに不十分である。
我々は、自然言語(NL)における推論のための人間注釈付き、論理的に複雑で多様なデータセットであるFOLIOを、一階述語論理(FOL)アノテーションを備える。
FOLIOは1,430の例(一意の結論)で構成され、それぞれが487の前提のうちの1つと組み合わせて、それぞれの結論の妥当性を導出的に推論する。
前提と結論の論理的正しさはFOLアノテーションによって保証され、FOL推論エンジンによって自動的に検証される。
主要なNL推論タスクに加えて、FOLIOのNL-FOLペアは、新しいNL-FOL翻訳データセットを構成する。
FOLIOに関する実験は,中規模言語モデルにおける教師付き微調整のFOL推論能力を体系的に評価する。
NL推論とNL-FOL変換の両方において、複数の最先端言語モデルをベンチマークする。
以上の結果から,FOLIOのサブセットは,最も有能な言語モデル(LLM)の1つであるGPT-4の課題であることがわかった。
関連論文リスト
- P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification [9.36179617282876]
GPT-4o を用いて ProofWriter データセットの高品質な FOL アノテーション付きサブセットを作成する。
本稿では,LLaMA-2およびMistralモデル上でProofFOLを用いたProofWriterおよびProntoQAデータセットの最先端性能を示す。
論文 参考訳(メタデータ) (2024-09-24T21:24:07Z) - Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study [0.0]
自然言語推論(NLI)は自然言語処理(NLP)の基盤である
本研究では,ベンガル語のような低リソース言語におけるLLM(Large Language Models)の評価について検討した。
論文 参考訳(メタデータ) (2024-05-05T13:57:05Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Weakly Supervised Explainable Phrasal Reasoning with Neural Fuzzy Logic [24.868479255640718]
自然言語推論は,対象ラベルであるEntailment,Contradiction,Neutralの2つの文間の論理的関係を決定することを目的としている。
ディープラーニングモデルは、NLIに対する一般的なアプローチとなっているが、解釈可能性と説明性は欠如している。
本研究では,NLIの論理的推論の弱制御による説明可能性について論じる。
論文 参考訳(メタデータ) (2021-09-18T13:04:23Z) - LIREx: Augmenting Language Inference with Relevant Explanation [1.4780878458667916]
自然言語説明(NLE)は、アノテータがラベルをデータインスタンスに割り当てる際の有理性を識別するデータアノテーションの一種である。
nlesは人間の推論をより良く捉えているが、自然言語推論にはあまり役に立たない。
我々は、論理型説明生成器とインスタンスセレクタの両方を組み込んで、関連するNLEのみを選択する新しいフレームワーク LIREx を提案する。
論文 参考訳(メタデータ) (2020-12-16T18:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。