Fugu-MT 論文翻訳(概要): FOLIO: Natural Language Reasoning with First-Order Logic

論文の概要: FOLIO: Natural Language Reasoning with First-Order Logic

arxiv url: http://arxiv.org/abs/2209.00840v1
Date: Fri, 2 Sep 2022 06:50:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-05 12:19:36.710558
Title: FOLIO: Natural Language Reasoning with First-Order Logic
Title（参考訳）: FOLIO: 一階論理による自然言語推論
Authors: Simeng Han, Hailey Schoelkopf, Yilun Zhao, Zhenting Qi, Martin Riddell, Luke Benson, Lucy Sun, Ekaterina Zubova, Yujie Qiao, Matthew Burtell, David Peng, Jonathan Fan, Yixin Liu, Brian Wong, Malcolm Sailor, Ansong Ni, Linyong Nan, Jungo Kasai, Tao Yu, Rui Zhang, Shafiq Joty, Alexander R. Fabbri, Wojciech Kryscinski, Xi Victoria Lin, Caiming Xiong, Dragomir Radev
Abstract要約: FOLIOは、一階述語論理(FOL)アノテーションを備えた自然言語(NL)の推論のためのデータセットである。 FOLペアは論理形式としてFOLを用いた新しいNL-FOL翻訳データセットを構成する。以上の結果から,GPT-3 davinciは,数発のプロンプトによるランダムな結果よりもわずかに優れていることがわかった。
参考スコア（独自算出の注目度）: 111.66631099683815
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present FOLIO, a human-annotated, open-domain, and logically complex and diverse dataset for reasoning in natural language (NL), equipped with first order logic (FOL) annotations. FOLIO consists of 1,435 examples (unique conclusions), each paired with one of 487 sets of premises which serve as rules to be used to deductively reason for the validity of each conclusion. The logical correctness of premises and conclusions is ensured by their parallel FOL annotations, which are automatically verified by our FOL inference engine. In addition to the main NL reasoning task, NL-FOL pairs in FOLIO automatically constitute a new NL-FOL translation dataset using FOL as the logical form. Our experiments on FOLIO systematically evaluate the FOL reasoning ability of supervised fine-tuning on medium-sized language models (BERT, RoBERTa) and few-shot prompting on large language models (GPT-NeoX, OPT, GPT-3, Codex). For NL-FOL translation, we experiment with GPT-3 and Codex. Our results show that one of the most capable Large Language Model (LLM) publicly available, GPT-3 davinci, achieves only slightly better than random results with few-shot prompting on a subset of FOLIO, and the model is especially bad at predicting the correct truth values for False and Unknown conclusions. Our dataset and code are available at https://github.com/Yale-LILY/FOLIO.
Abstract（参考訳）: 我々は、自然言語(NL)における推論のための、人間による注釈付き、オープンドメインで、論理的に複雑で多様なデータセットであるFOLIOについて述べる。 FOLIOは1,435の例(一意の結論)で構成され、それぞれが487の前提のうちの1つと組み合わせられ、それぞれの結論の妥当性を故意に推論するために使用される規則として機能する。前提と結論の論理的正当性は、並列FOLアノテーションによって保証され、FOL推論エンジンによって自動的に検証される。主要なNL推論タスクに加えて、FOLIOのNL-FOLペアは、FOLを論理形式とする新しいNL-FOL翻訳データセットを自動生成する。本研究では,中規模言語モデル (BERT, RoBERTa) と大規模言語モデル (GPT-NeoX, OPT, GPT-3, Codex) で微調整を指導するFOL推論能力を体系的に評価した。 NL-FOL翻訳では GPT-3 と Codex を用いて実験を行った。以上の結果から,最も有能な大規模言語モデル(LLM)の1つである GPT-3 davinci は,FOLIO のサブセットに数発のプロンプトを施したランダムな結果よりもわずかに優れており,False と Unknown の結論に対する正しい真理値の予測には特に不適当であることが示唆された。データセットとコードはhttps://github.com/Yale-LILY/FOLIO.comで公開されています。

関連論文リスト

Let's CONFER: A Dataset for Evaluating Natural Language Inference Models on CONditional InFERence and Presupposition [6.429761894240061]
本研究では,NLIモデルが条件文の推論をどのように処理するかを評価するための新しいデータセットであるConFERを紹介する。 2つの事前学習モデルを含む4つのNLIモデルの性能を評価し、条件付き推論への一般化について検討する。以上の結果から,NLIモデルは条件付き推論に苦慮し,既存のNLIデータセットの微調整が必ずしも性能を向上するとは限らないことが示唆された。
論文参考訳（メタデータ） (2025-06-06T14:42:20Z)
Making LLMs Reason? The Intermediate Language Problem in Neurosymbolic Approaches [49.567092222782435]
本稿では、ニューロシンボリックアプローチに適した形式言語表現を選択する問題である中間言語問題を紹介する。全体の精度は53.20%、実行精度は49.26%である。 GPT4o-mini LLMを使用すると、ProofWriterデータセットの全体的な精度が21.20%、50.50%向上する。
論文参考訳（メタデータ） (2025-02-24T14:49:52Z)
P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文参考訳（メタデータ） (2024-10-11T19:22:57Z)
Strategies for Improving NL-to-FOL Translation with LLMs: Data Generation, Incremental Fine-Tuning, and Verification [9.36179617282876]
GPT-4o を用いて ProofWriter データセットの高品質な FOL アノテーション付きサブセットを作成する。本稿では,LLaMA-2およびMistralモデル上でProofFOLを用いたProofWriterおよびProntoQAデータセットの最先端性能を示す。
論文参考訳（メタデータ） (2024-09-24T21:24:07Z)
Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study [0.0]
自然言語推論(NLI)は自然言語処理(NLP)の基盤である本研究では,ベンガル語のような低リソース言語におけるLLM(Large Language Models)の評価について検討した。
論文参考訳（メタデータ） (2024-05-05T13:57:05Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
Autoformalizing Natural Language to First-Order Logic: A Case Study in Logical Fallacy Detection [44.31755414036022]
自然言語をFOLに自動変換するフレームワークであるNL2FOLについて,Large Language Models (LLMs) を用いて段階的に導入する。本手法は,暗黙の背景知識の統合など,翻訳プロセスにおける重要な課題に対処する。ニューロシンボリックなアプローチでは、推論プロセスに対する解釈可能な洞察も提供し、モデル微調整やラベル付きトレーニングデータを必要とせずに堅牢性を示す。
論文参考訳（メタデータ） (2024-04-18T00:20:48Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文参考訳（メタデータ） (2023-12-13T00:52:15Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
Weakly Supervised Explainable Phrasal Reasoning with Neural Fuzzy Logic [24.868479255640718]
自然言語推論は,対象ラベルであるEntailment,Contradiction,Neutralの2つの文間の論理的関係を決定することを目的としている。ディープラーニングモデルは、NLIに対する一般的なアプローチとなっているが、解釈可能性と説明性は欠如している。本研究では,NLIの論理的推論の弱制御による説明可能性について論じる。
論文参考訳（メタデータ） (2021-09-18T13:04:23Z)
LIREx: Augmenting Language Inference with Relevant Explanation [1.4780878458667916]
自然言語説明(NLE)は、アノテータがラベルをデータインスタンスに割り当てる際の有理性を識別するデータアノテーションの一種である。 nlesは人間の推論をより良く捉えているが、自然言語推論にはあまり役に立たない。我々は、論理型説明生成器とインスタンスセレクタの両方を組み込んで、関連するNLEのみを選択する新しいフレームワーク LIREx を提案する。
論文参考訳（メタデータ） (2020-12-16T18:49:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。