Fugu-MT 論文翻訳(概要): RobustLR: Evaluating Robustness to Logical Perturbation in Deductive Reasoning

論文の概要: RobustLR: Evaluating Robustness to Logical Perturbation in Deductive Reasoning

arxiv url: http://arxiv.org/abs/2205.12598v1
Date: Wed, 25 May 2022 09:23:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-27 05:11:47.709725
Title: RobustLR: Evaluating Robustness to Logical Perturbation in Deductive Reasoning
Title（参考訳）: RobustLR:推論における論理的摂動に対するロバスト性の評価
Authors: Soumya Sanyal, Zeyi Liao, Xiang Ren
Abstract要約: トランスフォーマーは、英語の自然言語で書かれた規則や文を含む論理ルールベースで演能的推論を実行できることが示されている。本稿では,ルールベースにおける最小論理編集に対して,これらのモデルのロバスト性を評価するためにロバストLRを提案する。先行研究で訓練されたモデルは、ロバストLRの異なる摂動に対して一貫して動作しないことがわかった。
参考スコア（独自算出の注目度）: 25.319674132967553
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have been shown to be able to perform deductive reasoning on a logical rulebase containing rules and statements written in English natural language. While the progress is promising, it is currently unclear if these models indeed perform logical reasoning by understanding the underlying logical semantics in the language. To this end, we propose RobustLR, a suite of evaluation datasets that evaluate the robustness of these models to minimal logical edits in rulebases and some standard logical equivalence conditions. In our experiments with RoBERTa and T5, we find that the models trained in prior works do not perform consistently on the different perturbations in RobustLR, thus showing that the models are not robust to the proposed logical perturbations. Further, we find that the models find it especially hard to learn logical negation and disjunction operators. Overall, using our evaluation sets, we demonstrate some shortcomings of the deductive reasoning-based language models, which can eventually help towards designing better models for logical reasoning over natural language.
Abstract（参考訳）: トランスフォーマーは、英語の自然言語で書かれた規則や文を含む論理的ルールベースで推論を行うことができる。進歩は有望であるが、これらのモデルが言語の基本となる論理的意味論を理解することによって論理的推論を行うかどうかは現在不明である。そこで本研究では,これらのモデルのロバスト性を評価し,ルールベースと標準論理同値条件における論理編集を最小化するための評価データセットであるロバストlrを提案する。 RoBERTa と T5 を用いて行った実験では、先行研究で訓練されたモデルはロバストLR の異なる摂動に対して一貫した性能が得られず、提案した論理摂動に対してモデルが堅牢でないことを示す。さらに、モデルが特に論理否定や解離作用素の学習が困難であることが分かる。総合的に評価セットを用いて、帰納的推論に基づく言語モデルの欠点をいくつか示し、最終的には自然言語に対する論理的推論のためのより良いモデルの設計に役立てることができる。

関連論文リスト

Parameterized Argumentation-based Reasoning Tasks for Benchmarking Generative Language Models [1.249418440326334]
法域におけるツールとしての生成可能な大規模言語モデルは、司法システムを改善する可能性がある。しかし、現在の生成モデルの推論行動は脆く理解が不十分であるため、法と証拠の領域に責任を負うことはできない。生成言語モデルの推論能力を評価するために,ベンチマークを作成するためのアプローチを導入する。
論文参考訳（メタデータ） (2025-05-02T19:04:34Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
Benchmarking Defeasible Reasoning with Large Language Models -- Initial Experiments and Future Directions [0.36868085124383626]
本稿では,様々なデファシブルなルールベースの推論パターンに対応するベンチマークを提案する。我々は、デファシブルなルールを大規模言語モデルに適したテキストに変換することで、デファシブルな論理推論のための既存のベンチマークを修正した。そこで我々は,ChatGPTを用いた非単調な規則に基づく推論の予備実験を行い,デファジブル論理で定義された推論パターンと比較した。
論文参考訳（メタデータ） (2024-10-16T12:36:23Z)
Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents [3.5083201638203154]
Logic-Enhanced Language Model Agents (LELMA) は、大きな言語モデルと形式論理を統合するフレームワークである。 LeLMAは自動形式化を用いて推論を論理表現に変換し、論理的妥当性を評価する。 LeLMAはエラー検出の精度が高く,自己修正による推論精度の向上を実現している。
論文参考訳（メタデータ） (2024-08-28T18:25:35Z)
Scaling Synthetic Logical Reasoning Datasets with Context-Sensitive Declarative Grammars [0.6537995248511139]
複数の言語を結合するフレキシブルなコンテキスト依存ルールを持つ宣言型フレームワークを提案する。最大32の前提と1つの仮説を選択して一階述語論理問題を構築する。生成中の意味的制約と述語に対する注意深い英語の動詞化は、自然な英語のタスクを損なうことなく論理的推論を促進することを実証する。
論文参考訳（メタデータ） (2024-06-16T18:10:49Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。 LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文参考訳（メタデータ） (2023-11-10T16:23:50Z)
Empower Nested Boolean Logic via Self-Supervised Curriculum Learning [67.46052028752327]
大規模言語モデルを含む事前学習された言語モデルは、多言語論理に直面するランダムセレクタのように振る舞う。この基本的能力で言語モデルを強化するために,本稿では,新たな自己教師付き学習手法であるtextitCurriculum Logical Reasoning (textscClr) を提案する。
論文参考訳（メタデータ） (2023-10-09T06:54:02Z)
LogiGAN: Learning Logical Reasoning via Adversarial Pre-training [58.11043285534766]
本稿では,言語モデルの論理的推論能力を向上させるために,教師なしの対人事前学習フレームワークLogiGANを提案する。人間の学習におけるリフレクティブ思考の促進効果に着想を得て,逆生成検証アーキテクチャを用いて学習思考過程をシミュレートする。 LogiGANで事前トレーニングされたベースモデルと大規模言語モデルの両方で、12のデータセットで明らかなパフォーマンス改善が示されている。
論文参考訳（メタデータ） (2022-05-18T08:46:49Z)
FaiRR: Faithful and Robust Deductive Reasoning over Natural Language [25.319674132967553]
規則選択、事実選択、知識構成という3つのモジュラーコンポーネントを定義することで、帰納的論理的推論タスクをフレーム化する。我々は、FaiRRが新しい言語の摂動に対して堅牢であり、既存の推論データセットの以前の研究よりも推論が速いことを観察した。
論文参考訳（メタデータ） (2022-03-19T07:18:13Z)
Neuro-Symbolic Inductive Logic Programming with Logical Neural Networks [65.23508422635862]
我々は最近提案された論理ニューラルネットワーク(LNN)を用いた学習規則を提案する。他のものと比較して、LNNは古典的なブール論理と強く結びついている。標準ベンチマークタスクの実験では、LNNルールが極めて解釈可能であることを確認した。
論文参考訳（メタデータ） (2021-12-06T19:38:30Z)
Flexible Operations for Natural Language Deduction [32.92866195461153]
ParaPatternは、人間の直接の監督なしに様々な自然言語入力の論理変換を生成するモデルを構築する方法である。我々は、BARTベースのモデルを用いて、特定の論理演算を1つ以上の前提文に適用した結果を生成する。対象とするコントラストセットと、qascデータセットからのドメイン外文合成を用いてモデルを評価する。
論文参考訳（メタデータ） (2021-04-18T11:36:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。