論文の概要: Logical Consistency of Large Language Models in Fact-checking
- arxiv url: http://arxiv.org/abs/2412.16100v1
- Date: Fri, 20 Dec 2024 17:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:24:11.961988
- Title: Logical Consistency of Large Language Models in Fact-checking
- Title(参考訳): ファクトチェックにおける大規模言語モデルの論理的一貫性
- Authors: Bishwamittra Ghosh, Sarah Hasan, Naheed Anjum Arafat, Arijit Khan,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語タスクを実行する上で大きな成功を収めている。
人間のようなテキストを生成する素晴らしい能力にもかかわらず、LLMは一貫性のない反応で悪名高い。
- 参考スコア(独自算出の注目度): 6.286017217366497
- License:
- Abstract: In recent years, large language models (LLMs) have demonstrated significant success in performing varied natural language tasks such as language translation, question-answering, summarizing, fact-checking, etc. Despite LLMs' impressive ability to generate human-like texts, LLMs are infamous for their inconsistent responses -- a meaning-preserving change in the input query results in an inconsistent response and attributes to vulnerabilities of LLMs such as hallucination, jailbreaking, etc. Consequently, existing research focuses on simple paraphrasing-based consistency assessment of LLMs, and ignores complex queries that necessitates an even better understanding of logical reasoning by an LLM. Our work therefore addresses the logical inconsistency of LLMs under complex logical queries with primitive logical operators, e.g., negation, conjunction, and disjunction. As a test bed, we consider retrieval-augmented LLMs on a fact-checking task involving propositional logic queries from real-world knowledge graphs (KGs). Our contributions are three-fold. Benchmark: We introduce three logical fact-checking datasets over KGs for community development towards logically consistent LLMs. Assessment: We propose consistency measures of LLMs on propositional logic queries as input and demonstrate that existing LLMs lack logical consistency, specially on complex queries. Improvement: We employ supervised fine-tuning to improve the logical consistency of LLMs on the complex fact-checking task with KG contexts.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)は,言語翻訳や質問応答,要約,ファクトチェックなど,さまざまな自然言語タスクの実行において大きな成功を収めている。
LLMが人間のようなテキストを生成するという印象的な能力にもかかわらず、LLMは不整合性レスポンスで悪名高い -- 入力クエリにおける意味保存的な変更は、不整合応答と幻覚、ジェイルブレイクなどのLLMの脆弱性に対する属性をもたらす。
その結果、従来の研究はLLMの単純なパラフレーズに基づく一貫性評価に重点を置いており、LLMによる論理的推論をよりよく理解する必要のある複雑なクエリを無視している。
したがって, LLMの論理的整合性は, 論理的論理演算子(例えば, 否定, 接続, 解離)と複雑な論理的クエリーの論理的整合性に対処する。
実世界の知識グラフ(KGs)からの命題論理クエリを含むファクトチェックタスクにおいて,検索強化 LLM について検討する。
私たちの貢献は3倍です。
ベンチマーク: コミュニティ開発のための3つの論理的事実チェックデータセットを論理的に一貫したLCMに導入する。
評価: 提案する論理的クエリに対するLLMの一貫性を入力として提案し, 既存のLLMが論理的一貫性を欠いていることを示す。
改良: 教師付き微調整を用いて, KGコンテキストを用いた複雑な事実チェックタスクにおいて, LLMの論理的整合性を改善する。
関連論文リスト
- RuAG: Learned-rule-augmented Generation for Large Language Models [62.64389390179651]
本稿では,大量のオフラインデータを解釈可能な一階述語論理規則に自動抽出する新しいフレームワーク,RuAGを提案する。
我々は,自然言語処理,時系列,意思決定,産業タスクなど,公共および民間の産業タスクに関する枠組みを評価する。
論文 参考訳(メタデータ) (2024-11-04T00:01:34Z) - LOGIC-LM++: Multi-Step Refinement for Symbolic Formulations [1.024113475677323]
本稿では Logic-LM++ を改良した Logic-LM++ を提案する。
LLMの機能をペアで比較し、LLMが提案する改善点の評価を可能にする。
論文 参考訳(メタデータ) (2024-06-22T12:50:41Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Can Language Models Pretend Solvers? Logic Code Simulation with LLMs [3.802945676202634]
トランスフォーマーベースの大規模言語モデル(LLM)は、論理問題に対処する上で大きな可能性を示している。
この研究は、論理コードシミュレーションという新しい側面に発展し、論理プログラムの結果を予測するために論理解法をエミュレートするよう LLM に強制する。
論文 参考訳(メタデータ) (2024-03-24T11:27:16Z) - Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。
LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文 参考訳(メタデータ) (2024-02-19T12:12:35Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。