論文の概要: Rulebreakers Challenge: Revealing a Blind Spot in Large Language Models' Reasoning with Formal Logic
- arxiv url: http://arxiv.org/abs/2410.16502v1
- Date: Mon, 21 Oct 2024 20:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:05.634727
- Title: Rulebreakers Challenge: Revealing a Blind Spot in Large Language Models' Reasoning with Formal Logic
- Title(参考訳): ルールブレーカーの挑戦:大言語モデルの形式論理による推論における盲点の発見
- Authors: Jason Chan, Robert Gaizauskas, Zhixue Zhao,
- Abstract要約: 本研究では,論理的含意が現実的に許容できる推論から分岐する事例を指す「ルールブレーカー(rulebreaker)」の概念を紹介する。
RULEBREAKERSは,ルールブレーカーと非ルールブレーカーを区別する大規模言語モデルの能力を評価するための新しいデータセットである。
- 参考スコア(独自算出の注目度): 3.0648414540406703
- License:
- Abstract: Formal logic has long been applied to natural language reasoning, but this approach can sometimes lead to conclusions that, while logically entailed, are factually inconsistent with the premises or are not typically inferred by humans. This study introduces the concept of "rulebreakers", which refers to instances where logical entailment diverges from factually acceptable inference. We present RULEBREAKERS, a novel dataset for evaluating Large Language Models' (LLMs) ability to distinguish between rulebreakers and non-rulebreakers. Focusing on modus tollens and disjunctive syllogism, we assess six state-of-the-art LLMs using RULEBREAKERS, measuring their performance in terms of token-level exact accuracy and model confidence. Our findings reveal that while most models perform poorly to moderately in recognizing rulebreakers, they demonstrate a latent ability to distinguish rulebreakers when assessed by their confidence levels. Further analysis suggests that the failure to recognize rulebreakers is potentially associated with the models' world knowledge and their attention distribution patterns. This research highlights the limitation of LLMs' reasoning capabilities, and contributes to the ongoing discussion on reasoning in LLMs.
- Abstract(参考訳): 形式論理は長年、自然言語の推論に応用されてきたが、このアプローチは、論理的には関係があるものの、実際は前提と矛盾しているか、通常人間によって推論されないという結論に導かれることがある。
本研究では,論理的含意が現実的に許容できる推論から分岐する事例を指す「ルールブレーカー(rulebreaker)」の概念を紹介する。
RULEBREAKERSは,ルールブレーカーと非ルールブレーカーを区別するLarge Language Models(LLM)能力を評価するための新しいデータセットである。
RULEBREAKERSを用いて6つの最先端LCMの評価を行い,トークンレベルの精度とモデルの信頼性を指標として評価した。
その結果、ほとんどのモデルでは、ルールブレーカーの認識において適度に性能が低いが、信頼度で評価すると、ルールブレーカーを識別する潜在能力を示すことがわかった。
さらに分析したところ、ルールブレーカーを認識できないことは、モデルの世界知識とその注意分布パターンと関連している可能性が示唆されている。
本研究は, LLMの推論能力の限界を強調し, LLMにおける推論に関する議論に寄与する。
関連論文リスト
- Benchmarking Defeasible Reasoning with Large Language Models -- Initial Experiments and Future Directions [0.36868085124383626]
本稿では,様々なデファシブルなルールベースの推論パターンに対応するベンチマークを提案する。
我々は、デファシブルなルールを大規模言語モデルに適したテキストに変換することで、デファシブルな論理推論のための既存のベンチマークを修正した。
そこで我々は,ChatGPTを用いた非単調な規則に基づく推論の予備実験を行い,デファジブル論理で定義された推論パターンと比較した。
論文 参考訳(メタデータ) (2024-10-16T12:36:23Z) - A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners [58.15511660018742]
本研究では,大規模言語モデル (LLM) が真の推論能力を持つかどうかを評価するための仮説検証フレームワークを提案する。
我々は,相補的な誤りとシロジカルな問題を特徴とする,注意深く制御された合成データセットを開発した。
論文 参考訳(メタデータ) (2024-06-16T19:22:53Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Towards Logically Consistent Language Models via Probabilistic Reasoning [14.317886666902822]
大規模言語モデル(LLM)は、自然言語理解および生成タスクのための有望な場所である。
LLMは、非現実的な情報を生成し、世界の信念を推論するよう促されたときに矛盾する傾向がある。
我々は,LLMが事実やルールの集合という形で,外部知識と整合性を持つように教える学習目標を導入する。
論文 参考訳(メタデータ) (2024-04-19T12:23:57Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。