論文の概要: Liar, Liar, Logical Mire: A Benchmark for Suppositional Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.12546v2
- Date: Mon, 07 Oct 2024 19:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:22.912784
- Title: Liar, Liar, Logical Mire: A Benchmark for Suppositional Reasoning in Large Language Models
- Title(参考訳): 嘘、嘘、論理的ミス:大規模言語モデルにおける仮定推論のベンチマーク
- Authors: Philipp Mondorf, Barbara Plank,
- Abstract要約: 我々は騎士とナイフパズルの原理に基づく仮定推論のベンチマークである$textitTruthQuest$を紹介した。
評価の結果、Llama 3やMixtral-8x7Bのような大規模言語モデルはこれらのタスクを解くのにかなりの困難を呈している。
- 参考スコア(独自算出の注目度): 25.732397636695882
- License:
- Abstract: Knights and knaves problems represent a classic genre of logical puzzles where characters either tell the truth or lie. The objective is to logically deduce each character's identity based on their statements. The challenge arises from the truth-telling or lying behavior, which influences the logical implications of each statement. Solving these puzzles requires not only direct deductions from individual statements, but the ability to assess the truthfulness of statements by reasoning through various hypothetical scenarios. As such, knights and knaves puzzles serve as compelling examples of suppositional reasoning. In this paper, we introduce $\textit{TruthQuest}$, a benchmark for suppositional reasoning based on the principles of knights and knaves puzzles. Our benchmark presents problems of varying complexity, considering both the number of characters and the types of logical statements involved. Evaluations on $\textit{TruthQuest}$ show that large language models like Llama 3 and Mixtral-8x7B exhibit significant difficulties solving these tasks. A detailed error analysis of the models' output reveals that lower-performing models exhibit a diverse range of reasoning errors, frequently failing to grasp the concept of truth and lies. In comparison, more proficient models primarily struggle with accurately inferring the logical implications of potentially false statements.
- Abstract(参考訳): ナイトとナイフの問題は、登場人物が真実を語るか嘘をつくという古典的な論理パズルのジャンルを表している。
目的は、各キャラクタの主張に基づいて、各キャラクタのアイデンティティを論理的に推論することである。
この課題は、それぞれの言明の論理的意味に影響を及ぼす真理と嘘の行動から生じる。
これらのパズルを解くには、個々の言明から直接引き起こされるだけでなく、様々な仮説のシナリオを通して説明の真理性を評価する能力が必要である。
そのため、騎士やナイフのパズルは仮定推論の説得力のある例である。
本稿では,騎士とナイフパズルの原理に基づく仮定推論のベンチマークである$\textit{TruthQuest}$を紹介する。
本ベンチマークでは,文字数と関連する論理文の種類を考慮し,様々な複雑さの問題を提示する。
$\textit{TruthQuest}$の評価によると、Llama 3やMixtral-8x7Bのような大きな言語モデルはこれらのタスクを解くのにかなりの困難を示している。
モデル出力の詳細な誤差解析により、低性能モデルは様々な推論誤差を示し、しばしば真実と嘘の概念を理解できないことが明らかになった。
対照的に、より熟練したモデルは、潜在的に偽の言明の論理的含意を正確に推測することに苦慮している。
関連論文リスト
- On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - NL2FOL: Translating Natural Language to First-Order Logic for Logical Fallacy Detection [45.28949266878263]
本研究では,自然言語を一階論理に変換することによって,論理的誤りを確実に検出する手法を設計する。
次に、満足度モデュロ理論(SMT)を用いて、式の有効性を推論する。
私たちのアプローチは堅牢で解釈可能で、トレーニングデータや微調整は必要ありません。
論文 参考訳(メタデータ) (2024-04-18T00:20:48Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - Empower Nested Boolean Logic via Self-Supervised Curriculum Learning [67.46052028752327]
大規模言語モデルを含む事前学習された言語モデルは、多言語論理に直面するランダムセレクタのように振る舞う。
この基本的能力で言語モデルを強化するために,本稿では,新たな自己教師付き学習手法であるtextitCurriculum Logical Reasoning (textscClr) を提案する。
論文 参考訳(メタデータ) (2023-10-09T06:54:02Z) - Measuring reasoning capabilities of ChatGPT [1.3597551064547502]
推論タスクに適用した場合、ChatGPTが生成する論理的欠陥を定量化する。
この図書館には算術パズル、論理方程式、スドゥークのようなパズル、ゼブラのようなパズル、真理を解き明かすパズル、グリッドパズル、奇数、自己参照パズルなど、様々な種類のパズルが含まれている。
論文 参考訳(メタデータ) (2023-10-08T20:18:50Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z) - Logic Embeddings for Complex Query Answering [56.25151854231117]
skolemisationを用いて効率的なクエリのための存在変数を排除する、複雑なクエリを組み込む新しいアプローチであるlogic embeddedsを提案する。
論理組込みは,大規模で不完全な知識グラフ上でのクエリ応答において競争的に高速かつ正確であり,否定的問合せよりも優れており,特に回答の不確かさのモデリングが向上している。
論文 参考訳(メタデータ) (2021-02-28T07:52:37Z) - Notes on neighborhood semantics for logics of unknown truths and false
beliefs [1.827510863075184]
我々は、近隣のセマンティクスの下で未知の真実と偽の信念の論理を研究する。
それらは、近隣モデルの様々なクラスに比較できないことが判明した。
結果を公開発表の場合に拡張する。
論文 参考訳(メタデータ) (2020-02-22T04:27:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。