論文の概要: MultiHoax: A Dataset of Multi-hop False-Premise Questions
- arxiv url: http://arxiv.org/abs/2506.00264v1
- Date: Fri, 30 May 2025 21:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.623795
- Title: MultiHoax: A Dataset of Multi-hop False-Premise Questions
- Title(参考訳): MultiHoax: マルチホップのFalse-Premise質問のデータセット
- Authors: Mohammadamin Shafiei, Hamidreza Saffari, Nafise Sadat Moosavi,
- Abstract要約: 我々はMultiHoaxを紹介した。これは、複雑で多段階の推論タスクにおいて、偽の前提を扱う大規模言語モデルの性能を評価するためのベンチマークである。
我々のデータセットは7つの国と10の多様な知識カテゴリにまたがっており、ウィキペディアを主要な知識源としています。
実験によると、最先端のLLMは、異なる国、知識カテゴリ、マルチホップ推論タイプで偽の前提を検出するのに苦労している。
- 参考スコア(独自算出の注目度): 10.301985230669684
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As Large Language Models are increasingly deployed in high-stakes domains, their ability to detect false assumptions and reason critically is crucial for ensuring reliable outputs. False-premise questions (FPQs) serve as an important evaluation method by exposing cases where flawed assumptions lead to incorrect responses. While existing benchmarks focus on single-hop FPQs, real-world reasoning often requires multi-hop inference, where models must verify consistency across multiple reasoning steps rather than relying on surface-level cues. To address this gap, we introduce MultiHoax, a benchmark for evaluating LLMs' ability to handle false premises in complex, multi-step reasoning tasks. Our dataset spans seven countries and ten diverse knowledge categories, using Wikipedia as the primary knowledge source to enable factual reasoning across regions. Experiments reveal that state-of-the-art LLMs struggle to detect false premises across different countries, knowledge categories, and multi-hop reasoning types, highlighting the need for improved false premise detection and more robust multi-hop reasoning capabilities in LLMs.
- Abstract(参考訳): 大規模言語モデルは、高レベルのドメインにますますデプロイされるので、信頼されたアウトプットを保証するために、誤った仮定や理由を検知する能力は不可欠である。
FPQ(False-premises Question)は、不適切な仮定が誤った反応をもたらすケースを明らかにすることで重要な評価手法として機能する。
既存のベンチマークではシングルホップのFPQに重点を置いているが、現実の推論にはマルチホップ推論が必要な場合が多い。
このギャップに対処するため、複雑なマルチステップ推論タスクにおいて、LLMが誤った前提を扱う能力を評価するためのベンチマークであるMultiHoaxを紹介した。
我々のデータセットは7つの国と10の多様な知識カテゴリにまたがっており、Wikipediaを主要知識源として、地域間での事実推論を可能にする。
実験によると、最先端のLLMは、異なる国、知識カテゴリ、マルチホップ推論タイプで偽の前提を検出するのに苦労しており、LLMの偽の前提検出の改善とより堅牢なマルチホップ推論機能の必要性を強調している。
関連論文リスト
- Reasoning Capabilities and Invariability of Large Language Models [49.23570751696334]
我々は,大規模言語モデルの推論能力に関する総合的な分析を行うことを目標としている。
我々は、浅い論理的推論を要求する一連の単純な推論質問を含む新しいベンチマークデータセットを導入する。
ゼロショットと少数ショットを含む実証分析では、70億以上のパラメータを持つLDMがゼロショット設定でより優れた性能を発揮する一方で、改善の余地がまだ大きいことが示されている。
論文 参考訳(メタデータ) (2025-05-01T18:12:30Z) - WILT: A Multi-Turn, Memorization-Robust Inductive Logic Benchmark for LLMs [0.8883751685905831]
メモリ化に抵抗するように設計された,シンプルなマルチターン推論ベンチマークである Wason Inductive Logic Test (WILT) を紹介する。
以上の結果から,LSMはこの課題に苦しむことが明らかとなった。
これらの変動にもかかわらず、最高の性能モデルは28%の精度しか達成せず、複雑なマルチターン推論タスクにおけるLLM性能の重大なギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-14T18:29:13Z) - Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。
この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。
その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文 参考訳(メタデータ) (2024-09-08T19:22:58Z) - Cofca: A Step-Wise Counterfactual Multi-hop QA benchmark [39.64489055580211]
実データと反実データからなる新しい評価ベンチマークであるCofCA(Step-wise Counterfactual benchmark)を導入する。
実験の結果,ウィキペディアをベースとした事実データと反事実データの間には,既存のベンチマークにおけるデータ汚染問題を推定し,大きな性能差があることが判明した。
論文 参考訳(メタデータ) (2024-02-19T08:12:30Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Towards Robust Temporal Reasoning of Large Language Models via a Multi-Hop QA Dataset and Pseudo-Instruction Tuning [73.51314109184197]
大規模言語モデル(LLM)には時間的知識の概念を理解することが不可欠である。
本稿では,複数質問応答と複数ホップの時間的推論に焦点をあてた複雑な時間的質問応答データセットであるComplex-TRを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:49:29Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。