論文の概要: TreeCut: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination Evaluation
- arxiv url: http://arxiv.org/abs/2502.13442v1
- Date: Wed, 19 Feb 2025 05:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:02:11.254460
- Title: TreeCut: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination Evaluation
- Title(参考訳): TreeCut: LLM幻覚評価のための合成不可能な数学語問題データセット
- Authors: Jialin Ouyang,
- Abstract要約: 無限に答えられない数学語問題とその解答可能な問題を生成するデータセットであるTreeCutを紹介する。
実験の結果、TreeCutはGPT-4oやo3-miniなどの大規模言語モデルにおいて、それぞれの最悪のシナリオで61%と42%の確率で幻覚を効果的に誘発することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) now achieve near-human performance on standard math word problem benchmarks (e.g., GSM8K), yet their true reasoning ability remains disputed. A key concern is that models often produce confident, yet unfounded, answers to unanswerable problems. We introduce TreeCut, a synthetic dataset that systematically generates infinite unanswerable math word problems and their answerable counterparts, by representing each question as a tree and removing chosen necessary conditions. Experiments show TreeCut effectively induce hallucinations in large language models, including GPT-4o and o3-mini, with rates of 61% and 42% in their respective worst-case scenarios. Further analysis highlights that deeper or more complex trees, composite item names, and removing necessary condition near the middle of a path all increase the likelihood of hallucinations, underscoring the persistent challenges LLMs face in identifying unanswerable math problems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、標準的な数学用語問題ベンチマーク(例えば、GSM8K)でほぼ人間に近い性能を達成しているが、真の推論能力は相変わらず議論されている。
重要な懸念は、モデルがしばしば、解決不可能な問題に対する自信を持って、根拠のない回答を生み出すことである。
木として各質問を表現し,選択した必要条件を除去することにより,無限に答えられない数学語問題とその解答可能な単語を体系的に生成する合成データセットであるTreeCutを紹介する。
実験の結果、TreeCutはGPT-4oやo3-miniなどの大規模言語モデルにおいて、それぞれの最悪のシナリオで61%と42%の確率で幻覚を効果的に誘発することが示された。
さらに、より深く複雑な木、複合アイテム名、経路の中央付近の必要条件の除去が幻覚の可能性を増大させ、LLMが解決不可能な数学問題を特定する上で直面する永続的な課題を強調している。
関連論文リスト
- LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - FG-PRM: Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning [10.709365940160685]
既存のアプローチは、主に幻覚の存在を検知するが、それらのタイプや表現の微妙な理解は欠如している。
数学的推論タスクにおける一般的な幻覚を6つのタイプに分類する包括的分類法を導入する。
次に,FG-PRM(FG-PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-08T19:25:26Z) - LLMs Will Always Hallucinate, and We Need to Live With This [1.3810901729134184]
この研究は、言語モデルにおける幻覚は時折エラーであるだけでなく、これらのシステムの必然的な特徴であると主張している。
したがって、アーキテクチャの改善、データセットの強化、ファクトチェックメカニズムを通じてそれらを取り除くことは不可能である。
論文 参考訳(メタデータ) (2024-09-09T16:01:58Z) - MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。
それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。
我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文 参考訳(メタデータ) (2024-07-01T01:56:28Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - Probabilistic Tree-of-thought Reasoning for Answering
Knowledge-intensive Complex Questions [93.40614719648386]
大規模言語モデル(LLM)は、知識集約的な複雑な質問にチェーン・オブ・シント(CoT)推論で答えることができる。
最近の研究は、CoT推論を強化するための外部知識の回収に向けられている。
確率的ツリー・オブ・シント推論(ProbTree)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:52:37Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Structure-Unified M-Tree Coding Solver for MathWord Problem [57.825176412485504]
従来,数式表現の2次木構造を考慮に入れたモデルでは,性能が向上した。
本稿では、出力構造を統一するために、任意のM枝(M-tree)を持つ木を適用した構造統一M-Tree符号化(S-UMCr)を提案する。
広く使われているMAWPSとMath23Kデータセットの実験結果は、SUMC-rが複数の最先端モデルを上回るだけでなく、低リソース条件下でもはるかに優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-10-22T12:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。