Fugu-MT 論文翻訳(概要): Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem

論文の概要: Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem

arxiv url: http://arxiv.org/abs/2403.03558v1
Date: Wed, 6 Mar 2024 09:06:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 15:32:33.776593
Title: Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem
Title（参考訳）: 不可解な数学単語問題に基づく大規模言語モデルにおけるベンチマーク幻覚
Authors: Yuhong Sun, Zhangyue Yin, Qipeng Guo, Jiawen Wu, Xipeng Qiu, Hui Zhao
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
参考スコア（独自算出の注目度）: 58.3723958800254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are highly effective in various natural language processing (NLP) tasks. However, they are susceptible to producing unreliable conjectures in ambiguous contexts called hallucination. This paper presents a new method for evaluating LLM hallucination in Question Answering (QA) based on the unanswerable math word problem (MWP). To support this approach, we innovatively develop a dataset called Unanswerable Math Word Problem (UMWP) which comprises 5200 questions across five categories. We developed an evaluation methodology combining text similarity and mathematical expression detection to determine whether LLM considers the question unanswerable. The results of extensive experiments conducted on 31 LLMs, including GPT-3, InstructGPT, LLaMA, and Claude, demonstrate that in-context learning and reinforcement learning with human feedback (RLHF) training significantly enhance the model's ability to avoid hallucination. We show that utilizing MWP is a reliable and effective approach to assess hallucination. Our code and data are available at https://github.com/Yuki-Asuuna/UMWP.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。しかし、それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じやすい。本稿では,解答不能な数学語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚の評価手法を提案する。このアプローチを支援するために,5つのカテゴリに5200の質問を含むUnanswerable Math Word Problem (UMWP) というデータセットを革新的に開発する。そこで本研究では,テキストの類似性と数式検出を組み合わせた評価手法を開発し,llmが質問を理解できないと判断した。 GPT-3, InstructGPT, LLaMA, Claudeを含む31のLLMで実施した広範囲な実験の結果、人間のフィードバック(RLHF)による文脈内学習と強化学習が幻覚を避けるためのモデルの能力を大幅に向上させることを示した。 MWPの使用は幻覚評価の信頼性と有効性を示す。私たちのコードとデータはhttps://github.com/Yuki-Asuuna/UMWP.comで公開されています。

関連論文リスト

MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文参考訳（メタデータ） (2025-05-30T05:54:36Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
LLM Hallucination Reasoning with Zero-shot Knowledge Test [10.306443936136425]
我々は,LLM生成テキストを3つのカテゴリの1つに分類する新たなタスクであるHalucination Reasoningを導入する。新たなデータセットを用いた実験により,幻覚推論における本手法の有効性が示された。
論文参考訳（メタデータ） (2024-11-14T18:55:26Z)
A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。 LVLMの構造と幻覚の発生の主な原因を紹介する。 LVLMの幻覚評価ベンチマークについて述べる。
論文参考訳（メタデータ） (2024-10-20T10:58:58Z)
Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL) 本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文参考訳（メタデータ） (2024-10-16T00:15:40Z)
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。 LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文参考訳（メタデータ） (2024-10-13T18:59:58Z)
Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文参考訳（メタデータ） (2024-07-04T18:47:42Z)
A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models [7.705767540805267]
大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
論文参考訳（メタデータ） (2024-01-02T17:56:30Z)
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文参考訳（メタデータ） (2023-12-12T04:05:15Z)
Deficiency of Large Language Models in Finance: An Empirical Examination of Hallucination [7.627664978437055]
幻覚は、大きな言語モデル(LLM)の根本的な欠如として認識されている本稿では, LLMモデルにおける金融概念と用語の説明能力について実験的に検討する。本研究では,少数ショット学習,コントラスト層(DoLa)による復号化,検索拡張生成(RAG)手法,クエリコマンドを生成する関数のプロンプトベースのツール学習方法など,4つの実践的手法の有効性を評価する。
論文参考訳（メタデータ） (2023-11-27T05:27:13Z)
Towards Mitigating Hallucination in Large Language Models via Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文参考訳（メタデータ） (2023-10-10T03:05:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。