Fugu-MT 論文翻訳(概要): HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs

論文の概要: HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs

arxiv url: http://arxiv.org/abs/2402.16211v1
Date: Sun, 25 Feb 2024 22:23:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 14:52:10.996935
Title: HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs
Title（参考訳）: llmの幻覚傾向ベンチマークのための仮説用語データセット
Authors: Cem Uluoglakci, Tugba Taskaya Temizel (Middle East Technical University)
Abstract要約: 幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hallucinations pose a significant challenge to the reliability and alignment of Large Language Models (LLMs), limiting their widespread acceptance beyond chatbot applications. Despite ongoing efforts, hallucinations remain a prevalent challenge in LLMs. The detection of hallucinations itself is also a formidable task, frequently requiring manual labeling or constrained evaluations. This paper introduces an automated scalable framework that combines benchmarking LLMs' hallucination tendencies with efficient hallucination detection. We leverage LLMs to generate challenging tasks related to hypothetical phenomena, subsequently employing them as agents for efficient hallucination detection. The framework is domain-agnostic, allowing the use of any language model for benchmark creation or evaluation in any domain. We introduce the publicly available HypoTermQA Benchmarking Dataset, on which state-of-the-art models' performance ranged between 3% and 11%, and evaluator agents demonstrated a 6% error rate in hallucination prediction. The proposed framework provides opportunities to test and improve LLMs. Additionally, it has the potential to generate benchmarking datasets tailored to specific domains, such as law, health, and finance.
Abstract（参考訳）: 幻覚は、Large Language Models(LLM)の信頼性と整合性に大きな課題をもたらし、チャットボットアプリケーションを超えて広く受け入れられることを制限する。継続的な努力にもかかわらず、幻覚はllmにおいて依然として一般的な挑戦である。幻覚自体の検出は、しばしば手動によるラベル付けや制約付き評価を必要とする、恐ろしい作業である。本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。我々はLSMを利用して仮説現象に関連する課題を発生させ,その後,効率的な幻覚検出のためのエージェントとして活用する。フレームワークはドメインに依存しないので、どんなドメインでもベンチマークの作成や評価にどんな言語モデルも使用できる。そこで我々は,最先端モデルの性能が3%から11%の範囲で評価可能なhypotermqaベンチマークデータセットを紹介し,評価エージェントは幻覚予測において6%の誤差率を示した。提案するフレームワークは、LSMのテストと改善の機会を提供する。さらに、法、健康、財務といった特定のドメインに適したベンチマークデータセットを生成する可能性がある。

関連論文リスト

HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文参考訳（メタデータ） (2025-04-24T13:40:27Z)
HalluCounter: Reference-free LLM Hallucination Detection in the Wild! [6.5037356041929675]
HalluCounterは、応答応答とクエリ応答の整合性とアライメントパターンの両方を利用する参照なし幻覚検出手法である。我々の手法は最先端の手法よりもかなり優れており、データセット間での幻覚検出における平均信頼度は90%を超えている。
論文参考訳（メタデータ） (2025-03-06T16:59:18Z)
HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文参考訳（メタデータ） (2025-02-12T04:17:02Z)
Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models [67.89204055004028]
LVLM(Large Vision-Language Models)は幻覚に悩まされている。以前の研究では、さまざまなタイプのタスクと評価指標を特徴とする一連のベンチマークが提案されている。本稿では,既存の幻覚ベンチマークの信頼性と妥当性を評価するために,幻覚ベンチマーク品質測定フレームワーク(HQM)を提案する。
論文参考訳（メタデータ） (2024-06-24T20:08:07Z)
Drowzee: Metamorphic Testing for Fact-Conflicting Hallucination Detection in Large Language Models [11.138489774712163]
我々は、FCH(Fact-Conflicting Hallucinations)の検出のためのメタモルフィックテストを強化するために、論理プログラミングを活用する革新的なアプローチを提案する。テストケースを生成し,9つのドメインにまたがる6つの異なる大言語モデルに対して幻覚を検知し,24.7%から59.8%の比率を示した。
論文参考訳（メタデータ） (2024-05-01T17:24:42Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild [41.86776426516293]
幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。
論文参考訳（メタデータ） (2024-03-07T08:25:46Z)
DelucionQA: Detecting Hallucinations in Domain-specific Question Answering [22.23664008053246]
幻覚は、大言語モデル(LLM)によって生成されたテキストでよく知られた現象である我々は、ドメイン固有のQAタスクのためのLLMの検索による幻覚をキャプチャするデータセットDelucionQAを紹介する。本研究では,研究コミュニティの今後の研究のベースラインとして,幻覚検出手法のセットを提案する。
論文参考訳（メタデータ） (2023-12-08T17:41:06Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)
AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。 MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文参考訳（メタデータ） (2023-11-13T15:25:42Z)
Chainpoll: A high efficacy method for LLM hallucination detection [0.0]
そこで我々はChainPollという幻覚検出手法を紹介した。我々はまた、最近の研究から幻覚検出指標を評価するためのベンチマークデータセットの洗練されたコレクションであるRealHallも公開した。
論文参考訳（メタデータ） (2023-10-22T14:45:14Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。