Fugu-MT 論文翻訳(概要): Lynx: An Open Source Hallucination Evaluation Model

論文の概要: Lynx: An Open Source Hallucination Evaluation Model

arxiv url: http://arxiv.org/abs/2407.08488v2
Date: Mon, 22 Jul 2024 18:41:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 22:04:29.195803
Title: Lynx: An Open Source Hallucination Evaluation Model
Title（参考訳）: Lynx: オープンソースの幻覚評価モデル
Authors: Selvan Sunitha Ravi, Bartosz Mielczarek, Anand Kannappan, Douwe Kiela, Rebecca Qian,
Abstract要約: LYNXは幻覚検出LLMであり、現実の幻覚に挑戦するシナリオについて高度な推論を行うことができる。 HaluBenchは、さまざまな現実世界のドメインから得られた15kサンプルからなる、包括的な幻覚評価ベンチマークである。
参考スコア（独自算出の注目度）: 22.02195852728116
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Retrieval Augmented Generation (RAG) techniques aim to mitigate hallucinations in Large Language Models (LLMs). However, LLMs can still produce information that is unsupported or contradictory to the retrieved contexts. We introduce LYNX, a SOTA hallucination detection LLM that is capable of advanced reasoning on challenging real-world hallucination scenarios. To evaluate LYNX, we present HaluBench, a comprehensive hallucination evaluation benchmark, consisting of 15k samples sourced from various real-world domains. Our experiment results show that LYNX outperforms GPT-4o, Claude-3-Sonnet, and closed and open-source LLM-as-a-judge models on HaluBench. We release LYNX, HaluBench and our evaluation code for public access.
Abstract（参考訳）: Retrieval Augmented Generation (RAG)技術は、Large Language Models (LLM)における幻覚を緩和することを目的としている。しかし、LLMは検索された文脈に反する情報を生成することができる。我々は,現実の幻覚に挑戦するシナリオについて,高度な推論が可能な SOTA 幻覚検出 LLM であるLYNX を紹介する。 LYNXを評価するために,様々な現実世界のドメインから得られた15kサンプルからなる総合幻覚評価ベンチマークHaluBenchを提案する。実験の結果, LYNX は GPT-4o, Claude-3-Sonnet, およびHaluBench 上でのオープンソース LLM-as-a-judge モデルより優れていた。 LYNX、HaluBench、およびパブリックアクセスのための評価コードをリリースする。

関連論文リスト

Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文参考訳（メタデータ） (2025-08-27T18:02:04Z)
FaithBench: A Diverse Hallucination Benchmark for Summarization by Modern LLMs [2.871226288151562]
本稿では,10の現代LSMによる難解な幻覚を含む要約幻覚ベンチマークであるFaithBenchを紹介する。その結果, GPT-4o と GPT-3.5-Turbo が最も幻覚が少ないことが判明した。最高の幻覚検出モデルでさえ、FaithBenchには50%近い精度があり、将来の改善の余地がたくさんあることを示している。
論文参考訳（メタデータ） (2024-10-17T04:30:46Z)
Collu-Bench: A Benchmark for Predicting Language Model Hallucinations in Code [20.736888384234273]
大規模言語モデル(LLM)のコード幻覚を予測するベンチマークであるColru-Benchを紹介する。 Collu-Benchには、オープンソースモデルから商用モデルまで、5つのデータセットから収集された13,234のコード幻覚インスタンスと11のさまざまなLSMが含まれている。我々は、従来の機械学習技術とニューラルネットワークの両方を用いて、Colru-Benchの幻覚を予測する実験を行い、22.03 -- 33.15%の精度を達成した。
論文参考訳（メタデータ） (2024-10-13T20:41:47Z)
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-05T17:56:38Z)
ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。 ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文参考訳（メタデータ） (2024-05-30T17:54:40Z)
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild [41.86776426516293]
幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。
論文参考訳（メタデータ） (2024-03-07T08:25:46Z)
The Dawn After the Dark: An Empirical Study on Factuality Hallucination in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文参考訳（メタデータ） (2024-01-06T12:40:45Z)
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [40.79317187623401]
大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーとなった。 LLMは幻覚を起こす傾向があり、可視だが非現実的な内容を生成する。この現象は、実世界の情報検索システムにおけるLCMの信頼性に対する重大な懸念を引き起こす。
論文参考訳（メタデータ） (2023-11-09T09:25:37Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)
Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。 LVLMは今でも幻覚に悩まされている。幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文参考訳（メタデータ） (2023-08-29T08:51:24Z)
HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文参考訳（メタデータ） (2023-05-19T15:36:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。