Fugu-MT 論文翻訳(概要): RefChecker: Reference-based Fine-grained Hallucination Checker and Benchmark for Large Language Models

論文の概要: RefChecker: Reference-based Fine-grained Hallucination Checker and Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2405.14486v1
Date: Thu, 23 May 2024 12:18:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 15:15:02.611771
Title: RefChecker: Reference-based Fine-grained Hallucination Checker and Benchmark for Large Language Models
Title（参考訳）: RefChecker: 大規模言語モデルのための参照ベースきめ細かい幻覚チェッカーとベンチマーク
Authors: Xiangkun Hu, Dongyu Ru, Lin Qiu, Qipeng Guo, Tianhang Zhang, Yang Xu, Yun Luo, Pengfei Liu, Yue Zhang, Zheng Zhang,
Abstract要約: RefCheckerは、大規模な言語モデルでクレームを表現するクレームトリップレットを導入するフレームワークである。 RefCheckerでは、抽出器がレスポンスからクレームトリップを生成し、チェッカーが参照に対して評価する。
参考スコア（独自算出の注目度）: 42.17669788343253
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have shown impressive capabilities but also a concerning tendency to hallucinate. This paper presents RefChecker, a framework that introduces claim-triplets to represent claims in LLM responses, aiming to detect fine-grained hallucinations. In RefChecker, an extractor generates claim-triplets from a response, which are then evaluated by a checker against a reference. We delineate three task settings: Zero, Noisy and Accurate Context, to reflect various real-world use cases. We curated a benchmark spanning various NLP tasks and annotated 11k claim-triplets from 2.1k responses by seven LLMs. RefChecker supports both proprietary and open-source models as the extractor and checker. Experiments demonstrate that claim-triplets enable superior hallucination detection, compared to other granularities such as response, sentence and sub-sentence level claims. RefChecker outperforms prior methods by 6.8 to 26.1 points on our benchmark and the checking results of RefChecker are strongly aligned with human judgments. This work is open sourced at https://github.com/amazon-science/RefChecker
Abstract（参考訳）: 大きな言語モデル(LLM)は印象的な能力を示すだけでなく、幻覚の傾向も示している。本稿では,LLM応答におけるクレームを表現するためにクレームトリップレットを導入するフレームワークであるRefCheckerについて述べる。 RefCheckerでは、抽出器がレスポンスからクレームトリップを生成し、チェッカーが参照に対して評価する。 Zero、Noisy、Curcurate Contextの3つのタスク設定を列挙して、現実世界のさまざまなユースケースを反映します。様々なNLPタスクにまたがるベンチマークと,7つのLPMによる2.1k応答からの1kクレームトリップのアノテートを行った。 RefCheckerはプロプライエタリモデルとオープンソースモデルの両方を抽出子とチェッカーとしてサポートしている。実験により、クレームトリップレットは、応答、文、サブ文レベルのクレームなどの他の粒度よりも優れた幻覚検出を可能にすることが示された。 RefCheckerは、我々のベンチマークで6.8から26.1ポイントの先行手法よりも優れており、RefCheckerのチェック結果は人間の判断と強く一致している。この研究はhttps://github.com/amazon-science/RefCheckerで公開されている。

関連論文リスト

CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Osiris: A Lightweight Open-Source Hallucination Detection System [30.63248848082757]
幻覚は、RAGシステムが本番環境に配備されるのを防ぐ。幻覚を誘発したマルチホップQAデータセットを提案する。 RAGTruth 幻覚検出ベンチマークにおいて, GPT-4o よりも 7B モデルの方が良好なリコールを実現している。
論文参考訳（メタデータ） (2025-05-07T22:45:59Z)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation [49.885797244626694]
大型マルチモーダルモデル(LMM)の幻覚は、正しいように見えるが実際には正しくない応答を提供する。本稿では,ビデオモダリティにおけるLMMの幻覚問題について検討することを目的としている。
論文参考訳（メタデータ） (2025-03-25T13:12:17Z)
HalluCounter: Reference-free LLM Hallucination Detection in the Wild! [6.5037356041929675]
HalluCounterは、応答応答とクエリ応答の整合性とアライメントパターンの両方を利用する参照なし幻覚検出手法である。我々の手法は最先端の手法よりもかなり優れており、データセット間での幻覚検出における平均信頼度は90%を超えている。
論文参考訳（メタデータ） (2025-03-06T16:59:18Z)
NCL-UoR at SemEval-2025 Task 3: Detecting Multilingual Hallucination and Related Observable Overgeneration Text Spans with Modified RefChecker and Modified SeflCheckGPT [4.502598817005835]
SemEval-2025 Task 3 (Mu-SHROOM) は、様々な大規模言語モデル(LLM)によって生成されたコンテンツの幻覚を検出することに焦点を当てている。本研究では、RefCheckerの修正とSelfCheckGPTの修正の2つの方法を紹介する。実験の結果,様々な言語における幻覚の検出において,テストデータセット上で高い評価を達成し,アプローチの有効性を実証した。
論文参考訳（メタデータ） (2025-03-02T04:21:33Z)
JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文参考訳（メタデータ） (2024-10-31T18:43:12Z)
Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps [48.58310785625051]
大型言語モデル(LLM)は詳細を幻覚し、根拠のない回答で応答することができる。本稿では,このような文脈的幻覚を検出するための簡単なアプローチについて述べる。
論文参考訳（メタデータ） (2024-07-09T17:44:34Z)
Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification [13.081342795985003]
Pelicanは、クレーム検証を通じて幻覚を検出し緩和するために設計されたフレームワークである。実験の結果,MMHal-Benchの幻覚緩和法と比較して,幻覚率8%～32%低下し,27%低下した。
論文参考訳（メタデータ） (2024-07-02T15:17:44Z)
Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM Responses [9.956253757863145]
本稿では,大規模言語モデル(LLM)生成応答を後編集するRe-Exを提案する。 Re-Exは、事実的エラー説明ステップと呼ばれる新しい推論ステップを導入した。説明ステップに加えて、Re-Exは、応答修正プロセスに必要なトークン数と推論時間を短縮する新しいプロンプト技術も取り入れている。
論文参考訳（メタデータ） (2024-02-27T00:22:18Z)
HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文参考訳（メタデータ） (2024-02-25T22:23:37Z)
Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文参考訳（メタデータ） (2024-01-12T19:02:48Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
Chainpoll: A high efficacy method for LLM hallucination detection [0.0]
そこで我々はChainPollという幻覚検出手法を紹介した。我々はまた、最近の研究から幻覚検出指標を評価するためのベンチマークデータセットの洗練されたコレクションであるRealHallも公開した。
論文参考訳（メタデータ） (2023-10-22T14:45:14Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。