論文の概要: The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.05904v2
- Date: Wed, 17 Apr 2024 07:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 18:22:01.009868
- Title: The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models
- Title(参考訳): 幻覚のリーダーボード - 大規模言語モデルにおける幻覚を測定するオープンな取り組み
- Authors: Giwon Hong, Aryo Pradipta Gema, Rohit Saxena, Xiaotang Du, Ping Nie, Yu Zhao, Laura Perez-Beltrachini, Max Ryabinin, Xuanli He, Clémentine Fourrier, Pasquale Minervini,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)のランドスケープを、人間のようなテキストを理解して生成する優れた能力で変えてきた。
しかし、これらのモデルは幻覚(幻覚)の傾向があり、実際の現実や入力コンテキストと一致しない。
本稿では,各モデルの幻覚発生傾向を定量的に測定し,比較するオープンイニシアチブである幻覚リーダーボードを紹介する。
- 参考スコア(独自算出の注目度): 24.11077502209129
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) have transformed the Natural Language Processing (NLP) landscape with their remarkable ability to understand and generate human-like text. However, these models are prone to ``hallucinations'' -- outputs that do not align with factual reality or the input context. This paper introduces the Hallucinations Leaderboard, an open initiative to quantitatively measure and compare the tendency of each model to produce hallucinations. The leaderboard uses a comprehensive set of benchmarks focusing on different aspects of hallucinations, such as factuality and faithfulness, across various tasks, including question-answering, summarisation, and reading comprehension. Our analysis provides insights into the performance of different models, guiding researchers and practitioners in choosing the most reliable models for their applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理(NLP)の景観を人間のようなテキストを理解し、生成する能力で変化させてきた。
しかし、これらのモデルは、実際の現実や入力コンテキストと一致しない出力である ``hallucinations'' の傾向がある。
本稿では,各モデルの幻覚発生傾向を定量的に測定し,比較するオープンイニシアチブである幻覚リーダーボードを紹介する。
リーダーボードは、質問回答、要約、読書理解など、さまざまなタスクにおいて、事実性や忠実性といった幻覚のさまざまな側面に焦点を当てた包括的なベンチマークを使用する。
我々の分析は、異なるモデルの性能に関する洞察を提供し、研究者や実践者がアプリケーションに最も信頼性の高いモデルを選択するのを導く。
関連論文リスト
- VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Hallucination Diversity-Aware Active Learning for Text Summarization [46.00645048690819]
LLM(Large Language Models)は、幻覚出力を生成するための妥当性を示す。
幻覚を緩和するための既存の方法は、通常、LLM出力の幻覚を識別し修正するために、人為的なアノテーションを必要とする。
LLM幻覚を緩和する最初のアクティブラーニングフレームワークを提案し,必要な幻覚アノテーションのコストを削減した。
論文 参考訳(メタデータ) (2024-04-02T02:30:27Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Hal-Eval: A Universal and Fine-grained Hallucination Evaluation
Framework for Large Vision Language Models [36.98580310654515]
我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
論文 参考訳(メタデータ) (2024-02-24T05:14:52Z) - Fine-grained Hallucination Detection and Editing for Language Models [114.28828114834657]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - Don't Believe Everything You Read: Enhancing Summarization Interpretability through Automatic Identification of Hallucinations in Large Language Models [0.0]
本稿では,幻覚に対するLarge Language Models (LLM) の振る舞いを深く掘り下げる。
異なる種類の幻覚を識別するためのトークンレベルのアプローチを定義し、さらにトークンレベルのタグ付けを活用してLLMの解釈可能性と忠実性を改善する。
論文 参考訳(メタデータ) (2023-12-22T00:31:46Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。