論文の概要: LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models
- arxiv url: http://arxiv.org/abs/2410.09962v2
- Date: Tue, 15 Oct 2024 16:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:03:30.859387
- Title: LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models
- Title(参考訳): LongHalQA:マルチモーダル大言語モデルに対する長期幻覚評価
- Authors: Han Qiu, Jiaxing Huang, Peng Gao, Qin Qi, Xiaoqin Zhang, Ling Shao, Shijian Lu,
- Abstract要約: LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
- 参考スコア(独自算出の注目度): 96.64960606650115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination, a phenomenon where multimodal large language models~(MLLMs) tend to generate textual responses that are plausible but unaligned with the image, has become one major hurdle in various MLLM-related applications. Several benchmarks have been created to gauge the hallucination levels of MLLMs, by either raising discriminative questions about the existence of objects or introducing LLM evaluators to score the generated text from MLLMs. However, the discriminative data largely involve simple questions that are not aligned with real-world text, while the generative data involve LLM evaluators that are computationally intensive and unstable due to their inherent randomness. We propose LongHalQA, an LLM-free hallucination benchmark that comprises 6K long and complex hallucination text. LongHalQA is featured by GPT4V-generated hallucinatory data that are well aligned with real-world scenarios, including object/image descriptions and multi-round conversations with 14/130 words and 189 words, respectively, on average. It introduces two new tasks, hallucination discrimination and hallucination completion, unifying both discriminative and generative evaluations in a single multiple-choice-question form and leading to more reliable and efficient evaluations without the need for LLM evaluators. Further, we propose an advanced pipeline that greatly facilitates the construction of future hallucination benchmarks with long and complex questions and descriptions. Extensive experiments over multiple recent MLLMs reveal various new challenges when they are handling hallucinations with long and complex textual data. Dataset and evaluation code are available at https://github.com/hanqiu-hq/LongHalQA.
- Abstract(参考訳): マルチモーダルな大言語モデル~(MLLM)が画像に適合しないテキスト応答を生成する現象である幻覚は、MLLM関連の様々な応用において大きなハードルとなっている。
MLLMの幻覚レベルを測定するために、オブジェクトの存在に関する差別的な疑問を提起するか、MLLMから生成されたテキストをスコアするためにLSM評価器を導入するか、いくつかのベンチマークが作成されている。
しかし、識別データは、実世界のテキストと一致しない単純な質問を主に含み、生成データは、その固有のランダム性のために計算集約的で不安定なLCM評価器を含む。
我々は,LongHalQAを提案する。LongHalQAは,LongHalQAという,長さ6Kの複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V 生成した幻覚データによって特徴付けられ、オブジェクト/イメージ記述や14/130 ワードと189 ワードのマルチラウンド会話など、現実のシナリオによく適合している。
幻覚の識別と幻覚の完成という2つの新しいタスクを導入し、識別的および生成的評価を1つの多重選択形式で統一し、LCM評価装置を必要とせずにより信頼性と効率的な評価を実現する。
さらに,長期にわたる複雑な質問や記述を伴う将来の幻覚ベンチマークの構築を大いに促進する,高度なパイプラインを提案する。
複数の最近のMLLMに対する大規模な実験は、長い複雑なテキストデータで幻覚を扱う際に、様々な新しい課題を明らかにしている。
データセットと評価コードはhttps://github.com/hanqiu-hq/LongHalQA.comで公開されている。
関連論文リスト
- From Single to Multi: How LLMs Hallucinate in Multi-Document Summarization [6.37435726278524]
複数の文書からトピック特化情報を要約する際に,大規模言語モデル (LLM) において幻覚がどのように現れるかを検討する。
平均して、LLM生成サマリーの最大75%は幻覚化され、要約の終わりに幻覚が生じる可能性が高い。
これらの幻覚の特徴を理解するために、手動で700以上の洞察を評価し、ほとんどのエラーは指示に従わなかったり、過度に総合的な洞察が得られなかったりする。
論文 参考訳(メタデータ) (2024-10-17T18:38:53Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models [26.289847386286446]
本稿では,対話レベルの幻覚評価ベンチマークDiaHaluを提案する。
収集したトピックをシステムプロンプトに統合し、2つのChatGPT3.5間の対話を促進する。
人間の言語規則に従わない内容を手動で修正し、LLMを再生させ、人間と機械の相互作用のシナリオをシミュレートする。
論文 参考訳(メタデータ) (2024-03-01T15:38:55Z) - Context-aware Decoding Reduces Hallucination in Query-focused
Summarization [2.8554857235549753]
我々は最近提案された1つの復号法である文脈認識復号法(CAD)について大規模な研究を行っている。
8つの異なる言語モデルを用いた実験により、CADは事実性エラー/幻覚を減らすことでQFSの品質を向上させることが示された。
Huggingface Libraryに基づくコード実装が利用可能である。
論文 参考訳(メタデータ) (2023-12-21T23:42:13Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination
Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。
MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:25:42Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。