論文の概要: ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2409.09318v2
- Date: Mon, 02 Dec 2024 08:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:56:35.449146
- Title: ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models
- Title(参考訳): ODE:マルチモーダル大言語モデルにおける幻覚のオープンセット評価
- Authors: Yahan Tu, Rui Hu, Jitao Sang,
- Abstract要約: 大規模言語モデル(MLLM)における幻覚を評価するためのオープンセット動的プロトコルを提案する。
ODEは、現実世界のオブジェクト概念、それらの属性、それらの間の分布関係を表現するために、グラフベースの構造を用いる。
生成タスクと識別タスクの両方において幻覚を評価する構造化クエリのさまざまなサンプルを生成する。
- 参考スコア(独自算出の注目度): 15.156359255401812
- License:
- Abstract: Hallucination poses a persistent challenge for multimodal large language models (MLLMs). However, existing benchmarks for evaluating hallucinations are generally static, which may overlook the potential risk of data contamination. To address this issue, we propose ODE, an open-set, dynamic protocol designed to evaluate object hallucinations in MLLMs at both the existence and attribute levels. ODE employs a graph-based structure to represent real-world object concepts, their attributes, and the distributional associations between them. This structure facilitates the extraction of concept combinations based on diverse distributional criteria, generating varied samples for structured queries that evaluate hallucinations in both generative and discriminative tasks. Through the generation of new samples, dynamic concept combinations, and varied distribution frequencies, ODE mitigates the risk of data contamination and broadens the scope of evaluation. This protocol is applicable to both general and specialized scenarios, including those with limited data. Experimental results demonstrate the effectiveness of our protocol, revealing that MLLMs exhibit higher hallucination rates when evaluated with ODE-generated samples, which indicates potential data contamination. Furthermore, these generated samples aid in analyzing hallucination patterns and fine-tuning models, offering an effective approach to mitigating hallucinations in MLLMs.
- Abstract(参考訳): 幻覚はマルチモーダル大言語モデル(MLLM)にとって永続的な課題である。
しかしながら、幻覚を評価するための既存のベンチマークは一般的に静的であり、データ汚染の潜在的なリスクを見逃す可能性がある。
この問題に対処するために,MLLMにおけるオブジェクト幻覚を,属性レベルと存在レベルの両方で評価するオープンセット動的プロトコルODEを提案する。
ODEは、現実世界のオブジェクト概念、それらの属性、それらの間の分布関係を表現するために、グラフベースの構造を用いる。
この構造は、多様な分布基準に基づいて概念組合せの抽出を容易にし、生成的タスクと識別的タスクの両方において幻覚を評価する構造化クエリの多様なサンプルを生成する。
新しいサンプルの生成、動的概念の組み合わせ、様々な分布周波数によって、ODEはデータ汚染のリスクを軽減し、評価の範囲を広げる。
このプロトコルは、限られたデータを含む一般的なシナリオと特殊なシナリオの両方に適用できる。
実験により,本プロトコルの有効性を実証し,データ汚染の可能性を示すODE生成試料を用いて評価すると,MLLMは高い幻覚率を示すことが明らかとなった。
さらに、これらのサンプルは幻覚パターンや微調整モデルの解析に役立ち、MLLMの幻覚を緩和するための効果的なアプローチを提供する。
関連論文リスト
- MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。
MLLM(DeCo)の新しい動的補正復号法を提案する。
広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文 参考訳(メタデータ) (2024-10-15T16:57:44Z) - OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching [8.732396482276332]
大規模言語モデル(LLM)の幻覚は、オントロジーマッチング(OM)で例外なく、ドメイン固有の下流タスクで一般的に発生する。
OAEI-LLMデータセットは、オントロジーアライメント評価イニシアチブ(OAEI)データセットの拡張版であり、OMタスクにおけるLSM固有の幻覚を評価する。
論文 参考訳(メタデータ) (2024-09-21T06:49:34Z) - Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators [14.705475420665117]
大きな言語モデル(LLM)は、検証可能な事実に矛盾する応答を生成する傾向がある。
応答幻覚を軽減するために,比較器駆動型復号時間(CDT)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T12:00:31Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models [9.465753274663061]
大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。
本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
論文 参考訳(メタデータ) (2023-12-31T04:43:45Z) - AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination
Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。
MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:25:42Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。