Fugu-MT 論文翻訳(概要): ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models

論文の概要: ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2409.09318v1
Date: Sat, 14 Sep 2024 05:31:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 21:29:12.201619
Title: ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models
Title（参考訳）: ODE:マルチモーダル大言語モデルにおける幻覚のオープンセット評価
Authors: Yahan Tu, Rui Hu, Jitao Sang,
Abstract要約: 本稿では,大規模言語モデル(MLLM)におけるオブジェクト存在幻覚を評価するためのオープンセット動的プロトコルODEを紹介する。本フレームワークでは,実単語概念間の関連をモデル化し,汎用シナリオとドメイン固有シナリオの両方に新たなサンプルを生成する。実験の結果, MLLMはODE生成試料よりも高い幻覚率を示し, データ汚染を効果的に回避できることがわかった。
参考スコア（独自算出の注目度）: 15.156359255401812
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hallucination poses a significant challenge for multimodal large language models (MLLMs). However, existing benchmarks for evaluating hallucinations are static, which can lead to potential data contamination. This paper introduces ODE, an open-set, dynamic protocol for evaluating object existence hallucinations in MLLMs. Our framework employs graph structures to model associations between real-word concepts and generates novel samples for both general and domain-specific scenarios. The dynamic combination of concepts, along with various combination principles, ensures a broad sample distribution. Experimental results show that MLLMs exhibit higher hallucination rates with ODE-generated samples, effectively avoiding data contamination. Moreover, these samples can also be used for fine-tuning to improve MLLM performance on existing benchmarks.
Abstract（参考訳）: 幻覚はマルチモーダル大言語モデル(MLLM)にとって重要な課題である。しかし、幻覚を評価するための既存のベンチマークは静的であり、潜在的なデータ汚染につながる可能性がある。本稿では,MLLMにおけるオブジェクト存在幻覚を評価するためのオープンセット動的プロトコルODEを紹介する。本フレームワークでは,実単語概念間の関連をモデル化し,汎用シナリオとドメイン固有シナリオの両方に新たなサンプルを生成する。概念の動的組み合わせは、様々な組み合わせ原理とともに、広いサンプル分布を保証する。実験の結果, MLLMはODE生成試料よりも高い幻覚率を示し, データ汚染を効果的に回避できることがわかった。さらに、これらのサンプルは、既存のベンチマーク上でのMLLM性能を改善するための微調整にも使用することができる。

関連論文リスト

Theoretical Foundations and Mitigation of Hallucination in Large Language Models [0.0]
LLM(英: Hallucination in Large Language Models)とは、入力や実世界の事実に忠実でないコンテンツの生成を指す用語である。本稿では, LLMにおける幻覚の厳密な処理について述べる。
論文参考訳（メタデータ） (2025-07-20T15:22:34Z)
MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文参考訳（メタデータ） (2025-05-30T05:54:36Z)
Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - [1.2499537119440245]
効率的なコントラストデコーディング(ECD)は、確率的幻覚検出を利用して、推定時に出力分布を文脈的に正確な解へとシフトする単純な方法である。実験の結果,LCDは幻覚を効果的に軽減し,LVLMベンチマークの性能や計算時間に対して最先端の手法より優れることがわかった。
論文参考訳（メタデータ） (2025-04-16T14:50:25Z)
Enhancing Hallucination Detection through Noise Injection [9.582929634879932]
大型言語モデル(LLM)は、幻覚として知られる、もっとも不正確な応答を生成する傾向にある。ベイズ感覚のモデル不確実性を考慮し,検出精度を著しく向上できることを示す。サンプリング中にモデルパラメータの適切なサブセット、あるいは等価に隠されたユニットアクティベーションを摂動する、非常に単純で効率的なアプローチを提案する。
論文参考訳（メタデータ） (2025-02-06T06:02:20Z)
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。 MLLM(DeCo)の新しい動的補正復号法を提案する。広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文参考訳（メタデータ） (2024-10-15T16:57:44Z)
OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching [8.732396482276332]
大規模言語モデル(LLM)の幻覚は、オントロジーマッチング(OM)で例外なく、ドメイン固有の下流タスクで一般的に発生する。 OAEI-LLMデータセットは、オントロジーアライメント評価イニシアチブ(OAEI)データセットの拡張版であり、OMタスクにおけるLSM固有の幻覚を評価する。
論文参考訳（メタデータ） (2024-09-21T06:49:34Z)
Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators [14.705475420665117]
大きな言語モデル(LLM)は、検証可能な事実に矛盾する応答を生成する傾向がある。応答幻覚を軽減するために,比較器駆動型復号時間(CDT)フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-22T12:00:31Z)
CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models [51.70129969269271]
CODE(Countering Description Contrastive Decoding)という,新しいコントラストベースのデコーディング手法を提案する。提案手法は幻覚を著しく低減し,様々なベンチマークや最先端のLMM間の相互整合性を改善する。
論文参考訳（メタデータ） (2024-06-04T03:04:21Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [15.156359255401812]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文参考訳（メタデータ） (2024-04-16T07:14:32Z)
PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。 LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文参考訳（メタデータ） (2024-04-06T20:02:20Z)
Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition [49.26065739704278]
本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
論文参考訳（メタデータ） (2024-01-13T12:32:29Z)
RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models [9.465753274663061]
大規模言語モデル(LLM)の幻覚を緩和する主要な手法は、検索拡張世代(RAG)である。本稿では,各ドメインにおける単語レベルの幻覚の分析に適したコーパスであるRAGTruthについて述べる。
論文参考訳（メタデータ） (2023-12-31T04:43:45Z)
AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。 MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文参考訳（メタデータ） (2023-11-13T15:25:42Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)
Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。 InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。 LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文参考訳（メタデータ） (2023-08-11T21:35:20Z)
Integrating Expert ODEs into Neural ODEs: Pharmacology and Disease Progression [71.7560927415706]
潜在ハイブリッドモデル(LHM)は、専門家が設計したODEのシステムと機械学習したNeural ODEを統合し、システムのダイナミクスを完全に記述する。新型コロナウイルス患者のLHMと実世界の集中治療データについて検討した。
論文参考訳（メタデータ） (2021-06-05T11:42:45Z)
Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (2020-10-12T03:27:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。