論文の概要: Data-augmented phrase-level alignment for mitigating object hallucination
- arxiv url: http://arxiv.org/abs/2405.18654v2
- Date: Tue, 08 Oct 2024 21:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:27:42.509951
- Title: Data-augmented phrase-level alignment for mitigating object hallucination
- Title(参考訳): 物体幻覚の緩和のためのデータ強化句レベルのアライメント
- Authors: Pritam Sarkar, Sayna Ebrahimi, Ali Etemad, Ahmad Beirami, Sercan Ö. Arık, Tomas Pfister,
- Abstract要約: MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
- 参考スコア(独自算出の注目度): 52.43197107069751
- License:
- Abstract: Despite their significant advancements, Multimodal Large Language Models (MLLMs) often generate factually inaccurate information, referred to as hallucination. In this work, we address object hallucinations in MLLMs, where information is generated about an object not present in the input image. We introduce Data-augmented Phrase-level Alignment (DPA), a novel loss which can be applied to instruction-tuned off-the-shelf MLLMs to mitigate hallucinations, while preserving their general vision-language capabilities. To fine-tune MLLMs with DPA, we first generate a set of `hallucinated' and `correct' response pairs through generative data augmentation by selectively altering the ground-truth information of the correct responses at a phrase level. The DPA loss is then used to train MLLMs to reduce the likelihood of hallucinated phrases compared to the correct ones. Our thorough evaluation on various benchmarks confirms the effectiveness of DPA in mitigating hallucination while retaining the out-of-the-box performance of the MLLMs on general tasks. For instance, MLLMs finetuned with DPA, which we refer to as Hallucination Attenuated Language and Vision Assistant (HALVA), improve F1 by up to 13.4% on hallucination visual question-answering and reduce the hallucination rate by up to 4.2% on image description tasks.
- Abstract(参考訳): その顕著な進歩にもかかわらず、MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
本研究では,入力画像に存在しない物体に関する情報を生成するMLLMにおいて,物体の幻覚に対処する。
本稿では,視覚言語機能を維持しつつ,幻覚を緩和するために市販のMLLMの命令調整に適用可能な,新たな損失であるData-augmented Phrase-level Alignment(DPA)を紹介する。
DPAでMLLMを微調整するために、まず、フレーズレベルで正しい応答の接地構造情報を選択的に変化させることにより、生成データ拡張を通じて'hallucinated'と'correct'の応答対を生成する。
DPA損失はMLLMの訓練に使われ、正しいフレーズに比べて幻覚的フレーズの可能性を低下させる。
各種ベンチマークの徹底的な評価により,一般タスクにおけるMLLMのアウト・オブ・ボックス性能を維持しつつ,幻覚を緩和する上でのDPAの有効性が確認された。
例えば、HALVA(Halucination Attenuated Language and Vision Assistant)と呼ばれるDPAで微調整されたMLLMは、幻覚視覚質問応答において最大13.4%改善し、画像記述タスクでは最大4.2%改善する。
関連論文リスト
- Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - Mitigating Multilingual Hallucination in Large Vision-Language Models [35.75851356840673]
大規模視覚言語モデル(LVLM)のための2段階多言語幻覚除去(MHR)フレームワークを提案する。
多言語リソースの複雑な手動アノテーションに頼る代わりに,新しい言語間アライメント手法を提案する。
当社のフレームワークは,13言語で平均19.0%の精度向上を実現しています。
論文 参考訳(メタデータ) (2024-08-01T13:34:35Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。