論文の概要: EFUF: Efficient Fine-grained Unlearning Framework for Mitigating
Hallucinations in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2402.09801v1
- Date: Thu, 15 Feb 2024 08:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:15:13.851802
- Title: EFUF: Efficient Fine-grained Unlearning Framework for Mitigating
Hallucinations in Multimodal Large Language Models
- Title(参考訳): EFUF:マルチモーダル大言語モデルにおける幻覚の軽減に有効なきめ細かい学習フレームワーク
- Authors: Shangyu Xing, Fei Zhao, Zhen Wu, Tuo An, Weihao Chen, Chunhui Li,
Jianbing Zhang and Xinyu Dai
- Abstract要約: ペア化データなしで幻覚を除去する,効率的な粒度の未学習フレームワーク(EFUF)を提案する。
本手法は, 高い計算オーバーヘッドで生成品質を保ちながら, 幻覚を常に低減する。
- 参考スコア(独自算出の注目度): 28.871461053464362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have attracted increasing attention
in the past few years, but they may still generate descriptions that include
objects not present in the corresponding images, a phenomenon known as object
hallucination. To eliminate hallucinations, existing methods manually annotate
paired responses with and without hallucinations, and then employ various
alignment algorithms to improve the alignment capability between images and
text. However, they not only demand considerable computation resources during
the finetuning stage but also require expensive human annotation to construct
paired data needed by the alignment algorithms. To address these issues, we
borrow the idea of unlearning and propose an efficient fine-grained unlearning
framework (EFUF), which can eliminate hallucinations without the need for
paired data. Extensive experiments show that our method consistently reduces
hallucinations while preserving the generation quality with modest
computational overhead. Our code and datasets will be publicly available.
- Abstract(参考訳): マルチモーダル大言語モデル(mllm)はここ数年で注目を集めているが、それでも対応する画像に存在しないオブジェクトを含む記述を生成する可能性がある。
幻覚をなくすために、既存の方法では幻覚のない対の応答を手動で注釈付けし、様々なアライメントアルゴリズムを用いて画像とテキストのアライメント機能を改善する。
しかし、微調整段階でかなりの計算リソースを要求するだけでなく、アライメントアルゴリズムが必要とするペアデータを構成するために、高価なヒューマンアノテーションを必要とする。
これらの問題に対処するため、我々はアンラーニングの概念を借用し、ペアデータを必要としない幻覚を排除できる効率的な微細なアンラーニングフレームワーク(EFUF)を提案する。
大規模な実験により, 計算オーバーヘッドの少ない生成品質を維持しながら, 幻覚を連続的に低減できることがわかった。
コードとデータセットは公開されます。
関連論文リスト
- Seeing is Believing: Mitigating Hallucination in Large Vision-Language
Models via CLIP-Guided Decoding [41.37610782241758]
LVLM(Large Vision-Language Models)は、物体の幻覚に影響を受けやすい。
現在のアプローチは、しばしばモデルのトークン可能性やその他の内部情報に依存する。
CLIP-Guided Decoding approach to reduce object hallucination at decoding time。
論文 参考訳(メタデータ) (2024-02-23T12:57:16Z) - Less is More: Mitigating Multimodal Hallucination from an EOS Decision
Perspective [62.284452344672125]
大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。
本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。
生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
論文 参考訳(メタデータ) (2024-02-22T13:33:13Z) - Aligning Modalities in Vision Large Language Models via Preference
Fine-tuning [67.62925151837675]
本研究では,幻覚の問題をアライメント問題とみなし,好みのチューニングで対処する。
具体的には,AIモデルを用いたフィードバックデータを生成するPOVIDを提案する。
提案手法は,好ましくないデータを生成するための2段階のアプローチである。
広範ベンチマークを用いた実験では、幻覚を減らすだけでなく、標準ベンチマークでのモデル性能を向上させることができ、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T00:56:16Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Mitigating Open-Vocabulary Caption Hallucinations [36.43428388918294]
オープン語彙設定における画像キャプションにおける幻覚に対処する枠組みを提案する。
当社のOpenCHAIRベンチマークでは,生成基盤モデルを用いて,開語彙キャプションの幻覚を評価する。
強化学習の進歩を生かしたMOCHaを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:28:03Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction
Data [106.42508109138788]
機械生成データに固有の幻覚は未発見である。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language
Models [63.973142426228016]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Reducing Hallucinations in Neural Machine Translation with Feature
Attribution [54.46113444757899]
本研究は,NMTにおける幻覚の軽減を目的としたモデル理解と正規化に着目したケーススタディである。
まず,幻覚を発生させるNMTモデルの振る舞いを研究するために,特徴帰属法を用いる。
次に、これらの手法を利用して、幻覚の低減に大きく貢献し、ゼロからモデルを再訓練する必要のない新しい損失関数を提案する。
論文 参考訳(メタデータ) (2022-11-17T20:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。