論文の概要: Woodpecker: Hallucination Correction for Multimodal Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.16045v1
- Date: Tue, 24 Oct 2023 17:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 17:18:41.746076
- Title: Woodpecker: Hallucination Correction for Multimodal Large Language
Models
- Title(参考訳): woodpecker: マルチモーダル大規模言語モデルに対する幻覚補正
- Authors: Shukang Yin, Chaoyou Fu, Sirui Zhao, Tong Xu, Hao Wang, Dianbo Sui,
Yunhang Shen, Ke Li, Xing Sun and Enhong Chen
- Abstract要約: Woodpeckerは生成されたテキストから幻覚を抽出して修正する。
キーコンセプト抽出、質問定式化、視覚的知識検証、視覚的クレーム生成、幻覚補正の5段階からなる。
我々はWoodpeckerを定量的かつ質的に評価し、この新しいパラダイムの潜在可能性を示す。
- 参考スコア(独自算出の注目度): 80.05936387422906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucination is a big shadow hanging over the rapidly evolving Multimodal
Large Language Models (MLLMs), referring to the phenomenon that the generated
text is inconsistent with the image content. In order to mitigate
hallucinations, existing studies mainly resort to an instruction-tuning manner
that requires retraining the models with specific data. In this paper, we pave
a different way, introducing a training-free method named Woodpecker. Like a
woodpecker heals trees, it picks out and corrects hallucinations from the
generated text. Concretely, Woodpecker consists of five stages: key concept
extraction, question formulation, visual knowledge validation, visual claim
generation, and hallucination correction. Implemented in a post-remedy manner,
Woodpecker can easily serve different MLLMs, while being interpretable by
accessing intermediate outputs of the five stages. We evaluate Woodpecker both
quantitatively and qualitatively and show the huge potential of this new
paradigm. On the POPE benchmark, our method obtains a 30.66%/24.33% improvement
in accuracy over the baseline MiniGPT-4/mPLUG-Owl. The source code is released
at https://github.com/BradyFU/Woodpecker.
- Abstract(参考訳): 幻覚は急速に進化するマルチモーダル大言語モデル(mllm)の上にぶら下がっている大きな影であり、生成されたテキストが画像の内容と矛盾する現象を指す。
幻覚を緩和するためには、既存の研究は主に、特定のデータでモデルを再訓練するインストラクションチューニング方式を採用している。
本稿では,Woodpeckerというトレーニングフリーの手法を導入することで,異なる方法を提案する。
木こりが木を癒すように、生成されたテキストから幻覚を拾い、修正する。
具体的には、キーコンセプト抽出、質問定式化、視覚知識検証、視覚的クレーム生成、幻覚補正の5段階からなる。
治療後の方法で実装されたWoodpeckerは、5段階の中間出力にアクセスして解釈しながら、異なるMLLMを容易に提供することができる。
我々はWoodpeckerを定量的かつ質的に評価し、この新しいパラダイムの潜在可能性を示す。
POPEベンチマークでは,ベースラインのMiniGPT-4/mPLUG-Owlよりも30.66%/24.33%精度が向上した。
ソースコードはhttps://github.com/bradyfu/woodpeckerで公開されている。
関連論文リスト
- Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - EFUF: Efficient Fine-grained Unlearning Framework for Mitigating
Hallucinations in Multimodal Large Language Models [28.871461053464362]
ペア化データなしで幻覚を除去する,効率的な粒度の未学習フレームワーク(EFUF)を提案する。
本手法は, 高い計算オーバーヘッドで生成品質を保ちながら, 幻覚を常に低減する。
論文 参考訳(メタデータ) (2024-02-15T08:58:03Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。