論文の概要: Mitigating Fine-Grained Hallucination by Fine-Tuning Large
Vision-Language Models with Caption Rewrites
- arxiv url: http://arxiv.org/abs/2312.01701v1
- Date: Mon, 4 Dec 2023 07:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:47:47.521873
- Title: Mitigating Fine-Grained Hallucination by Fine-Tuning Large
Vision-Language Models with Caption Rewrites
- Title(参考訳): 字幕書き換えによる大型視覚言語モデルの微調整による細粒度幻覚の軽減
- Authors: Lei Wang, Jiabang He, Shenshen Li, Ning Liu, Ee-Peng Lim
- Abstract要約: このフレームワークは,ChatGPTを用いた字幕の書き直しと,書き直された字幕上の命令調整されたLVLMの微調整という2つのコンポーネントから構成される。
実験の結果,ReCaptionは様々なLVLMオプションに対して,粒度の細かいオブジェクト幻覚を効果的に低減し,テキスト生成品質を向上することを示した。
- 参考スコア(独自算出の注目度): 18.640459366439917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable performance in natural
language processing (NLP) tasks. To comprehend and execute diverse human
instructions over image data, instruction-tuned large vision-language models
(LVLMs) have been introduced. However, LVLMs may suffer from different types of
object hallucinations. Nevertheless, LVLMs are evaluated for coarse-grained
object hallucinations only (i.e., generated objects non-existent in the input
image). The fine-grained object attributes and behaviors non-existent in the
image may still be generated but not measured by the current evaluation
methods. In this paper, we thus focus on reducing fine-grained hallucinations
of LVLMs. We propose \textit{ReCaption}, a framework that consists of two
components: rewriting captions using ChatGPT and fine-tuning the
instruction-tuned LVLMs on the rewritten captions. We also propose a
fine-grained probing-based evaluation method named \textit{Fine-Grained Object
Hallucination Evaluation} (\textit{FGHE}). Our experiment results demonstrate
that ReCaption effectively reduces fine-grained object hallucination for
different LVLM options and improves their text generation quality. The code can
be found at https://github.com/Anonymousanoy/FOHE.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著な性能を示した。
画像データ上での多様なヒューマンインストラクションの理解と実行のために,命令調整型大規模視覚言語モデル (LVLM) が導入された。
しかし、LVLMは様々な種類の物体幻覚に悩まされる。
それでも、LVLMは粗い粒度の物体幻覚(すなわち、入力画像に存在しない生成物)に対してのみ評価される。
画像に存在しない微粒な物体の属性や挙動は今でも生成されるが、現在の評価法では測定されない。
本稿では,LVLMの微細な幻覚の低減に焦点をあてる。
本稿では,ChatGPT を用いた字幕の書き直しと,書き直された字幕上の命令調整 LVLM の微調整という,2つのコンポーネントからなるフレームワークである \textit{ReCaption} を提案する。
また, より微細な探索に基づく評価手法である \textit{Fine-Grained Object Hallucination Evaluation} (\textit{FGHE}) を提案する。
実験の結果,ReCaptionは様々なLVLMオプションに対して,粒度の細かいオブジェクト幻覚を効果的に低減し,テキスト生成品質を向上することを示した。
コードはhttps://github.com/anonymousanoy/foheにある。
関連論文リスト
- ALOHa: A New Measure for Hallucination in Captioning Models [61.007542765171586]
既存の物体幻覚の計量であるCHAIRは、MS COCOオブジェクトとシノニムの固定セットに限られる。
そこで我々は,大規模言語モデル(LLM)を利用して物体の幻覚を測定する,最新のオープン語彙メトリックALOHaを提案する。
ALOHaはHAT上のCHAIRよりも13.6%多くの幻覚物質を正しく同定することを示す。
論文 参考訳(メタデータ) (2024-04-03T17:59:36Z) - Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding [36.81476620057058]
LVLM(Large Vision-Language Models)は、物体の幻覚に影響を受けやすい。
現在のアプローチは、しばしばモデルのトークン可能性やその他の内部情報に依存する。
CLIP-Guided Decoding approach to reduce object hallucination at decoding time。
論文 参考訳(メタデータ) (2024-02-23T12:57:16Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。