論文の概要: Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2210.07688v1
- Date: Fri, 14 Oct 2022 10:27:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:04:23.981715
- Title: Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training
- Title(参考訳): プラウシブルは信仰に反するかもしれない:ビジョンランゲージ事前トレーニングにおける物体幻覚の探索
- Authors: Wenliang Dai, Zihan Liu, Ziwei Ji, Dan Su, Pascale Fung
- Abstract要約: 大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
- 参考スコア(独自算出の注目度): 66.0036211069513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale vision-language pre-trained (VLP) models are prone to hallucinate
non-existent visual objects when generating text based on visual information.
In this paper, we exhaustively probe the object hallucination problem from
three aspects. First, we examine various state-of-the-art VLP models, showing
that models achieving better scores on standard metrics(e.g., BLEU-4, CIDEr)
could hallucinate objects more frequently. Second, we investigate how different
types of visual features in VLP influence hallucination, including
region-based, grid-based, and patch-based. Surprisingly, we find that
patch-based features perform the best and smaller patch resolution yields a
non-trivial reduction in object hallucination. Third, we decouple various VLP
objectives and demonstrate their effectiveness in alleviating object
hallucination. Based on that, we propose a new pre-training loss, object masked
language modeling, to further reduce object hallucination. We evaluate models
on both COCO (in-domain) and NoCaps (out-of-domain) datasets with our improved
CHAIR metric. Furthermore, we investigate the effects of various text decoding
strategies and image augmentation methods on object hallucination.
- Abstract(参考訳): 大規模視覚言語事前学習(VLP)モデルは、視覚情報に基づいてテキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
本稿では,物体の幻覚問題を3つの側面から徹底的に探索する。
まず,最先端のvlpモデルについて検討し,標準メトリクス(bleu-4,ciderなど)のスコアが向上すれば,より頻繁にオブジェクトを表現できることを示した。
第2に,vlpの視覚特徴の異なる種類が,領域ベース,グリッドベース,パッチベースなど幻覚にどのように影響を与えるかを検討する。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
第3に、様々なVLP目標を分離し、物体幻覚を軽減する効果を示す。
そこで本研究では,新たな事前学習損失,オブジェクトマスキング言語モデリングを提案し,さらにオブジェクト幻覚を低減させる。
改善したCHAIR測定値を用いてCOCO(ドメイン内)およびNoCaps(ドメイン外)データセットのモデルを評価する。
さらに,様々なテキスト復号戦略と画像拡張手法が幻覚に与える影響について検討した。
関連論文リスト
- Evaluating and Mitigating Number Hallucinations in Large Vision-Language
Models: A Consistency Perspective [64.5433181220184]
本稿では,画像中の物体の量を正確に識別できない場合を例示する,新しい幻覚,特に数幻覚と呼ばれるものに焦点を当てる。
本研究では,このような幻覚を緩和する手段としての一貫性トレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Fine-grained Hallucination Detection and Editing for Language Models [114.28828114834657]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Mitigating Hallucination in Visual Language Models with Visual
Supervision [33.05550629039951]
大きな視覚言語モデル(LVLM)は幻覚に悩まされている。
鍵となる問題は、マルチモーダルなコンテキストで詳細なコンテンツを理解できないことだ。
本稿では,LVLMのトレーニングを容易にするために,より詳細な視覚アノテーションとより識別可能な視覚モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T09:30:02Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language
Models [114.86769234616902]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。