論文の概要: Visually Dehallucinative Instruction Generation
- arxiv url: http://arxiv.org/abs/2402.08348v1
- Date: Tue, 13 Feb 2024 10:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:55:52.316804
- Title: Visually Dehallucinative Instruction Generation
- Title(参考訳): 視覚的除幻覚的命令生成
- Authors: Sungguk Cha, Jusung Lee, Younghyun Lee, Cheoljong Yang
- Abstract要約: 本稿では,画像コンテンツのみにスコープを制約するCAP2QAと呼ばれる,視覚的に幻覚的命令を生成する,新しいスケーラブルな手法を提案する。
提案手法は視覚認知能力と表現力を向上させつつ視覚幻覚を著しく低減することを示す。
- 参考スコア(独自算出の注目度): 0.8192907805418583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, synthetic visual instructions by generative language model
have demonstrated plausible text generation performance on the visual
question-answering tasks. However, challenges persist in the hallucination of
generative language models, i.e., the generated image-text data contains
unintended contents. This paper presents a novel and scalable method for
generating visually dehallucinative instructions, dubbed CAP2QA, that
constrains the scope to only image contents. Our key contributions lie in
introducing image-aligned instructive QA dataset CAP2QA-COCO and its scalable
recipe. In our experiments, we compare synthetic visual instruction datasets
that share the same source data by visual instruction tuning and conduct
general visual recognition tasks. It shows that our proposed method
significantly reduces visual hallucination while consistently improving visual
recognition ability and expressiveness.
- Abstract(参考訳): 近年, 生成言語モデルによる合成視覚指導は, 視覚的問合せ作業において, テキスト生成性能を実証している。
しかし、生成言語モデルの幻覚化、すなわち生成した画像テキストデータには意図しない内容が含まれている。
本稿では,画像コンテンツのみにスコープを制約するCAP2QAと呼ばれる,視覚的に幻覚的命令を生成する,新しいスケーラブルな手法を提案する。
私たちの重要な貢献は、イメージ整合型インストラクティブなQAデータセットCAP2QA-COCOとそのスケーラブルなレシピの導入です。
実験では、同じソースデータを共有する合成ビジュアル命令データセットを視覚命令チューニングにより比較し、一般的な視覚認識タスクを行う。
提案手法は視覚認知能力と表現力を向上させつつ視覚幻覚を著しく低減することを示す。
関連論文リスト
- VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において優れた性能を示す。
textbfVisutextbfal textbfLayer Fustextbfion Contrastive textbfDecoding (VaLiD)。
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models [0.0]
対象物の存在と属性の幻覚を評価する粗粒度ベンチマークであるH-POPEを提案する。
評価の結果,モデルが物体の存在に幻覚を与える傾向がみられ,さらに微粒な属性が生じる傾向が示唆された。
論文 参考訳(メタデータ) (2024-11-06T17:55:37Z) - Mitigating Hallucinations in Large Vision-Language Models via Summary-Guided Decoding [14.701135083174918]
LVLM(Large Vision-Language Models)は、視覚入力から詳細でコヒーレントな応答を生成する。
言語に対する依存度が高すぎるため、幻覚を起こす傾向にある。
我々は,SGD(Session-Guided Decoding)という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T08:24:27Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - ORES: Open-vocabulary Responsible Visual Synthesis [104.7572323359984]
我々は、新しいタスクであるオープン語彙対応視覚合成(ORES)を定式化し、そこで合成モデルは、禁止された視覚概念を避けることができる。
この問題に対処するため,我々はTIN(Two-stage Intervention)フレームワークを提案する。
1)大規模言語モデル(LLM)による学習可能な命令による書き直し,2)拡散モデルへの迅速な介入による合成を行うことで,概念を避けながら可能な限りユーザのクエリに従うイメージを効果的に合成することができる。
論文 参考訳(メタデータ) (2023-08-26T06:47:34Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。