論文の概要: Is Your Text-to-Image Model Robust to Caption Noise?
- arxiv url: http://arxiv.org/abs/2412.19531v1
- Date: Fri, 27 Dec 2024 08:53:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:46.743514
- Title: Is Your Text-to-Image Model Robust to Caption Noise?
- Title(参考訳): キャプションノイズはテキストから画像へのロバストか?
- Authors: Weichen Yu, Ziyan Yang, Shanchuan Lin, Qi Zhao, Jianyi Wang, Liangke Gui, Matt Fredrikson, Lu Jiang,
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成では、画像再カプセル化に視覚言語モデル(VLM)を用いることが一般的である。
VLMは幻覚を示すことで知られており、視覚的現実から逸脱する記述的内容を生成するが、そのような字幕幻覚がT2I世代のパフォーマンスに与える影響は未解明のままである。
- 参考スコア(独自算出の注目度): 38.19377765665836
- License:
- Abstract: In text-to-image (T2I) generation, a prevalent training technique involves utilizing Vision Language Models (VLMs) for image re-captioning. Even though VLMs are known to exhibit hallucination, generating descriptive content that deviates from the visual reality, the ramifications of such caption hallucinations on T2I generation performance remain under-explored. Through our empirical investigation, we first establish a comprehensive dataset comprising VLM-generated captions, and then systematically analyze how caption hallucination influences generation outcomes. Our findings reveal that (1) the disparities in caption quality persistently impact model outputs during fine-tuning. (2) VLMs confidence scores serve as reliable indicators for detecting and characterizing noise-related patterns in the data distribution. (3) even subtle variations in caption fidelity have significant effects on the quality of learned representations. These findings collectively emphasize the profound impact of caption quality on model performance and highlight the need for more sophisticated robust training algorithm in T2I. In response to these observations, we propose a approach leveraging VLM confidence score to mitigate caption noise, thereby enhancing the robustness of T2I models against hallucination in caption.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成では、画像再カプセル化に視覚言語モデル(VLM)を利用する訓練が主流である。
VLMは幻覚を示すことで知られており、視覚的現実から逸脱する記述的内容を生成するが、そのような字幕幻覚がT2I世代のパフォーマンスに与える影響は未解明のままである。
実験的な調査を通じて、まずVLM生成キャプションを含む包括的データセットを構築し、次に、キャプションの幻覚が生成結果にどのように影響するかを体系的に分析した。
その結果,(1)キャプション品質の相違が微調整時のモデル出力に持続的に影響を及ぼすことが判明した。
2) VLMの信頼性スコアは,データ分布におけるノイズ関連パターンの検出と特徴付けのための信頼性指標となる。
(3) キャプションの微妙な変化は, 学習表現の質に有意な影響を及ぼす。
これらの知見は, キャプション品質がモデル性能に与える影響を総合的に強調し, T2Iにおけるより洗練された堅牢なトレーニングアルゴリズムの必要性を強調した。
そこで本研究では,VLMの信頼性スコアを利用してキャプションノイズを軽減し,キャプションの幻覚に対するT2Iモデルのロバスト性を向上する手法を提案する。
関連論文リスト
- Fixing Imbalanced Attention to Mitigate In-Context Hallucination of Large Vision-Language Model [0.0]
大規模視覚言語モデル (LVLM) は視覚的内容の理解と記述において顕著な能力を示した。
これらのモデルは、しばしば幻覚の振る舞いを示し、入力画像に存在しない物体や詳細を含む記述を生成する。
本稿では,視覚的接地を維持するために,選択的トークン強調と頭部特異的変調を組み合わせた新しいアテンション修正手法を提案する。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions [31.637204677787576]
我々は、モデルの既存の知識と視覚的理解でトレーニングデータを自動的に適応するデータ中心のアプローチである、知識適応(KnowAda)ファインチューニングを導入する。
KnowAdaは、高い記述性を維持しながら幻覚を最小限にする。
以上の結果から,KnowAdaは自動測定と人的評価の両方において,様々なベースラインを上回ります。
論文 参考訳(メタデータ) (2024-11-13T20:50:04Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Generating Faithful and Salient Text from Multimodal Data [24.866158772311522]
混合モーダルデータから忠実で健全なテキストを生成するためのフレームワークを開発する。
画像のモダリティから幻覚的特徴と非塩分的特徴を識別するために、小さな視覚評論家モデルを訓練する。
2つのデータセットの実験により、我々のフレームワークは、忠実度と正当性の両方においてLMMの生成品質を改善することが示された。
論文 参考訳(メタデータ) (2024-09-06T00:59:10Z) - ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis [6.066100464517522]
我々は,5つの異なるメディア組織から得られた70K以上のサンプルを含む,高レベルのcOntext Representationデータセットを用いた抽象ニュースキャプションを紹介する。
提案手法は,LLM生成した被写体重みを利用して,合成画像中の重要被写体を選択的に表現し,拡張するものである。
また、ANCHORの現在のT2Iベースラインよりも優れたカスタムドメインファインチューニングにより、ニュース画像やキャプションのドメイン分布にも適応する。
論文 参考訳(メタデータ) (2024-04-15T21:19:10Z) - Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution [49.762034744605955]
視覚言語モデルの解釈性を改善するために,マルチモーダル情報ボトルネック手法を提案する。
視覚言語事前学習モデルの帰属分析にM2IBを適用する方法を示す。
論文 参考訳(メタデータ) (2023-12-28T18:02:22Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。