論文の概要: Exposing Text-Image Inconsistency Using Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.18033v1
- Date: Sun, 28 Apr 2024 00:29:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 18:12:38.659542
- Title: Exposing Text-Image Inconsistency Using Diffusion Models
- Title(参考訳): 拡散モデルを用いたテキスト画像の不整合の抽出
- Authors: Mingzhen Huang, Shan Jia, Zhou Zhou, Yan Ju, Jialing Cai, Siwei Lyu,
- Abstract要約: 増大する問題は、画像が意図や意味の異なるテキストと誤解を招くような、テキストイメージの不整合である。
本研究では,テキスト間の拡散モデルを用いてテキストと画像のペア間の意味的不整合をローカライズするD-TIILを提案する。
D-TIILは、テキストイメージの不整合を識別し、ローカライズするためのスケーラブルでエビデンスベースのアプローチを提供する。
- 参考スコア(独自算出の注目度): 36.820267498751626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the battle against widespread online misinformation, a growing problem is text-image inconsistency, where images are misleadingly paired with texts with different intent or meaning. Existing classification-based methods for text-image inconsistency can identify contextual inconsistencies but fail to provide explainable justifications for their decisions that humans can understand. Although more nuanced, human evaluation is impractical at scale and susceptible to errors. To address these limitations, this study introduces D-TIIL (Diffusion-based Text-Image Inconsistency Localization), which employs text-to-image diffusion models to localize semantic inconsistencies in text and image pairs. These models, trained on large-scale datasets act as ``omniscient" agents that filter out irrelevant information and incorporate background knowledge to identify inconsistencies. In addition, D-TIIL uses text embeddings and modified image regions to visualize these inconsistencies. To evaluate D-TIIL's efficacy, we introduce a new TIIL dataset containing 14K consistent and inconsistent text-image pairs. Unlike existing datasets, TIIL enables assessment at the level of individual words and image regions and is carefully designed to represent various inconsistencies. D-TIIL offers a scalable and evidence-based approach to identifying and localizing text-image inconsistency, providing a robust framework for future research combating misinformation.
- Abstract(参考訳): 広範囲にわたるオンライン誤報との戦いにおいて、増大する問題は、画像が異なる意図や意味を持つテキストと誤解を招くような、テキストイメージの不整合である。
既存の分類に基づくテキスト画像の不整合の手法は、文脈的不整合を識別できるが、人間が理解できる判断に対する説明可能な正当化は提供できない。
よりニュアンスが高いが、人間の評価はスケールでは実用的ではなく、エラーの影響を受けやすい。
これらの制約に対処するため,D-TIIL (Diffusion-based Text-Image Inconsistency Localization) を導入し,テキストと画像のペア間の意味的不整合を局所化する。
大規模なデータセットに基づいてトレーニングされたこれらのモデルは、無関係な情報をフィルタリングし、不整合を識別するために背景知識を組み込む、 ‘omniscient’エージェントとして機能する。
さらに、D-TIILはテキスト埋め込みと修正された画像領域を使用して、これらの矛盾を可視化する。
D-TIILの有効性を評価するために、14Kの一貫性と一貫性のないテキストイメージペアを含む新しいTIILデータセットを提案する。
既存のデータセットとは異なり、TIILは個々の単語や画像領域のレベルでの評価を可能にし、様々な矛盾を表現するために慎重に設計されている。
D-TIILは、テキストイメージの不整合を識別し、ローカライズするためのスケーラブルでエビデンスに基づくアプローチを提供し、将来の情報と戦うための堅牢なフレームワークを提供する。
関連論文リスト
- The Right Losses for the Right Gains: Improving the Semantic Consistency
of Deep Text-to-Image Generation with Distribution-Sensitive Losses [0.35898124827270983]
本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。
このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。
提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
論文 参考訳(メタデータ) (2023-12-18T00:05:28Z) - Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Benchmarking Robustness of Text-Image Composed Retrieval [46.98557472744255]
テキスト画像合成検索は、合成されたクエリを通してターゲット画像を取得することを目的としている。
近年,情報に富む画像と簡潔な言語の両方を活用する能力に注目が集まっている。
しかし、現実世界の腐敗やさらなるテキスト理解に対するこれらのアプローチの堅牢性は研究されていない。
論文 参考訳(メタデータ) (2023-11-24T20:16:38Z) - On Manipulating Scene Text in the Wild with Diffusion Models [4.034781390227754]
本稿では,Diffusion-BasEd Scene Text Operation Network(DBEST)を紹介する。
具体的には,2つの適応戦略,すなわちワンショットスタイル適応とテキスト認識指導を設計する。
本手法は,文字レベル評価のためのデータセットの94.15%と98.12%を達成する。
論文 参考訳(メタデータ) (2023-11-01T11:31:50Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Person Text-Image Matching via Text-Featur Interpretability Embedding
and External Attack Node Implantation [22.070781214170164]
人物のテキスト画像マッチングは、テキスト記述を用いて特定の歩行者の画像を取得することを目的としている。
テキスト機能の解釈可能性の欠如は、それらと対応する画像の特徴を効果的に整合させることを困難にしている。
テキスト特徴解釈能力と外部攻撃ノードを組み込んだ人物画像マッチング手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T04:15:37Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。