論文の概要: COVE: COntext and VEracity prediction for out-of-context images
- arxiv url: http://arxiv.org/abs/2502.01194v1
- Date: Mon, 03 Feb 2025 09:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:21.779623
- Title: COVE: COntext and VEracity prediction for out-of-context images
- Title(参考訳): COVE:アウト・オブ・コンテクスト画像のコニテクスとベラシティ予測
- Authors: Jonathan Tonglet, Gabriel Thiem, Iryna Gurevych,
- Abstract要約: 画像の真のCOntextを予測する新しい手法であるCOVEを導入し,それを用いてキャプションのVEracityを予測する。
COVEは、すべてのコンテキスト項目において、SOTAコンテキスト予測モデルを上回る。
合成データ上で最高の精度予測モデルと競合し、実世界のデータでそれらを上回る。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License:
- Abstract: Images taken out of their context are the most prevalent form of multimodal misinformation. Debunking them requires (1) providing the true context of the image and (2) checking the veracity of the image's caption. However, existing automated fact-checking methods fail to tackle both objectives explicitly. In this work, we introduce COVE, a new method that predicts first the true COntext of the image and then uses it to predict the VEracity of the caption. COVE beats the SOTA context prediction model on all context items, often by more than five percentage points. It is competitive with the best veracity prediction models on synthetic data and outperforms them on real-world data, showing that it is beneficial to combine the two tasks sequentially. Finally, we conduct a human study that reveals that the predicted context is a reusable and interpretable artifact to verify new out-of-context captions for the same image. Our code and data are made available.
- Abstract(参考訳): それらの文脈から撮影された画像は、マルチモーダルな誤報の最も一般的な形態である。
1)イメージの真のコンテキストを提供し、(2)画像のキャプションの正確性をチェックする必要がある。
しかし、既存の自動ファクトチェック手法は、両方の目的に明示的に対処することができない。
本研究では,まず画像の真のCOntextを予測し,次にキャプションのVEracityを予測する新しい手法であるCOVEを紹介する。
COVEは、すべてのコンテキスト項目において、SOTAコンテキスト予測モデルを上回る。
合成データ上で最高の精度予測モデルと競合し、実世界のデータよりも優れており、この2つのタスクを逐次組み合わせることは有益である。
最後に、予測されたコンテキストが再利用可能で解釈可能なアーティファクトであることを明らかにする人間の研究を行い、同じ画像に対する新しいアウト・オブ・コンテクストのキャプションを検証する。
私たちのコードとデータは利用可能です。
関連論文リスト
- Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models [16.00576040281808]
本稿では,画像キャプションモデルを評価するための新しいフレームワークであるImage2Text2Imageを提案する。
高い類似度スコアは、このモデルが忠実なテキスト記述を生み出し、低いスコアは相違点を強調していることを示唆している。
本フレームワークは人手によるキャプション参照に依存しないので,画像キャプションモデルを評価する上で貴重なツールである。
論文 参考訳(メタデータ) (2024-11-08T17:07:01Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - IMAGINATOR: Pre-Trained Image+Text Joint Embeddings using Word-Level
Grounding of Images [2.9174297412129957]
IMAGINATORは1M画像+テキストペアと21K画像オブジェクトレベルで訓練された。
IMAGINATORは、(i)オブジェクトオブジェクトのコロケーション、(ii)ワードオブジェクトのコロケーション、(iii)ワードオブジェクトの相関の3つの個別表現をカプセル化している。
また, (i) 画像キャプション, (ii) 画像2 つぶやき, (iii) テキストベースの画像検索の3つの下流タスクに対して, 事前訓練したIMAGINATOR JEsを評価する。
論文 参考訳(メタデータ) (2023-05-12T05:34:52Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - PREGAN: Pose Randomization and Estimation for Weakly Paired Image Style
Translation [11.623477199795037]
本稿では2つの画像のコンテンツがポーズの誤りと一致しているスタイル翻訳のための弱いペアリング設定を提案する。
PreGANは、シミュレーションデータと実世界の収集データの両方で検証され、有効性を示す。
論文 参考訳(メタデータ) (2020-10-31T16:11:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。