論文の概要: Catching Out-of-Context Misinformation with Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2101.06278v2
- Date: Wed, 27 Jan 2021 15:52:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:27:31.858865
- Title: Catching Out-of-Context Misinformation with Self-supervised Learning
- Title(参考訳): 自己教師付き学習による文脈外誤情報取得
- Authors: Shivangi Aneja, Christoph Bregler and Matthias Nie{\ss}ner
- Abstract要約: テキスト対とテキスト対を自動的に検出する新しい手法を提案する。
私たちのコアアイデアは、異なるソースから一致するキャプションを持つ画像のみを必要とする自己監督型のトレーニング戦略です。
本手法は82%のコンテキスト外検出精度を実現する。
- 参考スコア(独自算出の注目度): 2.435006380732194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent attention to DeepFakes and other forms of image
manipulations, one of the most prevalent ways to mislead audiences is the use
of unaltered images in a new but false context. To address these challenges and
support fact-checkers, we propose a new method that automatically detects
out-of-context image and text pairs. Our core idea is a self-supervised
training strategy where we only need images with matching (and non-matching)
captions from different sources. At train time, our method learns to
selectively align individual objects in an image with textual claims, without
explicit supervision. At test time, we check for a given text pair if both
texts correspond to same object(s) in the image but semantically convey
different descriptions, which allows us to make fairly accurate out-of-context
predictions. Our method achieves 82% out-of-context detection accuracy. To
facilitate training our method, we created a large-scale dataset of 200K images
which we match with 450K textual captions from a variety of news websites,
blogs, and social media posts; i.e., for each image, we obtained several
captions.
- Abstract(参考訳): 近年のDeepFakesや他の画像操作への注目にもかかわらず、聴衆を誤解させる最も一般的な方法の1つは、新しいが偽の文脈で修正されていない画像を使用することである。
これらの課題に対処し、ファクトチェックをサポートするために、テキスト対とテキスト対を自動的に検出する新しい手法を提案する。
私たちの中核となる考え方は、異なるソースからのマッチング(および非マッチング)キャプションによるイメージのみを必要とする、自己管理的なトレーニング戦略です。
トレーニング時には,画像内の個々のオブジェクトを,明示的な監督なしにテキストクレームに選択的にアライメントすることを学ぶ。
テスト時には、両方のテキストが画像内の同じオブジェクトに対応するが、意味的に異なる記述を伝達している場合、与えられたテキストペアをチェックする。
本手法は82%のコンテキスト外検出精度を実現する。
提案手法の訓練を容易にするため, 様々なニュースサイト, ブログ, ソーシャルメディア投稿の450K字幕と一致する200K画像の大規模データセットを作成し, それぞれの画像に対して複数の字幕を得た。
関連論文リスト
- Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - What You See is What You Read? Improving Text-Image Alignment Evaluation [28.722369586165108]
テキスト画像の自動アライメント評価法について検討する。
まず、テキスト・ツー・イメージと画像・ツー・テキスト生成タスクから複数のデータセットにまたがるSeeeTRUEを紹介します。
質問生成モデルと視覚的質問応答モデルに基づくパイプラインを含むパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンドの分類手法を用いて、アライメントを決定するための2つの自動手法について述べる。
論文 参考訳(メタデータ) (2023-05-17T17:43:38Z) - Scene Text Recognition with Image-Text Matching-guided Dictionary [17.073688809336456]
Scene Image-Text Matching (SITM) ネットワークを利用した辞書言語モデルを提案する。
ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。
本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8%の精度)が得られる。
論文 参考訳(メタデータ) (2023-05-08T07:47:49Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z) - Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks [207.52609682812147]
そこで我々は,Oscar (Object-Semantics Aligned Pre-training) という新しい学習手法を提案する。
画像で検出されたオブジェクトタグをアンカーポイントとして使用することで、アライメントの学習を大幅に容易にする。
我々は、650万のテキストイメージ対のパブリックコーパスでオスカーモデルを事前訓練し、下流のタスクで微調整する。
論文 参考訳(メタデータ) (2020-04-13T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。