論文の概要: NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media
- arxiv url: http://arxiv.org/abs/2104.05893v1
- Date: Tue, 13 Apr 2021 01:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:46:25.391908
- Title: NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media
- Title(参考訳): newsclippings: コンテキスト外マルチモーダルメディアの自動生成
- Authors: Grace Luo, Trevor Darrell, Anna Rohrbach
- Abstract要約: 画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
- 参考スコア(独自算出の注目度): 93.51739200834837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The threat of online misinformation is hard to overestimate, with adversaries
relying on a range of tools, from cheap fakes to sophisticated deep fakes. We
are motivated by a threat scenario where an image is being used out of context
to support a certain narrative expressed in a caption. While some prior
datasets for detecting image-text inconsistency can be solved with blind models
due to linguistic cues introduced by text manipulation, we propose a dataset
where both image and text are unmanipulated but mismatched. We introduce
several strategies for automatic retrieval of suitable images for the given
captions, capturing cases with related semantics but inconsistent entities as
well as matching entities but inconsistent semantic context. Our large-scale
automatically generated NewsCLIPpings Dataset requires models to jointly
analyze both modalities and to reason about entity mismatch as well as semantic
mismatch between text and images in news media.
- Abstract(参考訳): オンライン誤報の脅威は過大評価されがちで、敵は安価な偽造品から高度な偽造品まで、さまざまなツールを頼りにしている。
我々は、キャプションで表現された特定の物語をサポートするために、画像が文脈外に使われる脅威シナリオに動機付けられている。
テキスト操作によって引き起こされる言語的手がかりにより視覚障害者モデルを用いて,画像テキスト不整合を検出するための先行データセットのいくつかは解決できるが,画像とテキストの両方が非操作だがミスマッチするデータセットを提案する。
本稿では,各キャプションに適した画像の自動検索,関連セマンティクス,非一貫性エンティティ,マッチングエンティティ,一貫性のないセマンティクスコンテキストの抽出について紹介する。
当社の大規模自動生成ニュースクリッピングデータセットでは,モダリティ解析とエンティティミスマッチの推論,ニュースメディアにおけるテキストとイメージ間の意味的ミスマッチといったモデルが必要になります。
関連論文リスト
- Exposing Text-Image Inconsistency Using Diffusion Models [36.820267498751626]
増大する問題は、画像が意図や意味の異なるテキストと誤解を招くような、テキストイメージの不整合である。
本研究では,テキスト間の拡散モデルを用いてテキストと画像のペア間の意味的不整合をローカライズするD-TIILを提案する。
D-TIILは、テキストイメージの不整合を識別し、ローカライズするためのスケーラブルでエビデンスベースのアプローチを提供する。
論文 参考訳(メタデータ) (2024-04-28T00:29:24Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - What You See is What You Read? Improving Text-Image Alignment Evaluation [28.722369586165108]
テキスト画像の自動アライメント評価法について検討する。
まず、テキスト・ツー・イメージと画像・ツー・テキスト生成タスクから複数のデータセットにまたがるSeeeTRUEを紹介します。
質問生成モデルと視覚的質問応答モデルに基づくパイプラインを含むパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンドの分類手法を用いて、アライメントを決定するための2つの自動手法について述べる。
論文 参考訳(メタデータ) (2023-05-17T17:43:38Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - Catching Out-of-Context Misinformation with Self-supervised Learning [2.435006380732194]
テキスト対とテキスト対を自動的に検出する新しい手法を提案する。
私たちのコアアイデアは、異なるソースから一致するキャプションを持つ画像のみを必要とする自己監督型のトレーニング戦略です。
本手法は82%のコンテキスト外検出精度を実現する。
論文 参考訳(メタデータ) (2021-01-15T19:00:42Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。