論文の概要: Understanding News Thumbnail Representativeness by Counterfactual
Text-Guided Contrastive Language-Image Pretraining
- arxiv url: http://arxiv.org/abs/2402.11159v2
- Date: Wed, 21 Feb 2024 02:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 12:09:32.079472
- Title: Understanding News Thumbnail Representativeness by Counterfactual
Text-Guided Contrastive Language-Image Pretraining
- Title(参考訳): 対訳テキストガイド付きコントラスト言語-画像事前学習によるニュースサムネイル表現の理解
- Authors: Yejun Yoon, Seunghyun Yoon, and Kunwoo Park
- Abstract要約: 本稿では,ニュース画像が主主題であるか否かに焦点をあてる。
テキスト誘導型コントラスト言語画像事前学習フレームワークであるCFT-CLIPを提案する。
- 参考スコア(独自算出の注目度): 5.111382868644429
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper delves into the critical challenge of understanding the
representativeness of news thumbnail images, which often serve as the first
visual engagement for readers when an article is disseminated on social media.
We focus on whether a news image represents the main subject discussed in the
news text. To serve the challenge, we introduce NewsTT, a manually annotated
dataset of news thumbnail image and text pairs. We found that pretrained vision
and language models, such as CLIP and BLIP-2, struggle with this task. Since
news subjects frequently involve named entities or proper nouns, a pretrained
model could not have the ability to match its visual and textual appearances.
To fill the gap, we propose CFT-CLIP, a counterfactual text-guided contrastive
language-image pretraining framework. We hypothesize that learning to contrast
news text with its counterfactual, of which named entities are replaced, can
enhance the cross-modal matching ability in the target task. Evaluation
experiments using NewsTT show that CFT-CLIP outperforms the pretrained models,
such as CLIP and BLIP-2. Our code and data will be made accessible to the
public after the paper is accepted.
- Abstract(参考訳): 本稿では,ニュースサムネイル画像の表現性を理解する上で重要な課題について述べる。
ニュース画像がニューステキストで議論される主主題を表現しているかに注目した。
この課題に対処するため,ニュースサムネイル画像とテキストペアを手動でアノテートしたデータセットであるNewsTTを紹介した。
clipやblip-2といった事前訓練済みのビジョンと言語モデルがこのタスクに苦労していることが分かりました。
ニュースの主題は、しばしば名前付きエンティティや固有名詞を含むため、事前訓練されたモデルは、その視覚とテキストの外観にマッチすることができない。
そこで本研究では,テキスト誘導型コントラスト言語画像事前学習フレームワークであるCFT-CLIPを提案する。
我々は、ニューステキストと、その名前のついたエンティティを置き換えた反事実を対比する学習が、ターゲットタスクにおけるクロスモーダルマッチング能力を高めることができると仮定する。
NewsTTを用いた評価実験では、CLIPやBLIP-2といった事前学習モデルよりもCFT-CLIPの方が優れていた。
私たちのコードとデータは、論文が受け入れられた後、一般公開されます。
関連論文リスト
- Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Visually-Aware Context Modeling for News Image Captioning [61.04696420226725]
心理学的な研究は、画像中の人間の顔がより高い注意を惹きつけることを示している。
画像の顔や字幕やアーティクルに名前を入れるための顔名モジュールを設計し、より優れた名前の埋め込みを学習する。
我々は,フレームワークの有効性を実証するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。