Fugu-MT 論文翻訳(概要): Understanding News Thumbnail Representativeness by Counterfactual Text-Guided Contrastive Language-Image Pretraining

論文の概要: Understanding News Thumbnail Representativeness by Counterfactual Text-Guided Contrastive Language-Image Pretraining

arxiv url: http://arxiv.org/abs/2402.11159v2
Date: Wed, 21 Feb 2024 02:31:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-22 12:09:32.079472
Title: Understanding News Thumbnail Representativeness by Counterfactual Text-Guided Contrastive Language-Image Pretraining
Title（参考訳）: 対訳テキストガイド付きコントラスト言語-画像事前学習によるニュースサムネイル表現の理解
Authors: Yejun Yoon, Seunghyun Yoon, and Kunwoo Park
Abstract要約: 本稿では,ニュース画像が主主題であるか否かに焦点をあてる。テキスト誘導型コントラスト言語画像事前学習フレームワークであるCFT-CLIPを提案する。
参考スコア（独自算出の注目度）: 5.111382868644429
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper delves into the critical challenge of understanding the representativeness of news thumbnail images, which often serve as the first visual engagement for readers when an article is disseminated on social media. We focus on whether a news image represents the main subject discussed in the news text. To serve the challenge, we introduce NewsTT, a manually annotated dataset of news thumbnail image and text pairs. We found that pretrained vision and language models, such as CLIP and BLIP-2, struggle with this task. Since news subjects frequently involve named entities or proper nouns, a pretrained model could not have the ability to match its visual and textual appearances. To fill the gap, we propose CFT-CLIP, a counterfactual text-guided contrastive language-image pretraining framework. We hypothesize that learning to contrast news text with its counterfactual, of which named entities are replaced, can enhance the cross-modal matching ability in the target task. Evaluation experiments using NewsTT show that CFT-CLIP outperforms the pretrained models, such as CLIP and BLIP-2. Our code and data will be made accessible to the public after the paper is accepted.
Abstract（参考訳）: 本稿では,ニュースサムネイル画像の表現性を理解する上で重要な課題について述べる。ニュース画像がニューステキストで議論される主主題を表現しているかに注目した。この課題に対処するため,ニュースサムネイル画像とテキストペアを手動でアノテートしたデータセットであるNewsTTを紹介した。 clipやblip-2といった事前訓練済みのビジョンと言語モデルがこのタスクに苦労していることが分かりました。ニュースの主題は、しばしば名前付きエンティティや固有名詞を含むため、事前訓練されたモデルは、その視覚とテキストの外観にマッチすることができない。そこで本研究では,テキスト誘導型コントラスト言語画像事前学習フレームワークであるCFT-CLIPを提案する。我々は、ニューステキストと、その名前のついたエンティティを置き換えた反事実を対比する学習が、ターゲットタスクにおけるクロスモーダルマッチング能力を高めることができると仮定する。 NewsTTを用いた評価実験では、CLIPやBLIP-2といった事前学習モデルよりもCFT-CLIPの方が優れていた。私たちのコードとデータは、論文が受け入れられた後、一般公開されます。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。より優れた名前埋め込みを学習するための顔命名モジュールを提案する。私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文参考訳（メタデータ） (2023-08-16T12:39:39Z)
Focus! Relevant and Sufficient Context Selection for News Image Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文参考訳（メタデータ） (2022-12-01T20:00:27Z)
I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision [32.49636188029509]
4つのタスクのテキストトレーニングデータのみを用いてモデルを作成する。これらのモデルは、画像上で訓練されたモデルに近いパフォーマンスを示す。画像データと人為的な言語データを用いない,多種多様なスタイリスティックな画像キャプションモデルについて紹介する。
論文参考訳（メタデータ） (2022-11-17T18:52:19Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)
Visual News: Benchmark and Challenges in News Image Captioning [18.865262609683676]
本稿では,ニュース画像キャプションタスクのためのエンティティ認識モデルであるVisual News Captionerを提案する。また、100万以上のニュース画像からなる大規模なベンチマークであるVisual Newsを紹介します。
論文参考訳（メタデータ） (2020-10-08T03:07:00Z)
Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文参考訳（メタデータ） (2020-04-17T05:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。