論文の概要: Visually-Aware Context Modeling for News Image Captioning
- arxiv url: http://arxiv.org/abs/2308.08325v2
- Date: Thu, 21 Mar 2024 14:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 20:19:41.817061
- Title: Visually-Aware Context Modeling for News Image Captioning
- Title(参考訳): ニュース画像キャプションのための視覚的コンテキストモデリング
- Authors: Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens,
- Abstract要約: News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
- 参考スコア(独自算出の注目度): 54.31708859631821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: News Image Captioning aims to create captions from news articles and images, emphasizing the connection between textual context and visual elements. Recognizing the significance of human faces in news images and the face-name co-occurrence pattern in existing datasets, we propose a face-naming module for learning better name embeddings. Apart from names, which can be directly linked to an image area (faces), news image captions mostly contain context information that can only be found in the article. We design a retrieval strategy using CLIP to retrieve sentences that are semantically close to the image, mimicking human thought process of linking articles to images. Furthermore, to tackle the problem of the imbalanced proportion of article context and image context in captions, we introduce a simple yet effective method Contrasting with Language Model backbone (CoLaM) to the training pipeline. We conduct extensive experiments to demonstrate the efficacy of our framework. We out-perform the previous state-of-the-art (without external data) by 7.97/5.80 CIDEr scores on GoodNews/NYTimes800k. Our code is available at https://github.com/tingyu215/VACNIC.
- Abstract(参考訳): News Image Captioningは、ニュース記事や画像からキャプションを作成し、テキストコンテキストと視覚要素の関連性を強調することを目的としている。
ニューズ画像における人間の顔の重要性と、既存のデータセットにおける顔名共起パターンを認識し、より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
画像領域(顔)に直接リンクできる名前とは別に、ニュース画像キャプションには、記事にしか見つからないコンテキスト情報が含まれている。
我々はCLIPを用いた検索戦略を設計し、画像に近い意味的な文章を検索し、記事と画像とをリンクする人間の思考過程を模倣する。
さらに,字幕における記事コンテキストと画像コンテキストの不均衡の問題に対処するために,言語モデルバックボーン(CoLaM)との対比を訓練パイプラインに導入する。
我々は,フレームワークの有効性を実証する広範囲な実験を行った。
GoodNews/NYTimes800kで7.97/5.80 CIDErスコアを上回りました。
私たちのコードはhttps://github.com/tingyu215/VACNIC.comから入手可能です。
関連論文リスト
- Assessing News Thumbnail Representativeness: Counterfactual text can enhance the cross-modal matching ability [5.111382868644429]
ニュース画像がニューステキストで議論されているアクターを表すかどうかに焦点をあてる。
我々は,1000個のニュースサムネイル画像とテキストペアのデータセットであるNewsTTを紹介する。
仮説に従って視覚と言語バイエンコーダを更新するコントラスト学習フレームワークであるCFT-CLIPを提案する。
論文 参考訳(メタデータ) (2024-02-17T01:27:29Z) - Visual Semantic Relatedness Dataset for Image Captioning [27.788077963411624]
そこで本研究では,COCO キャプションがシーン情報とともに拡張された,キャプションのためのテキストビジュアルコンテキストデータセットを提案する。
この情報は、テキスト類似性や意味的関係法など、任意のNLPタスクをキャプションシステムに活用するために使用することができる。
論文 参考訳(メタデータ) (2023-01-20T20:04:35Z) - ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions [6.066100464517522]
ニュースデータなどのドメインに存在する実世界のイメージキャプチャペアは、単純で直接記述的なキャプションを使用しない。
我々は、さまざまな状況下でオンラインニュース記事から抽出した抽象ニュースキャプティオNs dAtasetであるANNAをローンチした。
翻訳学習のような手法は抽象的なキャプションの理解において限られた成功を収めるが、コンテンツと文脈の特徴の関係を一貫して学習することができないことを示す。
論文 参考訳(メタデータ) (2023-01-05T17:19:01Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文 参考訳(メタデータ) (2022-06-19T09:07:30Z) - ICECAP: Information Concentrated Entity-aware Image Captioning [41.53906032024941]
本稿では,情報キャプションを生成するために,エンティティを意識したニュース画像キャプションタスクを提案する。
本モデルではまず,モーダリティ検索モデルを用いて関連文の粗い濃度を生成する。
BreakingNewsとGoodNewsの両方の実験では,提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2021-08-04T13:27:51Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。