論文の概要: Visual News: Benchmark and Challenges in News Image Captioning
- arxiv url: http://arxiv.org/abs/2010.03743v3
- Date: Mon, 13 Sep 2021 18:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:25:36.730373
- Title: Visual News: Benchmark and Challenges in News Image Captioning
- Title(参考訳): visual news: ベンチマークとニュース画像キャプションの課題
- Authors: Fuxiao Liu and Yinghan Wang and Tianlu Wang and Vicente Ordonez
- Abstract要約: 本稿では,ニュース画像キャプションタスクのためのエンティティ認識モデルであるVisual News Captionerを提案する。
また、100万以上のニュース画像からなる大規模なベンチマークであるVisual Newsを紹介します。
- 参考スコア(独自算出の注目度): 18.865262609683676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Visual News Captioner, an entity-aware model for the task of news
image captioning. We also introduce Visual News, a large-scale benchmark
consisting of more than one million news images along with associated news
articles, image captions, author information, and other metadata. Unlike the
standard image captioning task, news images depict situations where people,
locations, and events are of paramount importance. Our proposed method can
effectively combine visual and textual features to generate captions with
richer information such as events and entities. More specifically, built upon
the Transformer architecture, our model is further equipped with novel
multi-modal feature fusion techniques and attention mechanisms, which are
designed to generate named entities more accurately. Our method utilizes much
fewer parameters while achieving slightly better prediction results than
competing methods. Our larger and more diverse Visual News dataset further
highlights the remaining challenges in captioning news images.
- Abstract(参考訳): ニュース画像キャプションタスクのためのエンティティ認識モデルであるVisual News Captionerを提案する。
また,100万以上のニュース画像と関連するニュース記事,画像キャプション,著者情報,その他のメタデータからなる大規模ベンチマークであるvisual newsも紹介する。
通常の画像キャプションタスクとは異なり、ニュース画像は人、場所、出来事が最重要視される状況を表す。
提案手法は,視覚的特徴とテキスト的特徴を効果的に組み合わせ,イベントやエンティティなどのリッチな情報を含むキャプションを生成することができる。
より具体的には、トランスフォーマーアーキテクチャに基づいて構築されたこのモデルは、より正確に名前付きエンティティを生成するように設計された、新しいマルチモーダル特徴融合技術とアテンションメカニズムを備えています。
提案手法は, 競合手法よりも若干優れた予測結果が得られる一方で, パラメータをはるかに少なくする。
より大きく多様なVisual Newsデータセットは、ニュース画像をキャプションする際の残りの課題をさらに強調します。
関連論文リスト
- Image Captioning in news report scenario [12.42658463552019]
有名人の写真に特化された画像キャプションの領域を探求する。
この調査は、自動ニュースコンテンツ生成を強化し、よりニュアンスな情報発信を容易にすることを目的としている。
論文 参考訳(メタデータ) (2024-03-24T16:08:10Z) - Assessing News Thumbnail Representativeness: Counterfactual text can enhance the cross-modal matching ability [5.111382868644429]
ニュース画像がニューステキストで議論されているアクターを表すかどうかに焦点をあてる。
我々は,1000個のニュースサムネイル画像とテキストペアのデータセットであるNewsTTを紹介する。
仮説に従って視覚と言語バイエンコーダを更新するコントラスト学習フレームワークであるCFT-CLIPを提案する。
論文 参考訳(メタデータ) (2024-02-17T01:27:29Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Journalistic Guidelines Aware News Image Captioning [8.295819830685536]
ニュース記事画像キャプションは、ニュース記事画像の記述的および情報的キャプションを生成することを目的としている。
一般的に画像の内容を記述する従来の画像キャプションとは異なり、ニュースキャプションは画像の内容を記述するために名前付きエンティティに大きく依存する。
本稿では,ジャーナリストが追従するキャプションガイドラインによって動機付けられた,この課題に対する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-07T04:49:50Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。