論文の概要: ICECAP: Information Concentrated Entity-aware Image Captioning
- arxiv url: http://arxiv.org/abs/2108.02050v1
- Date: Wed, 4 Aug 2021 13:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:12:35.209100
- Title: ICECAP: Information Concentrated Entity-aware Image Captioning
- Title(参考訳): ICECAP: エンティティを意識した画像キャプチャ
- Authors: Anwen Hu, Shizhe Chen, Qin Jin
- Abstract要約: 本稿では,情報キャプションを生成するために,エンティティを意識したニュース画像キャプションタスクを提案する。
本モデルではまず,モーダリティ検索モデルを用いて関連文の粗い濃度を生成する。
BreakingNewsとGoodNewsの両方の実験では,提案手法の有効性が示されている。
- 参考スコア(独自算出の注目度): 41.53906032024941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most current image captioning systems focus on describing general image
content, and lack background knowledge to deeply understand the image, such as
exact named entities or concrete events. In this work, we focus on the
entity-aware news image captioning task which aims to generate informative
captions by leveraging the associated news articles to provide background
knowledge about the target image. However, due to the length of news articles,
previous works only employ news articles at the coarse article or sentence
level, which are not fine-grained enough to refine relevant events and choose
named entities accurately. To overcome these limitations, we propose an
Information Concentrated Entity-aware news image CAPtioning (ICECAP) model,
which progressively concentrates on relevant textual information within the
corresponding news article from the sentence level to the word level. Our model
first creates coarse concentration on relevant sentences using a cross-modality
retrieval model and then generates captions by further concentrating on
relevant words within the sentences. Extensive experiments on both BreakingNews
and GoodNews datasets demonstrate the effectiveness of our proposed method,
which outperforms other state-of-the-arts. The code of ICECAP is publicly
available at https://github.com/HAWLYQ/ICECAP.
- Abstract(参考訳): 現在の画像キャプションシステムのほとんどは、一般的な画像コンテンツの記述に焦点を当てており、正確な名前付きエンティティや具体的なイベントといったイメージを深く理解するための背景知識を欠いている。
本稿では,関連ニュース記事を活用して,対象画像の背景知識を提供することによって,情報キャプションを生成するエンティティ対応ニュースキャプションタスクに焦点を当てる。
しかし、ニュース記事の長さによって、以前の作品では粗い記事や文レベルのニュース記事しか使われておらず、関連イベントを精巧化し、名前付きエンティティを正しく選ぶには細粒度が不十分である。
これらの制約を克服するために,文レベルから単語レベルまで,対応するニュース記事内の関連するテキスト情報に徐々に集中する情報集中型エンティティ対応ニュース画像キャプション(ICECAP)モデルを提案する。
本モデルでは,まず,クロスモダリティ検索モデルを用いて関連文に粗い集中を生じさせ,その後文内の関連単語にさらに集中してキャプションを生成する。
breakingnews と goodnews データセットの両方について広範な実験を行い,提案手法の有効性を実証した。
ICECAPのコードはhttps://github.com/HAWLYQ/ICECAPで公開されている。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Image Captioning in news report scenario [12.42658463552019]
有名人の写真に特化された画像キャプションの領域を探求する。
この調査は、自動ニュースコンテンツ生成を強化し、よりニュアンスな情報発信を容易にすることを目的としている。
論文 参考訳(メタデータ) (2024-03-24T16:08:10Z) - Rule-driven News Captioning [33.145889362997316]
ニュースキャプションタスクは、そのニュース記事で画像のための名前付きエンティティや具体的なイベントを記述することによって、文を生成することを目的としている。
既存の手法は、大規模な事前訓練モデルに依存することで、顕著な成果を上げている。
指定されたルール信号に従って画像記述を生成できるルール駆動型ニュースキャプション手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T07:06:43Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - InfoMetIC: An Informative Metric for Reference-free Image Caption
Evaluation [69.1642316502563]
インフォメーションフリー画像キャプション評価のためのインフォーマティブメトリックを提案する。
画像とキャプションが与えられた場合、InfoMetICは不正確な単語や未完成の画像領域をきめ細かいレベルで報告することができる。
また,トークンレベルの評価データセットを構築し,詳細な評価におけるInfoMetICの有効性を示す。
論文 参考訳(メタデータ) (2023-05-10T09:22:44Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Journalistic Guidelines Aware News Image Captioning [8.295819830685536]
ニュース記事画像キャプションは、ニュース記事画像の記述的および情報的キャプションを生成することを目的としている。
一般的に画像の内容を記述する従来の画像キャプションとは異なり、ニュースキャプションは画像の内容を記述するために名前付きエンティティに大きく依存する。
本稿では,ジャーナリストが追従するキャプションガイドラインによって動機付けられた,この課題に対する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-07T04:49:50Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。