論文の概要: Journalistic Guidelines Aware News Image Captioning
- arxiv url: http://arxiv.org/abs/2109.02865v1
- Date: Tue, 7 Sep 2021 04:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 22:29:40.487625
- Title: Journalistic Guidelines Aware News Image Captioning
- Title(参考訳): ニュース画像のキャプションに注意するジャーナリズムガイドライン
- Authors: Xuewen Yang, Svebor Karaman, Joel Tetreault, Alex Jaimes
- Abstract要約: ニュース記事画像キャプションは、ニュース記事画像の記述的および情報的キャプションを生成することを目的としている。
一般的に画像の内容を記述する従来の画像キャプションとは異なり、ニュースキャプションは画像の内容を記述するために名前付きエンティティに大きく依存する。
本稿では,ジャーナリストが追従するキャプションガイドラインによって動機付けられた,この課題に対する新たなアプローチを提案する。
- 参考スコア(独自算出の注目度): 8.295819830685536
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The task of news article image captioning aims to generate descriptive and
informative captions for news article images. Unlike conventional image
captions that simply describe the content of the image in general terms, news
image captions follow journalistic guidelines and rely heavily on named
entities to describe the image content, often drawing context from the whole
article they are associated with. In this work, we propose a new approach to
this task, motivated by caption guidelines that journalists follow. Our
approach, Journalistic Guidelines Aware News Image Captioning (JoGANIC),
leverages the structure of captions to improve the generation quality and guide
our representation design. Experimental results, including detailed ablation
studies, on two large-scale publicly available datasets show that JoGANIC
substantially outperforms state-of-the-art methods both on caption generation
and named entity related metrics.
- Abstract(参考訳): ニュース記事画像キャプションの課題は、ニュース記事画像の記述的および情報的キャプションの作成である。
一般的な言葉で画像の内容を記述する従来の画像キャプションとは異なり、ニュース画像キャプションはジャーナリストのガイドラインに従い、画像コンテンツを記述するために名前付きエンティティに強く依存し、しばしば関連する記事全体からコンテキストを描く。
本研究は,ジャーナリストが従うキャプションガイドラインに動機づけられた,この課題に対する新たなアプローチを提案する。
我々のアプローチは,ニュース画像キャプション(joganic)を認識し,キャプションの構造を活用して生成品質を改善し,表現デザインを導く。
2つの大規模公開データセットに関する詳細なアブレーション研究を含む実験結果は、JoGANICがキャプション生成と名前付きエンティティ関連メトリクスの両方で最先端の手法を大幅に上回っていることを示している。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Image Captioning in news report scenario [12.42658463552019]
有名人の写真に特化された画像キャプションの領域を探求する。
この調査は、自動ニュースコンテンツ生成を強化し、よりニュアンスな情報発信を容易にすることを目的としている。
論文 参考訳(メタデータ) (2024-03-24T16:08:10Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - ICECAP: Information Concentrated Entity-aware Image Captioning [41.53906032024941]
本稿では,情報キャプションを生成するために,エンティティを意識したニュース画像キャプションタスクを提案する。
本モデルではまず,モーダリティ検索モデルを用いて関連文の粗い濃度を生成する。
BreakingNewsとGoodNewsの両方の実験では,提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2021-08-04T13:27:51Z) - Iconographic Image Captioning for Artworks [2.3859169601259342]
本研究は,Iconclass分類システムの概念を付加したアート画像の大規模データセットを利用する。
アノテーションはクリーンなテキスト記述に処理され、画像キャプションタスク上でディープニューラルネットワークモデルのトレーニングに適したデータセットを生成する。
画像データセットを用いて、トランスフォーマーに基づく視覚言語事前学習モデルを微調整する。
生成したキャプションの品質と新たなデータに一般化するモデルの能力について,新たな絵画コレクションにモデルを適用し,一般的なキャプションと芸術ジャンルの関係を解析することにより検討する。
論文 参考訳(メタデータ) (2021-02-07T23:11:33Z) - Visual News: Benchmark and Challenges in News Image Captioning [18.865262609683676]
本稿では,ニュース画像キャプションタスクのためのエンティティ認識モデルであるVisual News Captionerを提案する。
また、100万以上のニュース画像からなる大規模なベンチマークであるVisual Newsを紹介します。
論文 参考訳(メタデータ) (2020-10-08T03:07:00Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。