論文の概要: Image Captioning in news report scenario
- arxiv url: http://arxiv.org/abs/2403.16209v2
- Date: Tue, 26 Mar 2024 04:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 12:03:31.826306
- Title: Image Captioning in news report scenario
- Title(参考訳): ニュースレポーティングシナリオにおける画像キャプション
- Authors: Tianrui Liu, Qi Cai, Changxin Xu, Bo Hong, Jize Xiong, Yuxin Qiao, Tsungwei Yang,
- Abstract要約: 有名人の写真に特化された画像キャプションの領域を探求する。
この調査は、自動ニュースコンテンツ生成を強化し、よりニュアンスな情報発信を容易にすることを目的としている。
- 参考スコア(独自算出の注目度): 12.42658463552019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning strives to generate pertinent captions for specified images, situating itself at the crossroads of Computer Vision (CV) and Natural Language Processing (NLP). This endeavor is of paramount importance with far-reaching applications in recommendation systems, news outlets, social media, and beyond. Particularly within the realm of news reporting, captions are expected to encompass detailed information, such as the identities of celebrities captured in the images. However, much of the existing body of work primarily centers around understanding scenes and actions. In this paper, we explore the realm of image captioning specifically tailored for celebrity photographs, illustrating its broad potential for enhancing news industry practices. This exploration aims to augment automated news content generation, thereby facilitating a more nuanced dissemination of information. Our endeavor shows a broader horizon, enriching the narrative in news reporting through a more intuitive image captioning framework.
- Abstract(参考訳): 画像キャプションは、特定の画像に対して関連するキャプションを生成し、コンピュータビジョン(CV)と自然言語処理(NLP)の交差点に自分自身を配置する。
この取り組みは、レコメンデーションシステム、ニュースメディア、ソーシャルメディアなどにおける広範囲の応用において、最重要事項である。
特にニュース報道の領域では、キャプションには、画像に写っている有名人の身元などの詳細な情報が含まれることが期待されている。
しかし、既存の作品の多くは、主に場面や行動を理解することに焦点を当てている。
本稿では,有名人の写真に特化された画像キャプションの領域を探求し,ニュース産業の実践強化の可能性について考察する。
この調査は、自動ニュースコンテンツ生成を強化し、より曖昧な情報発信を容易にすることを目的としている。
私たちの取り組みは、より直感的な画像キャプションフレームワークを通じて、ニュースレポートの物語を豊かにする、より広い視野を示している。
関連論文リスト
- What Makes for Good Image Captions? [50.48589893443939]
我々のフレームワークは、優れた画像キャプションは、情報的に十分であり、最小限の冗長であり、人間によって容易に理解できるという3つの重要な側面のバランスをとるべきであると仮定している。
本稿では,局所的な視覚情報とグローバルな視覚情報を統合することで,豊かなキャプションを生成するParamid of Captions(PoCa)手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T12:49:57Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Journalistic Guidelines Aware News Image Captioning [8.295819830685536]
ニュース記事画像キャプションは、ニュース記事画像の記述的および情報的キャプションを生成することを目的としている。
一般的に画像の内容を記述する従来の画像キャプションとは異なり、ニュースキャプションは画像の内容を記述するために名前付きエンティティに大きく依存する。
本稿では,ジャーナリストが追従するキャプションガイドラインによって動機付けられた,この課題に対する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-07T04:49:50Z) - ICECAP: Information Concentrated Entity-aware Image Captioning [41.53906032024941]
本稿では,情報キャプションを生成するために,エンティティを意識したニュース画像キャプションタスクを提案する。
本モデルではまず,モーダリティ検索モデルを用いて関連文の粗い濃度を生成する。
BreakingNewsとGoodNewsの両方の実験では,提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2021-08-04T13:27:51Z) - Visual News: Benchmark and Challenges in News Image Captioning [18.865262609683676]
本稿では,ニュース画像キャプションタスクのためのエンティティ認識モデルであるVisual News Captionerを提案する。
また、100万以上のニュース画像からなる大規模なベンチマークであるVisual Newsを紹介します。
論文 参考訳(メタデータ) (2020-10-08T03:07:00Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。