論文の概要: Entity-Aware Multimodal Alignment Framework for News Image Captioning
- arxiv url: http://arxiv.org/abs/2402.19404v1
- Date: Thu, 29 Feb 2024 18:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:37:14.991994
- Title: Entity-Aware Multimodal Alignment Framework for News Image Captioning
- Title(参考訳): ニュース画像キャプションのためのエンティティ対応マルチモーダルアライメントフレームワーク
- Authors: Junzhe Zhang and Huixuan Zhang and Xiaojun Wan
- Abstract要約: ニュース画像キャプションタスクは、ニュース画像と関連するニュース記事のキャプションを生成するモデルを必要とする。
2つのマルチモーダルなエンティティ対応アライメントタスクとアライメントフレームワークを設計し、モデルをアライメントし、ニュース画像キャプションを生成する。
提案手法は,GoodNewsデータセットでは72.33 -> 86.29,NYTimes800kデータセットでは70.83 -> 85.61,CIDErスコアでは72.33 -> 86.29,NYTimes800kデータセットでは70.83 -> 85.61よりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 64.5433181220184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: News image captioning task is a variant of image captioning task which
requires model to generate a more informative caption with news image and the
associated news article. Multimodal Large Language models have developed
rapidly in recent years and is promising in news image captioning task.
However, according to our experiments, common MLLMs are not good at generating
the entities in zero-shot setting. Their abilities to deal with the entities
information are still limited after simply fine-tuned on news image captioning
dataset. To obtain a more powerful model to handle the multimodal entity
information, we design two multimodal entity-aware alignment tasks and an
alignment framework to align the model and generate the news image captions.
Our method achieves better results than previous state-of-the-art models in
CIDEr score (72.33 -> 86.29) on GoodNews dataset and (70.83 -> 85.61) on
NYTimes800k dataset.
- Abstract(参考訳): ニュース画像キャプションタスクは、ニュース画像と関連するニュース記事とのより情報的なキャプションを生成するモデルを必要とする画像キャプションタスクの一種である。
近年,マルチモーダル大規模言語モデルは急速に発展し,ニュース画像キャプションタスクに期待されている。
しかし,実験によれば,共通MLLMはゼロショット設定でエンティティを生成するのが得意ではない。
エンティティ情報を扱う能力は、単にニュース画像キャプションデータセットを微調整した後に制限される。
マルチモーダルエンティティ情報を扱うためのより強力なモデルを得るため、2つのマルチモーダルエンティティ・アウェアアライメントタスクと、モデルをアライメントしてニュース画像キャプションを生成するアライメントフレームワークを設計する。
提案手法は,GoodNewsデータセットにおけるCIDErスコア(72.33 -> 86.29),NYTimes800kデータセットにおける(70.83 -> 85.61)よりも優れた結果が得られる。
関連論文リスト
- Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visual News: Benchmark and Challenges in News Image Captioning [18.865262609683676]
本稿では,ニュース画像キャプションタスクのためのエンティティ認識モデルであるVisual News Captionerを提案する。
また、100万以上のニュース画像からなる大規模なベンチマークであるVisual Newsを紹介します。
論文 参考訳(メタデータ) (2020-10-08T03:07:00Z) - Transform and Tell: Entity-Aware News Image Captioning [77.4898875082832]
本稿では,ニュース記事に埋め込まれた画像のキャプションを生成するエンドツーエンドモデルを提案する。
画像中の顔や物体とキャプション内の単語を関連付けることで,マルチモーダル・マルチヘッドアテンション機構によって,最初の課題に対処する。
本稿では、バイトペアエンコーディングを用いて単語部分の列としてキャプションを生成する、最先端のトランスフォーマー言語モデルによる第2の課題に取り組む。
論文 参考訳(メタデータ) (2020-04-17T05:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。