論文の概要: Entity-Aware Multimodal Alignment Framework for News Image Captioning
- arxiv url: http://arxiv.org/abs/2402.19404v1
- Date: Thu, 29 Feb 2024 18:03:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:37:14.991994
- Title: Entity-Aware Multimodal Alignment Framework for News Image Captioning
- Title(参考訳): ニュース画像キャプションのためのエンティティ対応マルチモーダルアライメントフレームワーク
- Authors: Junzhe Zhang and Huixuan Zhang and Xiaojun Wan
- Abstract要約: ニュース画像キャプションタスクは、ニュース画像と関連するニュース記事のキャプションを生成するモデルを必要とする。
2つのマルチモーダルなエンティティ対応アライメントタスクとアライメントフレームワークを設計し、モデルをアライメントし、ニュース画像キャプションを生成する。
提案手法は,GoodNewsデータセットでは72.33 -> 86.29,NYTimes800kデータセットでは70.83 -> 85.61,CIDErスコアでは72.33 -> 86.29,NYTimes800kデータセットでは70.83 -> 85.61よりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 64.5433181220184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: News image captioning task is a variant of image captioning task which
requires model to generate a more informative caption with news image and the
associated news article. Multimodal Large Language models have developed
rapidly in recent years and is promising in news image captioning task.
However, according to our experiments, common MLLMs are not good at generating
the entities in zero-shot setting. Their abilities to deal with the entities
information are still limited after simply fine-tuned on news image captioning
dataset. To obtain a more powerful model to handle the multimodal entity
information, we design two multimodal entity-aware alignment tasks and an
alignment framework to align the model and generate the news image captions.
Our method achieves better results than previous state-of-the-art models in
CIDEr score (72.33 -> 86.29) on GoodNews dataset and (70.83 -> 85.61) on
NYTimes800k dataset.
- Abstract(参考訳): ニュース画像キャプションタスクは、ニュース画像と関連するニュース記事とのより情報的なキャプションを生成するモデルを必要とする画像キャプションタスクの一種である。
近年,マルチモーダル大規模言語モデルは急速に発展し,ニュース画像キャプションタスクに期待されている。
しかし,実験によれば,共通MLLMはゼロショット設定でエンティティを生成するのが得意ではない。
エンティティ情報を扱う能力は、単にニュース画像キャプションデータセットを微調整した後に制限される。
マルチモーダルエンティティ情報を扱うためのより強力なモデルを得るため、2つのマルチモーダルエンティティ・アウェアアライメントタスクと、モデルをアライメントしてニュース画像キャプションを生成するアライメントフレームワークを設計する。
提案手法は,GoodNewsデータセットにおけるCIDErスコア(72.33 -> 86.29),NYTimes800kデータセットにおける(70.83 -> 85.61)よりも優れた結果が得られる。
関連論文リスト
- FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。
318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。
9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-16T13:38:31Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-08-23T06:48:46Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis [6.066100464517522]
我々は,5つの異なるメディア組織から得られた70K以上のサンプルを含む,高レベルのcOntext Representationデータセットを用いた抽象ニュースキャプションを紹介する。
提案手法は,LLM生成した被写体重みを利用して,合成画像中の重要被写体を選択的に表現し,拡張するものである。
また、ANCHORの現在のT2Iベースラインよりも優れたカスタムドメインファインチューニングにより、ニュース画像やキャプションのドメイン分布にも適応する。
論文 参考訳(メタデータ) (2024-04-15T21:19:10Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels? [158.96530466189986]
マルチモーダルな大規模言語モデル (MLLM) は、視覚言語タスクにおいて有望な命令に従う能力を示している。
我々は,事前学習や微調整において,そのようなデータに対して明示的に訓練されていないにもかかわらず,画素内のテキスト命令をマルチモーダルモデルでどの程度理解できるかを検討する。
我々は、テキストモダリティと視覚モダリティの両方で、堅牢な指示を実行できる一般化可能なモデルであるv-MLLMを訓練する。
論文 参考訳(メタデータ) (2023-11-29T14:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。