Fugu-MT 論文翻訳(概要): Entity-Aware Multimodal Alignment Framework for News Image Captioning

論文の概要: Entity-Aware Multimodal Alignment Framework for News Image Captioning

arxiv url: http://arxiv.org/abs/2402.19404v1
Date: Thu, 29 Feb 2024 18:03:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 13:37:14.991994
Title: Entity-Aware Multimodal Alignment Framework for News Image Captioning
Title（参考訳）: ニュース画像キャプションのためのエンティティ対応マルチモーダルアライメントフレームワーク
Authors: Junzhe Zhang and Huixuan Zhang and Xiaojun Wan
Abstract要約: ニュース画像キャプションタスクは、ニュース画像と関連するニュース記事のキャプションを生成するモデルを必要とする。 2つのマルチモーダルなエンティティ対応アライメントタスクとアライメントフレームワークを設計し、モデルをアライメントし、ニュース画像キャプションを生成する。提案手法は,GoodNewsデータセットでは72.33 -> 86.29,NYTimes800kデータセットでは70.83 -> 85.61,CIDErスコアでは72.33 -> 86.29,NYTimes800kデータセットでは70.83 -> 85.61よりも優れた結果が得られる。
参考スコア（独自算出の注目度）: 64.5433181220184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: News image captioning task is a variant of image captioning task which requires model to generate a more informative caption with news image and the associated news article. Multimodal Large Language models have developed rapidly in recent years and is promising in news image captioning task. However, according to our experiments, common MLLMs are not good at generating the entities in zero-shot setting. Their abilities to deal with the entities information are still limited after simply fine-tuned on news image captioning dataset. To obtain a more powerful model to handle the multimodal entity information, we design two multimodal entity-aware alignment tasks and an alignment framework to align the model and generate the news image captions. Our method achieves better results than previous state-of-the-art models in CIDEr score (72.33 -> 86.29) on GoodNews dataset and (70.83 -> 85.61) on NYTimes800k dataset.
Abstract（参考訳）: ニュース画像キャプションタスクは、ニュース画像と関連するニュース記事とのより情報的なキャプションを生成するモデルを必要とする画像キャプションタスクの一種である。近年,マルチモーダル大規模言語モデルは急速に発展し,ニュース画像キャプションタスクに期待されている。しかし,実験によれば,共通MLLMはゼロショット設定でエンティティを生成するのが得意ではない。エンティティ情報を扱う能力は、単にニュース画像キャプションデータセットを微調整した後に制限される。マルチモーダルエンティティ情報を扱うためのより強力なモデルを得るため、2つのマルチモーダルエンティティ・アウェアアライメントタスクと、モデルをアライメントしてニュース画像キャプションを生成するアライメントフレームワークを設計する。提案手法は,GoodNewsデータセットにおけるCIDErスコア(72.33 -> 86.29),NYTimes800kデータセットにおける(70.83 -> 85.61)よりも優れた結果が得られる。

関連論文リスト

Multi-LLM Collaborative Caption Generation in Scientific Documents [30.856381292477177]
MLBCAP(Multi-LLM Collaborative Figure Caption Generation)というフレームワークを導入する。私たちのアプローチは3つの重要なモジュールに展開します。人間の評価から,我々のアプローチによる情報キャプションは人書きキャプションよりも格段に高いことが示された。
論文参考訳（メタデータ） (2025-01-05T14:09:12Z)
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文参考訳（メタデータ） (2024-12-20T01:37:22Z)
Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文参考訳（メタデータ） (2024-12-04T19:01:06Z)
FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。 318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。 9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文参考訳（メタデータ） (2024-10-16T13:38:31Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文参考訳（メタデータ） (2024-08-23T06:48:46Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis [6.066100464517522]
我々は,5つの異なるメディア組織から得られた70K以上のサンプルを含む,高レベルのcOntext Representationデータセットを用いた抽象ニュースキャプションを紹介する。提案手法は,LLM生成した被写体重みを利用して,合成画像中の重要被写体を選択的に表現し,拡張するものである。また、ANCHORの現在のT2Iベースラインよりも優れたカスタムドメインファインチューニングにより、ニュース画像やキャプションのドメイン分布にも適応する。
論文参考訳（メタデータ） (2024-04-15T21:19:10Z)
MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文参考訳（メタデータ） (2023-11-30T18:05:52Z)
Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels? [158.96530466189986]
マルチモーダルな大規模言語モデル (MLLM) は、視覚言語タスクにおいて有望な命令に従う能力を示している。我々は,事前学習や微調整において,そのようなデータに対して明示的に訓練されていないにもかかわらず,画素内のテキスト命令をマルチモーダルモデルでどの程度理解できるかを検討する。我々は、テキストモダリティと視覚モダリティの両方で、堅牢な指示を実行できる一般化可能なモデルであるv-MLLMを訓練する。
論文参考訳（メタデータ） (2023-11-29T14:08:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。