Fugu-MT 論文翻訳(概要): EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning

論文の概要: EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning

arxiv url: http://arxiv.org/abs/2402.19404v2
Date: Mon, 15 Apr 2024 13:47:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 22:46:16.380016
Title: EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning
Title（参考訳）: EAMA : エンティティ対応マルチモーダルアライメントに基づくニューズ画像キャプションのためのアプローチ
Authors: Junzhe Zhang, Huixuan Zhang, Xunjian Yin, Xiaojun Wan,
Abstract要約: ニュース画像キャプションは、ニュース画像と関連するニュース記事とともに、エンティティに富んだ情報キャプションを生成するモデルを必要とする。現在のMLLM(Multimodal Large Language Models)は、ニュース画像キャプションタスクのエンティティ情報を扱う場合に制限がある。提案手法は,GoodNewsデータセット(72.33 -> 88.39)とNYTimes800kデータセット(70.83 -> 85.61)のCIDErスコアよりも優れた結果が得られる。
参考スコア（独自算出の注目度）: 55.033327333250455
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: News image captioning requires model to generate an informative caption rich in entities, with the news image and the associated news article. Though Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in addressing various vision-language tasks, our research finds that current MLLMs still bear limitations in handling entity information on news image captioning task. Besides, while MLLMs have the ability to process long inputs, generating high-quality news image captions still requires a trade-off between sufficiency and conciseness of textual input information. To explore the potential of MLLMs and address problems we discovered, we propose : an Entity-Aware Multimodal Alignment based approach for news image captioning. Our approach first aligns the MLLM through Balance Training Strategy with two extra alignment tasks: Entity-Aware Sentence Selection task and Entity Selection task, together with News Image Captioning task, to enhance its capability in handling multimodal entity information. The aligned MLLM will utilizes the additional entity-related information it explicitly extract to supplement its textual input while generating news image captions. Our approach achieves better results than all previous models in CIDEr score on GoodNews dataset (72.33 -> 88.39) and NYTimes800k dataset (70.83 -> 85.61).
Abstract（参考訳）: ニュース画像キャプションは、ニュース画像と関連するニュース記事とともに、エンティティに富んだ情報キャプションを生成するモデルを必要とする。 MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクに対処する際、目覚ましい機能を示したが、現在のMLLMは、ニュース画像キャプションタスクのエンティティ情報に制限がある。また、MLLMは長い入力を処理できるが、高品質なニュース画像キャプションを生成するには、テキスト入力情報の十分性と簡潔さのトレードオフが必要である。 MLLMの可能性を探求し,我々が発見した問題に対処するために,ニュース画像キャプションのためのEntity-Aware Multimodal Alignmentに基づくアプローチを提案する。我々はまず,バランストレーニング戦略を通じてMLLMを2つの追加アライメントタスク – エンティティ・アウェア・センテンス選択タスクとエンティティ選択タスク,およびNews Image Captioningタスク – に整合させ,マルチモーダルなエンティティ情報を扱う能力を高める。整列MLLMは、明示的に抽出したエンティティ関連情報を利用して、ニュース画像キャプションを生成しながらテキスト入力を補完する。提案手法は,GoodNewsデータセット(72.33 -> 88.39)とNYTimes800kデータセット(70.83 -> 85.61)のCIDErスコアよりも優れた結果が得られる。

関連論文リスト

Multi-LLM Collaborative Caption Generation in Scientific Documents [30.856381292477177]
MLBCAP(Multi-LLM Collaborative Figure Caption Generation)というフレームワークを導入する。私たちのアプローチは3つの重要なモジュールに展開します。人間の評価から,我々のアプローチによる情報キャプションは人書きキャプションよりも格段に高いことが示された。
論文参考訳（メタデータ） (2025-01-05T14:09:12Z)
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文参考訳（メタデータ） (2024-12-20T01:37:22Z)
Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文参考訳（メタデータ） (2024-12-04T19:01:06Z)
FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。 318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。 9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文参考訳（メタデータ） (2024-10-16T13:38:31Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
Semantic Alignment for Multimodal Large Language Models [72.10272479476161]
多モード大言語モデル(SAM)のセマンティックアライメントについて紹介する。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。画像間の双方向的意味指導を視覚的・視覚的抽出プロセスに組み込むことにより,コヒーレント解析のためのリンク情報の保存性を高めることを目的とする。
論文参考訳（メタデータ） (2024-08-23T06:48:46Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis [6.066100464517522]
我々は,5つの異なるメディア組織から得られた70K以上のサンプルを含む,高レベルのcOntext Representationデータセットを用いた抽象ニュースキャプションを紹介する。提案手法は,LLM生成した被写体重みを利用して,合成画像中の重要被写体を選択的に表現し,拡張するものである。また、ANCHORの現在のT2Iベースラインよりも優れたカスタムドメインファインチューニングにより、ニュース画像やキャプションのドメイン分布にも適応する。
論文参考訳（メタデータ） (2024-04-15T21:19:10Z)
MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文参考訳（メタデータ） (2023-11-30T18:05:52Z)
Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels? [158.96530466189986]
マルチモーダルな大規模言語モデル (MLLM) は、視覚言語タスクにおいて有望な命令に従う能力を示している。我々は,事前学習や微調整において,そのようなデータに対して明示的に訓練されていないにもかかわらず,画素内のテキスト命令をマルチモーダルモデルでどの程度理解できるかを検討する。我々は、テキストモダリティと視覚モダリティの両方で、堅牢な指示を実行できる一般化可能なモデルであるv-MLLMを訓練する。
論文参考訳（メタデータ） (2023-11-29T14:08:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。