論文の概要: Knowledge Completes the Vision: A Multimodal Entity-aware Retrieval-Augmented Generation Framework for News Image Captioning
- arxiv url: http://arxiv.org/abs/2511.21002v1
- Date: Wed, 26 Nov 2025 03:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.936967
- Title: Knowledge Completes the Vision: A Multimodal Entity-aware Retrieval-Augmented Generation Framework for News Image Captioning
- Title(参考訳): 知識がビジョンを完結する:ニュース画像キャプションのためのマルチモーダルエンティティ対応検索拡張生成フレームワーク
- Authors: Xiaoxing You, Qiang Huang, Lingyu Li, Chi Zhang, Xiaopeng Liu, Min Zhang, Jun Yu,
- Abstract要約: MERGE(Multimodal Entity-aware Retrieval-augmented GEneration framework)を紹介した。
MERGEは、テキスト、ビジュアル、構造化知識を統合したエンティティ中心のマルチモーダル知識ベース(EMKB)を構築する。
GoodNewsとNYTimes800kの実験によると、MERGEは最先端のベースラインを大きく上回っている。
- 参考スコア(独自算出の注目度): 23.54043580904717
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: News image captioning aims to produce journalistically informative descriptions by combining visual content with contextual cues from associated articles. Despite recent advances, existing methods struggle with three key challenges: (1) incomplete information coverage, (2) weak cross-modal alignment, and (3) suboptimal visual-entity grounding. To address these issues, we introduce MERGE, the first Multimodal Entity-aware Retrieval-augmented GEneration framework for news image captioning. MERGE constructs an entity-centric multimodal knowledge base (EMKB) that integrates textual, visual, and structured knowledge, enabling enriched background retrieval. It improves cross-modal alignment through a multistage hypothesis-caption strategy and enhances visual-entity matching via dynamic retrieval guided by image content. Extensive experiments on GoodNews and NYTimes800k show that MERGE significantly outperforms state-of-the-art baselines, with CIDEr gains of +6.84 and +1.16 in caption quality, and F1-score improvements of +4.14 and +2.64 in named entity recognition. Notably, MERGE also generalizes well to the unseen Visual News dataset, achieving +20.17 in CIDEr and +6.22 in F1-score, demonstrating strong robustness and domain adaptability.
- Abstract(参考訳): ニュース画像キャプションは、視覚的内容と関連する記事の文脈的手がかりを組み合わせることで、ジャーナリストに情報的記述を提供することを目的としている。
近年の進歩にもかかわらず,既存の手法では,(1)不完全情報カバレッジ,(2)相互モーダルアライメントの弱さ,(3)最適視差接地という3つの重要な課題に悩まされている。
これらの問題に対処するため、MERGEは、ニュース画像キャプションのための、最初のマルチモーダルエンティティ対応検索拡張フレームワークである。
MERGEは、テキスト、視覚、構造化知識を統合し、豊富なバックグラウンド検索を可能にするエンティティ中心のマルチモーダル知識ベース(EMKB)を構築する。
多段階の仮説キャプション戦略により、クロスモーダルアライメントを改善し、画像コンテンツによってガイドされる動的検索による視覚的エンタリティマッチングを強化する。
GoodNewsとNYTimes800kの大規模な実験によると、MERGEは最先端のベースラインを著しく上回り、CIDErのキャプション品質は+6.84と+1.16で、F1スコアは+4.14と+2.64と名付けられている。
特に、MERGEは、CIDErで+20.17、F1スコアで+6.22を達成し、強い堅牢性とドメイン適応性を示す、目に見えないVisual Newsデータセットをうまく一般化している。
関連論文リスト
- ReCap: Event-Aware Image Captioning with Article Retrieval and Semantic Gaussian Normalization [9.914251544971686]
ReCapは、イベント強化された画像検索とキャプションのための新しいパイプラインである。
関連する記事からより広い文脈情報を取り入れ、物語に富んだキャプションを生成する。
我々のアプローチは、標準的な視覚言語モデルの限界に対処する。
論文 参考訳(メタデータ) (2025-09-01T08:48:33Z) - Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring [26.174094671736686]
視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。
クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。
一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
論文 参考訳(メタデータ) (2025-06-10T04:04:58Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - InternLM-XComposer: A Vision-Language Large Model for Advanced
Text-image Comprehension and Composition [111.65584066987036]
InternLM-XComposerは、高度な画像テキストの理解と合成を可能にする視覚言語による大規模モデルである。
シームレスに画像を統合するコヒーレントでコンテキスト的な記事を生成することができる。
画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
論文 参考訳(メタデータ) (2023-09-26T17:58:20Z) - Hierarchical Aligned Multimodal Learning for NER on Tweet Posts [12.632808712127291]
マルチモーダルなエンティティ認識(MNER)が注目されている。
画像とテキストのシーケンスを動的に調整する新しい手法を提案する。
2つのオープンデータセットで実験を行い、その結果と詳細な分析により、我々のモデルの利点を実証した。
論文 参考訳(メタデータ) (2023-05-15T06:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。