論文の概要: ReCap: Event-Aware Image Captioning with Article Retrieval and Semantic Gaussian Normalization
- arxiv url: http://arxiv.org/abs/2509.01259v1
- Date: Mon, 01 Sep 2025 08:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.608018
- Title: ReCap: Event-Aware Image Captioning with Article Retrieval and Semantic Gaussian Normalization
- Title(参考訳): ReCap: 記事検索と意味ガウス正規化によるイベント認識画像のキャプション
- Authors: Thinh-Phuc Nguyen, Thanh-Hai Nguyen, Gia-Huy Dinh, Lam-Huy Nguyen, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: ReCapは、イベント強化された画像検索とキャプションのための新しいパイプラインである。
関連する記事からより広い文脈情報を取り入れ、物語に富んだキャプションを生成する。
我々のアプローチは、標準的な視覚言語モデルの限界に対処する。
- 参考スコア(独自算出の注目度): 9.914251544971686
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image captioning systems often produce generic descriptions that fail to capture event-level semantics which are crucial for applications like news reporting and digital archiving. We present ReCap, a novel pipeline for event-enriched image retrieval and captioning that incorporates broader contextual information from relevant articles to generate narrative-rich, factually grounded captions. Our approach addresses the limitations of standard vision-language models that typically focus on visible content while missing temporal, social, and historical contexts. ReCap comprises three integrated components: (1) a robust two-stage article retrieval system using DINOv2 embeddings with global feature similarity for initial candidate selection followed by patch-level mutual nearest neighbor similarity re-ranking; (2) a context extraction framework that synthesizes information from article summaries, generic captions, and original source metadata; and (3) a large language model-based caption generation system with Semantic Gaussian Normalization to enhance fluency and relevance. Evaluated on the OpenEvents V1 dataset as part of Track 1 in the EVENTA 2025 Grand Challenge, ReCap achieved a strong overall score of 0.54666, ranking 2nd on the private test set. These results highlight ReCap's effectiveness in bridging visual perception with real-world knowledge, offering a practical solution for context-aware image understanding in high-stakes domains. The code is available at https://github.com/Noridom1/EVENTA2025-Event-Enriched-Image-Captioning.
- Abstract(参考訳): 画像キャプションシステムは、しばしば、ニュースレポートやデジタルアーカイブのようなアプリケーションに不可欠なイベントレベルのセマンティクスをキャプチャできない一般的な記述を生成する。
本稿では,イベントリッチな画像検索とキャプションのための新しいパイプラインReCapについて紹介する。
我々のアプローチは、時間的、社会的、歴史的文脈を欠いたまま、通常、目に見えるコンテンツに焦点をあてる標準的な視覚言語モデルの限界に対処する。
ReCapは,(1)初期候補選択のためのグローバルな特徴類似性を備えたDINOv2埋め込みを用いた堅牢な2段階記事検索システム,(2)記事要約,ジェネリックキャプション,およびオリジナルソースメタデータから情報を合成するコンテキスト抽出フレームワーク,(3)Semantic Gaussian Normalizationを用いた大規模言語モデルベースのキャプション生成システム,の3つの統合コンポーネントから構成される。
EVENTA 2025 Grand Challengeのトラック1の一部としてOpenEvents V1データセットに基づいて評価され、ReCapはプライベートテストセットで2番目に高い0.54666のスコアを獲得した。
これらの結果は、ReCapが現実世界の知識で視覚知覚をブリッジする上で有効であることを強調し、高精細領域における文脈認識画像理解の実践的なソリューションを提供する。
コードはhttps://github.com/Noridom1/EVENTA2025-Event-Enriched-Image-Captioningで公開されている。
関連論文リスト
- EVENT-Retriever: Event-Aware Multimodal Image Retrieval for Realistic Captions [11.853877966862086]
自由形キャプションからのイベントベースの画像検索は重要な課題である。
本稿では,高密度な記事検索,イベント認識言語モデルの再ランク付け,効率的な画像収集を併用した多段階検索フレームワークを提案する。
本システムは,EVENTA 2025 Grand Challengeにおけるトラック2のプライベートテストセットにおいて,トップ1のスコアを達成している。
論文 参考訳(メタデータ) (2025-08-31T09:03:25Z) - ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。
本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。
450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-06-24T17:59:55Z) - DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding [10.347788969721844]
Dive Into Retrieval (DIR) は、画像からテキストへの検索プロセスと、検索したテキストの利用の両方を強化するように設計されている。
DIRはドメイン内性能の競争力を維持するだけでなく、ドメイン外の一般化も大幅に改善する。
論文 参考訳(メタデータ) (2024-12-02T04:39:17Z) - Generating image captions with external encyclopedic knowledge [1.452875650827562]
我々は、画像固有の百科事典データを広範囲に活用するエンドツーエンドのキャプション生成システムを構築した。
われわれのアプローチは、画像位置を用いて、外部知識ベースで関連するオープンドメインの事実を識別する新しい方法を含む。
我々のシステムは、自然に生成された知識に富んだキャプションを持つ新しいデータセットで訓練され、テストされている。
論文 参考訳(メタデータ) (2022-10-10T16:09:21Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - CapOnImage: Context-driven Dense-Captioning on Image [13.604173177437536]
画像上のキャプション(CapOnImage)と呼ばれる新しいタスクを導入し、コンテキスト情報に基づいて画像の異なる場所で高密度キャプションを生成する。
テキストと画像位置の対応を段階的に学習するマルチレベル事前学習タスクを備えたマルチモーダル事前学習モデルを提案する。
他の画像キャプションモデルと比較すると、キャプション精度と多様性の両面で最良の結果が得られる。
論文 参考訳(メタデータ) (2022-04-27T14:40:31Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。