論文の概要: ZSE-Cap: A Zero-Shot Ensemble for Image Retrieval and Prompt-Guided Captioning
- arxiv url: http://arxiv.org/abs/2507.20564v1
- Date: Mon, 28 Jul 2025 06:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.892166
- Title: ZSE-Cap: A Zero-Shot Ensemble for Image Retrieval and Prompt-Guided Captioning
- Title(参考訳): ZSE-Cap:画像検索とプロンプト誘導キャプションのためのゼロショットアンサンブル
- Authors: Duc-Tai Dinh, Duc Anh Khoa Dinh,
- Abstract要約: イベント強化画像解析(EVENTA)におけるZSE-Cap(Zero-Shot Ensemble for Captioning)について紹介する。
ゼロショットアプローチでは、競合データの微調整は必要ありません。検索には、CLIP、SigLIP、DINOv2の類似性スコアをアンサンブルします。
キャプションには、慎重に設計されたプロンプトを利用してGemma 3モデルをガイドし、記事から画像の視覚的内容への高レベルイベントのリンクを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present ZSE-Cap (Zero-Shot Ensemble for Captioning), our 4th place system in Event-Enriched Image Analysis (EVENTA) shared task on article-grounded image retrieval and captioning. Our zero-shot approach requires no finetuning on the competition's data. For retrieval, we ensemble similarity scores from CLIP, SigLIP, and DINOv2. For captioning, we leverage a carefully engineered prompt to guide the Gemma 3 model, enabling it to link high-level events from the article to the visual content in the image. Our system achieved a final score of 0.42002, securing a top-4 position on the private test set, demonstrating the effectiveness of combining foundation models through ensembling and prompting. Our code is available at https://github.com/ductai05/ZSE-Cap.
- Abstract(参考訳): 本稿では,ZSE-Cap(Zero-Shot Ensemble for Captioning)について紹介する。
ゼロショットのアプローチでは、競合のデータを微調整する必要はありません。
検索にはCLIP,SigLIP,DINOv2の類似度スコアをアンサンブルする。
キャプションには、慎重に設計されたプロンプトを利用してGemma 3モデルをガイドし、記事から画像の視覚的内容への高レベルイベントのリンクを可能にする。
本システムでは2002年の最終スコア0.42002を達成し,テストセットの上位4位を確保し,アンサンブルとプロンプトによる基礎モデルの組み合わせの有効性を実証した。
私たちのコードはhttps://github.com/ductai05/ZSE-Capで利用可能です。
関連論文リスト
- CICA: Content-Injected Contrastive Alignment for Zero-Shot Document Image Classification [11.225067563482169]
ゼロショット学習(ZSL)および一般化ゼロショット学習(GZSL)設定において、包括的な文書画像分類分析を行う。
CICA(ki-ka)はCLIPのゼロショット学習能力を向上するフレームワークである。
我々のモジュールは、CLIPのZSLトップ-1精度を6.7%改善し、GZSLハーモニック平均はRVL-CDIPデータセットで24%向上した。
論文 参考訳(メタデータ) (2024-05-06T17:37:23Z) - Modeling Caption Diversity in Contrastive Vision-Language Pretraining [48.7603274197994]
画像にマッチするキャプションの多様性をモデル化したLlip, Latent Language Image Pretrainingを導入する。
Llipの視覚エンコーダは、テキストから派生した情報を条件付けして最終的な表現に混合された視覚的特徴のセットを出力する。
Llipは大規模エンコーダでも,CLIPやSigLIPのような非コンテクスト化されたベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-30T01:19:18Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model
Pretraining [68.84339672878066]
意味レベルが異なる入力ピラミッドを構築し,視覚的要素と言語的要素を階層構造として整列させる。
ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミドCLIPの有効性を検証する。
論文 参考訳(メタデータ) (2022-04-29T13:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。