論文の概要: DualCap: Enhancing Lightweight Image Captioning via Dual Retrieval with Similar Scenes Visual Prompts
- arxiv url: http://arxiv.org/abs/2510.24813v1
- Date: Tue, 28 Oct 2025 08:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.59151
- Title: DualCap: Enhancing Lightweight Image Captioning via Dual Retrieval with Similar Scenes Visual Prompts
- Title(参考訳): DualCap:デュアル検索による軽量画像キャプションの強化
- Authors: Binbin Li, Guimiao Yang, Zisen Qi, Haiping Wang, Yu Ding,
- Abstract要約: $DualCap$は、検索した類似した画像から視覚的なプロンプトを生成することで、視覚的な表現を強化する新しいアプローチである。
本モデルでは、テキストプロンプトの標準的な画像からテキストへの検索と、視覚的に類似したシーンを抽出するための新しい画像から画像への検索を併用する。
- 参考スコア(独自算出の注目度): 5.621348483113461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent lightweight retrieval-augmented image caption models often utilize retrieved data solely as text prompts, thereby creating a semantic gap by leaving the original visual features unenhanced, particularly for object details or complex scenes. To address this limitation, we propose $DualCap$, a novel approach that enriches the visual representation by generating a visual prompt from retrieved similar images. Our model employs a dual retrieval mechanism, using standard image-to-text retrieval for text prompts and a novel image-to-image retrieval to source visually analogous scenes. Specifically, salient keywords and phrases are derived from the captions of visually similar scenes to capture key objects and similar details. These textual features are then encoded and integrated with the original image features through a lightweight, trainable feature fusion network. Extensive experiments demonstrate that our method achieves competitive performance while requiring fewer trainable parameters compared to previous visual-prompting captioning approaches.
- Abstract(参考訳): 最近の軽量検索強化画像キャプションモデルでは、検索したデータをテキストプロンプトとしてのみ利用することが多く、特にオブジェクトの詳細や複雑なシーンにおいて、元の視覚的特徴を強調しないままにして意味的ギャップを生じさせる。
この制限に対処するため,検索した類似画像から視覚的プロンプトを生成することで視覚表現を充実させる新しいアプローチである$DualCap$を提案する。
本モデルでは、テキストプロンプトの標準的な画像からテキストへの検索と、視覚的に類似したシーンを抽出するための新しい画像から画像への検索を併用する。
特に、有能なキーワードやフレーズは、視覚的に類似したシーンのキャプションから派生し、キーオブジェクトや類似した詳細をキャプチャする。
これらのテキスト機能はエンコードされ、軽量でトレーニング可能な機能融合ネットワークを通じて元の画像機能と統合される。
提案手法は,従来の視覚プロンプトキャプション手法と比較して,トレーニング可能なパラメータを少なく抑えながら,競争性能が向上することを示した。
関連論文リスト
- ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning [3.502816712907136]
画像キャプションを軽量にするための新しい検索テキストベースのビジュアルプロンプトであるViPCapを提案する。
ViPCapは、検索したテキストと画像情報を視覚的プロンプトとして利用し、関連する視覚情報をキャプチャするモデルの能力を強化する。
実験結果から,ViPCapは従来の軽量キャプションモデルよりも効率,有効性に優れていた。
論文 参考訳(メタデータ) (2024-12-26T17:29:38Z) - You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image Retrieval [120.49126407479717]
事前学習したCLIPモデルを用いて,スケッチとテキストを効果的に組み合わせた新しい構成性フレームワークを提案する。
我々のシステムは、合成画像検索、ドメイン転送、きめ細かい生成における新しい応用にまで拡張する。
論文 参考訳(メタデータ) (2024-03-12T00:27:18Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and
Implicit Similarity [16.550790981646276]
現在のアプローチでは、クエリの2つの要素のそれぞれの特徴をひとつの表現にまとめています。
本研究の目的は,テキスト・ツー・イメージ検索と画像・ツー・イメージ検索という,慣れ親しんだ2つのフレームワークのプリズムを通じてタスクに新たな光を当てることである。
論文 参考訳(メタデータ) (2022-03-15T17:29:20Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。