論文の概要: ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning
- arxiv url: http://arxiv.org/abs/2412.19289v2
- Date: Mon, 30 Dec 2024 05:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 12:42:41.991177
- Title: ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning
- Title(参考訳): ViPCap: 軽量画像キャプチャのための検索テキストベースのビジュアルプロンプト
- Authors: Taewhan Kim, Soeun Lee, Si-Woo Kim, Dong-Jin Kim,
- Abstract要約: 画像キャプションを軽量にするための新しい検索テキストベースのビジュアルプロンプトであるViPCapを提案する。
ViPCapは, 従来の軽量キャプションモデルよりも効率, 有効性に優れていた。
- 参考スコア(独自算出の注目度): 3.502816712907136
- License:
- Abstract: Recent lightweight image captioning models using retrieved data mainly focus on text prompts. However, previous works only utilize the retrieved text as text prompts, and the visual information relies only on the CLIP visual embedding. Because of this issue, there is a limitation that the image descriptions inherent in the prompt are not sufficiently reflected in the visual embedding space. To tackle this issue, we propose ViPCap, a novel retrieval text-based visual prompt for lightweight image captioning. ViPCap leverages the retrieved text with image information as visual prompts to enhance the ability of the model to capture relevant visual information. By mapping text prompts into the CLIP space and generating multiple randomized Gaussian distributions, our method leverages sampling to explore randomly augmented distributions and effectively retrieves the semantic features that contain image information. These retrieved features are integrated into the image and designated as the visual prompt, leading to performance improvements on the datasets such as COCO, Flickr30k, and NoCaps. Experimental results demonstrate that ViPCap significantly outperforms prior lightweight captioning models in efficiency and effectiveness, demonstrating the potential for a plug-and-play solution.
- Abstract(参考訳): 検索データを用いた最近の軽量画像キャプションモデルは主にテキストプロンプトに焦点を当てている。
しかし、以前の作業では、検索したテキストのみをテキストプロンプトとして利用し、視覚情報はCLIPのビジュアル埋め込みにのみ依存する。
このため、プロンプトに固有の画像記述が視覚埋め込み空間に十分に反映されないという制限がある。
そこで本研究では,画像キャプションの軽量化のための新しい検索テキストベースのビジュアルプロンプトであるViPCapを提案する。
ViPCapは、検索したテキストと画像情報を視覚的プロンプトとして利用し、関連する視覚情報をキャプチャするモデルの能力を強化する。
テキストプロンプトをCLIP空間にマッピングし、複数のランダム化されたガウス分布を生成することにより、サンプリングを利用してランダムに拡張された分布を探索し、画像情報を含む意味的特徴を効果的に検索する。
これらの検索された機能はイメージに統合され、ビジュアルプロンプトとして指定され、COCO、Flickr30k、NoCapsなどのデータセットのパフォーマンスが改善される。
実験結果から,ViPCapは従来の軽量キャプションモデルよりも効率と有効性に優れており,プラグアンドプレイソリューションの可能性を示している。
関連論文リスト
- FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - The Solution for Language-Enhanced Image New Category Discovery [5.500122875523184]
本稿では,CLIPのトレーニングプロセスの反転とPseudo Visual Promptsの概念の導入を提案する。
これらのプロンプトは各対象カテゴリに対して行われ、大規模で低コストな文データに基づいて事前訓練される。
次に、コントラスト学習を用いて、記憶された視覚情報をテキストラベルに転送し、その視覚表現能力を高める。
論文 参考訳(メタデータ) (2024-07-06T08:09:29Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。