論文の概要: ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning
- arxiv url: http://arxiv.org/abs/2412.19289v3
- Date: Fri, 24 Jan 2025 16:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:55:32.498692
- Title: ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning
- Title(参考訳): ViPCap: 軽量画像キャプチャのための検索テキストベースのビジュアルプロンプト
- Authors: Taewhan Kim, Soeun Lee, Si-Woo Kim, Dong-Jin Kim,
- Abstract要約: 画像キャプションを軽量にするための新しい検索テキストベースのビジュアルプロンプトであるViPCapを提案する。
ViPCapは、検索したテキストと画像情報を視覚的プロンプトとして利用し、関連する視覚情報をキャプチャするモデルの能力を強化する。
実験結果から,ViPCapは従来の軽量キャプションモデルよりも効率,有効性に優れていた。
- 参考スコア(独自算出の注目度): 3.502816712907136
- License:
- Abstract: Recent lightweight image captioning models using retrieved data mainly focus on text prompts. However, previous works only utilize the retrieved text as text prompts, and the visual information relies only on the CLIP visual embedding. Because of this issue, there is a limitation that the image descriptions inherent in the prompt are not sufficiently reflected in the visual embedding space. To tackle this issue, we propose ViPCap, a novel retrieval text-based visual prompt for lightweight image captioning. ViPCap leverages the retrieved text with image information as visual prompts to enhance the ability of the model to capture relevant visual information. By mapping text prompts into the CLIP space and generating multiple randomized Gaussian distributions, our method leverages sampling to explore randomly augmented distributions and effectively retrieves the semantic features that contain image information. These retrieved features are integrated into the image and designated as the visual prompt, leading to performance improvements on the datasets such as COCO, Flickr30k, and NoCaps. Experimental results demonstrate that ViPCap significantly outperforms prior lightweight captioning models in efficiency and effectiveness, demonstrating the potential for a plug-and-play solution. The source code is available at https://github.com/taewhankim/VIPCAP.
- Abstract(参考訳): 検索データを用いた最近の軽量画像キャプションモデルは主にテキストプロンプトに焦点を当てている。
しかし、以前の作業では、検索したテキストのみをテキストプロンプトとして利用し、視覚情報はCLIPのビジュアル埋め込みにのみ依存する。
このため、プロンプトに固有の画像記述が視覚埋め込み空間に十分に反映されないという制限がある。
そこで本研究では,画像キャプションの軽量化のための新しい検索テキストベースのビジュアルプロンプトであるViPCapを提案する。
ViPCapは、検索したテキストと画像情報を視覚的プロンプトとして利用し、関連する視覚情報をキャプチャするモデルの能力を強化する。
テキストプロンプトをCLIP空間にマッピングし、複数のランダム化されたガウス分布を生成することにより、サンプリングを利用してランダムに拡張された分布を探索し、画像情報を含む意味的特徴を効果的に検索する。
これらの検索された機能はイメージに統合され、ビジュアルプロンプトとして指定され、COCO、Flickr30k、NoCapsなどのデータセットのパフォーマンスが改善される。
実験結果から,ViPCapは従来の軽量キャプションモデルよりも効率と有効性に優れており,プラグアンドプレイソリューションの可能性を示している。
ソースコードはhttps://github.com/taewhankim/VIPCAPで入手できる。
関連論文リスト
- Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - The Solution for Language-Enhanced Image New Category Discovery [5.500122875523184]
本稿では,CLIPのトレーニングプロセスの反転とPseudo Visual Promptsの概念の導入を提案する。
これらのプロンプトは各対象カテゴリに対して行われ、大規模で低コストな文データに基づいて事前訓練される。
次に、コントラスト学習を用いて、記憶された視覚情報をテキストラベルに転送し、その視覚表現能力を高める。
論文 参考訳(メタデータ) (2024-07-06T08:09:29Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。