論文の概要: CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal
Pre-trained Knowledge
- arxiv url: http://arxiv.org/abs/2211.09371v1
- Date: Thu, 17 Nov 2022 06:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 17:15:07.168254
- Title: CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal
Pre-trained Knowledge
- Title(参考訳): CapEnrich: クロスモーダルな事前学習によるWebイメージのキャプションセマンティックス強化
- Authors: Linli Yao, Weijing Chen, Qin Jin
- Abstract要約: 本稿では,一般的な画像記述を,よりセマンティックな詳細で補完するプラグイン・アンド・プレイ・フレームワークであるCapEnrichを提案する。
提案手法は,Web画像における生成文の記述性や多様性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 44.31783230767321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically generating textual descriptions for massive unlabeled images on
the web can greatly benefit realistic web applications, e.g. multimodal
retrieval and recommendation. However, existing models suffer from the problem
of generating ``over-generic'' descriptions, such as their tendency to generate
repetitive sentences with common concepts for different images. These generic
descriptions fail to provide sufficient textual semantics for ever-changing web
images. Inspired by the recent success of Vision-Language Pre-training (VLP)
models that learn diverse image-text concept alignment during pretraining, we
explore leveraging their cross-modal pre-trained knowledge to automatically
enrich the textual semantics of image descriptions. With no need for additional
human annotations, we propose a plug-and-play framework, i.e CapEnrich, to
complement the generic image descriptions with more semantic details.
Specifically, we first propose an automatic data-building strategy to get
desired training sentences, based on which we then adopt prompting strategies,
i.e. learnable and template prompts, to incentivize VLP models to generate more
textual details. For learnable templates, we fix the whole VLP model and only
tune the prompt vectors, which leads to two advantages: 1) the pre-training
knowledge of VLP models can be reserved as much as possible to describe diverse
visual concepts; 2) only lightweight trainable parameters are required, so it
is friendly to low data resources. Extensive experiments show that our method
significantly improves the descriptiveness and diversity of generated sentences
for web images. Our code will be released.
- Abstract(参考訳): web上の大量のラベルのない画像に対するテキスト記述の自動生成は、マルチモーダル検索やレコメンデーションなど、現実的なwebアプリケーションに大きなメリットがある。
しかし、既存のモデルは、異なる画像に対して共通の概念を持つ反復文を生成する傾向など、'over-generic'の記述を生成する問題に悩まされている。
これらの一般的な記述は、絶え間なく変化するWebイメージに十分なテキストセマンティクスを提供していない。
近年のvlp(vision-language pre-training, 視覚言語事前学習)モデルの成功に触発されて,画像記述のテクスト的意味度を自動向上するクロスモーダル事前学習知識の活用について検討した。
追加のヒューマンアノテーションを必要としないため、一般的な画像記述をよりセマンティックな詳細で補完するプラグイン・アンド・プレイフレームワークであるCapEnrichを提案する。
具体的には、まず、所望のトレーニング文を得るための自動データ構築戦略を提案し、学習可能なプロンプトやテンプレートプロンプトといったプロンプト戦略を採用し、VLPモデルにインセンティブを与え、よりテキストの詳細を生成する。
学習可能なテンプレートでは、VLPモデル全体を修正し、プロンプトベクトルのみをチューニングします。
1) VLPモデルの事前学習知識は,多様な視覚概念を記述するために可能な限り確保することができる。
2) 軽量なトレーニング可能なパラメータしか必要としないため、低いデータリソースに親しみやすい。
本手法は,Web画像における文の記述性や多様性を大幅に向上させる。
私たちのコードはリリースされます。
関連論文リスト
- Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions [30.08331098481379]
我々は、画像テクスチャライゼーション(IT)と呼ばれる革新的なフレームワークを提案する。
ITは、既存のマルチモーダル大言語モデル(MLLM)と複数のビジョンエキスパートモデルを活用することで、高品質な画像記述を自動的に生成する。
LLaVA-7Bは、IT処理による記述のトレーニングの恩恵を受け、よりリッチな画像記述を生成する能力の向上を図っている。
論文 参考訳(メタデータ) (2024-06-11T17:37:45Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Understanding Guided Image Captioning Performance across Domains [22.283016988026926]
本稿では,画像キャプションが重視すべき概念を,ガイドテキストと呼ばれる追加入力を用いて制御する手法を提案する。
人的評価の結果から,画像キャプションを組み込むには,大規模で制限のない領域トレーニングデータセットへのアクセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T00:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。