論文の概要: Improving Generalization of Image Captioning with Unsupervised Prompt
Learning
- arxiv url: http://arxiv.org/abs/2308.02862v1
- Date: Sat, 5 Aug 2023 12:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 18:19:10.907074
- Title: Improving Generalization of Image Captioning with Unsupervised Prompt
Learning
- Title(参考訳): 教師なしプロンプト学習による画像キャプションの一般化
- Authors: Hongchen Wei, Zhenzhong Chen
- Abstract要約: 画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
- 参考スコア(独自算出の注目度): 63.26197177542422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained visual-language models have demonstrated impressive zero-shot
abilities in image captioning, when accompanied by hand-crafted prompts.
Meanwhile, hand-crafted prompts utilize human prior knowledge to guide the
model. However, due to the diversity between different domains, such
hand-crafted prompt that provide invariant prior knowledge may result in mode
collapse for some domains. Some researches attempted to incorporate expert
knowledge and instruction datasets, but the results were costly and led to
hallucinations. In this paper, we propose an unsupervised prompt learning
method to improve Generalization of Image Captioning (GeneIC), which learns a
domain-specific prompt vector for the target domain without requiring annotated
data. GeneIC aligns visual and language modalities with a pre-trained
Contrastive Language-Image Pre-Training (CLIP) model, thus optimizing the
domain-specific prompt vector from two aspects: attribute and semantic
consistency. Specifically, GeneIC first generates attribute-transferred images
with differing attributes, while retaining semantic similarity with original
images. Then, GeneIC uses CLIP to measure the similarity between the images and
the generated sentences. By exploring the variable and invariant features in
the original images and attribute-transferred images, attribute consistency
constrains the attribute change direction of both images and sentences to learn
domain-specific knowledge. The semantic consistency directly measures the
similarity between the generated sentences and images to ensure the accuracy
and comprehensiveness of the generated sentences. Consequently, GeneIC only
optimizes the prompt vectors, which effectively retains the knowledge in the
large model and introduces domain-specific knowledge.
- Abstract(参考訳): 事前訓練された視覚言語モデルは、手作りのプロンプトを伴って画像キャプションにおいて印象的なゼロショット能力を示した。
一方、手作りのプロンプトは人間の事前知識を利用してモデルを導く。
しかし、異なるドメイン間の多様性のため、不変な事前知識を提供する手作りのプロンプトは、いくつかのドメインに対してモード崩壊をもたらす可能性がある。
いくつかの研究は専門家の知識と指導データセットを取り入れようとしたが、結果は高価で幻覚につながった。
本稿では,アノテートデータを必要とせず,対象領域のドメイン固有プロンプトベクトルを学習する画像キャプション(ジェネリック)の一般化を改善するための教師なしプロンプト学習手法を提案する。
GeneICは、事前訓練されたContrastive Language-Image Pre-Training (CLIP)モデルとビジュアルおよび言語モダリティを一致させ、属性とセマンティック一貫性という2つの側面からドメイン固有のプロンプトベクトルを最適化する。
具体的には、geneicは最初に、元の画像と意味的な類似性を維持しながら、異なる属性を持つ属性転送画像を生成する。
そして、GeneICはCLIPを使用して画像と生成された文の類似度を測定する。
原画像と属性変換画像の変数および不変性を探索することにより、属性一貫性は、画像と文の属性変化方向を制約し、ドメイン固有の知識を学習する。
意味一貫性は生成した文と画像の類似性を直接測定し、生成した文の精度と包括性を保証する。
その結果、GeneICはプロンプトベクトルのみを最適化し、大きなモデルの知識を効果的に保持し、ドメイン固有の知識を導入する。
関連論文リスト
- Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Prompt Ensemble Self-training for Open-Vocabulary Domain Adaptation [45.02052030837188]
我々は、新しい教師なしドメイン適応フレームワークであるオープン語彙ドメイン適応(OVDA)について研究する。
視覚と言語間の相乗効果を利用したPEST(Prompt Ensemble Self-Trening)技術の設計を行う。
PESTは、10の画像認識タスクで最先端のタスクを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-29T03:39:35Z) - Domain-invariant Prototypes for Semantic Segmentation [30.932130453313537]
ドメイン適応型セマンティックセグメンテーションのためのドメイン不変のプロトタイプを学習する。
本手法は,1段階の訓練のみを伴い,大規模な未注釈対象画像に対してトレーニングを行う必要はない。
論文 参考訳(メタデータ) (2022-08-12T02:21:05Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Understanding Guided Image Captioning Performance across Domains [22.283016988026926]
本稿では,画像キャプションが重視すべき概念を,ガイドテキストと呼ばれる追加入力を用いて制御する手法を提案する。
人的評価の結果から,画像キャプションを組み込むには,大規模で制限のない領域トレーニングデータセットへのアクセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T00:05:02Z) - Unsupervised Domain Attention Adaptation Network for Caricature
Attribute Recognition [23.95731281719786]
キャラクチュア属性は、心理学と神経科学の研究に役立つ特徴的な顔の特徴を提供する。
注釈付き画像の量を持つ顔写真属性データセットとは異なり、似顔絵属性のアノテーションは稀である。
本稿では,画像の属性学習のための特徴属性データセットであるWebCariAを提案する。
論文 参考訳(メタデータ) (2020-07-18T06:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。