論文の概要: User-Aware Prefix-Tuning is a Good Learner for Personalized Image
Captioning
- arxiv url: http://arxiv.org/abs/2312.04793v1
- Date: Fri, 8 Dec 2023 02:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:21:27.395361
- Title: User-Aware Prefix-Tuning is a Good Learner for Personalized Image
Captioning
- Title(参考訳): ユーザ対応のプレフィックスチューニングは、パーソナライズされた画像キャプションの学習に役立つ
- Authors: Xuan Wang, Guanhong Wang, Wenhao Chai, Jiayu Zhou, and Gaoang Wang
- Abstract要約: 従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 35.211749514733846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image captioning bridges the gap between vision and language by automatically
generating natural language descriptions for images. Traditional image
captioning methods often overlook the preferences and characteristics of users.
Personalized image captioning solves this problem by incorporating user prior
knowledge into the model, such as writing styles and preferred vocabularies.
Most existing methods emphasize the user context fusion process by memory
networks or transformers. However, these methods ignore the distinct domains of
each dataset. Therefore, they need to update the entire caption model
parameters when meeting new samples, which is time-consuming and
calculation-intensive. To address this challenge, we propose a novel
personalized image captioning framework that leverages user context to consider
personality factors. Additionally, our framework utilizes the prefix-tuning
paradigm to extract knowledge from a frozen large language model, reducing the
gap between different language domains. Specifically, we employ CLIP to extract
the visual features of an image and align the semantic space using a
query-guided mapping network. By incorporating the transformer layer, we merge
the visual features with the user's contextual prior knowledge to generate
informative prefixes. Moreover, we employ GPT-2 as the frozen large language
model. With a small number of parameters to be trained, our model performs
efficiently and effectively. Our model outperforms existing baseline models on
Instagram and YFCC100M datasets across five evaluation metrics, demonstrating
its superiority, including twofold improvements in metrics such as BLEU-4 and
CIDEr.
- Abstract(参考訳): 画像キャプションは、画像の自然言語記述を自動的に生成することで、視覚と言語の間のギャップを埋める。
従来の画像キャプション方式はユーザの好みや特徴を無視することが多い。
パーソナライズされた画像キャプションは、ユーザの事前知識を記述スタイルや好みの語彙などモデルに組み込むことで、この問題を解決する。
既存の手法のほとんどは、メモリネットワークやトランスフォーマーによるユーザーコンテキスト融合プロセスを強調している。
しかし、これらの方法は各データセットの異なるドメインを無視している。
したがって、新しいサンプルを満たす際にキャプションモデルパラメータ全体を更新する必要がある。
この課題に対処するために,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
さらに,本フレームワークはプレフィックスチューニングパラダイムを利用して,凍結した大規模言語モデルから知識を抽出し,異なる言語領域間のギャップを低減する。
具体的には,画像の視覚的特徴抽出にクリップを用い,クエリ誘導マッピングネットワークを用いて意味空間の調整を行う。
変換器層を組み込むことで、視覚的特徴とユーザの文脈的事前知識を融合させ、情報的接頭辞を生成する。
さらに,凍結した大言語モデルとして GPT-2 を用いる。
少数のパラメータをトレーニングすれば、モデルが効率的かつ効果的に動作します。
我々のモデルは、Instagramの既存のベースラインモデルと5つの評価指標のYFCC100Mデータセットより優れており、BLEU-4やCIDErのようなメトリクスの2倍の改善を含む、その優位性を示している。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z) - Understanding Guided Image Captioning Performance across Domains [22.283016988026926]
本稿では,画像キャプションが重視すべき概念を,ガイドテキストと呼ばれる追加入力を用いて制御する手法を提案する。
人的評価の結果から,画像キャプションを組み込むには,大規模で制限のない領域トレーニングデータセットへのアクセスが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T00:05:02Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。