論文の概要: SmallCap: Lightweight Image Captioning Prompted with Retrieval
Augmentation
- arxiv url: http://arxiv.org/abs/2209.15323v1
- Date: Fri, 30 Sep 2022 09:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:22:21.907084
- Title: SmallCap: Lightweight Image Captioning Prompted with Retrieval
Augmentation
- Title(参考訳): SmallCap: 検索機能を強化した軽量画像キャプション
- Authors: Rita Ramos, Bruno Martins, Desmond Elliott, Yova Kementchedjhieva
- Abstract要約: SmallCapは、入力画像に条件付きキャプションと、データストアから取得された関連するキャプションを生成する。
私たちのモデルは、新しく導入されたクロスアテンション層にある唯一の学習パラメータとして、軽量で高速にトレーニングできます。
SmallCapは、追加の微調整なしで新しいドメインに移行でき、トレーニング不要の方法で大規模データを活用できる。
- 参考スコア(独自算出の注目度): 20.696923698048426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in image captioning have focused on scaling the data and
model size, substantially increasing the cost of pre-training and finetuning.
As an alternative to large models, we present SmallCap, which generates a
caption conditioned on an input image and related captions retrieved from a
datastore. Our model is lightweight and fast to train as the only learned
parameters are in newly introduced cross-attention layers between a pre-trained
CLIP encoder and GPT-2 decoder. SmallCap can transfer to new domains without
additional finetuning and exploit large-scale data in a training-free fashion
because the contents of the datastore can be readily replaced. Our experiments
show that SmallCap, trained only on COCO, has competitive performance on this
benchmark, and also transfers to other domains without retraining, solely
through retrieval from target-domain data. Further improvement is achieved
through the training-free exploitation of diverse human-labeled and web data,
which proves effective for other domains, including the nocaps image captioning
benchmark, designed to test generalization to unseen visual concepts.
- Abstract(参考訳): 画像キャプションの最近の進歩は、データとモデルサイズをスケールすることに集中しており、事前学習と微調整のコストを大幅に高めている。
大規模モデルの代替として,入力画像に条件付きキャプションと,データストアから取得した関連キャプションを生成するSmallCapを提案する。
トレーニング済みのCLIPエンコーダとGPT-2デコーダの間で,新たに導入されたクロスアテンション層に唯一学習パラメータが存在するため,本モデルは軽量かつ高速にトレーニングできる。
SmallCapは、追加の微調整なしで新しいドメインに転送でき、データストアの内容を簡単に交換できるため、トレーニング不要で大規模データを活用できる。
実験の結果,COCOのみをトレーニングしたSmallCapは,このベンチマーク上での競合性能と,ターゲットドメインデータからの検索のみを通じて,再トレーニングなしで他のドメインに転送可能であることがわかった。
多様な人ラベルとWebデータのトレーニング不要な利用により、さらに改善が達成される。これは、視覚概念を見えないように一般化をテストするために設計されたnocaps画像キャプションベンチマークなど、他の領域で有効である。
関連論文リスト
- Simplifying CLIP: Unleashing the Power of Large-Scale Models on Consumer-level Computers [3.2492319522383717]
Contrastive Language-Image Pre-Training (CLIP) はその優れたゼロショット性能と下流タスクへの優れた転送性のために注目を集めている。
しかし、そのような大規模モデルのトレーニングは通常、実際の計算とストレージを必要とするため、一般ユーザにとって消費者レベルのコンピュータでは障壁となる。
論文 参考訳(メタデータ) (2024-11-22T08:17:46Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Towards Adaptable and Interactive Image Captioning with Data
Augmentation and Episodic Memory [8.584932159968002]
本稿では,画像キャプションのためのIMLパイプラインを提案する。これにより,事前学習したモデルをユーザ入力に基づく新しいデータ分布に漸進的に適応させることができる。
データの増大は結果が悪化するが、たとえ比較的少量のデータが利用可能であったとしても、エピソードメモリは、これまで見られたクラスタからの知識を維持するための効果的な戦略である。
論文 参考訳(メタデータ) (2023-06-06T08:38:10Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - Are Large-scale Datasets Necessary for Self-Supervised Pre-training? [29.49873710927313]
対象のタスクデータのみを活用する自己指導型事前学習シナリオについて検討する。
本研究は,BEiTなどのデノイングオートエンコーダが,事前学習データの種類やサイズに対してより堅牢であることを示す。
COCOでは、COCOイメージのみを使用して事前トレーニングを行う場合、検出とインスタンスセグメンテーションのパフォーマンスは、同等の設定で教師付きImageNet事前トレーニングを上回る。
論文 参考訳(メタデータ) (2021-12-20T18:41:32Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - Memory-Efficient Incremental Learning Through Feature Adaptation [71.1449769528535]
本稿では,以前学習したクラスから,画像の特徴記述子を保存するインクリメンタルラーニングのアプローチを提案する。
画像のより低次元の機能埋め込みを維持することで、メモリフットプリントが大幅に削減される。
実験の結果,インクリメンタルラーニングベンチマークにおいて,最先端の分類精度が得られた。
論文 参考訳(メタデータ) (2020-04-01T21:16:05Z) - Novelty-Prepared Few-Shot Classification [24.42397780877619]
本稿では,自己補足型ソフトマックス・ロス(SSL)と呼ばれる新規な補足型損失関数を,数ショットの分類に使用することを提案する。
CUB-200-2011とmini-ImageNetデータセットの実験では、SSLが最先端の性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2020-03-01T14:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。