論文の概要: Exploring Annotation-free Image Captioning with Retrieval-augmented
Pseudo Sentence Generation
- arxiv url: http://arxiv.org/abs/2307.14750v2
- Date: Fri, 28 Jul 2023 05:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 15:04:38.370595
- Title: Exploring Annotation-free Image Captioning with Retrieval-augmented
Pseudo Sentence Generation
- Title(参考訳): Retrieval-augmented Pseudo文生成によるアノテーションなし画像キャプションの探索
- Authors: Zhiyuan Li and Dongnan Liu and Heng Wang and Chaoyi Zhang and Weidong
Cai
- Abstract要約: 注釈付きイメージ・センテンス・ペアを使わずにキャプタを訓練するためにRaPSG(Retrieval-augmented Pseudo Sentence Generation)を導入する。
RaPSGは、ミスマッチコーパスから関連する短い領域の記述を検索し、異なる表現を持つ様々な疑似文を生成するためにそれらを使用する。
CIDErのスコアは78.1(+5.1)であり、トレーニング可能なパラメータの0.3%しか利用していないため、本手法はSOTA事前学習モデル(Flamingo3B)を超えている。
- 参考スコア(独自算出の注目度): 23.54149252498897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training an image captioner without annotated image-sentence pairs has gained
traction in recent years. Previous approaches can be categorized into two
strategies: crawling sentences from mismatching corpora and aligning them with
the given images as pseudo annotations, or pre-training the captioner using
external image-text pairs. However, the aligning setting seems to reach its
performance limit due to the quality problem of pairs, and pre-training
requires significant computational resources. To address these challenges, we
propose a new strategy ``LPM + retrieval-augmented learning" where the prior
knowledge from large pre-trained models (LPMs) is leveraged as supervision, and
a retrieval process is integrated to further reinforce its effectiveness.
Specifically, we introduce Retrieval-augmented Pseudo Sentence Generation
(RaPSG), which adopts an efficient approach to retrieve highly relevant short
region descriptions from the mismatching corpora and use them to generate a
variety of pseudo sentences with distinct representations as well as high
quality via LPMs. In addition, a fluency filter and a CLIP-guided training
objective are further introduced to facilitate model optimization. Experimental
results demonstrate that our method surpasses the SOTA pre-training model
(Flamingo3B) by achieving a CIDEr score of 78.1 (+5.1) while utilizing only
0.3% of its trainable parameters (1.3B VS 33M). Importantly, our approach
eliminates the need of computationally expensive pre-training processes on
external datasets (e.g., the requirement of 312M image-text pairs for
Flamingo3B). We further show that with a simple extension, the generated pseudo
sentences can be deployed as weak supervision to boost the 1% semi-supervised
image caption benchmark up to 93.4 CIDEr score (+8.9) which showcases the
versatility and effectiveness of our approach.
- Abstract(参考訳): 近年,注釈付き画像文対のない画像キャプタの訓練が注目を集めている。
以前のアプローチは、コーパスのミスマッチから文章をクロールし、与えられた画像に擬似アノテーションとしてアライメントするか、外部のテキストペアを使ってキャプションを事前トレーニングするかの2つの戦略に分類できる。
しかし、ペアの品質問題により調整設定は性能限界に達し、事前学習にはかなりの計算資源が必要である。
これらの課題に対処するため,我々は,大規模な事前学習モデル(LPM)からの事前知識を監督として活用し,その有効性を高めるために検索プロセスを統合する,新たな戦略「LPM+検索強化学習」を提案する。
具体的には,RaPSG(Retrieval-augmented Pseudo Sentence Generation)を導入し,不一致コーパスから関連性の高い短い領域記述を抽出し,異なる表現の擬似文を生成するとともに,LPMによる高品質な文を生成する。
さらに、モデル最適化を容易にするために、流速フィルタとCLIP誘導学習目標を導入する。
実験の結果,練習可能なパラメータの0.3%(1.3b vs 33m)しか利用せず,サイダースコア78.1 (+5.1) を達成することで,somaプリトレーニングモデル (flamingo3b) を上回った。
重要なことは、Flamingo3Bのための312Mイメージテキストペアの必要性など)外部データセット上での計算コストのかかる事前学習プロセスの必要性をなくすことである。
さらに,単純な拡張により,生成した擬似文を弱い監督としてデプロイすることで,1%の半教師付き画像キャプションベンチマークを93.4ciderスコア (+8.9) まで向上させることができることを示した。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - A Fistful of Words: Learning Transferable Visual Models from
Bag-of-Words Supervision [32.4697157553247]
本稿では,ゼロショット画像分類モデルの学習において,言語指導のどの部分が不可欠かを理解することに焦点を当てる。
単純なBag-of-Words (BoW)キャプションは、データセットのほとんどのイメージキャプションの代替として使用できる。
プレトレーニングされたBoWモデルを用いて,キャプションを持たない画像に擬似BoWキャプションを生成することで,より多くのトレーニングデータを得ることができる。
論文 参考訳(メタデータ) (2021-12-27T20:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。