論文の概要: Exploring Annotation-free Image Captioning with Retrieval-augmented
Pseudo Sentence Generation
- arxiv url: http://arxiv.org/abs/2307.14750v1
- Date: Thu, 27 Jul 2023 10:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:01:33.438166
- Title: Exploring Annotation-free Image Captioning with Retrieval-augmented
Pseudo Sentence Generation
- Title(参考訳): Retrieval-augmented Pseudo文生成によるアノテーションなし画像キャプションの探索
- Authors: Zhiyuan Li and Dongnan Liu and Heng Wang and Chaoyi Zhang and Weidong
Cai
- Abstract要約: 注釈付きイメージ・センテンス・ペアを使わずにキャプタを訓練するためにRaPSG(Retrieval-augmented Pseudo Sentence Generation)を導入する。
RaPSGは、ミスマッチコーパスから関連する短い領域の記述を検索し、異なる表現を持つ様々な疑似文を生成するためにそれらを使用する。
CIDErのスコアは78.1(+5.1)であり、トレーニング可能なパラメータの0.3%しか利用していないため、本手法はSOTA事前学習モデル(Flamingo3B)を超えている。
- 参考スコア(独自算出の注目度): 23.54149252498897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training an image captioner without annotated image-sentence pairs has gained
traction in recent years. Previous approaches can be categorized into two
strategies: crawling sentences from mismatching corpora and aligning them with
the given images as pseudo annotations, or pre-training the captioner using
external image-text pairs. However, the aligning setting seems to reach its
performance limit due to the quality problem of pairs, and pre-training
requires significant computational resources. To address these challenges, we
propose a new strategy ``LPM + retrieval-augmented learning" where the prior
knowledge from large pre-trained models (LPMs) is leveraged as supervision, and
a retrieval process is integrated to further reinforce its effectiveness.
Specifically, we introduce Retrieval-augmented Pseudo Sentence Generation
(RaPSG), which adopts an efficient approach to retrieve highly relevant short
region descriptions from the mismatching corpora and use them to generate a
variety of pseudo sentences with distinct representations as well as high
quality via LPMs. In addition, a fluency filter and a CLIP-guided training
objective are further introduced to facilitate model optimization. Experimental
results demonstrate that our method surpasses the SOTA pre-training model
(Flamingo3B) by achieving a CIDEr score of 78.1 (+5.1) while utilizing only
0.3% of its trainable parameters (1.3B VS 33M). Importantly, our approach
eliminates the need of computationally expensive pre-training processes on
external datasets (e.g., the requirement of 312M image-text pairs for
Flamingo3B). We further show that with a simple extension, the generated pseudo
sentences can be deployed as weak supervision to boost the 1% semi-supervised
image caption benchmark up to 93.4 CIDEr score (+8.9) which showcases the
versatility and effectiveness of our approach.
- Abstract(参考訳): 近年,注釈付き画像文対のない画像キャプタの訓練が注目を集めている。
以前のアプローチは、コーパスのミスマッチから文章をクロールし、与えられた画像に擬似アノテーションとしてアライメントするか、外部のテキストペアを使ってキャプションを事前トレーニングするかの2つの戦略に分類できる。
しかし、ペアの品質問題により調整設定は性能限界に達し、事前学習にはかなりの計算資源が必要である。
これらの課題に対処するため,我々は,大規模な事前学習モデル(LPM)からの事前知識を監督として活用し,その有効性を高めるために検索プロセスを統合する,新たな戦略「LPM+検索強化学習」を提案する。
具体的には,RaPSG(Retrieval-augmented Pseudo Sentence Generation)を導入し,不一致コーパスから関連性の高い短い領域記述を抽出し,異なる表現の擬似文を生成するとともに,LPMによる高品質な文を生成する。
さらに、モデル最適化を容易にするために、流速フィルタとCLIP誘導学習目標を導入する。
実験の結果,練習可能なパラメータの0.3%(1.3b vs 33m)しか利用せず,サイダースコア78.1 (+5.1) を達成することで,somaプリトレーニングモデル (flamingo3b) を上回った。
重要なことは、Flamingo3Bのための312Mイメージテキストペアの必要性など)外部データセット上での計算コストのかかる事前学習プロセスの必要性をなくすことである。
さらに,単純な拡張により,生成した擬似文を弱い監督としてデプロイすることで,1%の半教師付き画像キャプションベンチマークを93.4ciderスコア (+8.9) まで向上させることができることを示した。
関連論文リスト
- Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP
Guided Reinforcement Learning [9.443456804893207]
強化学習(RL)は、生成されたキャプションと入力画像の相互検索類似度スコアを報酬として使用してトレーニングをガイドする。
近年の研究では、訓練済みのクロスモーダル検索モデルを用いて報酬を得られることが示されており、参照キャプションの必要性を完全に排除している。
本稿では,GTキャプションを異なる方法で活用する画像キャプション訓練戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T17:05:06Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - ColdGANs: Taming Language GANs with Cautious Sampling Strategies [29.943949944682196]
GAN(Generative Adversarial Networks)は制約を緩和するが、テキストの離散性によって言語生成への応用が妨げられている。
古典的なサンプリングが不安定なトレーニングにどのように影響するかを示す。
我々は,サンプルを分散モードに近づけることで,よりスムーズな学習ダイナミックスを実現するGANフレームワークにおいて,代替的な探索戦略を検討することを提案する。
我々の知る限りでは、提案言語 GAN は MLE と好意的に比較され、3つの生成タスクにおける最先端技術の改善が得られた。
論文 参考訳(メタデータ) (2020-06-08T14:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。