論文の概要: ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with
Unpaired Stylistic Corpora
- arxiv url: http://arxiv.org/abs/2308.01143v1
- Date: Wed, 2 Aug 2023 13:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:50:59.310041
- Title: ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with
Unpaired Stylistic Corpora
- Title(参考訳): ADS-Cap: スティリスティックコーパスの精度向上と多角化キャプションのためのフレームワーク
- Authors: Kanzhi Cheng, Zheng Ma, Shi Zong, Jianbing Zhang, Xinyu Dai, Jiajun
Chen
- Abstract要約: 我々は,ADS-Cap(ADS-Cap)を精度良く生成する新しいフレームワークを提案する。
その後、条件付き変分自動エンコーダを使用して、潜在空間における多彩なスタイリスティックパターンを自動的に生成する。
広く使われている2つの画像キャプションデータセットの実験結果から,画像との整合性,スタイルの精度,多様性に関して,ADS-Capは優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 37.53634609063878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating visually grounded image captions with specific linguistic styles
using unpaired stylistic corpora is a challenging task, especially since we
expect stylized captions with a wide variety of stylistic patterns. In this
paper, we propose a novel framework to generate Accurate and Diverse Stylized
Captions (ADS-Cap). Our ADS-Cap first uses a contrastive learning module to
align the image and text features, which unifies paired factual and unpaired
stylistic corpora during the training process. A conditional variational
auto-encoder is then used to automatically memorize diverse stylistic patterns
in latent space and enhance diversity through sampling. We also design a simple
but effective recheck module to boost style accuracy by filtering
style-specific captions. Experimental results on two widely used stylized image
captioning datasets show that regarding consistency with the image, style
accuracy and diversity, ADS-Cap achieves outstanding performances compared to
various baselines. We finally conduct extensive analyses to understand the
effectiveness of our method. Our code is available at
https://github.com/njucckevin/ADS-Cap.
- Abstract(参考訳): 特に多種多様なスタイリスティックなパターンのスタイリッシュなキャプションを期待するので, 視覚的接地画像キャプションを未熟なスタイリスティックコーパスを用いて特定の言語スタイルで生成することは難しい課題である。
本稿では,ADS-Cap(ADS-Cap)を生成するための新しいフレームワークを提案する。
私たちのADS-Capは、まずコントラスト学習モジュールを使用して画像とテキストの特徴を調整します。
次に、条件付き変分自動エンコーダを用いて、潜時空間における多様なスタイルパターンを自動的に記憶し、サンプリングにより多様性を高める。
また,スタイル固有のキャプションをフィルタリングすることにより,スタイル精度を高めるための簡易かつ効果的な再チェックモジュールも設計した。
広く使われている2つの画像キャプションデータセットの実験結果から,画像との整合性,スタイルの正確性,多様性に関して,ADS-Capは様々なベースラインと比較して優れた性能を発揮することが示された。
最終的に,本手法の有効性を理解するために広範な分析を行った。
私たちのコードはhttps://github.com/njucckevin/ADS-Capで利用可能です。
関連論文リスト
- Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - StyleCap: Automatic Speaking-Style Captioning from Speech Based on
Speech and Language Self-supervised Learning Models [17.945821635380614]
StyleCapは、音声に現れる話し方の自然言語記述を生成する方法である。
StyleCapは、音声と自然言語の記述のペアデータで訓練される。
論文 参考訳(メタデータ) (2023-11-28T04:49:17Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Controllable Image Captioning via Prompting [9.935191668056463]
統一モデルは、多様なドメインでうまく機能し、複数のスタイルで自由に切り替えることができることを示す。
具体的には、事前訓練された画像キャプタを微調整する一連のプロンプトを設計する。
推論段階では,本モデルでは,対応するプロンプトを選択することで,所望のキャプションを生成することができる。
論文 参考訳(メタデータ) (2022-12-04T11:59:31Z) - Learning Distinct and Representative Styles for Image Captioning [24.13549951795951]
画像キャプションのための離散モード学習(DML)パラダイムを提案する。
私たちのイノベーティブなアイデアは、トレーニングキャプションコーパスのリッチモードを探求して、一連の「モード埋め込み」を学ぶことです。
実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。
論文 参考訳(メタデータ) (2022-09-17T03:25:46Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Diverse Image Captioning with Grounded Style [19.434931809979282]
我々はCOCOアノテーションから多種多様な字幕を抽出するためのCOCOベースの拡張を提案する。
本研究では,変分オートエンコーダの潜時空間におけるスタイリング情報を符号化する。
SenticapとCOCOデータセットの実験は、正確なキャプションを生成するためのアプローチの能力を示している。
論文 参考訳(メタデータ) (2022-05-03T22:57:59Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。