論文の概要: MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual
Captioning
- arxiv url: http://arxiv.org/abs/2308.13218v1
- Date: Fri, 25 Aug 2023 07:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 14:53:00.573938
- Title: MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual
Captioning
- Title(参考訳): MultiCapCLIP:Zero-Shot Multilingual Visual Captioningのための自動エンコードプロンプト
- Authors: Bang Yang, Fenglin Liu, Xian Wu, Yaowei Wang, Xu Sun, and Yuexian Zou
- Abstract要約: MultiCapCLIPは、下流データセットのラベル付きビジョンキャプションペアなしで、さまざまなシナリオや言語に対する視覚的なキャプションを生成することができる。
本手法はBLEU@4とCIDErの基準で4.8%と21.5%の絶対的な改善を達成している。
- 参考スコア(独自算出の注目度): 108.12011636732674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised visual captioning models typically require a large scale of images
or videos paired with descriptions in a specific language (i.e., the
vision-caption pairs) for training. However, collecting and labeling
large-scale datasets is time-consuming and expensive for many scenarios and
languages. Therefore, sufficient labeled pairs are usually not available. To
deal with the label shortage problem, we present a simple yet effective
zero-shot approach MultiCapCLIP that can generate visual captions for different
scenarios and languages without any labeled vision-caption pairs of downstream
datasets. In the training stage, MultiCapCLIP only requires text data for
input. Then it conducts two main steps: 1) retrieving concept prompts that
preserve the corresponding domain knowledge of new scenarios; 2) auto-encoding
the prompts to learn writing styles to output captions in a desired language.
In the testing stage, MultiCapCLIP instead takes visual data as input directly
to retrieve the concept prompts to generate the final visual descriptions. The
extensive experiments on image and video captioning across four benchmarks and
four languages (i.e., English, Chinese, German, and French) confirm the
effectiveness of our approach. Compared with state-of-the-art zero-shot and
weakly-supervised methods, our method achieves 4.8% and 21.5% absolute
improvements in terms of BLEU@4 and CIDEr metrics. Our code is available at
https://github.com/yangbang18/MultiCapCLIP.
- Abstract(参考訳): 監督された視覚キャプションモデルは通常、訓練のために特定の言語(すなわちビジョンキャプションペア)で記述された大量の画像やビデオを必要とする。
しかし、大規模なデータセットの収集とラベル付けは多くのシナリオや言語で時間がかかる。
したがって、十分なラベル付きペアは通常利用できない。
ラベル不足問題に対処するため、下流データセットのラベル付き視覚キャプチャーペアを使わずに、さまざまなシナリオや言語に対して視覚的なキャプションを生成することができる、シンプルで効果的なゼロショットアプローチであるMultiCapCLIPを提案する。
トレーニング段階では、MultiCapCLIPは入力のためのテキストデータのみを必要とする。
次に2つの主要なステップを行います
1) 新しいシナリオの対応するドメイン知識を保存する概念検索プロンプト
2) 所望の言語で字幕を出力するために書き方を学ぶプロンプトを自動エンコードする。
テスト段階では、MultiCapCLIPは視覚データを直接入力として取り込んで概念を検索し、最終的な視覚的記述を生成する。
4つのベンチマークと4つの言語(英語、中国語、ドイツ語、フランス語)にわたる画像と動画のキャプションに関する広範な実験により、我々のアプローチの有効性が確認された。
最先端のゼロショット法や弱教師付き手法と比較すると,BLEU@4とCIDErの基準で4.8%,21.5%の絶対改善が達成されている。
私たちのコードはhttps://github.com/yangbang18/MultiCapCLIPで利用可能です。
関連論文リスト
- RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - MeaCap: Memory-Augmented Zero-shot Image Captioning [11.817667500151687]
メモリ拡張ゼロショット画像キャプチャフレームワーク(MeaCap)を提案する。
MeaCapは、幻覚の少ないコンセプト中心のキャプションを生成できる。
論文 参考訳(メタデータ) (2024-03-06T14:00:31Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - DeCap: Decoding CLIP Latents for Zero-Shot Captioning via Text-Only
Training [73.74291217502928]
ゼロショットキャプションのための単純なフレームワークであるDeCapを提案する。
軽量な視覚認識言語デコーダを提案する。
視覚的な埋め込みはCLIPテキスト埋め込み空間に投影するが、投影された埋め込みは視覚的な入力の情報を保持する。
論文 参考訳(メタデータ) (2023-03-06T11:02:47Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - ClipCap: CLIP Prefix for Image Captioning [6.69087470775851]
簡単なマッピングネットワークを用いてキャプションのプレフィックスとしてCLIPエンコーディングを使用し、次に言語モデルを微調整して画像キャプションを生成する。
我々のモデルは、挑戦的な概念キャプションとnocapsデータセットに関する最先端の手法に匹敵する結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-11-18T14:49:15Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。