論文の概要: The Solution for the CVPR2023 NICE Image Captioning Challenge
- arxiv url: http://arxiv.org/abs/2310.06879v2
- Date: Thu, 4 Jul 2024 03:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:52:08.583639
- Title: The Solution for the CVPR2023 NICE Image Captioning Challenge
- Title(参考訳): CVPR2023 NICE Image Captioning Challengeの解法
- Authors: Xiangyu Wu, Yi Gao, Hailiang Zhang, Yang Yang, Weili Guo, Jianfeng Lu,
- Abstract要約: 我々はZero-shot Image Captioning Challengeの新たなフロンティアにソリューションを提示する。
この課題には、多くのドメインからの新しい視覚的概念が含まれる。
データレベルでは、Laion-5Bから外部トレーニングデータを収集する。
モデルレベルでは、大規模な視覚言語事前学習モデルであるOFAを使用する。
- 参考スコア(独自算出の注目度): 11.37047794237074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our solution to the New frontiers for Zero-shot Image Captioning Challenge. Different from the traditional image captioning datasets, this challenge includes a larger new variety of visual concepts from many domains (such as COVID-19) as well as various image types (photographs, illustrations, graphics). For the data level, we collect external training data from Laion-5B, a large-scale CLIP-filtered image-text dataset. For the model level, we use OFA, a large-scale visual-language pre-training model based on handcrafted templates, to perform the image captioning task. In addition, we introduce contrastive learning to align image-text pairs to learn new visual concepts in the pre-training stage. Then, we propose a similarity-bucket strategy and incorporate this strategy into the template to force the model to generate higher quality and more matching captions. Finally, by retrieval-augmented strategy, we construct a content-rich template, containing the most relevant top-k captions from other image-text pairs, to guide the model in generating semantic-rich captions. Our method ranks first on the leaderboard, achieving 105.17 and 325.72 Cider-Score in the validation and test phase, respectively.
- Abstract(参考訳): 本稿では,Zero-shot Image Captioning Challengeのための新たなフロンティアについて述べる。
従来の画像キャプションデータセットとは異なり、この課題には、さまざまな画像タイプ(写真、イラスト、グラフィック)だけでなく、多くのドメイン(COVID-19など)からの新しいさまざまな視覚概念が含まれている。
データレベルでは、大規模なCLIPフィルタリング画像テキストデータセットであるLaion-5Bから外部トレーニングデータを収集する。
モデルレベルでは、手作りテンプレートに基づく大規模視覚言語事前学習モデルOFAを用いて、画像キャプションタスクを実行する。
さらに,コントラスト学習を導入し,画像とテキストのペアを合わせることで,事前学習段階における新しい視覚概念を学習する。
そこで我々は,類似化戦略を提案し,この戦略をテンプレートに組み込んで,モデルに高品質なキャプションを強制的に生成させる。
最後に、検索強化戦略により、他の画像テキストペアから最も関連性の高いトップkキャプションを含むコンテンツリッチテンプレートを構築し、セマンティックリッチキャプションの生成を指導する。
本手法は, それぞれ105.17と325.72のCider-Scoreを検証, テストフェーズで達成し, トップボードにランクインする。
関連論文リスト
- The Solution for the CVPR2024 NICE Image Captioning Challenge [2.614188906122931]
本報告では,2024 NICEのトピック1ゼロショット画像キャプションに対する解法について紹介する。
論文 参考訳(メタデータ) (2024-04-19T09:32:16Z) - A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions [9.87625120950535]
我々はDensely Captioned Imagesデータセットを収集し、7805個の天然画像にマスクによる記述を付加した。
画像の特定の部分に関連する正確で信頼性の高いキャプションを用いて、視覚モデルによる画像内容の理解を評価することができる。
標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T00:42:23Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Self-Enhancement Improves Text-Image Retrieval in Foundation
Visual-Language Models [33.008325765051865]
クロスモーダル基盤モデルは、ドメイン固有の検索タスクに必要な重要な属性に焦点を合わせない。
本稿では,CLIP-ViT/G-14をベースとした自己拡張フレームワークA3Rを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:25:38Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Partially-supervised novel object captioning leveraging context from
paired data [11.215352918313577]
既存の画像キャプチャー・ペアからコンテキストを活用することで、新しいオブジェクトに対する合成ペアキャプションデータを作成する。
さらに、これらの部分的なペアイメージを新しいオブジェクトと再使用し、擬似ラベルキャプションを作成します。
提案手法は,MS COCOの領域外テスト分割における最先端結果を実現する。
論文 参考訳(メタデータ) (2021-09-10T21:31:42Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。
テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。
XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文 参考訳(メタデータ) (2020-03-03T12:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。