論文の概要: The Solution for the CVPR2023 NICE Image Captioning Challenge
- arxiv url: http://arxiv.org/abs/2310.06879v1
- Date: Tue, 10 Oct 2023 09:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 07:55:59.275291
- Title: The Solution for the CVPR2023 NICE Image Captioning Challenge
- Title(参考訳): cvpr2023ニース画像キャプションチャレンジの解法
- Authors: Xiangyu Wu, Yi Gao, Hailiang Zhang, Yang Yang, Weili Guo, Jianfeng Lu
- Abstract要約: 我々はZero-shot Image Captioning Challengeの新たなフロンティアにソリューションを提示する。
この課題には、多くのドメインからの新しい視覚的概念が含まれる。
データレベルでは、Laion-5Bから外部トレーニングデータを収集する。
モデルレベルでは、大規模な視覚言語事前学習モデルであるOFAを使用する。
- 参考スコア(独自算出の注目度): 12.048338323708277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present our solution to the New frontiers for Zero-shot
Image Captioning Challenge. Different from the traditional image captioning
datasets, this challenge includes a larger new variety of visual concepts from
many domains (such as COVID-19) as well as various image types (photographs,
illustrations, graphics). For the data level, we collect external training data
from Laion-5B, a large-scale CLIP-filtered image-text dataset. For the model
level, we use OFA, a large-scale visual-language pre-training model based on
handcrafted templates, to perform the image captioning task. In addition, we
introduce contrastive learning to align image-text pairs to learn new visual
concepts in the pre-training stage. Then, we propose a similarity-bucket
strategy and incorporate this strategy into the template to force the model to
generate higher quality and more matching captions. Finally, by
retrieval-augmented strategy, we construct a content-rich template, containing
the most relevant top-k captions from other image-text pairs, to guide the
model in generating semantic-rich captions. Our method ranks first on the
leaderboard, achieving 105.17 and 325.72 Cider-Score in the validation and test
phase, respectively.
- Abstract(参考訳): 本稿では,ゼロショット画像キャプション課題に対する新たなフロンティアへの解決策を提案する。
従来の画像キャプションデータセットとは異なり、この課題には、さまざまな画像タイプ(写真、イラスト、グラフィック)だけでなく、多くのドメイン(COVID-19など)からの新しいさまざまな視覚概念が含まれている。
データレベルでは、大規模なCLIPフィルタリング画像テキストデータセットであるLaion-5Bから外部トレーニングデータを収集する。
モデルレベルでは、手作りテンプレートに基づく大規模なビジュアル言語事前学習モデルofaを使用して、画像キャプションタスクを実行する。
さらに,画像とテキストのペアを並べ合わせることで,事前学習段階における新しい視覚概念を学習するコントラスト学習を導入する。
次に,類似性バケット戦略を提案し,この戦略をテンプレートに組み込んで,より高品質なキャプション生成をモデルに強制する。
最後に,検索提示戦略により,他の画像テキストペアから最も関連性の高いトップkキャプションを含むコンテンツリッチなテンプレートを構築し,セマンティックリッチなキャプション生成のモデルを導出する。
本手法は,まずリーダボード上で105.17と325.72のcider-scoreを検証およびテストフェーズで達成する。
関連論文リスト
- Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - The Solution for the CVPR2024 NICE Image Captioning Challenge [2.614188906122931]
本報告では,2024 NICEのトピック1ゼロショット画像キャプションに対する解法について紹介する。
論文 参考訳(メタデータ) (2024-04-19T09:32:16Z) - A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions [9.87625120950535]
我々はDensely Captioned Imagesデータセットを収集し、7805個の天然画像にマスクによる記述を付加した。
画像の特定の部分に関連する正確で信頼性の高いキャプションを用いて、視覚モデルによる画像内容の理解を評価することができる。
標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T00:42:23Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Partially-supervised novel object captioning leveraging context from
paired data [11.215352918313577]
既存の画像キャプチャー・ペアからコンテキストを活用することで、新しいオブジェクトに対する合成ペアキャプションデータを作成する。
さらに、これらの部分的なペアイメージを新しいオブジェクトと再使用し、擬似ラベルキャプションを作成します。
提案手法は,MS COCOの領域外テスト分割における最先端結果を実現する。
論文 参考訳(メタデータ) (2021-09-10T21:31:42Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。