論文の概要: IIITD-20K: Dense captioning for Text-Image ReID
- arxiv url: http://arxiv.org/abs/2305.04497v1
- Date: Mon, 8 May 2023 06:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 15:26:19.532554
- Title: IIITD-20K: Dense captioning for Text-Image ReID
- Title(参考訳): IIITD-20K:テキスト画像ReID用デンスキャプション
- Authors: A V Subramanyam, Niranjan Sundararajan, Vibhu Dubey, Brejesh Lall
- Abstract要約: IIITD-20Kは野生で捕獲された2万のユニークなアイデンティティから構成される。
説明のための最低26語で、各画像は濃密にキャプションされる。
我々は、最先端のテキスト・ツー・イメージReIDモデルとビジョン言語事前学習モデルを用いて、精巧な実験を行う。
- 参考スコア(独自算出の注目度): 5.858839403963778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) ReID has attracted a lot of attention in the recent past.
CUHK-PEDES, RSTPReid and ICFG-PEDES are the three available benchmarks to
evaluate T2I ReID methods. RSTPReid and ICFG-PEDES comprise of identities from
MSMT17 but due to limited number of unique persons, the diversity is limited.
On the other hand, CUHK-PEDES comprises of 13,003 identities but has relatively
shorter text description on average. Further, these datasets are captured in a
restricted environment with limited number of cameras. In order to further
diversify the identities and provide dense captions, we propose a novel dataset
called IIITD-20K. IIITD-20K comprises of 20,000 unique identities captured in
the wild and provides a rich dataset for text-to-image ReID. With a minimum of
26 words for a description, each image is densely captioned. We further
synthetically generate images and fine-grained captions using Stable-diffusion
and BLIP models trained on our dataset. We perform elaborate experiments using
state-of-art text-to-image ReID models and vision-language pre-trained models
and present a comprehensive analysis of the dataset. Our experiments also
reveal that synthetically generated data leads to a substantial performance
improvement in both same dataset as well as cross dataset settings. Our dataset
is available at https://bit.ly/3pkA3Rj.
- Abstract(参考訳): text-to-image (t2i) reidは近年多くの注目を集めている。
CUHK-PEDES、RSTPReid、ICFG-PEDESはT2I ReID法を評価するための3つのベンチマークである。
RSTPReid と ICFG-PEDES はMSMT17 のアイデンティティから構成されるが、個人数が少ないため、多様性は限られている。
一方、CUHK-PEDESは13,003のアイデンティティから構成されるが、平均的なテキスト記述は比較的短い。
さらに、これらのデータセットは、限られたカメラ数で制限された環境でキャプチャされる。
アイデンティティをさらに多様化させ,密度の高いキャプションを提供するために,IIITD-20Kという新しいデータセットを提案する。
IIITD-20Kは野生で捕獲された20,000のユニークなIDで構成され、テキストから画像へのReIDのための豊富なデータセットを提供する。
記述に最低26語を割り当てると、各画像は密にキャプションされる。
さらに,データセット上で学習した安定拡散モデルとblipモデルを用いて,画像および細粒度キャプションを合成的に生成する。
我々は、最先端のテキスト・画像ReIDモデルとビジョン言語事前学習モデルを用いた精巧な実験を行い、データセットの包括的解析を行う。
我々の実験は、合成されたデータが同じデータセットとクロスデータセット設定の両方で大幅なパフォーマンス改善をもたらすことも明らかにした。
私たちのデータセットはhttps://bit.ly/3pka3rjで利用可能です。
関連論文リスト
- TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual
Machine Learning [19.203716881791312]
ウィキペディアベースの画像テキスト(WIT)データセットを紹介する。
witは3760万のエンティティリッチな画像テキスト例のキュレーションセットで構成されており、108のwikipedia言語で1150万のユニークな画像がある。
WITは3倍の画像-テキストサンプル数で最大のマルチモーダルデータセットです。
論文 参考訳(メタデータ) (2021-03-02T18:13:54Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z) - Diverse Image Captioning with Context-Object Split Latent Spaces [22.95979735707003]
本稿では,画像やテキストのコンテキスト記述における多様性をモデル化するために,コンテキストオブジェクト分割と呼ばれる潜在空間の新たな因子分解を導入する。
本フレームワークは,文脈に基づく疑似監視による多種多様なキャプションを可能にするだけでなく,新たなオブジェクトを持つ画像に拡張し,トレーニングデータにペアのキャプションを含まないようにした。
論文 参考訳(メタデータ) (2020-11-02T13:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。