論文の概要: GLAMI-1M: A Multilingual Image-Text Fashion Dataset
- arxiv url: http://arxiv.org/abs/2211.14451v1
- Date: Thu, 17 Nov 2022 13:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:26:55.382407
- Title: GLAMI-1M: A Multilingual Image-Text Fashion Dataset
- Title(参考訳): GLAMI-1M:多言語画像テキストファッションデータセット
- Authors: Vaclav Kosar, Anton\'in Hoskovec, Milan \v{S}ulc, Radek Bartyzal
- Abstract要約: GLAMI-1Mは、多言語画像テキスト分類データセットとベンチマークで最大である。
データセットには、13言語のうち1つの項目記述を持つファッション製品のイメージが含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GLAMI-1M: the largest multilingual image-text classification
dataset and benchmark. The dataset contains images of fashion products with
item descriptions, each in 1 of 13 languages. Categorization into 191 classes
has high-quality annotations: all 100k images in the test set and 75% of the 1M
training set were human-labeled. The paper presents baselines for image-text
classification showing that the dataset presents a challenging fine-grained
classification problem: The best scoring EmbraceNet model using both visual and
textual features achieves 69.7% accuracy. Experiments with a modified Imagen
model show the dataset is also suitable for image generation conditioned on
text. The dataset, source code and model checkpoints are published at
https://github.com/glami/glami-1m
- Abstract(参考訳): glami-1m: 最大の多言語画像テキスト分類データセットとベンチマークを紹介する。
データセットには、13言語のうち1つの項目記述を持つファッション製品のイメージが含まれている。
191クラスに分類すると、テストセット内の100kイメージすべてと1Mトレーニングセットの75%が人間ラベル付きである。
本稿では,画像テキスト分類のベースラインを提示し,データセットが難解な細粒度分類問題を示す。視覚特徴とテキスト特徴の両方を用いたベストスコアリング・アクセプトネットモデルは69.7%の精度を達成する。
修正されたImagenモデルによる実験では、データセットはテキスト上で条件付けされた画像生成にも適している。
データセット、ソースコード、モデルチェックポイントはhttps://github.com/glami/glami-1mで公開されている。
関連論文リスト
- Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions [9.87625120950535]
我々はDensely Captioned Imagesデータセットを収集し、7805個の天然画像にマスクによる記述を付加した。
画像の特定の部分に関連する正確で信頼性の高いキャプションを用いて、視覚モデルによる画像内容の理解を評価することができる。
標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T00:42:23Z) - Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data [31.507451966555383]
本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。
さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。
我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - GIST: Generating Image-Specific Text for Fine-grained Object
Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。
提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-07-21T02:47:18Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Referring Image Matting [85.77905619102802]
本稿では,Referring Image Matting (RIM) という新しいタスクを紹介する。
RIMは、与えられた自然言語記述に最もよくマッチする特定のオブジェクトの細かなアルファマットを抽出することを目的としている。
RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、474,996の表現で構成されている。
論文 参考訳(メタデータ) (2022-06-10T14:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。