論文の概要: GLAMI-1M: A Multilingual Image-Text Fashion Dataset
- arxiv url: http://arxiv.org/abs/2211.14451v1
- Date: Thu, 17 Nov 2022 13:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:26:55.382407
- Title: GLAMI-1M: A Multilingual Image-Text Fashion Dataset
- Title(参考訳): GLAMI-1M:多言語画像テキストファッションデータセット
- Authors: Vaclav Kosar, Anton\'in Hoskovec, Milan \v{S}ulc, Radek Bartyzal
- Abstract要約: GLAMI-1Mは、多言語画像テキスト分類データセットとベンチマークで最大である。
データセットには、13言語のうち1つの項目記述を持つファッション製品のイメージが含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GLAMI-1M: the largest multilingual image-text classification
dataset and benchmark. The dataset contains images of fashion products with
item descriptions, each in 1 of 13 languages. Categorization into 191 classes
has high-quality annotations: all 100k images in the test set and 75% of the 1M
training set were human-labeled. The paper presents baselines for image-text
classification showing that the dataset presents a challenging fine-grained
classification problem: The best scoring EmbraceNet model using both visual and
textual features achieves 69.7% accuracy. Experiments with a modified Imagen
model show the dataset is also suitable for image generation conditioned on
text. The dataset, source code and model checkpoints are published at
https://github.com/glami/glami-1m
- Abstract(参考訳): glami-1m: 最大の多言語画像テキスト分類データセットとベンチマークを紹介する。
データセットには、13言語のうち1つの項目記述を持つファッション製品のイメージが含まれている。
191クラスに分類すると、テストセット内の100kイメージすべてと1Mトレーニングセットの75%が人間ラベル付きである。
本稿では,画像テキスト分類のベースラインを提示し,データセットが難解な細粒度分類問題を示す。視覚特徴とテキスト特徴の両方を用いたベストスコアリング・アクセプトネットモデルは69.7%の精度を達成する。
修正されたImagenモデルによる実験では、データセットはテキスト上で条件付けされた画像生成にも適している。
データセット、ソースコード、モデルチェックポイントはhttps://github.com/glami/glami-1mで公開されている。
関連論文リスト
- TagAlign: Improving Vision-Language Alignment with Multi-Tag
Classification [61.61682423314142]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の選択肢よりも平均3.65%のフレームワークの改善を裏付けます。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style
Models on Dense Captions [10.465032036924532]
Densely Captioned Images (DCI)データセットを収集し,マスクによる記述を付加した8012の自然画像を含む。
画像の特定の部分に関連する正確で信頼性の高いキャプションを用いて、視覚モデルによる画像内容の理解を評価することができる。
標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T00:42:23Z) - Compress & Align: Curating Image-Text Data with Human Knowledge [36.34714164235438]
本稿では,ウェブクローリングされた画像テキストデータセットをコンパクトで高品質な形式に圧縮するための,人間の知識に根ざした新しいアルゴリズムを提案する。
注釈付きデータセットの報酬モデルは、画像とテキストのアライメントに関する微妙な人間の理解を内包する。
実験では、画像テキストデータセットを最大90%圧縮することで、モデルのパフォーマンスを確保(あるいは改善)できることを示した。
論文 参考訳(メタデータ) (2023-12-11T05:57:09Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - GIST: Generating Image-Specific Text for Fine-grained Object
Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。
提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-07-21T02:47:18Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Referring Image Matting [85.77905619102802]
本稿では,Referring Image Matting (RIM) という新しいタスクを紹介する。
RIMは、与えられた自然言語記述に最もよくマッチする特定のオブジェクトの細かなアルファマットを抽出することを目的としている。
RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、474,996の表現で構成されている。
論文 参考訳(メタデータ) (2022-06-10T14:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。