Fugu-MT 論文翻訳(概要): GLAMI-1M: A Multilingual Image-Text Fashion Dataset

論文の概要: GLAMI-1M: A Multilingual Image-Text Fashion Dataset

arxiv url: http://arxiv.org/abs/2211.14451v1
Date: Thu, 17 Nov 2022 13:19:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-04 14:26:55.382407
Title: GLAMI-1M: A Multilingual Image-Text Fashion Dataset
Title（参考訳）: GLAMI-1M:多言語画像テキストファッションデータセット
Authors: Vaclav Kosar, Anton\'in Hoskovec, Milan \v{S}ulc, Radek Bartyzal
Abstract要約: GLAMI-1Mは、多言語画像テキスト分類データセットとベンチマークで最大である。データセットには、13言語のうち1つの項目記述を持つファッション製品のイメージが含まれている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce GLAMI-1M: the largest multilingual image-text classification dataset and benchmark. The dataset contains images of fashion products with item descriptions, each in 1 of 13 languages. Categorization into 191 classes has high-quality annotations: all 100k images in the test set and 75% of the 1M training set were human-labeled. The paper presents baselines for image-text classification showing that the dataset presents a challenging fine-grained classification problem: The best scoring EmbraceNet model using both visual and textual features achieves 69.7% accuracy. Experiments with a modified Imagen model show the dataset is also suitable for image generation conditioned on text. The dataset, source code and model checkpoints are published at https://github.com/glami/glami-1m
Abstract（参考訳）: glami-1m: 最大の多言語画像テキスト分類データセットとベンチマークを紹介する。データセットには、13言語のうち1つの項目記述を持つファッション製品のイメージが含まれている。 191クラスに分類すると、テストセット内の100kイメージすべてと1Mトレーニングセットの75%が人間ラベル付きである。本稿では,画像テキスト分類のベースラインを提示し,データセットが難解な細粒度分類問題を示す。視覚特徴とテキスト特徴の両方を用いたベストスコアリング・アクセプトネットモデルは69.7%の精度を達成する。修正されたImagenモデルによる実験では、データセットはテキスト上で条件付けされた画像生成にも適している。データセット、ソースコード、モデルチェックポイントはhttps://github.com/glami/glami-1mで公開されている。

関連論文リスト

Compositional Image-Text Matching and Retrieval by Grounding Entities [1.962396488631213]
本稿では,CLIP埋め込みの学習不要なゼロショット拡張法を提案する。我々は、オブジェクトのサブイメージの個別の埋め込みと、最先端の開語彙検出器によって局所化される関係を計算する。結果として得られる埋め込みは、テキスト埋め込みと類似性計算に利用され、画像テキストマッチングの精度が平均1.5%向上する。
論文参考訳（メタデータ） (2025-05-04T22:18:14Z)
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文参考訳（メタデータ） (2024-06-13T16:40:39Z)
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
マルチモーダル大規模言語モデル(mLLM)は大量のテキストイメージデータに基づいて訓練される。 mOSCARは、ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスである。 163言語、303M文書、200Bトークン、1.15B画像を含む。
論文参考訳（メタデータ） (2024-06-13T00:13:32Z)
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文参考訳（メタデータ） (2024-06-12T17:01:04Z)
TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文参考訳（メタデータ） (2023-12-21T18:59:06Z)
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions [9.87625120950535]
我々はDensely Captioned Imagesデータセットを収集し、7805個の天然画像にマスクによる記述を付加した。画像の特定の部分に関連する正確で信頼性の高いキャプションを用いて、視覚モデルによる画像内容の理解を評価することができる。標準ベンチマークを進歩させる最新の技術は、我々のsDCIベースのベンチマークの大幅な改善と一致しないことを示す。
論文参考訳（メタデータ） (2023-12-14T00:42:23Z)
Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data [31.507451966555383]
本稿では、画像テキストアライメントに関する人間の知識を取り入れた新しいアルゴリズムを提案する。さまざまなソースからの複数のキャプションに各画像が関連付けられている多様な画像テキストデータセットを収集する。我々は、画像テキストアライメントに関する人間の微妙な理解を内在化するために、これらの人間の参照アノテーションに対する報酬モデルを訓練する。
論文参考訳（メタデータ） (2023-12-11T05:57:09Z)
Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文参考訳（メタデータ） (2023-10-03T14:53:53Z)
GIST: Generating Image-Specific Text for Fine-grained Object Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文参考訳（メタデータ） (2023-07-21T02:47:18Z)
Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。 DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文参考訳（メタデータ） (2023-07-19T17:47:12Z)
OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。 IDEFICSという名前の9～800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文参考訳（メタデータ） (2023-06-21T14:01:01Z)
Referring Image Matting [85.77905619102802]
本稿では,Referring Image Matting (RIM) という新しいタスクを紹介する。 RIMは、与えられた自然言語記述に最もよくマッチする特定のオブジェクトの細かなアルファマットを抽出することを目的としている。 RefMatteは230のオブジェクトカテゴリ、47,500の画像、118,749の表現領域エンティティ、474,996の表現で構成されている。
論文参考訳（メタデータ） (2022-06-10T14:44:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。