論文の概要: Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual
Concept Understanding
- arxiv url: http://arxiv.org/abs/2401.04575v2
- Date: Tue, 5 Mar 2024 21:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:33:48.690835
- Title: Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual
Concept Understanding
- Title(参考訳): Let's Go Shopping (LGS) -- ビジュアル概念理解のためのWebスケールイメージテキストデータセット
- Authors: Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli,
Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot
Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
- Abstract要約: Let's Go Shoppingデータセットは、パブリックなEコマースWebサイトから1500万のイメージキャプチャペアを備えた、大規模なパブリックデータセットである。
実験の結果,既存のベンチマークデータセットでトレーニングされた分類器は,電子商取引データに容易に一般化できないことがわかった。
LGSは、画像キャプチャーモデルにより、よりリッチなキャプションを生成することができ、テキスト・ツー・イメージ生成モデルがEコマーススタイルの転送を実現するのに役立つ。
- 参考スコア(独自算出の注目度): 36.01657852250117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision and vision-language applications of neural networks, such as image
classification and captioning, rely on large-scale annotated datasets that
require non-trivial data-collecting processes. This time-consuming endeavor
hinders the emergence of large-scale datasets, limiting researchers and
practitioners to a small number of choices. Therefore, we seek more efficient
ways to collect and annotate images. Previous initiatives have gathered
captions from HTML alt-texts and crawled social media postings, but these data
sources suffer from noise, sparsity, or subjectivity. For this reason, we turn
to commercial shopping websites whose data meet three criteria: cleanliness,
informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset,
a large-scale public dataset with 15 million image-caption pairs from publicly
available e-commerce websites. When compared with existing general-domain
datasets, the LGS images focus on the foreground object and have less complex
backgrounds. Our experiments on LGS show that the classifiers trained on
existing benchmark datasets do not readily generalize to e-commerce data, while
specific self-supervised visual feature extractors can better generalize.
Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature
make it advantageous for vision-language bi-modal tasks: LGS enables
image-captioning models to generate richer captions and helps text-to-image
generation models achieve e-commerce style transfer.
- Abstract(参考訳): 画像分類やキャプションなどのニューラルネットワークの視覚および視覚言語応用は、非自明なデータ収集プロセスを必要とする大規模な注釈付きデータセットに依存している。
この時間を要する取り組みは、大規模なデータセットの出現を妨げ、研究者や実践者が少数の選択肢に制限する。
したがって、画像の収集と注釈のより効率的な方法を求める。
以前の取り組みでは、html alt-textsとcrawled social media postingsからキャプションを集めたが、これらのデータソースはノイズ、スパーシティ、主観性に苦しんでいる。
このため、クリーンライン、インフォメーション、フルーエンシーという3つの基準を満たした商業ショッピングウェブサイトに目を向ける。
Let's Go Shopping(LGS)データセットは,公開可能なEコマースWebサイトから1500万のイメージキャプチャペアを備えた,大規模なパブリックデータセットである。
既存の一般ドメインデータセットと比較すると、lgsイメージはフォアグラウンドオブジェクトに焦点を合わせ、より複雑なバックグラウンドを持つ。
既存のベンチマークデータセットでトレーニングされた分類器は電子商取引データに容易に一般化できないが、特定の自己監督型視覚特徴抽出器はより一般化できる。
さらに、LGSの高品質なEコマース中心の画像とバイモーダルな性質は、視覚言語によるバイモーダルなタスクに有利である。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - AEye: A Visualization Tool for Image Datasets [18.95453617434051]
AEyeは、画像データセットに適した意味的に意味のある視覚化ツールである。
AEyeはイメージを意味的に意味のある高次元表現に埋め込み、データのクラスタリングと組織化を容易にする。
AEyeはテキストと画像クエリの両方のセマンティック検索機能を容易にし、ユーザーはコンテンツを検索できる。
論文 参考訳(メタデータ) (2024-08-07T20:19:20Z) - Enhancing Vision Models for Text-Heavy Content Understanding and Interaction [0.0]
画像エンコーディングのためのCLIPとMassive Text Embedding Benchmarkのモデルを統合したビジュアルチャットアプリケーションを構築した。
プロジェクトの目的は、複雑な視覚的テキストデータ相互接続データの理解において、先進視覚モデルの能力を高め、強化することである。
論文 参考訳(メタデータ) (2024-05-31T15:17:47Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Weakly Supervised Annotations for Multi-modal Greeting Cards Dataset [8.397847537464534]
我々は,Greeting Cardsデータセットから抽象的な視覚概念を学ぶために,事前訓練された画像とテキスト埋め込みから特徴を集約することを提案する。
提案したデータセットは、事前訓練されたテキスト・ツー・イメージ生成モデルを用いて、挨拶カード画像を生成するのにも有用である。
論文 参考訳(メタデータ) (2022-12-01T20:07:52Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。