論文の概要: Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual
Concept Understanding
- arxiv url: http://arxiv.org/abs/2401.04575v2
- Date: Tue, 5 Mar 2024 21:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 17:33:48.690835
- Title: Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual
Concept Understanding
- Title(参考訳): Let's Go Shopping (LGS) -- ビジュアル概念理解のためのWebスケールイメージテキストデータセット
- Authors: Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli,
Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot
Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
- Abstract要約: Let's Go Shoppingデータセットは、パブリックなEコマースWebサイトから1500万のイメージキャプチャペアを備えた、大規模なパブリックデータセットである。
実験の結果,既存のベンチマークデータセットでトレーニングされた分類器は,電子商取引データに容易に一般化できないことがわかった。
LGSは、画像キャプチャーモデルにより、よりリッチなキャプションを生成することができ、テキスト・ツー・イメージ生成モデルがEコマーススタイルの転送を実現するのに役立つ。
- 参考スコア(独自算出の注目度): 36.01657852250117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision and vision-language applications of neural networks, such as image
classification and captioning, rely on large-scale annotated datasets that
require non-trivial data-collecting processes. This time-consuming endeavor
hinders the emergence of large-scale datasets, limiting researchers and
practitioners to a small number of choices. Therefore, we seek more efficient
ways to collect and annotate images. Previous initiatives have gathered
captions from HTML alt-texts and crawled social media postings, but these data
sources suffer from noise, sparsity, or subjectivity. For this reason, we turn
to commercial shopping websites whose data meet three criteria: cleanliness,
informativeness, and fluency. We introduce the Let's Go Shopping (LGS) dataset,
a large-scale public dataset with 15 million image-caption pairs from publicly
available e-commerce websites. When compared with existing general-domain
datasets, the LGS images focus on the foreground object and have less complex
backgrounds. Our experiments on LGS show that the classifiers trained on
existing benchmark datasets do not readily generalize to e-commerce data, while
specific self-supervised visual feature extractors can better generalize.
Furthermore, LGS's high-quality e-commerce-focused images and bimodal nature
make it advantageous for vision-language bi-modal tasks: LGS enables
image-captioning models to generate richer captions and helps text-to-image
generation models achieve e-commerce style transfer.
- Abstract(参考訳): 画像分類やキャプションなどのニューラルネットワークの視覚および視覚言語応用は、非自明なデータ収集プロセスを必要とする大規模な注釈付きデータセットに依存している。
この時間を要する取り組みは、大規模なデータセットの出現を妨げ、研究者や実践者が少数の選択肢に制限する。
したがって、画像の収集と注釈のより効率的な方法を求める。
以前の取り組みでは、html alt-textsとcrawled social media postingsからキャプションを集めたが、これらのデータソースはノイズ、スパーシティ、主観性に苦しんでいる。
このため、クリーンライン、インフォメーション、フルーエンシーという3つの基準を満たした商業ショッピングウェブサイトに目を向ける。
Let's Go Shopping(LGS)データセットは,公開可能なEコマースWebサイトから1500万のイメージキャプチャペアを備えた,大規模なパブリックデータセットである。
既存の一般ドメインデータセットと比較すると、lgsイメージはフォアグラウンドオブジェクトに焦点を合わせ、より複雑なバックグラウンドを持つ。
既存のベンチマークデータセットでトレーニングされた分類器は電子商取引データに容易に一般化できないが、特定の自己監督型視覚特徴抽出器はより一般化できる。
さらに、LGSの高品質なEコマース中心の画像とバイモーダルな性質は、視覚言語によるバイモーダルなタスクに有利である。
関連論文リスト
- xT: Nested Tokenization for Larger Context in Large Images [84.10884255952409]
我々は、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのためのシンプルなフレームワークであるxTを紹介する。
我々は、真の大きな画像を理解する視覚モデルの能力を正確に反映したベンチマークデータセットのセットを選択する。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Weakly Supervised Annotations for Multi-modal Greeting Cards Dataset [8.397847537464534]
我々は,Greeting Cardsデータセットから抽象的な視覚概念を学ぶために,事前訓練された画像とテキスト埋め込みから特徴を集約することを提案する。
提案したデータセットは、事前訓練されたテキスト・ツー・イメージ生成モデルを用いて、挨拶カード画像を生成するのにも有用である。
論文 参考訳(メタデータ) (2022-12-01T20:07:52Z) - Inferring Offensiveness In Images From Natural Language Supervision [20.294073012815854]
ウェブから自動的に取り除かれた大規模な画像データセットには、カテゴリや攻撃的なイメージといった軽蔑的な用語が含まれる可能性がある。
我々は、事前学習されたトランスフォーマー自体が、大規模ビジョンデータセットの自動キュレーションのための方法論を提供することを示した。
論文 参考訳(メタデータ) (2021-10-08T16:19:21Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。