論文の概要: RedCaps: web-curated image-text data created by the people, for the
people
- arxiv url: http://arxiv.org/abs/2111.11431v1
- Date: Mon, 22 Nov 2021 18:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 14:49:33.072100
- Title: RedCaps: web-curated image-text data created by the people, for the
people
- Title(参考訳): redcaps: 人々、人々によって作成されたwebキュレートされた画像テキストデータ
- Authors: Karan Desai, Gaurav Kaul, Zubin Aysola, Justin Johnson
- Abstract要約: Redditから収集された1200万のイメージテキストペアの大規模なデータセットであるRedCapsを紹介します。
Redditの画像やキャプションは、さまざまなオブジェクトやシーンを描いて記述している。
我々は、RedCapsで訓練されたキャプションモデルが、人間に好まれるリッチで多様なキャプションを生成し、多くの下流タスクに伝達する視覚表現を学ぶことを示す。
- 参考スコア(独自算出の注目度): 12.58157541985447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large datasets of paired images and text have become increasingly popular for
learning generic representations for vision and vision-and-language tasks. Such
datasets have been built by querying search engines or collecting HTML alt-text
-- since web data is noisy, they require complex filtering pipelines to
maintain quality. We explore alternate data sources to collect high quality
data with minimal filtering. We introduce RedCaps -- a large-scale dataset of
12M image-text pairs collected from Reddit. Images and captions from Reddit
depict and describe a wide variety of objects and scenes. We collect data from
a manually curated set of subreddits, which give coarse image labels and allow
us to steer the dataset composition without labeling individual instances. We
show that captioning models trained on RedCaps produce rich and varied captions
preferred by humans, and learn visual representations that transfer to many
downstream tasks.
- Abstract(参考訳): 視覚と視覚と言語タスクの汎用表現を学ぶために、ペア画像とテキストの大規模なデータセットがますます人気になっている。
このようなデータセットは、検索エンジンのクエリやhtml alt-textの収集によって構築されている。webデータは騒がしいため、品質を維持するには複雑なフィルタリングパイプラインが必要である。我々は、最小限のフィルタリングで高品質なデータを収集するための代替データソースを探索する。我々は、redditから収集された1200万のイメージテキストペアからなる大規模データセットであるredcapsを紹介する。
Redditの画像やキャプションには、さまざまなオブジェクトやシーンが描かれている。
私たちは手動でキュレートされたサブレディットのセットからデータを収集し、粗いイメージラベルを与え、個々のインスタンスをラベル付けすることなくデータセットの構成をステアリングできるようにします。
レッドキャップで訓練されたキャプションモデルは,人間が好むリッチで多様なキャプションを生成し,多くの下流タスクに伝達される視覚的表現を学習する。
関連論文リスト
- From Pixels to Prose: A Large Dataset of Dense Image Captions [76.97493750144812]
PixelProseは、合成されたキャプション16万あまりの包括的データセットである。
データ整合性を確保するため、問題のあるコンテンツのデータセットを厳格に分析します。
また、透かしの存在や美的スコアなどの貴重なメタデータも提供します。
論文 参考訳(メタデータ) (2024-06-14T17:59:53Z) - Satellite Captioning: Large Language Models to Augment Labeling [0.0]
キャプションデータセットは、言語の違い、文法、そして人間がそれらを生成するのに要する時間により、はるかに難しい課題を示します。
現在のデータセットは確かに多くのインスタンスを扱えるが、キャプタがより限定的な語彙を持つ場合、問題となる。
本稿では,キャプションデータセットにおける潜在的な情報やコミュニケーションの欠陥の問題に対処することを目的とする。
論文 参考訳(メタデータ) (2023-12-18T03:21:58Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - HL Dataset: Visually-grounded Description of Scenes, Actions and
Rationales [5.010418546872244]
我々はCOCOデータセットから14997の画像を拡張し、新たに134,973の人称注釈(ハイレベル)キャプションをセットしたデータセットを提示する。
さらに、このデータセットを、独立した読者の集合から収集した信頼度スコアと、合成的に生成されたナラティブキャプションのセットで拡張する。
論文 参考訳(メタデータ) (2023-02-23T17:30:18Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - MultiSubs: A Large-scale Multimodal and Multilingual Dataset [32.48454703822847]
本稿では,単語から画像への接地の研究を容易にすることを目的とした,大規模マルチモーダル・多言語データセットを提案する。
データセットは、映画の字幕から文章で表現された概念を曖昧に描写するために選択された画像からなる。
i) 空白を埋める, (ii) 語彙変換という2つの自動タスクにおけるデータセットの有用性を示す。
論文 参考訳(メタデータ) (2021-03-02T18:09:07Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。