論文の概要: Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize
Long-Tail Visual Concepts
- arxiv url: http://arxiv.org/abs/2102.08981v1
- Date: Wed, 17 Feb 2021 19:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-20 05:55:14.188615
- Title: Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize
Long-Tail Visual Concepts
- Title(参考訳): コンセプト12M: Webスケールの画像テキストプリトレーニングをプッシュして、ロングテールのビジュアルコンセプトを認識する
- Authors: Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut
- Abstract要約: 視覚と言語の事前トレーニング用に特別に使用するための12万の画像テキストペアを持つデータセットであるConceptual 12M(CC12M)を紹介します。
このデータセットを解析し、複数の下流タスクにおけるCC3Mに対する有効性を、長い尾の視覚的認識に重点を置いて評価する。
- 参考スコア(独自算出の注目度): 24.33566715136167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of large-scale image captioning and visual question
answering datasets has contributed significantly to recent successes in
vision-and-language pre-training. However, these datasets are often collected
with overrestrictive requirements, inherited from their original target tasks
(e.g., image caption generation), which limit the resulting dataset scale and
diversity. We take a step further in pushing the limits of vision-and-language
pre-training data by relaxing the data collection pipeline used in Conceptual
Captions 3M (CC3M) [Sharma et al. 2018] and introduce the Conceptual 12M
(CC12M), a dataset with 12 million image-text pairs specifically meant to be
used for vision-and-language pre-training. We perform an analysis of this
dataset, as well as benchmark its effectiveness against CC3M on multiple
downstream tasks with an emphasis on long-tail visual recognition. The
quantitative and qualitative results clearly illustrate the benefit of scaling
up pre-training data for vision-and-language tasks, as indicated by the new
state-of-the-art results on both the nocaps and Conceptual Captions benchmarks.
- Abstract(参考訳): 大規模画像キャプションと視覚的質問応答データセットの可用性は、視覚と言語による事前学習の成功に大きく貢献している。
しかし、これらのデータセットはしばしば、元のターゲットタスク(例えば、イメージキャプション生成)から継承される制限的な要件で収集され、結果として生じるデータセットのスケールと多様性が制限される。
我々は,概念キャプション3M (CC3M) [Sharma et al.]で使用されるデータ収集パイプラインを緩和することにより,視覚と言語による事前学習データの限界を推し進める。
概念的12M(Conceptual 12M, CC12M)は、画像とテキストのペアが1200万あり、視覚と言語の事前学習に使用される。
このデータセットを解析し、複数の下流タスクにおけるCC3Mに対する有効性を、長い尾の視覚的認識に重点を置いて評価する。
定量的および定性的な結果は、nocapsとConceptual Captionsベンチマークの両方で最新の結果が示すように、ビジョンおよび言語タスクの事前トレーニングデータをスケールアップするメリットを明確に示しています。
関連論文リスト
- On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Enhancing Vision-Language Pre-Training with Jointly Learned Questioner
and Dense Captioner [23.45696017024429]
本稿では,大規模VQAおよび高密度キャプションデータセットの自動生成とフィルタリングを行うJADE(Joint QA and DC GEneration)を提案する。
実験により,マルチタスク方式で事前学習を行う場合,CC3M-QA-DCは様々な下流タスクにおいて,様々なバックボーンを用いて性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-05-19T15:54:40Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Vision-and-Language Pretraining [19.903012955284698]
本稿では,現代V&L事前学習モデルの総合的な改訂について述べる。
特に、最先端のビジョン・アンド・ランゲージ事前学習モデルの要約とともに、事前学習アプローチの分類とデライン化を行う。
論文 参考訳(メタデータ) (2022-07-05T02:18:49Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。