論文の概要: LocTex: Learning Data-Efficient Visual Representations from Localized
Textual Supervision
- arxiv url: http://arxiv.org/abs/2108.11950v1
- Date: Thu, 26 Aug 2021 17:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:17:16.506198
- Title: LocTex: Learning Data-Efficient Visual Representations from Localized
Textual Supervision
- Title(参考訳): LocTex: 局所的なテキストスーパービジョンからデータ効率の良い視覚表現を学習する
- Authors: Zhijian Liu, Simon Stent, Jie Li, John Gideon, Song Han
- Abstract要約: LocTexはローカライズされたテキストアノテーションを利用してアノテーションの労力を削減する。
ImageNetの教師付き事前トレーニングと比較すると、LocTexは事前トレーニングデータセットのサイズを10倍、ターゲットデータセットを2倍削減できる。
- 参考スコア(独自算出の注目度): 33.81468149305518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision tasks such as object detection and semantic/instance
segmentation rely on the painstaking annotation of large training datasets. In
this paper, we propose LocTex that takes advantage of the low-cost localized
textual annotations (i.e., captions and synchronized mouse-over gestures) to
reduce the annotation effort. We introduce a contrastive pre-training framework
between images and captions and propose to supervise the cross-modal attention
map with rendered mouse traces to provide coarse localization signals. Our
learned visual features capture rich semantics (from free-form captions) and
accurate localization (from mouse traces), which are very effective when
transferred to various downstream vision tasks. Compared with ImageNet
supervised pre-training, LocTex can reduce the size of the pre-training dataset
by 10x or the target dataset by 2x while achieving comparable or even improved
performance on COCO instance segmentation. When provided with the same amount
of annotations, LocTex achieves around 4% higher accuracy than the previous
state-of-the-art "vision+language" pre-training approach on the task of PASCAL
VOC image classification.
- Abstract(参考訳): オブジェクト検出やセマンティック/インスタンスセグメンテーションなどのコンピュータビジョンタスクは、大規模なトレーニングデータセットの面倒なアノテーションに依存している。
本稿では,ローカライズされたテキストアノテーション(キャプションと同期マウスオーバージェスチャ)を利用してアノテーションの労力を削減するLocTexを提案する。
本稿では,画像とキャプションの対比的事前学習フレームワークを導入し,マウストレースによるクロスモーダル・アテンションマップを監督し,粗い局所化信号を提供する。
学習した視覚機能は、リッチなセマンティクス(フリーフォームキャプションから)と正確な位置決め(マウストレースから)をキャプチャし、様々な下流視覚タスクに転送する際に非常に効果的である。
ImageNetによる教師付き事前トレーニングと比較して、LocTexは、事前トレーニングデータセットのサイズを10倍、ターゲットデータセットを2倍削減し、COCOインスタンスセグメンテーションのパフォーマンスを同等または改善する。
同じ量のアノテーションが提供されると、PASCAL VOC画像分類のタスクにおいて、従来の最先端の "vision+Language" 事前トレーニングアプローチよりも約4%高い精度を達成する。
関連論文リスト
- Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - Weakly Supervised Vision-and-Language Pre-training with Relative
Representations [76.63610760577214]
弱教師付き視覚・言語事前学習は、事前学習のデータコストを効果的に削減することを示した。
現在の手法では、イメージのローカル記述(オブジェクトタグ)のみをクロスモーダルアンカーとして使用し、事前トレーニングのための弱い整列されたイメージテキストペアを構築する。
論文 参考訳(メタデータ) (2023-05-24T18:10:24Z) - Zero-shot Image Captioning by Anchor-augmented Vision-Language Space
Alignment [23.072180427273544]
ゼロショット画像キャプションにCLIPを直接利用する場合、文脈のテクスチュラルなモダリティに大きく依存し、視覚情報をほとんど無視する。
これを解決するために、教師なしのクロスモーダル学習を容易にするクロスモーダル言語モデル(CLM)を提案する。
MS COCOとFlickr 30Kの実験は、キャプション品質と計算効率の両方において提案手法の有望な性能を検証した。
論文 参考訳(メタデータ) (2022-11-14T11:12:19Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - VirTex: Learning Visual Representations from Textual Annotations [25.104705278771895]
VirTexは、意味的に密接なキャプションを使用して視覚表現を学習する事前学習のアプローチである。
我々はCOCOキャプションのスクラッチから畳み込みネットワークを訓練し、それらを下流認識タスクに転送する。
すべてのタスクにおいて、VirTexはImageNetで学んだもの(教師なしまたは教師なし)と一致するか、あるいは超える機能を提供します。
論文 参考訳(メタデータ) (2020-06-11T17:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。