論文の概要: Correlational Image Modeling for Self-Supervised Visual Pre-Training
- arxiv url: http://arxiv.org/abs/2303.12670v1
- Date: Wed, 22 Mar 2023 15:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 13:37:35.292164
- Title: Correlational Image Modeling for Self-Supervised Visual Pre-Training
- Title(参考訳): 自己監督型視覚前訓練のための相関画像モデリング
- Authors: Wei Li, Jiahao Xie, Chen Change Loy
- Abstract要約: 相関画像モデリング(Relational Image Modeling)は、自己監督型視覚前訓練における、新しくて驚くほど効果的なアプローチである。
3つの重要な設計は、相関画像モデリングを非自明で有意義な自己監督タスクとして実現している。
- 参考スコア(独自算出の注目度): 81.82907503764775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Correlational Image Modeling (CIM), a novel and surprisingly
effective approach to self-supervised visual pre-training. Our CIM performs a
simple pretext task: we randomly crop image regions (exemplars) from an input
image (context) and predict correlation maps between the exemplars and the
context. Three key designs enable correlational image modeling as a nontrivial
and meaningful self-supervisory task. First, to generate useful
exemplar-context pairs, we consider cropping image regions with various scales,
shapes, rotations, and transformations. Second, we employ a bootstrap learning
framework that involves online and target encoders. During pre-training, the
former takes exemplars as inputs while the latter converts the context. Third,
we model the output correlation maps via a simple cross-attention block, within
which the context serves as queries and the exemplars offer values and keys. We
show that CIM performs on par or better than the current state of the art on
self-supervised and transfer benchmarks.
- Abstract(参考訳): 自己教師付き視覚前訓練に対する新規かつ驚くほど効果的なアプローチである相関画像モデリング(cim)を提案する。
入力画像(コンテキスト)から画像領域(exemplars)をランダムに抽出し、exemplarsとコンテキスト間の相関マップを予測します。
3つの重要な設計は、非自明で有意義な自己スーパーバイザリータスクとして相関画像モデリングを可能にする。
まず,実例と文脈のペアを生成するために,様々なスケール,形状,回転,変換による画像領域の切り抜きについて検討する。
次に、オンラインおよびターゲットエンコーダを含むブートストラップ学習フレームワークを使用します。
事前トレーニングの間、前者は例を入力として取り、後者はコンテキストを変換する。
第3に,コンテクストがクエリとして機能し,exemplarが値とキーを提供する単純なクロスアテンションブロックを用いて,出力相関マップをモデル化する。
我々は,cimが自己監視および転送ベンチマークにおける現在の技術と同等以上のパフォーマンスを示す。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Neural Congealing: Aligning Images to a Joint Semantic Atlas [14.348512536556413]
画像の集合を横断的に意味的に共通するコンテンツを調整するための,ゼロショットの自己教師型フレームワークを提案する。
提案手法は,DINO-ViTの事前学習能力を利用して学習する。
提案手法は,大規模データセットに対する広範囲なトレーニングを必要とする最先端の手法と比較して,好適に動作することを示す。
論文 参考訳(メタデータ) (2023-02-08T09:26:22Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Tensor Composition Net for Visual Relationship Prediction [115.14829858763399]
画像の視覚的関係を予測するための新しいコンポジションネットワーク(TCN)を提案する。
TCNの鍵となる考え方は、視覚的関係テンソルの低階特性を利用することである。
本稿では,ttcnの画像レベルの視覚関係予測により,画像検索の簡便かつ効率的なメカニズムを示す。
論文 参考訳(メタデータ) (2020-12-10T06:27:20Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。