論文の概要: ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel
Appearance Invariant Semantic Representations
- arxiv url: http://arxiv.org/abs/2111.12460v1
- Date: Wed, 24 Nov 2021 12:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 14:09:14.064815
- Title: ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel
Appearance Invariant Semantic Representations
- Title(参考訳): ViCE: コンテキストおよび画素外観不変なセマンティック表現としての自己監督型視覚概念埋め込み
- Authors: Robin Karlsson, Tomoki Hayashi, Keisuke Fujii, Alexander Carballo,
Kento Ohtani, Kazuya Takeda
- Abstract要約: 本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味論的にリッチな視覚埋め込みを学習するための自己指導的手法を提案する。
- 参考スコア(独自算出の注目度): 77.3590853897664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a self-supervised method to learn dense semantically rich
visual concept embeddings for images inspired by methods for learning word
embeddings in NLP. Our method improves on prior work by generating more
expressive embeddings and by being applicable for high-resolution images.
Viewing the generation of natural images as a stochastic process where a set of
latent visual concepts give rise to observable pixel appearances, our method is
formulated to learn the inverse mapping from pixels to concepts. Our method
greatly improves the effectiveness of self-supervised learning for dense
embedding maps by introducing superpixelization as a natural hierarchical step
up from pixels to a small set of visually coherent regions. Additional
contributions are regional contextual masking with nonuniform shapes matching
visually coherent patches and complexity-based view sampling inspired by masked
language models. The enhanced expressiveness of our dense embeddings is
demonstrated by significantly improving the state-of-the-art representation
quality benchmarks on COCO (+12.94 mIoU, +87.6\%) and Cityscapes (+16.52 mIoU,
+134.2\%). Results show favorable scaling and domain generalization properties
not demonstrated by prior work.
- Abstract(参考訳): 本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味的にリッチな視覚的概念埋め込みを学習するための自己指導手法を提案する。
本手法は,より表現力のある埋め込みを生成し,高解像度画像に適用することにより,先行作業を改善する。
自然画像の生成を,一組の潜在視覚概念が観測可能なピクセルの出現をもたらす確率的過程として見ることにより,画素から概念への逆写像を学習する手法を定式化した。
本手法は,画素から少数の視覚的コヒーレント領域への自然な階層化を導入し,高密度埋め込みマップに対する自己教師型学習の有効性を大幅に向上させる。
その他のコントリビューションとしては、視覚的コヒーレントパッチにマッチする非一様形状の地域マスキングや、マスキング言語モデルにインスパイアされた複雑性に基づくビューサンプリングなどがある。
その結果,COCO (+12.94 mIoU, +87.6\%) とCityscapes (+16.52 mIoU, +134.2\%) の最先端の表現品質ベンチマークを大幅に改善した。
その結果,先行研究では示されなかった拡張性や領域一般化特性が得られた。
関連論文リスト
- Image inpainting enhancement by replacing the original mask with a self-attended region from the input image [44.8450669068833]
視覚変換器(ViT)を用いた画像インペイントのための新しい深層学習に基づく事前処理手法を提案する。
当社のアプローチでは,マスク付き画素値をViTで生成されたものと置き換えることによって,注目行列内の多様な視覚的パッチを活用し,識別空間的特徴を捉える。
論文 参考訳(メタデータ) (2024-11-08T17:04:05Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Saliency-based Video Summarization for Face Anti-spoofing [4.730428911461921]
本稿では,ビジュアル・サリエンシを活用して,ディープラーニングモデルの性能向上を目的とした,顔のアンチ・スプーフィング検出のための映像要約手法を提案する。
特に、ソース画像のラプラシアンフィルタ出力とウィーナーフィルタ出力との差から、サリエンシ情報を抽出する。
重み付けマップは、画像中の各ピクセルの重要性を示す唾液度情報に基づいて計算される。
論文 参考訳(メタデータ) (2023-08-23T18:08:32Z) - Face Anti-Spoofing Via Disentangled Representation Learning [90.90512800361742]
顔認識システムのセキュリティには、顔の偽造が不可欠だ。
本稿では,画像から生意気な特徴やコンテンツの特徴を乱す顔のアンチ・スプーフィングの新たな視点を提案する。
論文 参考訳(メタデータ) (2020-08-19T03:54:23Z) - PerceptionGAN: Real-world Image Construction from Provided Text through
Perceptual Understanding [11.985768957782641]
本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。
複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。
さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
論文 参考訳(メタデータ) (2020-07-02T09:23:08Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。