論文の概要: Local Manifold Augmentation for Multiview Semantic Consistency
- arxiv url: http://arxiv.org/abs/2211.02798v1
- Date: Sat, 5 Nov 2022 02:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:12:48.952486
- Title: Local Manifold Augmentation for Multiview Semantic Consistency
- Title(参考訳): 多視点セマンティック一貫性のための局所多様体拡張
- Authors: Yu Yang, Wing Yin Cheung, Chang Liu, Xiangyang Ji
- Abstract要約: 本稿では、データセットから基礎となるデータバリエーションを抽出し、局所多様体拡張(LMA)と呼ばれる新しい拡張演算子を構築することを提案する。
LMAは、無限の数のデータビューを作成し、セマンティクスを保持し、オブジェクトのポーズ、視点、照明条件、背景などの複雑なバリエーションをシミュレートする能力を示している。
- 参考スコア(独自算出の注目度): 40.28906509638541
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multiview self-supervised representation learning roots in exploring semantic
consistency across data of complex intra-class variation. Such variation is not
directly accessible and therefore simulated by data augmentations. However,
commonly adopted augmentations are handcrafted and limited to simple
geometrical and color changes, which are unable to cover the abundant
intra-class variation. In this paper, we propose to extract the underlying data
variation from datasets and construct a novel augmentation operator, named
local manifold augmentation (LMA). LMA is achieved by training an
instance-conditioned generator to fit the distribution on the local manifold of
data and sampling multiview data using it. LMA shows the ability to create an
infinite number of data views, preserve semantics, and simulate complicated
variations in object pose, viewpoint, lighting condition, background etc.
Experiments show that with LMA integrated, self-supervised learning methods
such as MoCov2 and SimSiam gain consistent improvement on prevalent benchmarks
including CIFAR10, CIFAR100, STL10, ImageNet100, and ImageNet. Furthermore, LMA
leads to representations that obtain more significant invariance to the
viewpoint, object pose, and illumination changes and stronger robustness to
various real distribution shifts reflected by ImageNet-V2, ImageNet-R, ImageNet
Sketch etc.
- Abstract(参考訳): 多視点自己教師型表現学習のルーツは、複雑なクラス内変動のデータ間のセマンティック一貫性を探究する。
このようなバリエーションは直接アクセスできないため、データ拡張によってシミュレートされる。
しかし、一般的に採用されている拡張は手作りであり、単純な幾何学的および色の変化に限られる。
本稿では,データセットから基礎となるデータ変化を抽出し,局所多様体拡張(LMA)と呼ばれる新しい拡張演算子を構築することを提案する。
lmaは、データのローカル多様体上の分布に適合するようにインスタンス条件付きジェネレータを訓練し、それを用いてマルチビューデータをサンプリングすることで達成される。
lmaは無限数のデータビューを作成し、セマンティクスを保持し、オブジェクトのポーズ、視点、照明条件、背景などの複雑なバリエーションをシミュレートする能力を示している。
CIFAR10、CIFAR100、STL10、ImageNet100、ImageNetなどの一般的なベンチマークでは、LMA統合されたMoCov2やSimSiamのような自己教師型学習手法が一貫して改善されている。
さらに、LMAは、視点、オブジェクトのポーズ、照明の変化、およびImageNet-V2、ImageNet-R、ImageNet Sketchなどによって反射される様々な実分布シフトに対する強い堅牢性といった、より重要な不変性を得る表現につながります。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [32.57246173437492]
本研究は,MLLMにおけるきめ細かい画像認識を強化するために,Img-Diffという新しいデータセットを提案する。
類似画像間のオブジェクト差を解析することにより、マッチングと異なるコンポーネントの両方を識別するモデルに挑戦する。
我々は、安定拡散XLモデルと高度な画像編集技術を用いて、オブジェクト置換をハイライトする類似画像のペアを作成する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Multi-Spectral Image Classification with Ultra-Lean Complex-Valued
Models [28.798100220715686]
マルチスペクトル画像は、材料によって示される異なるスペクトルシグネチャによってリモートセンシングに有用である。
複素値コドメイン対称モデルを用いて実値MSI画像の分類を行う。
我々の研究は、実数値MSIデータにおける複素数値深層学習の価値を初めて示すものである。
論文 参考訳(メタデータ) (2022-11-21T19:01:53Z) - Sketched Multi-view Subspace Learning for Hyperspectral Anomalous Change
Detection [12.719327447589345]
異常変化検出のためのスケッチ付きマルチビューサブスペース学習モデルを提案する。
提案モデルでは,画像ペアからの主要な情報を保存し,計算複雑性を向上させる。
実験は、ベンチマークハイパースペクトルリモートセンシングデータセットと自然なハイパースペクトルデータセットで実施される。
論文 参考訳(メタデータ) (2022-10-09T14:08:17Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。