論文の概要: An Explicit Local and Global Representation Disentanglement Framework
with Applications in Deep Clustering and Unsupervised Object Detection
- arxiv url: http://arxiv.org/abs/2001.08957v2
- Date: Mon, 24 Feb 2020 10:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 05:05:40.768904
- Title: An Explicit Local and Global Representation Disentanglement Framework
with Applications in Deep Clustering and Unsupervised Object Detection
- Title(参考訳): 深部クラスタリングと非教師対象検出に応用した局所的・大域的表現アンタングル化フレームワーク
- Authors: Rujikorn Charakorn, Yuttapong Thawornwattana, Sirawaj Itthipuripat,
Nick Pawlowski, Poramate Manoonpong, Nat Dilokthanakul
- Abstract要約: 我々はSPLITと呼ばれるフレームワークを提案し、ローカルおよびグローバルな情報を解き放つことができる。
我々のフレームワークは、可変オートエンコーダ(VAE)フレームワークに生成仮定を追加する。
このフレームワークは,これらのモデル内の局所的およびグローバル的情報を効果的に切り離すことができることを示す。
- 参考スコア(独自算出の注目度): 9.609936822226633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual data can be understood at different levels of granularity, where
global features correspond to semantic-level information and local features
correspond to texture patterns. In this work, we propose a framework, called
SPLIT, which allows us to disentangle local and global information into two
separate sets of latent variables within the variational autoencoder (VAE)
framework. Our framework adds generative assumption to the VAE by requiring a
subset of the latent variables to generate an auxiliary set of observable data.
This additional generative assumption primes the latent variables to local
information and encourages the other latent variables to represent global
information. We examine three different flavours of VAEs with different
generative assumptions. We show that the framework can effectively disentangle
local and global information within these models leads to improved
representation, with better clustering and unsupervised object detection
benchmarks. Finally, we establish connections between SPLIT and recent research
in cognitive neuroscience regarding the disentanglement in human visual
perception. The code for our experiments is at
https://github.com/51616/split-vae .
- Abstract(参考訳): 視覚的データは、グローバル特徴が意味レベル情報に対応し、ローカル特徴がテクスチャパターンに対応する、さまざまなレベルの粒度で理解することができる。
本研究では,ローカルおよびグローバル情報を可変オートエンコーダ(vae)フレームワーク内の潜在変数の2つのセットに分離する,splitと呼ばれるフレームワークを提案する。
我々のフレームワークは、観測可能なデータの補助的集合を生成するために潜在変数のサブセットを必要とすることにより、VAEに生成的仮定を追加する。
この追加の帰納的仮定は、潜在変数を局所情報にプライミングし、他の潜在変数がグローバル情報を表すことを奨励する。
生成仮定の異なる3種類のVAEの風味について検討した。
これらのモデル内の局所的およびグローバルな情報を効果的に切り離すことができ、より優れたクラスタリングと教師なしのオブジェクト検出ベンチマークにより表現性の向上が期待できる。
最後に,SPLITと認知神経科学における人間の視覚知覚のゆがみに関する最近の研究の関連性を確立する。
実験のコードはhttps://github.com/51616/split-vae です。
関連論文リスト
- GSTran: Joint Geometric and Semantic Coherence for Point Cloud Segmentation [33.72549134362884]
本稿では,セグメント化作業に適した新しい変圧器ネットワークであるGSTranを提案する。
提案するネットワークは主に,局所幾何学変換器と大域意味変換器の2つの主成分から構成される。
ShapeNetPartとS3DISベンチマークの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-21T12:12:37Z) - Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - DistFormer: Enhancing Local and Global Features for Monocular Per-Object
Distance Estimation [35.6022448037063]
物体ごとの距離推定は、自律運転、監視、ロボット工学などの安全上重要な応用において重要である。
既存のアプローチは、ローカル情報(すなわち、境界ボックスの割合)とグローバル情報という2つの尺度に依存している。
私たちの仕事は、地域とグローバルの両方の手段を強化することを目的としています。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - SphereVLAD++: Attention-based and Signal-enhanced Viewpoint Invariant
Descriptor [6.326554177747699]
SphereVLAD++ は注目度が高められた視点不変位置認識手法である。
SphereVLAD++は、小さな視点や完全に逆の視点差の下で、最先端の3D位置認識手法をすべて上回ることを示す。
論文 参考訳(メタデータ) (2022-07-06T20:32:43Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - Federated and Generalized Person Re-identification through Domain and
Feature Hallucinating [88.77196261300699]
人物再識別(re-ID)におけるフェデレーションドメイン一般化(FedDG)の問題について検討する。
一般化された局所的・グローバルなモデルを学ぶための多様な特徴を創出する手法として,DFH (Domain and Feature Hallucinating) を提案する。
提案手法は4つの大規模re-IDベンチマークにおいてFedDGの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-05T09:15:13Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Unsupervised Learning of Global Factors in Deep Generative Models [6.362733059568703]
非i.i.dに基づく新しい深層生成モデルを提案する。
変分オートエンコーダ。
モデルがドメインアライメントを行い、相関関係を見つけ、異なるデータベース間で補間することを示す。
また、非自明な基礎構造を持つ観測群を区別するグローバル空間の能力についても研究する。
論文 参考訳(メタデータ) (2020-12-15T11:55:31Z) - Global-Local Bidirectional Reasoning for Unsupervised Representation
Learning of 3D Point Clouds [109.0016923028653]
局所構造とグローバル形状の双方向推論による点雲表現を人間の監督なしに学習する。
本研究では, 実世界の3次元オブジェクト分類データセットにおいて, 教師なしモデルが最先端の教師付き手法を超越していることを示す。
論文 参考訳(メタデータ) (2020-03-29T08:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。