論文の概要: Generative Partial Visual-Tactile Fused Object Clustering
- arxiv url: http://arxiv.org/abs/2012.14070v2
- Date: Sun, 14 Feb 2021 08:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 18:16:45.873937
- Title: Generative Partial Visual-Tactile Fused Object Clustering
- Title(参考訳): 部分的視覚触覚融合オブジェクトクラスタリング
- Authors: Tao Zhang and Yang Cong and Gan Sun and Jiahua Dong and Yuyang Liu and
Zhengming Ding
- Abstract要約: オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。
条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
- 参考スコア(独自算出の注目度): 81.17645983141773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual-tactile fused sensing for object clustering has achieved significant
progresses recently, since the involvement of tactile modality can effectively
improve clustering performance. However, the missing data (i.e., partial data)
issues always happen due to occlusion and noises during the data collecting
process. This issue is not well solved by most existing partial multi-view
clustering methods for the heterogeneous modality challenge. Naively employing
these methods would inevitably induce a negative effect and further hurt the
performance. To solve the mentioned challenges, we propose a Generative Partial
Visual-Tactile Fused (i.e., GPVTF) framework for object clustering. More
specifically, we first do partial visual and tactile features extraction from
the partial visual and tactile data, respectively, and encode the extracted
features in modality-specific feature subspaces. A conditional cross-modal
clustering generative adversarial network is then developed to synthesize one
modality conditioning on the other modality, which can compensate missing
samples and align the visual and tactile modalities naturally by adversarial
learning. To the end, two pseudo-label based KL-divergence losses are employed
to update the corresponding modality-specific encoders. Extensive comparative
experiments on three public visual-tactile datasets prove the effectiveness of
our method.
- Abstract(参考訳): 触覚モダリティの関与はクラスタリング性能を効果的に改善できるため、オブジェクトクラスタリングのための視覚触覚融合センシングは近年大きな進歩を遂げている。
しかし、データ収集プロセス中の閉塞やノイズのため、欠落したデータ(すなわち部分的なデータ)は常に発生する。
この問題は、異種モダリティ問題に対する既存の部分的マルチビュークラスタリング手法ではうまく解決されていない。
これらの手法は必然的に負の効果を誘発し、パフォーマンスをさらに損なう。
上記の課題を解決するため、オブジェクトクラスタリングのための生成的部分視覚触覚融合(GPVTF)フレームワークを提案する。
より具体的には、まず、部分視覚データと触覚データから部分視覚特徴と触覚特徴を抽出し、抽出された特徴をモダリティ特有の特徴部分空間にエンコードする。
次に条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件付けを他方のモダリティ上で合成し、欠落したサンプルを補償し、逆学習によって自然に視覚と触覚のモダリティを調整する。
最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
3つの視覚触覚データセットに関する広範囲な比較実験により,本手法の有効性が証明された。
関連論文リスト
- Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - A Contrastive Variational Graph Auto-Encoder for Node Clustering [10.52321770126932]
最先端のクラスタリング手法には多くの課題がある。
既存のVGAEは、推論と生成モデルの相違を考慮していない。
私たちのソリューションには、フィーチャーランダムネスとフィーチャードリフトのトレードオフを制御する2つのメカニズムがあります。
論文 参考訳(メタデータ) (2023-12-28T05:07:57Z) - Feature Completion Transformer for Occluded Person Re-identification [25.159974510754992]
咬合者の再同定(Re-ID)は,咬合者の破壊による課題である。
特徴空間に隠された部分の意味情報を暗黙的に補完する特徴補完変換器(FCFormer)を提案する。
FCFormerは優れたパフォーマンスを実現し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法を上回ります。
論文 参考訳(メタデータ) (2023-03-03T01:12:57Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Visual-Tactile Cross-Modal Data Generation using Residue-Fusion GAN with
Feature-Matching and Perceptual Losses [13.947606247944597]
本稿では,GAN(Generative Adversarial Network)の枠組みを活用することによって,モーダルな視覚触覚データ生成のためのディープラーニングに基づくアプローチを提案する。
本手法は, 材料表面の視覚像を視覚データとし, 触覚データとして表面のペンスライディング運動によって誘導される加速度センサ信号を用いる。
我々は, 条件付きGAN (cGAN) 構造を残差融合 (RF) モジュールとともに採用し, 付加的特徴マッチング (FM) と知覚的損失を用いてモデルを訓練し, クロスモーダルデータ生成を実現する。
論文 参考訳(メタデータ) (2021-07-12T14:36:16Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Transductive Zero-Shot Learning by Decoupled Feature Generation [30.664199050468472]
本稿では,未確認のクラスからの未表示の視覚データを利用できるトランスダクティブ・セッティングに着目する。
本稿では,現実的な視覚的特徴を生成し,意味的属性を視覚的手がかりに変換するタスクを分離することを提案する。
本研究は,提案手法の有効性を解明する上で,関連する最先端技術に対する優位性を実証するための詳細なアブレーション研究である。
論文 参考訳(メタデータ) (2021-02-05T16:17:52Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。