論文の概要: Generative-Contrastive Learning for Self-Supervised Latent
Representations of 3D Shapes from Multi-Modal Euclidean Input
- arxiv url: http://arxiv.org/abs/2301.04612v1
- Date: Wed, 11 Jan 2023 18:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 17:02:30.101362
- Title: Generative-Contrastive Learning for Self-Supervised Latent
Representations of 3D Shapes from Multi-Modal Euclidean Input
- Title(参考訳): マルチモーダルユークリッド入力からの3次元形状の自己教師付き潜在表現に対する生成的結合学習
- Authors: Chengzhi Wu, Julius Pfrommer, Mingyuan Zhou and J\"urgen Beyerer
- Abstract要約: 本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。
このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
- 参考スコア(独自算出の注目度): 44.10761155817833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a combined generative and contrastive neural architecture for
learning latent representations of 3D volumetric shapes. The architecture uses
two encoder branches for voxel grids and multi-view images from the same
underlying shape. The main idea is to combine a contrastive loss between the
resulting latent representations with an additional reconstruction loss. That
helps to avoid collapsing the latent representations as a trivial solution for
minimizing the contrastive loss. A novel switching scheme is used to
cross-train two encoders with a shared decoder. The switching scheme also
enables the stop gradient operation on a random branch. Further classification
experiments show that the latent representations learned with our
self-supervised method integrate more useful information from the additional
input data implicitly, thus leading to better reconstruction and classification
performance.
- Abstract(参考訳): 本研究では,3次元容積形状の潜在表現を学習するための生成的・対比的ニューラルネットワークアーキテクチャを提案する。
このアーキテクチャでは、2つのエンコーダブランチを使ってボクセルグリッドと同一形状のマルチビュー画像を生成する。
主な考え方は、結果として生じる潜在表現と追加の再構成損失の対比的な損失を組み合わせることである。
これにより、競合的な損失を最小限に抑えるための簡単なソリューションとして、潜在表現が崩壊するのを避けることができる。
共有デコーダで2つのエンコーダをクロストレーニングするために、新しいスイッチング方式を用いる。
また、スイッチング方式によりランダム分岐の停止勾配操作も可能となる。
さらに分類実験により, 自己教師付き手法で学習した潜在表現は, 付加的な入力データからより有用な情報を暗黙的に統合し, 再構築と分類性能の向上を図っている。
関連論文リスト
- Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning [9.896550384001348]
本研究は、異なる拡張ビューからのトークン埋め込み間の合意を最大化するトークンレベルの表現学習損失を提案する。
また、入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元するシンプルな「回転・再保存」機構を発明する。
筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。
論文 参考訳(メタデータ) (2024-08-12T01:49:13Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Efficient View Synthesis and 3D-based Multi-Frame Denoising with
Multiplane Feature Representations [1.18885605647513]
本稿では,3Dベースのマルチフレームデノベーション手法を初めて導入し,より少ない計算量で2Dベースのデノベーションを著しく上回った。
特徴空間に多面体を操作する学習可能なエンコーダ-レンダペアを導入することにより,新しいビュー合成のための多面体画像(MPI)フレームワークを拡張した。
論文 参考訳(メタデータ) (2023-03-31T15:23:35Z) - Contrast with Reconstruct: Contrastive 3D Representation Learning Guided
by Generative Pretraining [26.908554018069545]
本稿ではコントラストとReconstruct(ReCon)を融合したコントラストモデルを提案する。
Encoder-decoder スタイルの ReCon-block が提案されている。
ReConは、ScanObjectNNの91.26%の精度など、新しい最先端の3D表現学習を実現している。
論文 参考訳(メタデータ) (2023-02-05T06:58:35Z) - Neural Contourlet Network for Monocular 360 Depth Estimation [37.82642960470551]
我々は360度画像の解釈可能かつスパースな表現を構築する新しい視点を提供する。
本稿では,畳み込み型ニューラルネットワークと畳み込み型トランスフォーメーションブランチからなる,畳み込み型ニューラルネットワークを提案する。
エンコーダの段階では、2種類のキューを効果的に融合させる空間スペクトル融合モジュールを設計する。
論文 参考訳(メタデータ) (2022-08-03T02:25:55Z) - The Transitive Information Theory and its Application to Deep Generative
Models [0.0]
変分オートエンコーダ(VAE)は2つの反対方向に押される。
既存の方法では、圧縮と再構成の間のレート歪みのトレードオフに問題を絞り込む。
一般化のために学習した表現を再結合する機構とともに,非交叉表現の階層構造を学習するシステムを開発する。
論文 参考訳(メタデータ) (2022-03-09T22:35:02Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Identity Enhanced Residual Image Denoising [61.75610647978973]
我々は、アイデンティティマッピングモジュールのチェーンと、画像の復号化のための残像アーキテクチャの残像からなる、完全な畳み込みネットワークモデルを学ぶ。
提案するネットワークは,従来の最先端・CNNアルゴリズムよりも極めて高い数値精度と画像品質を実現している。
論文 参考訳(メタデータ) (2020-04-26T04:52:22Z) - Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。
畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。
実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文 参考訳(メタデータ) (2020-03-10T10:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。