Fugu-MT 論文翻訳(概要): Generative-Contrastive Learning for Self-Supervised Latent Representations of 3D Shapes from Multi-Modal Euclidean Input

論文の概要: Generative-Contrastive Learning for Self-Supervised Latent Representations of 3D Shapes from Multi-Modal Euclidean Input

arxiv url: http://arxiv.org/abs/2301.04612v1
Date: Wed, 11 Jan 2023 18:14:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-12 17:02:30.101362
Title: Generative-Contrastive Learning for Self-Supervised Latent Representations of 3D Shapes from Multi-Modal Euclidean Input
Title（参考訳）: マルチモーダルユークリッド入力からの3次元形状の自己教師付き潜在表現に対する生成的結合学習
Authors: Chengzhi Wu, Julius Pfrommer, Mingyuan Zhou and J\"urgen Beyerer
Abstract要約: 本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
参考スコア（独自算出の注目度）: 44.10761155817833
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a combined generative and contrastive neural architecture for learning latent representations of 3D volumetric shapes. The architecture uses two encoder branches for voxel grids and multi-view images from the same underlying shape. The main idea is to combine a contrastive loss between the resulting latent representations with an additional reconstruction loss. That helps to avoid collapsing the latent representations as a trivial solution for minimizing the contrastive loss. A novel switching scheme is used to cross-train two encoders with a shared decoder. The switching scheme also enables the stop gradient operation on a random branch. Further classification experiments show that the latent representations learned with our self-supervised method integrate more useful information from the additional input data implicitly, thus leading to better reconstruction and classification performance.
Abstract（参考訳）: 本研究では,3次元容積形状の潜在表現を学習するための生成的・対比的ニューラルネットワークアーキテクチャを提案する。このアーキテクチャでは、2つのエンコーダブランチを使ってボクセルグリッドと同一形状のマルチビュー画像を生成する。主な考え方は、結果として生じる潜在表現と追加の再構成損失の対比的な損失を組み合わせることである。これにより、競合的な損失を最小限に抑えるための簡単なソリューションとして、潜在表現が崩壊するのを避けることができる。共有デコーダで2つのエンコーダをクロストレーニングするために、新しいスイッチング方式を用いる。また、スイッチング方式によりランダム分岐の停止勾配操作も可能となる。さらに分類実験により, 自己教師付き手法で学習した潜在表現は, 付加的な入力データからより有用な情報を暗黙的に統合し, 再構築と分類性能の向上を図っている。

関連論文リスト

Joint Semantic and Rendering Enhancements in 3D Gaussian Modeling with Anisotropic Local Encoding [86.55824709875598]
本稿では,セマンティックとレンダリングの両方を相乗化する3次元セマンティックガウスモデリングのための統合拡張フレームワークを提案する。従来の点雲形状符号化とは異なり、細粒度3次元形状を捉えるために異方性3次元ガウシアン・チェビシェフ記述子を導入する。我々は、学習した形状パターンを継続的に更新するために、クロスシーンの知識伝達モジュールを使用し、より高速な収束と堅牢な表現を可能にします。
論文参考訳（メタデータ） (2026-01-05T18:33:50Z)
PointDico: Contrastive 3D Representation Learning Guided by Diffusion Models [5.077352707415241]
textitPointDicoは、生成的モデリングの認知と、知識の蒸留を通じて、相互モーダルなコントラスト学習の両方から学習する。 textitPointDicoは、ScanObjectNNのtextbf94.32%の精度、ShapeNetPartのtextbf86.5%のInst.mIoUといった3D表現学習において、新しい最先端の3D表現学習を実現している。
論文参考訳（メタデータ） (2025-12-09T07:57:56Z)
Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文参考訳（メタデータ） (2025-05-24T12:52:10Z)
PanopticSplatting: End-to-End Panoptic Gaussian Splatting [20.04251473153725]
そこで我々は,オープン・ボキャブラリ・パノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノ本手法では,クエリ誘導型ガウス分割と局所的クロスアテンションを導入し,クロスフレームアソシエーションなしで2次元のインスタンスマスクを持ち上げる。本手法は,ScanNet-V2とScanNet++データセット上での3Dシーンパノビュータ再構成において,高い性能を示す。
論文参考訳（メタデータ） (2025-03-23T13:45:39Z)
Enhancing 3D Transformer Segmentation Model for Medical Image with Token-level Representation Learning [9.896550384001348]
本研究は、異なる拡張ビューからのトークン埋め込み間の合意を最大化するトークンレベルの表現学習損失を提案する。また、入力ボリュームの1つの拡張ビューを回転・反転させ、後に特徴写像のトークンの順序を復元するシンプルな「回転・再保存」機構を発明する。筆者らは2つの公開医療セグメント化データセットで事前トレーニングを行い、下流セグメンテーションタスクの結果は、他の最先端のプレトレーニング手法よりも、我々の方法の改善を示す。
論文参考訳（メタデータ） (2024-08-12T01:49:13Z)
Fully Differentiable Correlation-driven 2D/3D Registration for X-ray to CT Image Fusion [3.868072865207522]
画像ベース剛性2D/3Dレジストレーションは, 蛍光ガイド下外科手術において重要な技術である。デュアルブランチCNN変換器エンコーダを用いた完全微分型相関型ネットワークを提案する。組込み情報に基づく低周波特徴と高周波特徴の分解に対して相関型損失を提案する。
論文参考訳（メタデータ） (2024-02-04T14:12:51Z)
Triple-View Knowledge Distillation for Semi-Supervised Semantic Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文参考訳（メタデータ） (2023-09-22T01:02:21Z)
Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文参考訳（メタデータ） (2023-08-07T12:26:34Z)
Efficient View Synthesis and 3D-based Multi-Frame Denoising with Multiplane Feature Representations [1.18885605647513]
本稿では,3Dベースのマルチフレームデノベーション手法を初めて導入し,より少ない計算量で2Dベースのデノベーションを著しく上回った。特徴空間に多面体を操作する学習可能なエンコーダ-レンダペアを導入することにより,新しいビュー合成のための多面体画像(MPI)フレームワークを拡張した。
論文参考訳（メタデータ） (2023-03-31T15:23:35Z)
Contrast with Reconstruct: Contrastive 3D Representation Learning Guided by Generative Pretraining [26.908554018069545]
本稿ではコントラストとReconstruct(ReCon)を融合したコントラストモデルを提案する。 Encoder-decoder スタイルの ReCon-block が提案されている。 ReConは、ScanObjectNNの91.26%の精度など、新しい最先端の3D表現学習を実現している。
論文参考訳（メタデータ） (2023-02-05T06:58:35Z)
Neural Contourlet Network for Monocular 360 Depth Estimation [37.82642960470551]
我々は360度画像の解釈可能かつスパースな表現を構築する新しい視点を提供する。本稿では,畳み込み型ニューラルネットワークと畳み込み型トランスフォーメーションブランチからなる,畳み込み型ニューラルネットワークを提案する。エンコーダの段階では、2種類のキューを効果的に融合させる空間スペクトル融合モジュールを設計する。
論文参考訳（メタデータ） (2022-08-03T02:25:55Z)
The Transitive Information Theory and its Application to Deep Generative Models [0.0]
変分オートエンコーダ(VAE)は2つの反対方向に押される。既存の方法では、圧縮と再構成の間のレート歪みのトレードオフに問題を絞り込む。一般化のために学習した表現を再結合する機構とともに,非交叉表現の階層構造を学習するシステムを開発する。
論文参考訳（メタデータ） (2022-03-09T22:35:02Z)
Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文参考訳（メタデータ） (2022-02-09T18:48:02Z)
Recurrent Multi-view Alignment Network for Unsupervised Surface Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文参考訳（メタデータ） (2020-11-24T14:22:42Z)
Identity Enhanced Residual Image Denoising [61.75610647978973]
我々は、アイデンティティマッピングモジュールのチェーンと、画像の復号化のための残像アーキテクチャの残像からなる、完全な畳み込みネットワークモデルを学ぶ。提案するネットワークは,従来の最先端・CNNアルゴリズムよりも極めて高い数値精度と画像品質を実現している。
論文参考訳（メタデータ） (2020-04-26T04:52:22Z)
Convolutional Occupancy Networks [88.48287716452002]
本稿では,オブジェクトと3Dシーンの詳細な再構築のための,より柔軟な暗黙的表現である畳み込み機能ネットワークを提案する。畳み込みエンコーダと暗黙の占有デコーダを組み合わせることで、帰納的バイアスが組み込まれ、3次元空間における構造的推論が可能となる。実験により,本手法は単一物体の微細な3次元再構成,大規模屋内シーンへのスケール,合成データから実データへの一般化を可能にした。
論文参考訳（メタデータ） (2020-03-10T10:17:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。