論文の概要: Transformed Multi-view 3D Shape Features with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2510.19955v1
- Date: Wed, 22 Oct 2025 18:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.634745
- Title: Transformed Multi-view 3D Shape Features with Contrastive Learning
- Title(参考訳): コントラスト学習によるマルチビュー3次元形状の変換
- Authors: Márcus Vinícius Lobo Costa, Sherlon Almeida da Silva, Bárbara Caroline Benato, Leo Sampaio Ferraz Ribeiro, Moacir Antonelli Ponti,
- Abstract要約: ビジョントランスフォーマー(ViT)ベースのアーキテクチャは、多視点3D解析において有望な結果を達成する。
全体形状と対照的学習の有効性を理解するViTの能力は、広範なラベル付きデータの必要性を克服する。
- 参考スコア(独自算出の注目度): 1.5292939414871212
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper addresses the challenges in representation learning of 3D shape features by investigating state-of-the-art backbones paired with both contrastive supervised and self-supervised learning objectives. Computer vision methods struggle with recognizing 3D objects from 2D images, often requiring extensive labeled data and relying on Convolutional Neural Networks (CNNs) that may overlook crucial shape relationships. Our work demonstrates that Vision Transformers (ViTs) based architectures, when paired with modern contrastive objectives, achieve promising results in multi-view 3D analysis on our downstream tasks, unifying contrastive and 3D shape understanding pipelines. For example, supervised contrastive losses reached about 90.6% accuracy on ModelNet10. The use of ViTs and contrastive learning, leveraging ViTs' ability to understand overall shapes and contrastive learning's effectiveness, overcomes the need for extensive labeled data and the limitations of CNNs in capturing crucial shape relationships. The success stems from capturing global shape semantics via ViTs and refining local discriminative features through contrastive optimization. Importantly, our approach is empirical, as it is grounded on extensive experimental evaluation to validate the effectiveness of combining ViTs with contrastive objectives for 3D representation learning.
- Abstract(参考訳): 本稿では,3次元形状特徴の表現学習における課題について,コントラッシブ・教師付き学習と自己教師付き学習の両目的に合わせた最先端のバックボーンについて検討する。
コンピュータビジョン手法は、2D画像から3Dオブジェクトを認識するのに苦労し、しばしば広範囲のラベル付きデータを必要とし、重要な形状関係を見落としてしまうかもしれない畳み込みニューラルネットワーク(CNN)に依存している。
我々の研究は、視覚変換器(ViT)をベースとしたアーキテクチャが、現代のコントラスト目標と組み合わせることで、下流タスクのマルチビュー3D分析において有望な結果を達成し、コントラストと3次元形状理解パイプラインを統一することを示した。
例えば、教師付きコントラスト損失はModelNet10で約90.6%の精度に達した。
ViTsとコントラスト学習の利用は、全体形状とコントラスト学習の有効性を理解するViTsの能力を生かし、広範囲のラベル付きデータとCNNの限界を克服する。
この成功は、ViTを通してグローバルな形状のセマンティクスをキャプチャし、対照的な最適化を通じて局所的な識別的特徴を精査することに由来する。
提案手法は,3次元表現学習におけるViTと対照的な目的との組み合わせの有効性を検証するために,広範囲な実験的評価を基礎として,実証的手法である。
関連論文リスト
- Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning [10.51523800391153]
我々は、VTベースのモデルの3次元認識を評価し、強化する。
本稿では,3次元対応に基づく簡易かつ効果的なファインタニング戦略を提案する。
論文 参考訳(メタデータ) (2024-11-29T04:02:11Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Spatio-temporal Self-Supervised Representation Learning for 3D Point
Clouds [96.9027094562957]
ラベルのないタスクから学習できる時間的表現学習フレームワークを導入する。
幼児が野生の視覚的データからどのように学ぶかに触発され、3Dデータから派生した豊かな手がかりを探索する。
STRLは3Dポイントクラウドシーケンスから2つの時間的関連フレームを入力として、空間データ拡張で変換し、不変表現を自己指導的に学習する。
論文 参考訳(メタデータ) (2021-09-01T04:17:11Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Info3D: Representation Learning on 3D Objects using Mutual Information
Maximization and Contrastive Learning [8.448611728105513]
本稿では,3次元形状に関するInfoMaxと対照的な学習原理を拡張することを提案する。
我々は3Dオブジェクトとその「チャンク」間の相互情報を最大化して、整列したデータセットにおける表現を改善することができることを示す。
論文 参考訳(メタデータ) (2020-06-04T00:30:26Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。