論文の概要: SEMAGIC: Learning Semantically Consistent Deformable 3D Representations from In-the-Wild Images
- arxiv url: http://arxiv.org/abs/2605.27938v1
- Date: Wed, 27 May 2026 04:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.742229
- Title: SEMAGIC: Learning Semantically Consistent Deformable 3D Representations from In-the-Wild Images
- Title(参考訳): SEMAGIC: 画像から連続的に連続した変形可能な3次元表現を学習する
- Authors: Sky Cen, Wufei Ma, Guofeng Zhang, Alan Yuille, Adam Kortylewski,
- Abstract要約: ワンビューインザミルド画像から変形可能な3Dオブジェクトモデルを学習することで、監督なしで印象的な3D形状復元が可能になった。
本稿では,一眼レフ画像から意味的に一貫した変形可能な3次元表現を学習するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.19024127550901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning deformable 3D object models from single-view in-the-wild images has enabled impressive 3D shape reconstruction without supervision. However, it remains unclear whether these models capture the semantic structure required for downstream tasks. We find that existing deformable reconstruction approaches, despite producing visually plausible geometry, yield unstable correspondences across instances and perform poorly on semantic correspondence benchmarks. We introduce SEMAGIC, a framework for learning semantically consistent deformable 3D representations from single-view in-the-wild images. Rather than treating reconstruction as the end goal, SEMAGIC uses deformable modeling as a mechanism to discover category-level correspondences. Each category is represented by a canonical template mesh and a learned deformation field, functioning similarly to an autoencoder that reconstructs instance geometry from image features, enabling vertices to maintain consistent semantic meaning across instances. Semantic consistency is enforced during training through (i) a feature-level consistency loss aligning semantic features between canonical and deformed meshes, and (ii) vertex-index-conditioned deformation that preserves semantic correspondence across instances. By explicitly coupling geometric deformation with semantic alignment, SEMAGIC produces representations that maintain stable part correspondences across intra-category variation. Experiments demonstrate that SEMAGIC improves semantic correspondence of deformable models by +14.7 PCK@0.1 on SPair-71k, establishing deformable models as effective semantic 3D representations.
- Abstract(参考訳): ワンビューインザミルド画像から変形可能な3Dオブジェクトモデルを学習することで、監督なしで印象的な3D形状復元が可能になった。
しかし、これらのモデルが下流タスクに必要な意味構造を捉えているかどうかは不明である。
既存の変形可能な再構成手法は、視覚的に可視な幾何を生成するにも拘わらず、インスタンス間で不安定な対応が得られ、セマンティック対応ベンチマークでは不十分であることがわかった。
本稿では,一眼レフ画像から意味論的に一貫した変形可能な3次元表現を学習するためのフレームワークSEMAGICを紹介する。
SEMAGICは、再構築を最終目標として扱うのではなく、変形可能なモデリングをカテゴリレベルの対応を見つけるメカニズムとして使っている。
各カテゴリは標準的なテンプレートメッシュと学習された変形フィールドで表現され、画像特徴からインスタンスの幾何学を再構築するオートエンコーダと同様に機能し、頂点がインスタンス間の一貫性のある意味を維持できる。
トレーニング中にセマンティック一貫性が実施される
(i)標準メッシュと変形メッシュのセマンティック特徴を整合させる機能レベルの整合性損失
(ii) インスタンス間の意味的対応を保存する頂点インデックス条件変形。
幾何学的変形と意味的アライメントを明示的に結合することにより、SEMAGICはカテゴリ内の変動に対して安定した部分対応を維持する表現を生成する。
実験により、SEMAGICはSPair-71kで+14.7 PCK@0.1で変形可能なモデルのセマンティック対応を改善し、変形可能なモデルを効果的な意味3D表現として確立した。
関連論文リスト
- Matching Shapes Under Different Topologies: A Topology-Adaptive Deformation Guided Approach [6.851721795186258]
非厳密な3Dメッシュマッチングは、コンピュータビジョンとコンピュータグラフィックスパイプラインにおける重要なステップである。
トポロジカルアーティファクトを含むメッシュに取り組み、現在のアプローチによる仮定を破ることができる。
私たちは、しばしばトポロジカルなアーティファクトに悩まされる、フレームごとのマルチビュー再構築のような現実世界のシナリオに動機付けられています。
提案手法は, 従来のデータ駆動手法に頼らず, 3次元アライメント品質の大規模データセットでトレーニングした手法よりも, ノイズの多いフレーム単位のマルチビュー再構成を含む, トポロジカルアーチファクトの非等尺形状や形状に適用される。
論文 参考訳(メタデータ) (2025-09-08T16:29:44Z) - DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via
Deformable Template Field [29.42222066097076]
RGB-Depth画像ペアから、オープンワールドシーンの6Dポーズの推定と3D形状の再構築は困難である。
本稿では,オブジェクトカテゴリの暗黙的ニューラルネットワークに基づくポーズ推定と形状再構成のための新しいフレームワークであるDTF-Netを提案する。
論文 参考訳(メタデータ) (2023-08-04T10:35:40Z) - Semantic Validation in Structure from Motion [0.0]
Structure from Motion (SfM) は、一連の投影計測からシーンの3次元構造を復元する過程である。
SfMは、特徴検出とマッチング、カメラモーション推定、および3D構造の回復の3つの主要なステップから構成される。
このプロジェクトは3次元SfMモデルの検証を改善するための新しい方法を提供する。
論文 参考訳(メタデータ) (2023-04-05T12:58:59Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - Deep Implicit Templates for 3D Shape Representation [70.9789507686618]
深い暗黙表現における明示的な対応推論を支援する新しい3次元形状表現を提案する。
我々のキーとなる考え方は、テンプレートの暗黙関数の条件変形としてDIFを定式化することである。
提案手法は,形状の集合に対する一般的な暗黙テンプレートを学習するだけでなく,すべての形状を相互に同時に対応させることも可能であることを示す。
論文 参考訳(メタデータ) (2020-11-30T06:01:49Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z) - Self-supervised Single-view 3D Reconstruction via Semantic Consistency [142.71430568330172]
対象物の形状, テクスチャ, カメラポーズを予測できる, 自己監督型, 単視点3D再構成モデルを学習する。
提案手法では,手動で注釈付けしたキーポイント,オブジェクトのマルチビューイメージ,あるいは事前の3Dテンプレートなど,3Dの監督を必要としない。
論文 参考訳(メタデータ) (2020-03-13T20:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。