論文の概要: Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild
- arxiv url: http://arxiv.org/abs/2603.11618v1
- Date: Thu, 12 Mar 2026 07:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.944395
- Title: Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild
- Title(参考訳): 形状-You:Fused Gromov-Wasserstein Optimal Transport for Semantic Cor correspondingence in-the-Wild
- Authors: Jiin Im, Sisung Liu, Je Hyeong Hong,
- Abstract要約: Shape-of-Youは意味対応のための教師なし学習フレームワークである。
SPair-71kおよびAP-10kデータセット上での最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 7.4746628878102195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic correspondence is essential for handling diverse in-the-wild images lacking explicit correspondence annotations. While recent 2D foundation models offer powerful features, adapting them for unsupervised learning via nearest-neighbor pseudo-labels has key limitations: it operates locally, ignoring structural relationships, and consequently its reliance on 2D appearance fails to resolve geometric ambiguities arising from symmetries or repetitive features. In this work, we address this by reformulating pseudo-label generation as a Fused Gromov-Wasserstein (FGW) problem, which jointly optimizes inter-feature similarity and intra-structural consistency. Our framework, Shape-of-You (SoY), leverages a 3D foundation model to define this intra-structure in the geometric space, resolving abovementioned ambiguity. However, since FGW is a computationally prohibitive quadratic problem, we approximate it through anchor-based linearization. The resulting probabilistic transport plan provides a structurally consistent but noisy supervisory signal. Thus, we introduce a soft-target loss dynamically blending guidance from this plan with network predictions to build a learning framework robust to this noise. SoY achieves state-of-the-art performance on SPair-71k and AP-10k datasets, establishing a new benchmark in semantic correspondence without explicit geometric annotations. Code is available at Shape-of-You.
- Abstract(参考訳): セマンティック対応は、明示的な対応アノテーションを欠いた多種多様な画像を扱うために不可欠である。
最近の2Dファウンデーションモデルは強力な特徴を提供するが、近隣の疑似ラベルを介して教師なしの学習に適応することは、局所的に機能し、構造的関係を無視し、その結果、2Dの外観への依存は、対称性や反復的特徴から生じる幾何学的曖昧さの解決に失敗する、という重要な制限がある。
本研究では,FGW(Fused Gromov-Wasserstein)問題として,機能間類似性と構造内整合性を協調的に最適化する擬似ラベル生成法を提案する。
我々のフレームワークであるShape-of-You (SoY) は3次元基礎モデルを利用して幾何学空間におけるこの内部構造を定義し、上記の曖昧さを解消する。
しかし、FGWは計算的に禁止された二次問題であるため、アンカーベース線形化により近似する。
結果として生じる確率的輸送計画は、構造的に一貫性があるがノイズの多い監督信号を提供する。
そこで我々は,この計画とネットワーク予測とを動的に組み合わせたソフトターゲット損失を導入し,このノイズに頑健な学習フレームワークを構築する。
SoYはSPair-71kデータセットとAP-10kデータセットの最先端性能を実現し、明示的な幾何学的アノテーションのない意味対応の新しいベンチマークを確立した。
コードはShape-of-Youで入手できる。
関連論文リスト
- Interp3D: Correspondence-aware Interpolation for Generative Textured 3D Morphing [63.141976759536625]
テクスチャ化された3DモーフィングのためのトレーニングフリーフレームワークであるInterp3Dを提案する。
生成的先行性を利用し、幾何学的忠実さとテクスチャコヒーレンスの両方を保証するために、プログレッシブアライメント原理を採用する。
包括的評価のために, 難易度の高い専用データセットInterp3DDataを構築し, 忠実度, 遷移滑らか度, 可視性から生成結果を評価する。
論文 参考訳(メタデータ) (2026-01-20T16:03:22Z) - Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation [29.755551944026738]
幾何的プリミティブの集合の構成と関係によってアイデンティティが決定される抽象的視覚構成について検討する。
AlphaGoスタイルの検索は実現可能であり、微調整された視覚言語モデルは報酬信号としてセマンティックアライメントをスコアする。
ジェネレーティブ・アドバイサル・ネットワークにインスパイアされ、生成したインスタンスを敵の報酬改善に利用します。
論文 参考訳(メタデータ) (2025-12-01T03:38:44Z) - Non-Rigid Structure-from-Motion via Differential Geometry with Recoverable Conformal Scale [17.935227965480475]
共形変形下でのNRSfMに対するCon-NRSfMという新しい手法を提案する。
提案手法は,グラフベースのフレームワークにより最適化された2次元画像ワープを用いて,ポイントワイズ再構成を行う。
我々のフレームワークは、他のアプローチでは分離できない深さと等角スケールの制約を分離する。
論文 参考訳(メタデータ) (2025-10-02T04:46:46Z) - Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - ARC-Flow : Articulated, Resolution-Agnostic, Correspondence-Free Matching and Interpolation of 3D Shapes Under Flow Fields [4.706075725469252]
本研究は、2つの3次元調音形状間の物理的可視性の教師なし予測のための統一的な枠組みを示す。
ニューラル正規微分方程式(ODE)が支配する滑らかな時間変化流れ場を用いた微分同相変換として補間をモデル化する
対応性は, パラメータ化の異なる高忠実度曲面に有効である, 効率的なバリアフォールド定式化を用いて回復する。
論文 参考訳(メタデータ) (2025-03-04T13:28:05Z) - Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-11T09:53:10Z) - Temporally-Consistent Surface Reconstruction using Metrically-Consistent
Atlases [131.50372468579067]
そこで本稿では,時間変化点雲列から時間一貫性のある面列を復元する手法を提案する。
我々は、再構成された表面をニューラルネットワークによって計算されたアトラスとして表現し、フレーム間の対応性を確立することができる。
当社のアプローチは、いくつかの挑戦的なデータセットにおいて、最先端のものよりも優れています。
論文 参考訳(メタデータ) (2021-11-12T17:48:25Z) - Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。
提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-06-15T09:15:54Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。