Fugu-MT 論文翻訳(概要): Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

論文の概要: Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

arxiv url: http://arxiv.org/abs/2602.19112v2
Date: Tue, 24 Feb 2026 02:03:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 13:30:08.557151
Title: Universal 3D Shape Matching via Coarse-to-Fine Language Guidance
Title（参考訳）: 粗い言語指導によるユニバーサル3次元形状マッチング
Authors: Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick,
Abstract要約: UniMatchは、強い非等尺形状間の密接なセマンティック対応を構築するためのセマンティックアウェアで粗いフレームワークである。本手法は普遍的対象カテゴリに対して汎用的であり,事前定義された部分提案を必要としない。
参考スコア（独自算出の注目度）: 8.772996147679729
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Establishing dense correspondences between shapes is a crucial task in computer vision and graphics, while prior approaches depend on near-isometric assumptions and homogeneous subject types (i.e., only operate for human shapes). However, building semantic correspondences for cross-category objects remains challenging and has received relatively little attention. To achieve this, we propose UniMatch, a semantic-aware, coarse-to-fine framework for constructing dense semantic correspondences between strongly non-isometric shapes without restricting object categories. The key insight is to lift "coarse" semantic cues into "fine" correspondence, which is achieved through two stages. In the "coarse" stage, we perform class-agnostic 3D segmentation to obtain non-overlapping semantic parts and prompt multimodal large language models (MLLMs) to identify part names. Then, we employ pretrained vision language models (VLMs) to extract text embeddings, enabling the construction of matched semantic parts. In the "fine" stage, we leverage these coarse correspondences to guide the learning of dense correspondences through a dedicated rank-based contrastive scheme. Thanks to class-agnostic segmentation, language guiding, and rank-based contrastive learning, our method is versatile for universal object categories and requires no predefined part proposals, enabling universal matching for inter-class and non-isometric shapes. Extensive experiments demonstrate UniMatch consistently outperforms competing methods in various challenging scenarios.
Abstract（参考訳）: 形状間の密接な対応を確立することは、コンピュータビジョンとグラフィックスにおいて重要な課題であるが、以前のアプローチは、ほぼ等尺的な仮定と均質な対象タイプに依存している(つまり、人間の形状に対してのみ動作する)。しかし、クロスカテゴリオブジェクトのセマンティック対応の構築は依然として困難であり、比較的注目を集めていない。これを実現するために、オブジェクトカテゴリを制限することなく、強い非等尺形状間の密接なセマンティック対応を構築するための、セマンティック・アウェアで粗大なフレームワークUniMatchを提案する。重要な洞察は「粗い」意味の手がかりを「細い」対応に引き上げることであり、2段階を通して達成される。粗い」段階においては、クラスに依存しない3Dセグメンテーションを行い、重複しない意味部品を取得し、複数モーダルな大言語モデル(MLLM)に部品名を識別させる。次に,予め訓練された視覚言語モデル(VLM)を用いてテキスト埋め込みを抽出し,一致した意味部品の構築を可能にする。微細な」段階では、これらの粗い対応を利用して、厳密な対応の学習を専用階数ベースのコントラスト的スキームで導く。クラス非依存のセグメンテーション,言語指導,およびランクに基づくコントラスト学習のおかげで,本手法は普遍的な対象カテゴリーに対して汎用的であり,事前定義された部分提案を必要とせず,クラス間および非等尺形状の普遍的マッチングを可能にする。大規模な実験では、UniMatchは様々な挑戦的なシナリオで競合するメソッドを一貫して上回っている。

関連論文リスト

Hierarchical Neural Semantic Representation for 3D Semantic Correspondence [72.8101601086805]
階層型ニューラルセマンティック表現(HNSR)を設計し,高次構造と多分解能局所幾何学的特徴を捉える。第2に,グローバルなセマンティック特徴を用いた粗いセマンティック対応を確立する,プログレッシブなグローバル-ローカルマッチング戦略を設計する。第3に,本フレームワークはトレーニングフリーで,様々なトレーニング済みの3D生成バックボーンと広範囲に互換性があり,多様な形状カテゴリにまたがる強力な一般化が示されている。
論文参考訳（メタデータ） (2025-09-22T07:23:07Z)
Bridge the Gap Between Visual and Linguistic Comprehension for Generalized Zero-shot Semantic Segmentation [39.17707407384492]
汎用ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、目に見えないクラスや見えないクラスのセグメンテーションを実現することを目的としている。本稿では,空間部品 (SPMatch) とチャネル状態 (CSMatch) マッチングモジュールからなるデカップリング型視覚言語マッチング (DeVLMatch) フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-31T07:39:14Z)
GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文参考訳（メタデータ） (2024-10-20T03:45:50Z)
Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。 UniFSSは最先端の手法よりも優れています。
論文参考訳（メタデータ） (2024-07-16T08:41:01Z)
Zero-Shot 3D Shape Correspondence [67.18775201037732]
本稿では,3次元形状間の対応性を計算するためのゼロショット手法を提案する。我々は、最近の基礎モデルの言語と視覚における例外的な推論能力を活用している。提案手法は, 強い非等尺形状の間において, ゼロショット方式で高確率な結果をもたらす。
論文参考訳（メタデータ） (2023-06-05T21:14:23Z)
Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文参考訳（メタデータ） (2022-03-16T11:06:50Z)
Contrastive Video-Language Segmentation [41.1635597261304]
本稿では,ビデオコンテンツ中の自然言語文によって参照される特定のオブジェクトをセグメント化する問題に焦点をあてる。本研究では, 視覚的・言語的モダリティを, 対照的な学習目的を通した明示的な方法で解釈することを提案する。
論文参考訳（メタデータ） (2021-09-29T01:40:58Z)
Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文参考訳（メタデータ） (2021-09-22T18:34:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。