論文の概要: Weakly-Supervised Learning of Dense Functional Correspondences
- arxiv url: http://arxiv.org/abs/2509.03893v1
- Date: Thu, 04 Sep 2025 05:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.061627
- Title: Weakly-Supervised Learning of Dense Functional Correspondences
- Title(参考訳): 重み付き関数対応の弱教師付き学習
- Authors: Stefan Stojanov, Linan Zhao, Yunzhi Zhang, Daniel L. K. Yamins, Jiajun Wu,
- Abstract要約: 本稿では,予測課題に取り組むための弱教師付き学習パラダイムを提案する。
このアプローチの背後にある主な洞察は、視覚言語モデルを利用して機能部品を得ることができるということです。
次に、これを画素対応から密接なコントラスト学習と統合し、機能的知識と空間的知識の両方を新しいモデルに抽出する。
- 参考スコア(独自算出の注目度): 23.794395724229762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Establishing dense correspondences across image pairs is essential for tasks such as shape reconstruction and robot manipulation. In the challenging setting of matching across different categories, the function of an object, i.e., the effect that an object can cause on other objects, can guide how correspondences should be established. This is because object parts that enable specific functions often share similarities in shape and appearance. We derive the definition of dense functional correspondence based on this observation and propose a weakly-supervised learning paradigm to tackle the prediction task. The main insight behind our approach is that we can leverage vision-language models to pseudo-label multi-view images to obtain functional parts. We then integrate this with dense contrastive learning from pixel correspondences to distill both functional and spatial knowledge into a new model that can establish dense functional correspondence. Further, we curate synthetic and real evaluation datasets as task benchmarks. Our results demonstrate the advantages of our approach over baseline solutions consisting of off-the-shelf self-supervised image representations and grounded vision language models.
- Abstract(参考訳): 画像ペア間の密接な対応を確立することは、形状復元やロボット操作といったタスクに不可欠である。
異なるカテゴリにまたがるマッチングの難しい設定では、オブジェクトの関数、すなわち、オブジェクトが他のオブジェクトに与える影響は、どのように対応を確立するべきかを導くことができる。
これは、特定の機能を可能にするオブジェクト部品が、しばしば形状と外観の類似点を共有するためである。
本稿では,この観測に基づいて高次機能対応の定義を導出し,予測課題に取り組むための弱教師付き学習パラダイムを提案する。
提案手法の背景にある主な洞察は、視覚言語モデルを用いて擬似ラベルの多視点画像から機能部品を得ることができることである。
次に、これを画素対応からの高次コントラスト学習と統合し、機能的知識と空間的知識の両方を融合させて、高次機能対応を確立する新しいモデルを構築する。
さらに、タスクベンチマークとして、合成および実評価データセットをキュレートする。
本研究は,市販の自己教師型画像表現と接地型視覚言語モデルからなるベースラインソリューションに対するアプローチの利点を実証するものである。
関連論文リスト
- Structure-Aware Correspondence Learning for Relative Pose Estimation [65.44234975976451]
相対的なポーズ推定は、オブジェクトに依存しないポーズ推定を達成するための有望な方法を提供する。
既存の3D対応方式は、可視領域における小さな重複と、可視領域に対する信頼できない特徴推定に悩まされている。
本稿では,2つの鍵モジュールからなる相対詩推定のための構造認識対応学習手法を提案する。
論文 参考訳(メタデータ) (2025-03-24T13:43:44Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Zero-Shot Image Feature Consensus with Deep Functional Maps [20.988872402347756]
より優れた対応戦略が利用可能であることを示し,対応フィールドに直接構造を課す関数写像について述べる。
提案手法は,学習対象の大規模視覚モデルに埋め込まれた知識をよりよく反映し,よりスムーズなだけでなく,より正確に対応できることを示す。
論文 参考訳(メタデータ) (2024-03-18T17:59:47Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Matching Multiple Perspectives for Efficient Representation Learning [0.0]
本稿では,自己教師型学習とマルチパースペクティブマッチング技術を組み合わせたアプローチを提案する。
我々は,同一オブジェクトの複数ビューと多種多様な自己教師付き事前学習アルゴリズムを組み合わせることで,オブジェクト分類性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-16T10:33:13Z) - TopicFM: Robust and Interpretable Feature Matching with Topic-assisted [8.314830611853168]
本稿では,効率,堅牢,解釈可能な画像マッチングアーキテクチャを提案する。
TopicFMと呼ばれる新しい特徴マッチングモジュールを導入し、画像間で同じ空間構造をトピックに大まかに整理する。
提案手法は,計算量を削減するために,共可視領域でのみマッチングを行うことができる。
論文 参考訳(メタデータ) (2022-07-01T10:39:14Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。