論文の概要: AffordMatcher: Affordance Learning in 3D Scenes from Visual Signifiers
- arxiv url: http://arxiv.org/abs/2603.27970v1
- Date: Mon, 30 Mar 2026 02:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.200534
- Title: AffordMatcher: Affordance Learning in 3D Scenes from Visual Signifiers
- Title(参考訳): AffordMatcher:ビジュアルシグニチャから学ぶ3Dシーンのアフォードラーニング
- Authors: Nghia Vu, Tuong Do, Khang Nguyen, Baoru Huang, Nhat Le, Binh Xuan Nguyen, Erman Tjiputra, Quang D. Tran, Ravi Prakash, Te-Chuan Chiu, Anh Nguyen,
- Abstract要約: AffordBridgeは、291,637の関数型相互作用アノテーションを備えた大規模データセットで、685の高解像度屋内シーンを点雲として紹介する。
我々のアベイランスアノテーションは、シーン内の同じインスタンスにリンクされたRGBイメージによって補完されます。
AffordMatcherは,キーポイントマッチングのための画像ベースとポイントクラウドベースのインスタンス間のコヒーレントなセマンティック対応を確立する。
- 参考スコア(独自算出の注目度): 16.517711403672998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affordance learning is a complex challenge in many applications, where existing approaches primarily focus on the geometric structures, visual knowledge, and affordance labels of objects to determine interactable regions. However, extending this learning capability to a scene is significantly more complicated, as incorporating object- and scene-level semantics is not straightforward. In this work, we introduce AffordBridge, a large-scale dataset with 291,637 functional interaction annotations across 685 high-resolution indoor scenes in the form of point clouds. Our affordance annotations are complemented by RGB images that are linked to the same instances within the scenes. Building upon our dataset, we propose AffordMatcher, an affordance learning method that establishes coherent semantic correspondences between image-based and point cloud-based instances for keypoint matching, enabling a more precise identification of affordance regions based on cues, so-called visual signifiers. Experimental results on our dataset demonstrate the effectiveness of our approach compared to other methods.
- Abstract(参考訳): 多くのアプリケーションにおいて、アクダクタンス学習は複雑な課題であり、既存のアプローチは主に相互作用可能な領域を決定するために、幾何学的構造、視覚的知識、オブジェクトの余剰ラベルに焦点を当てている。
しかし、この学習能力をシーンに拡張するのは、オブジェクトレベルのセマンティクスとシーンレベルのセマンティクスを組み込むことが簡単ではないため、はるかに複雑である。
本研究では685箇所の高解像度屋内シーンに291,637の関数的相互作用アノテーションを付加した大規模データセットであるAffordBridgeを紹介した。
我々のアベイランスアノテーションは、シーン内の同じインスタンスにリンクされたRGBイメージによって補完されます。
AffordMatcherは、キーポイントマッチングのための画像ベースとポイントクラウドベースのインスタンス間のコヒーレントなセマンティックな対応を確立することで、視覚的シグニチャと呼ばれるキューに基づいて、より正確なアプライアンス領域の同定を可能にする。
実験の結果,他の手法と比較して,提案手法の有効性が示された。
関連論文リスト
- Weakly-Supervised Learning of Dense Functional Correspondences [23.794395724229762]
本稿では,予測課題に取り組むための弱教師付き学習パラダイムを提案する。
このアプローチの背後にある主な洞察は、視覚言語モデルを利用して機能部品を得ることができるということです。
次に、これを画素対応から密接なコントラスト学習と統合し、機能的知識と空間的知識の両方を新しいモデルに抽出する。
論文 参考訳(メタデータ) (2025-09-04T05:39:16Z) - Selective Contrastive Learning for Weakly Supervised Affordance Grounding [21.34662128701812]
厳格に監督された余裕基盤は、第三者によるデモンストレーションから人間の学習を模倣しようと試みている。
本稿では,各部分と対象の双方で,可視性関連キューを適応的に学習する,選択的プロトタイプおよび画素コントラスト目的を提案する。
論文 参考訳(メタデータ) (2025-08-11T11:49:37Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition [5.083140094792973]
SpaCoNetは、セマンティックセグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化する。
広範に利用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2023-05-22T03:04:22Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。