論文の概要: Selective Contrastive Learning for Weakly Supervised Affordance Grounding
- arxiv url: http://arxiv.org/abs/2508.07877v1
- Date: Mon, 11 Aug 2025 11:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.072824
- Title: Selective Contrastive Learning for Weakly Supervised Affordance Grounding
- Title(参考訳): 弱教師付き耐震グラウンドのための選択的コントラスト学習
- Authors: WonJun Moon, Hyun Seok Seong, Jae-Pil Heo,
- Abstract要約: 厳格に監督された余裕基盤は、第三者によるデモンストレーションから人間の学習を模倣しようと試みている。
本稿では,各部分と対象の双方で,可視性関連キューを適応的に学習する,選択的プロトタイプおよび画素コントラスト目的を提案する。
- 参考スコア(独自算出の注目度): 21.34662128701812
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Facilitating an entity's interaction with objects requires accurately identifying parts that afford specific actions. Weakly supervised affordance grounding (WSAG) seeks to imitate human learning from third-person demonstrations, where humans intuitively grasp functional parts without needing pixel-level annotations. To achieve this, grounding is typically learned using a shared classifier across images from different perspectives, along with distillation strategies incorporating part discovery process. However, since affordance-relevant parts are not always easily distinguishable, models primarily rely on classification, often focusing on common class-specific patterns that are unrelated to affordance. To address this limitation, we move beyond isolated part-level learning by introducing selective prototypical and pixel contrastive objectives that adaptively learn affordance-relevant cues at both the part and object levels, depending on the granularity of the available information. Initially, we find the action-associated objects in both egocentric (object-focused) and exocentric (third-person example) images by leveraging CLIP. Then, by cross-referencing the discovered objects of complementary views, we excavate the precise part-level affordance clues in each perspective. By consistently learning to distinguish affordance-relevant regions from affordance-irrelevant background context, our approach effectively shifts activation from irrelevant areas toward meaningful affordance cues. Experimental results demonstrate the effectiveness of our method. Codes are available at github.com/hynnsk/SelectiveCL.
- Abstract(参考訳): エンティティとオブジェクトとのインタラクションを実現するには、特定のアクションをする部品を正確に識別する必要があります。
弱教師付きアベイランスグラウンドディング(WSAG)は、人間がピクセルレベルのアノテーションを必要とせず、直感的に機能部分を把握する第三者によるデモンストレーションから、人間の学習を模倣することを目指している。
これを達成するために、グラウンドリングは通常、異なる視点からの画像にわたる共有分類器と、部分発見プロセスを含む蒸留戦略を用いて学習される。
しかし、手頃な関連部品は必ずしも容易に区別できるわけではないため、モデルは主に分類に依存しており、手頃な価格とは無関係な一般的なクラス固有のパターンに焦点をあてることが多い。
この制限に対処するために、利用可能な情報の粒度に応じて、部品レベルと対象レベルの両方で、アベイランス関連キューを適応的に学習する、選択的プロトタイプおよび画素コントラスト目的を導入することで、孤立した部分レベルの学習を超越する。
当初は、CLIPを利用して、エゴセントリック(オブジェクト中心)とエゴセントリック(3人称)の両方の画像でアクション関連オブジェクトを見つけました。
そして、補完的な視点の発見対象を相互参照することにより、各視点における正確な部分レベルの手掛かりを抽出する。
本手法は, 空き地と空き地を連続的に区別することにより, 無関係地域から有意義な空き地へと活性化を効果的にシフトさせる。
実験の結果,本手法の有効性が示された。
コードはgithub.com/hynnsk/SelectiveCLで入手できる。
関連論文リスト
- Compositional Learning in Transformer-Based Human-Object Interaction
Detection [6.630793383852106]
ラベル付きインスタンスの長期分布は、HOI検出の主要な課題である。
HOI三重奏の性質にインスパイアされた既存のアプローチでは、作曲学習という概念が採用されている。
我々は,構成HoI学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
論文 参考訳(メタデータ) (2023-08-11T06:41:20Z) - LOCATE: Localize and Transfer Object Parts for Weakly Supervised
Affordance Grounding [43.157518990171674]
人間は観察を通して知識を得るのが得意です。
このスキルを得るための重要なステップは、オブジェクトのどの部分がそれぞれのアクションに余裕があるかを特定することです。
画像間のマッチング対象を識別できるLOCATEというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T21:47:49Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - PartAfford: Part-level Affordance Discovery from 3D Objects [113.91774531972855]
パートレベルの空き地探索(PartAfford)の課題について紹介する。
対象物当たりの空きラベルのみを考慮し、(i)3D形状を部品に分解し、(ii)各部品が特定の空きカテゴリに対応する方法を検出する。
本稿では,パーセンテージ・セットの監督と幾何学的原始正規化のみを活用することで,パートレベルの表現を発見する新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-28T02:58:36Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。