論文の概要: Learning Affordance Grounding from Exocentric Images
- arxiv url: http://arxiv.org/abs/2203.09905v1
- Date: Fri, 18 Mar 2022 12:29:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 20:12:45.033163
- Title: Learning Affordance Grounding from Exocentric Images
- Title(参考訳): 遠心画像からの学習時間グラウンドリング
- Authors: Hongchen Luo, Wei Zhai, Jing Zhang, Yang Cao, Dacheng Tao
- Abstract要約: Affordance Groundingは、オブジェクト内のアクション可能性領域をグラウンド(すなわちローカライズ)するタスクである。
人間は様々な外心中心の相互作用を不変の自我中心の余裕に変換する能力を持っている。
本稿では,外心的視点,すなわち,外心的対象の相互作用と自我的対象のイメージが与えられた場合の空白化課題を提案する。
- 参考スコア(独自算出の注目度): 79.64064711636975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affordance grounding, a task to ground (i.e., localize) action possibility
region in objects, which faces the challenge of establishing an explicit link
with object parts due to the diversity of interactive affordance. Human has the
ability that transform the various exocentric interactions to invariant
egocentric affordance so as to counter the impact of interactive diversity. To
empower an agent with such ability, this paper proposes a task of affordance
grounding from exocentric view, i.e., given exocentric human-object interaction
and egocentric object images, learning the affordance knowledge of the object
and transferring it to the egocentric image using only the affordance label as
supervision. To this end, we devise a cross-view knowledge transfer framework
that extracts affordance-specific features from exocentric interactions and
enhances the perception of affordance regions by preserving affordance
correlation. Specifically, an Affordance Invariance Mining module is devised to
extract specific clues by minimizing the intra-class differences originated
from interaction habits in exocentric images. Besides, an Affordance
Co-relation Preserving strategy is presented to perceive and localize
affordance by aligning the co-relation matrix of predicted results between the
two views. Particularly, an affordance grounding dataset named AGD20K is
constructed by collecting and labeling over 20K images from 36 affordance
categories. Experimental results demonstrate that our method outperforms the
representative models in terms of objective metrics and visual quality. Code:
github.com/lhc1224/Cross-View-AG.
- Abstract(参考訳): Affordance Groundingは、オブジェクト内のアクション可能性領域(すなわち、ローカライズ)をグラウンド化するタスクであり、インタラクティブなアベイランスの多様性によってオブジェクト部品との明示的なリンクを確立するという課題に直面している。
人間は、様々な異種中心の相互作用を、インタラクティブな多様性の影響に対抗するために、不変な異種中心の余裕に変換する能力を持っている。
そこで本稿では, エージェントの能力を高めるために, 対人中心のインタラクションと自我中心のオブジェクトイメージを付与し, 対象物の空想知識を学習し, 空想ラベルのみを監督として, 自我中心のイメージに転送するタスクを提案する。
この目的のために,外心的相互作用からアフォーアンス特有の特徴を抽出し,アフォーアンス相関を保ちながらアフォーアンス領域の認識を高めるクロスビュー知識伝達フレームワークを考案する。
具体的には、指数中心画像における相互作用習慣から生じるクラス内差を最小化することにより、特定の手がかりを抽出するために、Affordance Invariance Miningモジュールが考案された。
さらに、予測結果の相関行列を2つのビュー間で整列させることにより、価格を知覚し、ローカライズするために、Affordance Co-relation Preserving戦略を示す。
特に、36のアプライアンスカテゴリから20万以上の画像を集めラベル付けすることにより、agd20kというアプライアンスグラウンドデータセットを構築する。
実験の結果,本手法は客観的指標と視覚品質の点で代表モデルを上回ることがわかった。
コード:github.com/lhc1224/Cross-View-AG
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding [10.787807888885888]
インタラクティブ・リレーション・アウェアによる弱教師付きアフォーダンス・グラウンドディング(INTRA)を提案する。
従来の芸術とは異なり、INTRAはこの問題を表現学習として再認識し、異中心画像のみとの対照的な学習を通じて相互作用のユニークな特徴を識別する。
提案手法はAGD20K, IIT-AFF, CAD, UMDなどの各種データセットにおいて先行技術より優れていた。
論文 参考訳(メタデータ) (2024-09-10T04:31:51Z) - HEAP: Unsupervised Object Discovery and Localization with Contrastive
Grouping [29.678756772610797]
教師なしオブジェクトの発見と位置決めは、監督なしで画像内のオブジェクトを検出し、セグメント化することを目的としている。
近年の取り組みは、自己監督型トランスフォーマー機能を利用して、有能な前景物体を識別する顕著な可能性を実証している。
これらの問題に対処するために、Herarchical mErging framework via contrAstive grouPing (HEAP) を紹介する。
論文 参考訳(メタデータ) (2023-12-29T06:46:37Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Grounded Affordance from Exocentric View [79.64064711636975]
Affordance Groundingは、オブジェクトの"アクションの可能性"領域を見つけることを目的としている。
対話的な余裕の多様性のため、異なる個人の独特さは多様な相互作用をもたらす。
人間は様々な外心中心の相互作用を不変の自我中心の余裕に変える能力を持っている。
論文 参考訳(メタデータ) (2022-08-28T10:32:47Z) - Kinship Verification Based on Cross-Generation Feature Interaction
Learning [53.62256887837659]
顔画像からの血縁検証は、コンピュータビジョンの応用において、新しいが挑戦的な技術として認識されている。
本稿では,頑健な親族関係検証のためのクロスジェネレーション・インタラクション・ラーニング(CFIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-07T01:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。