論文の概要: Grounded Affordance from Exocentric View
- arxiv url: http://arxiv.org/abs/2208.13196v1
- Date: Sun, 28 Aug 2022 10:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:58:32.879488
- Title: Grounded Affordance from Exocentric View
- Title(参考訳): 外心的視点からの接地代
- Authors: Hongchen Luo, Wei Zhai, Jing Zhang, Yang Cao, Dacheng Tao
- Abstract要約: Affordance Groundingは、オブジェクトの"アクションの可能性"領域を見つけることを目的としている。
対話的な余裕の多様性のため、異なる個人の独特さは多様な相互作用をもたらす。
人間は様々な外心中心の相互作用を不変の自我中心の余裕に変える能力を持っている。
- 参考スコア(独自算出の注目度): 79.64064711636975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affordance grounding aims to locate objects' "action possibilities" regions,
which is an essential step toward embodied intelligence. Due to the diversity
of interactive affordance, the uniqueness of different individuals leads to
diverse interactions, which makes it difficult to establish an explicit link
between object parts and affordance labels. Human has the ability that
transforms the various exocentric interactions into invariant egocentric
affordance to counter the impact of interactive diversity. To empower an agent
with such ability, this paper proposes a task of affordance grounding from
exocentric view, i.e., given exocentric human-object interaction and egocentric
object images, learning the affordance knowledge of the object and transferring
it to the egocentric image using only the affordance label as supervision.
However, there is some "interaction bias" between personas, mainly regarding
different regions and different views. To this end, we devise a cross-view
affordance knowledge transfer framework that extracts affordance-specific
features from exocentric interactions and transfers them to the egocentric
view. Specifically, the perception of affordance regions is enhanced by
preserving affordance co-relations. In addition, an affordance grounding
dataset named AGD20K is constructed by collecting and labeling over 20K images
from $36$ affordance categories. Experimental results demonstrate that our
method outperforms the representative models regarding objective metrics and
visual quality. Code is released at
https://github.com/lhc1224/Cross-view-affordance-grounding.
- Abstract(参考訳): affordance groundingは、オブジェクトの"アクションの可能性"領域を見つけることを目的としている。
インタラクティブなアベイランスの多様性のため、異なる個人の特徴は多様な相互作用をもたらすため、オブジェクト部品とアベイランスラベルの間に明確なリンクを確立することは困難である。
人間は様々なエキゾセントリックな相互作用を、インタラクティブな多様性の影響に対抗するために不変のエゴセントリックな余裕に変える能力を持っている。
そこで本稿では, エージェントの能力を高めるために, 対人中心のインタラクションと自我中心のオブジェクトイメージを付与し, 対象物の空想知識を学習し, 空想ラベルのみを監督として, 自我中心のイメージに転送するタスクを提案する。
しかしながら、主に異なる地域と異なる視点に関して、ペルソナの間には「相互作用バイアス」がある。
この目的のために私たちは,外心的インタラクションからアフォーアンス特有の特徴を抽出し,エゴセントリックな視点に伝達する,クロスビューアフォーアンス知識伝達フレームワークを考案する。
具体的には、アフォーアンス・コリレーションを保存することにより、アフォーアンス領域の認識を高める。
さらに、36ドルのアプライアンスカテゴリから20万以上のイメージを収集し、ラベル付けすることで、agd20kというアプライアンスグラウンドデータセットを構築する。
実験の結果,本手法は客観的指標と視覚品質に代表されるモデルよりも優れていた。
コードはhttps://github.com/lhc1224/cross-view-affordance-groundingでリリースされる。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Affordance segmentation of hand-occluded containers from exocentric
images [26.094451688265245]
対象領域と手領域を別々に処理する割当分割モデルを提案する。
提案モデルでは,手作業による特徴マップの重み付けとオブジェクトセグメンテーションにより,手作業による可利用性の特徴を学習する。
実画像と混合現実画像の両方で実験した結果,既存のモデルよりも精度の高いセグメンテーションと一般化を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-22T07:14:29Z) - Grounding 3D Object Affordance from 2D Interactions in Images [128.6316708679246]
接地した3Dオブジェクトは、3D空間内のオブジェクトの'アクション可能性'領域を見つけようとする。
人間は、実演画像やビデオを通じて、物理的世界の物体の余裕を知覚する能力を持っている。
我々は、異なるソースからのオブジェクトの領域的特徴を整合させる、インタラクション駆動の3D Affordance Grounding Network (IAG) を考案する。
論文 参考訳(メタデータ) (2023-03-18T15:37:35Z) - Learning Affordance Grounding from Exocentric Images [79.64064711636975]
Affordance Groundingは、オブジェクト内のアクション可能性領域をグラウンド(すなわちローカライズ)するタスクである。
人間は様々な外心中心の相互作用を不変の自我中心の余裕に変換する能力を持っている。
本稿では,外心的視点,すなわち,外心的対象の相互作用と自我的対象のイメージが与えられた場合の空白化課題を提案する。
論文 参考訳(メタデータ) (2022-03-18T12:29:06Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。