論文の概要: Visual-Geometric Collaborative Guidance for Affordance Learning
- arxiv url: http://arxiv.org/abs/2410.11363v1
- Date: Tue, 15 Oct 2024 07:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:17.663049
- Title: Visual-Geometric Collaborative Guidance for Affordance Learning
- Title(参考訳): 加速度学習のための視覚幾何学的協調指導
- Authors: Hongchen Luo, Wei Zhai, Jiao Wang, Yang Cao, Zheng-Jun Zha,
- Abstract要約: 本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
- 参考スコア(独自算出の注目度): 63.038406948791454
- License:
- Abstract: Perceiving potential ``action possibilities'' (\ie, affordance) regions of images and learning interactive functionalities of objects from human demonstration is a challenging task due to the diversity of human-object interactions. Prevailing affordance learning algorithms often adopt the label assignment paradigm and presume that there is a unique relationship between functional region and affordance label, yielding poor performance when adapting to unseen environments with large appearance variations. In this paper, we propose to leverage interactive affinity for affordance learning, \ie extracting interactive affinity from human-object interaction and transferring it to non-interactive objects. Interactive affinity, which represents the contacts between different parts of the human body and local regions of the target object, can provide inherent cues of interconnectivity between humans and objects, thereby reducing the ambiguity of the perceived action possibilities. To this end, we propose a visual-geometric collaborative guided affordance learning network that incorporates visual and geometric cues to excavate interactive affinity from human-object interactions jointly. Besides, a contact-driven affordance learning (CAL) dataset is constructed by collecting and labeling over 55,047 images. Experimental results demonstrate that our method outperforms the representative models regarding objective metrics and visual quality. Project: \href{https://github.com/lhc1224/VCR-Net}{github.com/lhc1224/VCR-Net}.
- Abstract(参考訳): 画像の潜在的な「行動可能性」 (\ie, affordance) 領域を知覚し、人間の実演から物体の対話的機能を学ぶことは、人間と物体の相互作用の多様性のために難しい課題である。
有能なアプライアンス学習アルゴリズムは、しばしばラベル割り当てのパラダイムを採用し、機能領域とアプライアンスラベルの間にユニークな関係があることを仮定し、大きな外観変化を持つ見知らぬ環境に適応する際の性能が低下する。
本稿では,人間と物体の相互作用から対話的親和性を抽出し,対話的親和性を非対話的オブジェクトに伝達する手法を提案する。
対話的な親和性は、人体の異なる部分と対象物の局所領域の間の接触を表すもので、人間と物体の相互接続性の本質的な手がかりを提供することができ、知覚される行動可能性のあいまいさを低減することができる。
そこで本研究では,視覚的・幾何学的手がかりを取り入れた視覚的・幾何学的協調学習ネットワークを提案し,人と物体の相互作用から相互親和性を共同で探索する。
さらに、55,047枚以上の画像を収集し、ラベル付けすることで、接触駆動型アベイランス学習(CAL)データセットを構築する。
実験の結果,本手法は客観的指標と視覚的品質の代表的なモデルよりも優れていた。
プロジェクト: \href{https://github.com/lhc1224/VCR-Net}{github.com/lhc1224/VCR-Net}
関連論文リスト
- LEMON: Learning 3D Human-Object Interaction Relation from 2D Images [56.6123961391372]
人間の物体と物体の相互作用関係の学習は、AIと相互作用モデリングの具体化に不可欠である。
既存のほとんどの手法は、孤立した相互作用要素を予測することを学ぶことで目標に近づいている。
本稿では,相互の相互作用意図をマイニングし,幾何相関の抽出を導出するための曲率を用いた統一モデルLEMONを提案する。
論文 参考訳(メタデータ) (2023-12-14T14:10:57Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Object-agnostic Affordance Categorization via Unsupervised Learning of
Graph Embeddings [6.371828910727037]
オブジェクトのインタラクションやアベイランスに関する知識を取得することで、シーン理解や人間とロボットのコラボレーション作業が容易になる。
オープンな相互作用の集合を持つクラス非依存オブジェクトに対する割当分類の問題に対処する。
アクティビティグラフの構築のために,新しい深度情報を用いた定性的空間表現を提案する。
論文 参考訳(メタデータ) (2023-03-30T15:04:04Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Transferable Interactiveness Knowledge for Human-Object Interaction
Detection [46.89715038756862]
我々は,人間と物体が相互に相互作用するか否かを示す対話性知識を探索する。
対話性に関する知識は、HOIデータセット全体で学習でき、多様なHOIカテゴリ設定のギャップを埋めることができる。
私たちのコアアイデアは、対話性ネットワークを利用して、複数のHOIデータセットから一般的な対話性知識を学ぶことです。
論文 参考訳(メタデータ) (2021-01-25T18:21:07Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。