論文の概要: INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding
- arxiv url: http://arxiv.org/abs/2409.06210v1
- Date: Tue, 10 Sep 2024 04:31:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:00:01.292493
- Title: INTRA: Interaction Relationship-aware Weakly Supervised Affordance Grounding
- Title(参考訳): INTRA: 相互関係を意識したアフォーマンスグラウンド
- Authors: Ji Ha Jang, Hoigi Seo, Se Young Chun,
- Abstract要約: インタラクティブ・リレーション・アウェアによる弱教師付きアフォーダンス・グラウンドディング(INTRA)を提案する。
従来の芸術とは異なり、INTRAはこの問題を表現学習として再認識し、異中心画像のみとの対照的な学習を通じて相互作用のユニークな特徴を識別する。
提案手法はAGD20K, IIT-AFF, CAD, UMDなどの各種データセットにおいて先行技術より優れていた。
- 参考スコア(独自算出の注目度): 10.787807888885888
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Affordance denotes the potential interactions inherent in objects. The perception of affordance can enable intelligent agents to navigate and interact with new environments efficiently. Weakly supervised affordance grounding teaches agents the concept of affordance without costly pixel-level annotations, but with exocentric images. Although recent advances in weakly supervised affordance grounding yielded promising results, there remain challenges including the requirement for paired exocentric and egocentric image dataset, and the complexity in grounding diverse affordances for a single object. To address them, we propose INTeraction Relationship-aware weakly supervised Affordance grounding (INTRA). Unlike prior arts, INTRA recasts this problem as representation learning to identify unique features of interactions through contrastive learning with exocentric images only, eliminating the need for paired datasets. Moreover, we leverage vision-language model embeddings for performing affordance grounding flexibly with any text, designing text-conditioned affordance map generation to reflect interaction relationship for contrastive learning and enhancing robustness with our text synonym augmentation. Our method outperformed prior arts on diverse datasets such as AGD20K, IIT-AFF, CAD and UMD. Additionally, experimental results demonstrate that our method has remarkable domain scalability for synthesized images / illustrations and is capable of performing affordance grounding for novel interactions and objects.
- Abstract(参考訳): Affordanceは、オブジェクトに固有の潜在的な相互作用を表す。
余裕の認識により、インテリジェントエージェントは、新しい環境を効率的にナビゲートし、対話することができる。
監視の弱い空き地は、コストのかかるピクセルレベルのアノテーションを使わずに、外見中心の画像で、エージェントに空き地の概念を教える。
近年の弱教師付きアベイランス基盤の進歩は有望な結果をもたらしたが、ペア付きエキソセントリックおよびエゴセントリックなイメージデータセットの要件や、単一のオブジェクトに対する多様なアベイランスの基盤化の複雑さなど、課題が残っている。
そこで本研究では,INTRA(Interaction Relation-aware weakly supervised Affordance Grounding)を提案する。
従来の芸術とは異なり、INTRAは、この問題を表現学習として再考し、対向したデータセットの必要性を排除し、対向的な画像のみとの対照的な学習を通じて相互作用のユニークな特徴を識別する。
さらに,コントラスト学習のためのインタラクション関係を反映したテキスト条件付きアベイランスマップ生成を設計し,テキストの同義語拡張による堅牢性を高めるために,視覚言語モデル埋め込みを活用する。
提案手法はAGD20K, IIT-AFF, CAD, UMDなどの各種データセットにおいて先行技術より優れていた。
さらに,本手法は,合成画像やイラストのドメインスケーラビリティに優れ,新しいインタラクションやオブジェクトのアベイランスグラウンド化を行うことができることを示した。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Object-agnostic Affordance Categorization via Unsupervised Learning of
Graph Embeddings [6.371828910727037]
オブジェクトのインタラクションやアベイランスに関する知識を取得することで、シーン理解や人間とロボットのコラボレーション作業が容易になる。
オープンな相互作用の集合を持つクラス非依存オブジェクトに対する割当分類の問題に対処する。
アクティビティグラフの構築のために,新しい深度情報を用いた定性的空間表現を提案する。
論文 参考訳(メタデータ) (2023-03-30T15:04:04Z) - Grounded Affordance from Exocentric View [79.64064711636975]
Affordance Groundingは、オブジェクトの"アクションの可能性"領域を見つけることを目的としている。
対話的な余裕の多様性のため、異なる個人の独特さは多様な相互作用をもたらす。
人間は様々な外心中心の相互作用を不変の自我中心の余裕に変える能力を持っている。
論文 参考訳(メタデータ) (2022-08-28T10:32:47Z) - Learning Affordance Grounding from Exocentric Images [79.64064711636975]
Affordance Groundingは、オブジェクト内のアクション可能性領域をグラウンド(すなわちローカライズ)するタスクである。
人間は様々な外心中心の相互作用を不変の自我中心の余裕に変換する能力を持っている。
本稿では,外心的視点,すなわち,外心的対象の相互作用と自我的対象のイメージが与えられた場合の空白化課題を提案する。
論文 参考訳(メタデータ) (2022-03-18T12:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。