論文の概要: LOCATE: Localize and Transfer Object Parts for Weakly Supervised
Affordance Grounding
- arxiv url: http://arxiv.org/abs/2303.09665v1
- Date: Thu, 16 Mar 2023 21:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 16:18:57.250020
- Title: LOCATE: Localize and Transfer Object Parts for Weakly Supervised
Affordance Grounding
- Title(参考訳): 位置:弱教師付き割当接地のための対象部品のローカライズと転送
- Authors: Gen Li, Varun Jampani, Deqing Sun, Laura Sevilla-Lara
- Abstract要約: 人間は観察を通して知識を得るのが得意です。
このスキルを得るための重要なステップは、オブジェクトのどの部分がそれぞれのアクションに余裕があるかを特定することです。
画像間のマッチング対象を識別できるLOCATEというフレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.157518990171674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans excel at acquiring knowledge through observation. For example, we can
learn to use new tools by watching demonstrations. This skill is fundamental
for intelligent systems to interact with the world. A key step to acquire this
skill is to identify what part of the object affords each action, which is
called affordance grounding. In this paper, we address this problem and propose
a framework called LOCATE that can identify matching object parts across
images, to transfer knowledge from images where an object is being used
(exocentric images used for learning), to images where the object is inactive
(egocentric ones used to test). To this end, we first find interaction areas
and extract their feature embeddings. Then we learn to aggregate the embeddings
into compact prototypes (human, object part, and background), and select the
one representing the object part. Finally, we use the selected prototype to
guide affordance grounding. We do this in a weakly supervised manner, learning
only from image-level affordance and object labels. Extensive experiments
demonstrate that our approach outperforms state-of-the-art methods by a large
margin on both seen and unseen objects.
- Abstract(参考訳): 人間は観察を通して知識を得るのが得意です。
例えば、デモを見ることで新しいツールの使い方を学ぶことができる。
このスキルは、インテリジェントなシステムが世界と対話するための基本的なものです。
このスキルを得るための重要なステップは、オブジェクトのどの部分がそれぞれのアクションに余裕があるかを特定することです。
本稿では,この課題に対処し,画像間で一致する対象部品を識別できるLOCATEというフレームワークを提案し,対象が使用されている画像(学習に使用される外来画像)から対象が不活性である画像(テストに使用される自己中心画像)へ知識を伝達する。
この目的のために、まず相互作用領域を見つけ、特徴埋め込みを抽出する。
次に、埋め込みをコンパクトなプロトタイプ(人間、オブジェクト部分、背景)に集約し、オブジェクト部分を表すものを選択することを学びます。
最後に,選択したプロトタイプを用いて,空き地を案内する。
我々は、イメージレベルの余裕とオブジェクトラベルからのみ学習し、弱い教師付きでこれを行う。
広汎な実験により,本手法は目視対象と目視対象の両方で最先端の手法よりも優れていた。
関連論文リスト
- AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - TAX-Pose: Task-Specific Cross-Pose Estimation for Robot Manipulation [14.011777717620282]
本研究では,与えられた操作タスクに対して2つのオブジェクト間の交差位置を推定する視覚ベースシステムを提案する。
実世界における10個の実演の訓練後, 対象物を一般化する手法の能力を実証する。
論文 参考訳(メタデータ) (2022-11-17T04:06:16Z) - Self-Supervised Learning of Object Parts for Semantic Segmentation [7.99536002595393]
我々は、オブジェクト部品の自己教師型学習がこの問題の解決策であると主張している。
本手法は3つのセマンティックセグメンテーションベンチマークの最先端を17%-3%超える。
論文 参考訳(メタデータ) (2022-04-27T17:55:17Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - PartAfford: Part-level Affordance Discovery from 3D Objects [113.91774531972855]
パートレベルの空き地探索(PartAfford)の課題について紹介する。
対象物当たりの空きラベルのみを考慮し、(i)3D形状を部品に分解し、(ii)各部品が特定の空きカテゴリに対応する方法を検出する。
本稿では,パーセンテージ・セットの監督と幾何学的原始正規化のみを活用することで,パートレベルの表現を発見する新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-28T02:58:36Z) - Object-Aware Cropping for Self-Supervised Learning [21.79324121283122]
本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-01T07:23:37Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Improving Object Detection with Selective Self-supervised Self-training [62.792445237541145]
本研究では,Web画像を利用した人為的対象検出データセットの強化について検討する。
画像と画像の検索によりWebイメージを検索し、他の検索手法に比べて、キュレートされたデータからのドメインシフトが少なくなる。
画像分類のためのラベルのないデータを探索する2つの並列処理をモチベーションとした新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T18:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。