論文の概要: One-Shot Object Affordance Detection in the Wild
- arxiv url: http://arxiv.org/abs/2108.03658v1
- Date: Sun, 8 Aug 2021 14:53:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 06:04:44.190544
- Title: One-Shot Object Affordance Detection in the Wild
- Title(参考訳): 野生におけるワンショット物体収差検出
- Authors: Wei Zhai, Hongchen Luo, Jing Zhang, Yang Cao, Dacheng Tao
- Abstract要約: Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
- 参考スコア(独自算出の注目度): 76.46484684007706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affordance detection refers to identifying the potential action possibilities
of objects in an image, which is a crucial ability for robot perception and
manipulation. To empower robots with this ability in unseen scenarios, we first
study the challenging one-shot affordance detection problem in this paper,
i.e., given a support image that depicts the action purpose, all objects in a
scene with the common affordance should be detected. To this end, we devise a
One-Shot Affordance Detection Network (OSAD-Net) that firstly estimates the
human action purpose and then transfers it to help detect the common affordance
from all candidate images. Through collaboration learning, OSAD-Net can capture
the common characteristics between objects having the same underlying
affordance and learn a good adaptation capability for perceiving unseen
affordances. Besides, we build a large-scale Purpose-driven Affordance Dataset
v2 (PADv2) by collecting and labeling 30k images from 39 affordance and 103
object categories. With complex scenes and rich annotations, our PADv2 dataset
can be used as a test bed to benchmark affordance detection methods and may
also facilitate downstream vision tasks, such as scene understanding, action
recognition, and robot manipulation. Specifically, we conducted comprehensive
experiments on PADv2 dataset by including 11 advanced models from several
related research fields. Experimental results demonstrate the superiority of
our model over previous representative ones in terms of both objective metrics
and visual quality. The benchmark suite is available at
https://github.com/lhc1224/OSAD Net.
- Abstract(参考訳): Affordance Detectionは、画像中の物体の潜在的な活動可能性を特定することであり、ロボットの知覚と操作にとって重要な能力である。
そこで本稿では,ロボットにこのような非知覚シナリオの能力を持たせるために,まず,アクション目的を表現した支援画像が与えられた場合,共通のアフォーアンスを持つシーン内のすべての物体を検出すべきである,という課題を考察する。
この目的のために,まず人間の行動目的を推定し,その候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案した。
協調学習により、OSAD-Netは、同じ可利用性を持つオブジェクト間の共通特性を捉え、見当たらない可利用性を理解するための優れた適応能力を学ぶことができる。
さらに,39の価格と103のオブジェクトカテゴリから30kの画像を収集,ラベル付けすることで,大規模目的駆動型Affordance Dataset v2(PADv2)を構築する。
複雑なシーンと豊富なアノテーションにより、PADv2データセットはアベイランス検出手法をベンチマークするためのテストベッドとして使用することができ、シーン理解、アクション認識、ロボット操作などの下流視覚タスクも容易になる可能性がある。
具体的には,いくつかの研究分野の11の先進モデルを用いて,padv2データセットの総合的な実験を行った。
実験の結果, 客観的指標と視覚品質の両面で, 従来のモデルよりも優れた結果が得られた。
ベンチマークスイートはhttps://github.com/lhc1224/OSAD Netで公開されている。
関連論文リスト
- Few-shot Oriented Object Detection with Memorable Contrastive Learning in Remote Sensing Images [11.217630579076237]
リモートセンシングの分野では、FSOD(Few-shot Object Detection)が注目されている。
本稿では,Few-shot Oriented Object Detection with Memorable Contrastive Learning (FOMC) という,リモートセンシングのための新しいFSOD法を提案する。
具体的には、従来の水平有界ボックスの代わりに指向的有界ボックスを用いて、任意指向の空中オブジェクトのより優れた特徴表現を学習する。
論文 参考訳(メタデータ) (2024-03-20T08:15:18Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z) - One-Shot Affordance Detection [0.0]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
ロボットにこの能力を持たせるために,一発一発検出の問題を考える。
我々は,まずその目的を推定し,その共通価格を検出するために転送するワンショットアフォーダンス検出(OS-AD)ネットワークを考案した。
論文 参考訳(メタデータ) (2021-06-28T14:22:52Z) - Uncertainty-aware Joint Salient Object and Camouflaged Object Detection [43.01556978979627]
本論文では, 相反する情報を活用し, 対流物体検出と迷彩物体検出の両方の検出能力を高めるパラダイムを提案する。
この2つのタスクの矛盾する属性を明示的にモデル化する類似度測度モジュールを導入する。
両タスクのデータセットにおけるラベル付けの不確実性を考慮して,高次類似度測定とネットワーク信頼度推定を両立させる逆学習ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T16:05:10Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Adaptive Object Detection with Dual Multi-Label Prediction [78.69064917947624]
本稿では,適応オブジェクト検出のための新しいエンド・ツー・エンドの非教師付き深部ドメイン適応モデルを提案する。
モデルはマルチラベル予測を利用して、各画像内の対象カテゴリ情報を明らかにする。
本稿では,オブジェクト検出を支援するための予測整合正則化機構を提案する。
論文 参考訳(メタデータ) (2020-03-29T04:23:22Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。