論文の概要: One-Shot Affordance Detection
- arxiv url: http://arxiv.org/abs/2106.14747v1
- Date: Mon, 28 Jun 2021 14:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 19:27:49.435701
- Title: One-Shot Affordance Detection
- Title(参考訳): One-Shot Affordance Detection
- Authors: Hongchen Luo (1), Wei Zhai (1 and 3), Jing Zhang (2), Yang Cao (1) and
Dacheng Tao (3) ((1) University of Science and Technology of China, China,
(2) The University of Sydney, Australia, (3) JD Explore Academy, JD.com,
China)
- Abstract要約: Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
ロボットにこの能力を持たせるために,一発一発検出の問題を考える。
我々は,まずその目的を推定し,その共通価格を検出するために転送するワンショットアフォーダンス検出(OS-AD)ネットワークを考案した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Affordance detection refers to identifying the potential action possibilities
of objects in an image, which is an important ability for robot perception and
manipulation. To empower robots with this ability in unseen scenarios, we
consider the challenging one-shot affordance detection problem in this paper,
i.e., given a support image that depicts the action purpose, all objects in a
scene with the common affordance should be detected. To this end, we devise a
One-Shot Affordance Detection (OS-AD) network that firstly estimates the
purpose and then transfers it to help detect the common affordance from all
candidate images. Through collaboration learning, OS-AD can capture the common
characteristics between objects having the same underlying affordance and learn
a good adaptation capability for perceiving unseen affordances. Besides, we
build a Purpose-driven Affordance Dataset (PAD) by collecting and labeling 4k
images from 31 affordance and 72 object categories. Experimental results
demonstrate the superiority of our model over previous representative ones in
terms of both objective metrics and visual quality. The benchmark suite is at
ProjectPage.
- Abstract(参考訳): Affordance Detectionは、画像中の物体の潜在的な行動可能性を特定することであり、ロボットの知覚と操作にとって重要な能力である。
そこで本論文では,ロボットにこのような非知覚シナリオの能力を持たせるために,アクション目的を表現した支援画像が与えられた場合,シーン内のすべての対象を共通のアフォーアンスで検出する,という課題を考察する。
この目的のために,まずその目的を推定し,すべての候補画像から共通価格を検出するために転送するOne-Shot Affordance Detection (OS-AD)ネットワークを考案した。
協調学習を通じて、OS-ADは、同じ余裕を持つオブジェクト間の共通特性を捉え、見当たらない余裕を知覚する優れた適応能力を学ぶことができる。
さらに, 対象物カテゴリ31種, 対象物カテゴリ72種から4k画像を収集し, ラベル付けすることで, 目的駆動型Affordance Dataset (PAD) を構築する。
実験の結果, 客観的指標と視覚品質の両面で, 従来のモデルよりも優れた結果が得られた。
ベンチマークスイートはProjectPageにある。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z) - Coordinate-Aligned Multi-Camera Collaboration for Active Multi-Object
Tracking [114.16306938870055]
AMOTのための座標整列型マルチカメラ協調システムを提案する。
提案手法では,各カメラをエージェントとみなし,マルチエージェント強化学習ソリューションを用いてAMOTに対処する。
本システムでは,ベースライン法を8.9%上回る71.88%のカバレッジを実現している。
論文 参考訳(メタデータ) (2022-02-22T13:28:40Z) - Robust Region Feature Synthesizer for Zero-Shot Object Detection [87.79902339984142]
我々は,クラス内セマンティック・ディバージングコンポーネントとクラス間構造保存コンポーネントを含む,新しいゼロショットオブジェクト検出フレームワークを構築した。
リモートセンシング画像においてゼロショット物体検出を行う最初の研究である。
論文 参考訳(メタデータ) (2022-01-01T03:09:15Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Text-driven object affordance for guiding grasp-type recognition in
multimodal robot teaching [18.529563816600607]
本研究は,ロボット教育におけるテキスト駆動型物体余裕が画像に基づくグリップ型認識に与える影響について検討する。
彼らは、物体が認識性能に与える影響を調べるために、一人称手画像のラベル付きデータセットを作成しました。
論文 参考訳(メタデータ) (2021-02-27T17:03:32Z) - Few-shot Object Detection with Self-adaptive Attention Network for
Remote Sensing Images [11.938537194408669]
本報告では, ごく一部の例で提供される新しい物体を検出するために設計された, 数発の物体検出器を提案する。
対象物検出設定に適合するため,本提案では,全画像ではなく対象物レベルの関係に焦点を合わせている。
本実験は, 撮影シーンにおける提案手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2020-09-26T13:44:58Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Adaptive Object Detection with Dual Multi-Label Prediction [78.69064917947624]
本稿では,適応オブジェクト検出のための新しいエンド・ツー・エンドの非教師付き深部ドメイン適応モデルを提案する。
モデルはマルチラベル予測を利用して、各画像内の対象カテゴリ情報を明らかにする。
本稿では,オブジェクト検出を支援するための予測整合正則化機構を提案する。
論文 参考訳(メタデータ) (2020-03-29T04:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。