論文の概要: Towards Visual Affordance Learning: A Benchmark for Affordance
Segmentation and Recognition
- arxiv url: http://arxiv.org/abs/2203.14092v1
- Date: Sat, 26 Mar 2022 14:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 13:09:16.706969
- Title: Towards Visual Affordance Learning: A Benchmark for Affordance
Segmentation and Recognition
- Title(参考訳): 視覚的アフォーアンス学習に向けて--アフォーアンスセグメンテーションと認識のためのベンチマーク
- Authors: Zeyad Osama Khalifa, Syed Afaq Ali Shah
- Abstract要約: 大規模マルチビューRGBDビジュアルアプライアンス学習データセットを提案する。
これは、初めてかつ最大のマルチビューRGBDビジュアルアプライアンス学習データセットである。
4つの最先端ディープラーニングネットワークを,割当セグメンテーションタスクとして評価する。
- 参考スコア(独自算出の注目度): 6.947683824820616
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The physical and textural attributes of objects have been widely studied for
recognition, detection and segmentation tasks in computer vision. A number of
datasets, such as large scale ImageNet, have been proposed for feature learning
using data hungry deep neural networks and for hand-crafted feature extraction.
To intelligently interact with objects, robots and intelligent machines need
the ability to infer beyond the traditional physical/textural attributes, and
understand/learn visual cues, called visual affordances, for affordance
recognition, detection and segmentation. To date there is no publicly available
large dataset for visual affordance understanding and learning. In this paper,
we introduce a large scale multi-view RGBD visual affordance learning dataset,
a benchmark of 47210 RGBD images from 37 object categories, annotated with 15
visual affordance categories and 35 cluttered/complex scenes with different
objects and multiple affordances. To the best of our knowledge, this is the
first ever and the largest multi-view RGBD visual affordance learning dataset.
We benchmark the proposed dataset for affordance recognition and segmentation.
To achieve this we propose an Affordance Recognition Network a.k.a ARNet. In
addition, four state-of-the-art deep learning networks are evaluated for
affordance segmentation task. Our experimental results showcase the challenging
nature of the dataset and present definite prospects for new and robust
affordance learning algorithms. The dataset is available at:
https://sites.google.com/view/afaqshah/dataset.
- Abstract(参考訳): 物体の物理的およびテクスチュラルな属性は、コンピュータビジョンにおける認識、検出、セグメンテーションタスクのために広く研究されている。
大規模イメージネットなどのデータセットは、飢えたディープニューラルネットワークを用いた特徴学習や、手作りの特徴抽出のために提案されている。
オブジェクトとインテリジェントに対話するには、ロボットやインテリジェントマシンは、従来の物理的/テクスチャ的属性を超えて推測し、視覚的手当と呼ばれる視覚的な手掛かりを理解して学習し、手頃な認識、検出、セグメンテーションを行う能力が必要です。
現在、視覚的余裕の理解と学習のための大規模なデータセットは公開されていない。
本稿では,大規模多視点RGBDビジュアルアプライアンス学習データセット,37のオブジェクトカテゴリから47210のRGBD画像のベンチマーク,15のビジュアルアプライアンスカテゴリと35の散在/複合シーンのアノテートについて紹介する。
私たちの知る限りでは、これは初めての、そして最大のマルチビューのrgbdビジュアルアプライアンス学習データセットです。
提案するデータセットを,アフォーマンス認識とセグメンテーションのためにベンチマークする。
そこで我々は,arnetを用いたアプライアンス認識ネットワークを提案する。
さらに,4つの最先端ディープラーニングネットワークを,アベイランスセグメンテーションタスクとして評価する。
実験結果は,データセットの難解な性質を示し,新しいロバストでロバストな学習アルゴリズムの可能性を示す。
データセットは以下の通りである。
関連論文リスト
- Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。
我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。
我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文 参考訳(メタデータ) (2023-12-18T05:11:00Z) - Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文 参考訳(メタデータ) (2023-05-25T03:54:41Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - A Variational Graph Autoencoder for Manipulation Action Recognition and
Prediction [1.1816942730023883]
シンボルシーングラフから操作タスクの認識と予測を共同で学習するディープグラフオートエンコーダを提案する。
我々のネットワークは2つの分岐を持つ変分オートエンコーダ構造を持ち、1つは入力グラフタイプを識別し、もう1つは将来のグラフを予測する。
提案手法は,MANIACとMSRC-9の2つの異なるデータセット上で異なる最先端手法に対してベンチマークを行い,提案手法がより優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2021-10-25T21:40:42Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - 3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding [33.68455617113953]
本稿では,23のセマンティックオブジェクトカテゴリから23kの形状のベンチマークである3D AffordanceNetデータセットについて述べる。
3つの最先端のポイントクラウドディープラーニングネットワークがすべてのタスクで評価されます。
論文 参考訳(メタデータ) (2021-03-30T14:46:27Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Neural Data Server: A Large-Scale Search Engine for Transfer Learning
Data [78.74367441804183]
我々は,ターゲットドメインに最も有用な転送学習データを見つけるための大規模検索エンジンであるNeural Data Server (NDS)を紹介した。
NDSは、いくつかの人気のある画像データセットをインデックスするデータサーバで構成され、クライアントにデータを推奨することを目的としている。
我々は,NDSが様々な伝達学習シナリオにおいて有効であることを示し,複数のターゲットデータセットに対して最先端の性能を示す。
論文 参考訳(メタデータ) (2020-01-09T01:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。