論文の概要: Contributions of Shape, Texture, and Color in Visual Recognition
- arxiv url: http://arxiv.org/abs/2207.09510v1
- Date: Tue, 19 Jul 2022 18:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:14:10.095217
- Title: Contributions of Shape, Texture, and Color in Visual Recognition
- Title(参考訳): 視覚認識における形状・テクスチャ・色彩の寄与
- Authors: Yunhao Ge, Yao Xiao, Zhi Xu, Xingrui Wang, Laurent Itti
- Abstract要約: 我々は、画像から形状、テクスチャ、色を明示的に計算するヒューマノイド視覚エンジンを構築している。
我々は,HVEが3つの特徴のオブジェクト認識への貢献を要約し,ランク付けできることを示す。
我々はHVEエンジンと対応するデータセットをオープンソースにします。
- 参考スコア(独自算出の注目度): 24.104982348726924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the contributions of three important features of the human
visual system (HVS)~ -- ~shape, texture, and color ~ -- ~to object
classification. We build a humanoid vision engine (HVE) that explicitly and
separately computes shape, texture, and color features from images. The
resulting feature vectors are then concatenated to support the final
classification. We show that HVE can summarize and rank-order the contributions
of the three features to object recognition. We use human experiments to
confirm that both HVE and humans predominantly use some specific features to
support the classification of specific classes (e.g., texture is the dominant
feature to distinguish a zebra from other quadrupeds, both for humans and HVE).
With the help of HVE, given any environment (dataset), we can summarize the
most important features for the whole task (task-specific; e.g., color is the
most important feature overall for classification with the CUB dataset), and
for each class (class-specific; e.g., shape is the most important feature to
recognize boats in the iLab-20M dataset). To demonstrate more usefulness of
HVE, we use it to simulate the open-world zero-shot learning ability of humans
with no attribute labeling. Finally, we show that HVE can also simulate human
imagination ability with the combination of different features. We will
open-source the HVE engine and corresponding datasets.
- Abstract(参考訳): ヒト視覚システム(hvs)の3つの重要な特徴 -- 〜形状、テクスチャ、色 ~ -- のオブジェクト分類への貢献について検討した。
我々は、画像から形状、テクスチャ、色の特徴を明確かつ個別に計算するヒューマノイドビジョンエンジン(HVE)を構築している。
得られた特徴ベクトルは、最終分類をサポートするために連結される。
HVEは3つの特徴のオブジェクト認識への貢献を要約・ランク付けできることを示す。
我々は人体実験を用いて、HVEとヒトの両方が、特定のクラスの分類をサポートするために、いくつかの特定の特徴(例えば、テクスチャは、人間とHVEの両方において、他の四肢とシマウマを区別する支配的な特徴である)を使用することを確認した。
HVEの助けを借りて、どんな環境(データセット)でも、タスク全体にとって最も重要な特徴(タスク固有のもの、色はCUBデータセットで分類する上で最も重要な機能)と、各クラス(クラス固有のもの、形状はiLab-20Mデータセットでボートを認識する上で最も重要な機能)をまとめることができる。
HVEのさらなる有用性を示すために,属性ラベルのない人間のオープンワールドゼロショット学習能力をシミュレートする。
最後に、HVEは、異なる特徴を組み合わせることで、人間の想像力をシミュレートできることを示す。
我々はHVEエンジンと対応するデータセットをオープンソースにします。
関連論文リスト
- Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - PointHPS: Cascaded 3D Human Pose and Shape Estimation from Point Clouds [99.60575439926963]
本稿では,実環境で捉えた点雲から正確な3次元HPSを実現するための基本的フレームワークであるPointHPSを提案する。
PointHPSは、カスケードアーキテクチャを通じてポイント機能を反復的に洗練する。
広範囲な実験により、ポイントHPSは強力な特徴抽出と処理方式を持ち、State-of-the-Art法より優れていることが示された。
論文 参考訳(メタデータ) (2023-08-28T11:10:14Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Getting the Most out of Simile Recognition [48.5838790615549]
Simile認識には2つのサブタスクがある: 文がsimileを含むかどうかを識別するsimile文分類と、対応するオブジェクトを特定するsimileコンポーネント抽出である。
最近の研究は表面弦以外の特徴を無視している。
1)POSタグ,依存性木,単語定義を含む入力側機能,2)デコード決定の相互依存性をキャプチャするデコード機能,の2つの特徴について検討する。
論文 参考訳(メタデータ) (2022-11-11T03:22:45Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot
Learning [85.2093650907943]
機械に新しいカテゴリーを認識させるためのセマンティックガイド注意(SEGA)を提案する。
SEGAは意味的知識を使用して、視覚的特徴に注意を払うべきものについて、トップダウンの方法で視覚的知覚を導く。
セマンティックガイドによる注意は期待された機能を実現し、最先端の結果より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-08T08:03:44Z) - 3D AffordanceNet: A Benchmark for Visual Object Affordance Understanding [33.68455617113953]
本稿では,23のセマンティックオブジェクトカテゴリから23kの形状のベンチマークである3D AffordanceNetデータセットについて述べる。
3つの最先端のポイントクラウドディープラーニングネットワークがすべてのタスクで評価されます。
論文 参考訳(メタデータ) (2021-03-30T14:46:27Z) - DFS: A Diverse Feature Synthesis Model for Generalized Zero-Shot
Learning [12.856168667514947]
ジェネレーティブベースの戦略は、一般化ゼロショット学習タスクにおいて大きな可能性を秘めている。
ジェネレーティブベースの戦略は、一般化ゼロショット学習タスクにおいて大きな可能性を秘めている。
本論文では,GZSLモデルの汎用性を高めるために,非可視クラスの特徴多様性の改善を提案する。
論文 参考訳(メタデータ) (2021-03-19T12:24:42Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language
Learning [78.3857991931479]
本稿では,属性を用いたグラウンドド言語学習のための評価フレームワークGROLLAを提案する。
また、学習したニューラル表現の品質を評価するためのフレームワークの例として、新しいデータセットCompGuessWhat!?を提案する。
論文 参考訳(メタデータ) (2020-06-03T11:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。