論文の概要: ShapeY: Measuring Shape Recognition Capacity Using Nearest Neighbor
Matching
- arxiv url: http://arxiv.org/abs/2111.08174v1
- Date: Tue, 16 Nov 2021 01:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 04:37:07.049830
- Title: ShapeY: Measuring Shape Recognition Capacity Using Nearest Neighbor
Matching
- Title(参考訳): shapey:近接マッチングを用いた形状認識能力の測定
- Authors: Jong Woo Nam, Amanda S. Rios, Bartlett W. Mel
- Abstract要約: 我々は,システム埋め込み空間内の近傍のビューマッチングに基づいて,視覚システムの形状認識性能を計測する新しい手法を開発した。
評価ベンチマークであるShapeYは,そのビューマッチングを,所定の3次元視点変化や外観変化の程度に分散させることで,タスクの難易度を正確に制御する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object recognition in humans depends primarily on shape cues. We have
developed a new approach to measuring the shape recognition performance of a
vision system based on nearest neighbor view matching within the system's
embedding space. Our performance benchmark, ShapeY, allows for precise control
of task difficulty, by enforcing that view matching span a specified degree of
3D viewpoint change and/or appearance change. As a first test case we measured
the performance of ResNet50 pre-trained on ImageNet. Matching error rates were
high. For example, a 27 degree change in object pitch led ResNet50 to match the
incorrect object 45% of the time. Appearance changes were also highly
disruptive. Examination of false matches indicates that ResNet50's embedding
space is severely "tangled". These findings suggest ShapeY can be a useful tool
for charting the progress of artificial vision systems towards human-level
shape recognition capabilities.
- Abstract(参考訳): ヒトの物体認識は主に形状の手がかりに依存する。
我々は,システム埋め込み空間内の近傍のビューマッチングに基づいて,視覚システムの形状認識性能を計測する新しい手法を開発した。
評価ベンチマークであるShapeYは,そのビューマッチングを,所定の3次元視点変化や外観変化の程度に分散させることで,タスクの難易度を正確に制御する。
最初のテストケースとして、imagenetで事前トレーニングされたresnet50のパフォーマンスを測定した。
一致したエラー率は高かった。
例えば、27度のオブジェクトピッチの変化により、resnet50は不正なオブジェクトの45%と一致した。
外観の変化も非常に破壊的だった。
偽マッチの検証は、ResNet50の埋め込み空間がひどく「絡み合っている」ことを示している。
これらの結果から、ShapeYは人工視覚システムの進歩を人間レベルの形状認識能力にグラフ化するのに有用なツールであることが示唆された。
関連論文リスト
- Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Enhancing Deformable Local Features by Jointly Learning to Detect and
Describe Keypoints [8.390939268280235]
局所特徴抽出は、画像マッチングや検索といった重要なタスクに対処するためのコンピュータビジョンにおける標準的なアプローチである。
鍵点を共同で検出・記述する新しい変形認識ネットワークであるDALFを提案する。
提案手法は、変形可能なオブジェクト検索と、非剛性な3次元表面登録という、2つの実世界のアプリケーションの性能を向上させる。
論文 参考訳(メタデータ) (2023-04-02T18:01:51Z) - PCV: A Point Cloud-Based Network Verifier [8.239631885389382]
本稿では3Dポイントネットの状態をうまく処理できるポイントクラウドベースのネットワーク検証について述べる。
モデル精度と特性係数への影響を計算し、小さな摂動状態に対するPointNetネットワークのロバスト性をテストする。
論文 参考訳(メタデータ) (2023-01-27T15:58:54Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Location-Sensitive Visual Recognition with Cross-IOU Loss [177.86369890708457]
本稿では,オブジェクト検出,インスタンスセグメンテーション,ポーズ推定のための位置感知ネットワーク (LSNet) という統合ソリューションを提案する。
ディープニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を一緒に定義するアンカーポイントとランドマークのセットを予測します。
論文 参考訳(メタデータ) (2021-04-11T02:17:14Z) - Diverse Plausible Shape Completions from Ambiguous Depth Images [7.652701739127332]
PSSNetは1枚の2.5D深度画像から可塑性3D再構成を生成するネットワークアーキテクチャである。
本研究では,Shapenetのマグカップと部分的に隠されたYCBオブジェクトを用いて実験を行い,あいまいさの少ないデータセットで比較可能であることを確認した。
論文 参考訳(メタデータ) (2020-11-18T16:42:51Z) - GSNet: Joint Vehicle Pose and Shape Reconstruction with Geometrical and
Scene-aware Supervision [65.13980934546957]
GSNet(Geometric and Scene-aware Network)と名付けられた新しいエンドツーエンドフレームワークを提案する。
共同で6DoFのポーズを推定し、都会のストリートビューから詳細な3Dカー形状を再構築する。
我々は,最大マルチタスクApolloCar3Dベンチマーク上でGSNetを評価し,定量的かつ定性的に最先端の性能を達成する。
論文 参考訳(メタデータ) (2020-07-26T13:05:55Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。