Fugu-MT 論文翻訳(概要): ShapeY: A Principled Framework for Measuring Shape Recognition Capacity via Nearest-Neighbor Matching

論文の概要: ShapeY: A Principled Framework for Measuring Shape Recognition Capacity via Nearest-Neighbor Matching

arxiv url: http://arxiv.org/abs/2604.25065v1
Date: Mon, 27 Apr 2026 23:42:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.634503
Title: ShapeY: A Principled Framework for Measuring Shape Recognition Capacity via Nearest-Neighbor Matching
Title（参考訳）: ShapeY: 近傍近傍マッチングによる形状認識能力測定の原理的フレームワーク
Authors: Jong Woo Nam, Amanda S. Rios, Bartlett W. Mel,
Abstract要約: 人間における物体の認識は、形状の手がかりと、様々な3D視点で物体を認識する能力に大きく依存している。人間とは異なり、ディープネットワークはしばしばテクスチャや背景のような非形状の手がかりに依存しており、一般化と堅牢性の脆弱性につながる。本稿では,ORシステムにおける形状に基づく認識能力の評価を目的とした,新しい,原理的なベンチマークフレームワークであるShapeYを紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Object recognition (OR) in humans relies heavily on shape cues and the ability to recognize objects across varying 3D viewpoints. Unlike humans, deep networks often rely on non-shape cues such as texture and background, leading to vulnerabilities in generalization and robustness. To address this gap, we introduce ShapeY, a novel and principled benchmarking framework designed to evaluate shape-based recognition capability in OR systems. ShapeY comprises 68,200 grayscale images of 200 3D objects rendered from multiple viewpoints and optionally subjected to non-shape ``appearance'' changes. Using a nearest-neighbor matching task, ShapeY specifically probes the fine-grained structure of an OR system's embedding space by evaluating whether object views are clustered by 3D shape similarity across varying 3D viewpoints and other non-shape changes. ShapeY provides a suite of quantitative and qualitative performance readouts, including error rate graphs, viewpoint tuning curves, histograms of positive and negative matching scores, and grids showing ordered best matches, which together offer a comprehensive evaluation of an OR system's shape understanding capability. Testing of 321 pre-trained networks with diverse architectures reveals significant challenges in achieving robust shape-based recognition: even state-of-the-art models struggle to generalize consistently across 3D viewpoint and appearance changes, and are prone to infrequent but egregious matches of objects of obviously completely different shape. ShapeY establishes a principled framework for advancing artificial vision systems toward human-like shape recognition capabilities, emphasizing the importance of disentangled and invariant object encodings.
Abstract（参考訳）: 人間における物体認識(OR)は、形状の手がかりと様々な3D視点で物体を認識する能力に大きく依存している。人間とは異なり、ディープネットワークはしばしばテクスチャや背景のような非形状の手がかりに依存しており、一般化と堅牢性の脆弱性につながる。このギャップに対処するために、ORシステムにおける形状に基づく認識能力を評価するために設計された、新規で原則化されたベンチマークフレームワークであるShapeYを紹介する。 ShapeYは、複数の視点からレンダリングされた200の3Dオブジェクトの68,200のグレースケール画像からなり、任意に非形状の「外観」変化を受ける。最寄りのマッチングタスクを用いて、ShapeYはORシステムの埋め込み空間のきめ細かい構造を、様々な3次元視点および他の非形状変化に対して、オブジェクトビューが3次元形状類似性によってクラスタリングされているかどうかを評価することで、特に探索する。 ShapeYは、エラーレートグラフ、視点チューニング曲線、正と負のマッチングスコアのヒストグラム、順序付けられたベストマッチを示すグリッドなど、定量的で定性的なパフォーマンスの読み出しセットを提供し、ORシステムの形状理解能力を総合的に評価する。最先端のモデルでさえ、3Dの視点と外観の変化を一貫した一般化に苦しむため、明らかに異なる形状の物体の非日常的かつ厳密なマッチングが困難である。 ShapeYは、人間のような形状認識能力に向けて、人工視覚システムを進化させるための原則的な枠組みを確立し、アンタングルや不変のオブジェクトエンコーディングの重要性を強調している。

関連論文リスト

Beyond 'Templates': Category-Agnostic Object Pose, Size, and Shape Estimation from a Single View [69.6117755984012]
物体の6Dポーズ、サイズ、形状を視覚入力から推定することは、コンピュータビジョンの基本的な問題である。一つのRGB-D画像から6次元のポーズ,サイズ,密な形状を同時に予測する統合されたカテゴリ非依存フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-13T17:49:15Z)
Visual Anagrams Reveal Hidden Differences in Holistic Shape Processing Across Vision Models [4.749824105387293]
構成形状スコア(CSS)による絶対構成能力の問題として形状評価を再放送する。 CSSは、完全に自己管理された言語対応のトランスフォーマーによって、幅広い構成上の感度を明らかにしている。本研究は, 形状とテクスチャの人工的な選択を強制することには, 真に堅牢で, 汎用的で, 人間のような視覚システムへの道が欠かせないことを示唆する。
論文参考訳（メタデータ） (2025-07-01T07:08:56Z)
Robust 3D Tracking with Quality-Aware Shape Completion [67.9748164949519]
そこで本研究では,高密度および完全点の雲からなる合成対象表現について,ロバストな3次元追跡のための形状完備化により正確に表現する。具体的には, 形状が整ったボキセル化3次元追跡フレームワークを設計し, ノイズのある歴史的予測の悪影響を軽減するために, 品質に配慮した形状完備化機構を提案する。
論文参考訳（メタデータ） (2023-12-17T04:50:24Z)
Generative Category-Level Shape and Pose Estimation with Semantic Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文参考訳（メタデータ） (2022-10-03T17:51:54Z)
Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文参考訳（メタデータ） (2022-04-21T03:42:31Z)
ShapeY: Measuring Shape Recognition Capacity Using Nearest Neighbor Matching [0.0]
我々は,システム埋め込み空間内の近傍のビューマッチングに基づいて,視覚システムの形状認識性能を計測する新しい手法を開発した。評価ベンチマークであるShapeYは,そのビューマッチングを,所定の3次元視点変化や外観変化の程度に分散させることで,タスクの難易度を正確に制御する。
論文参考訳（メタデータ） (2021-11-16T01:21:54Z)
Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文参考訳（メタデータ） (2021-08-10T12:19:34Z)
From Points to Multi-Object 3D Reconstruction [71.17445805257196]
単一のRGB画像から複数の3Dオブジェクトを検出し再構成する方法を提案する。キーポイント検出器は、オブジェクトを中心点としてローカライズし、9-DoF境界ボックスや3D形状を含む全てのオブジェクト特性を直接予測する。提示されたアプローチは、軽量な再構築を単一ステージで実行し、リアルタイム能力を持ち、完全に微分可能で、エンドツーエンドのトレーナーブルである。
論文参考訳（メタデータ） (2020-12-21T18:52:21Z)
Diverse Plausible Shape Completions from Ambiguous Depth Images [7.652701739127332]
PSSNetは1枚の2.5D深度画像から可塑性3D再構成を生成するネットワークアーキテクチャである。本研究では,Shapenetのマグカップと部分的に隠されたYCBオブジェクトを用いて実験を行い,あいまいさの少ないデータセットで比較可能であることを確認した。
論文参考訳（メタデータ） (2020-11-18T16:42:51Z)
Shape Prior Deformation for Categorical 6D Object Pose and Size Estimation [62.618227434286]
RGB-D画像から見えないオブジェクトの6Dポーズとサイズを復元する新しい学習手法を提案する。本研究では,事前学習したカテゴリ形状からの変形を明示的にモデル化することにより,3次元オブジェクトモデルを再構築するディープネットワークを提案する。
論文参考訳（メタデータ） (2020-07-16T16:45:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。