論文の概要: Are These the Same Apple? Comparing Images Based on Object Intrinsics
- arxiv url: http://arxiv.org/abs/2311.00750v1
- Date: Wed, 1 Nov 2023 18:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 16:08:23.253217
- Title: Are These the Same Apple? Comparing Images Based on Object Intrinsics
- Title(参考訳): これはAppleと同じか?
オブジェクト内在性に基づく画像の比較
- Authors: Klemen Kotar, Stephen Tian, Hong-Xing Yu, Daniel L.K. Yamins, Jiajun
Wu
- Abstract要約: オブジェクトの同一性を定義する固有のオブジェクトプロパティに基づいて、純粋に画像の類似性を測定する。
この問題はコンピュータビジョン文学において再同定として研究されている。
そこで本研究では,オブジェクト固有性に基づく画像類似度尺度を探索し,一般対象カテゴリに拡張することを提案する。
- 参考スコア(独自算出の注目度): 27.43687450076182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human visual system can effortlessly recognize an object under different
extrinsic factors such as lighting, object poses, and background, yet current
computer vision systems often struggle with these variations. An important step
to understanding and improving artificial vision systems is to measure image
similarity purely based on intrinsic object properties that define object
identity. This problem has been studied in the computer vision literature as
re-identification, though mostly restricted to specific object categories such
as people and cars. We propose to extend it to general object categories,
exploring an image similarity metric based on object intrinsics. To benchmark
such measurements, we collect the Common paired objects Under differenT
Extrinsics (CUTE) dataset of $18,000$ images of $180$ objects under different
extrinsic factors such as lighting, poses, and imaging conditions. While
existing methods such as LPIPS and CLIP scores do not measure object intrinsics
well, we find that combining deep features learned from contrastive
self-supervised learning with foreground filtering is a simple yet effective
approach to approximating the similarity. We conduct an extensive survey of
pre-trained features and foreground extraction methods to arrive at a strong
baseline that best measures intrinsic object-centric image similarity among
current methods. Finally, we demonstrate that our approach can aid in
downstream applications such as acting as an analog for human subjects and
improving generalizable re-identification. Please see our project website at
https://s-tian.github.io/projects/cute/ for visualizations of the data and
demos of our metric.
- Abstract(参考訳): 人間の視覚システムは、照明、オブジェクトポーズ、背景など、異なる外在的要因の下でオブジェクトを認識することができるが、現在のコンピュータビジョンシステムはこれらのバリエーションに苦しむことが多い。
人工視覚システムの理解と改善のための重要なステップは、オブジェクトのアイデンティティを定義する固有のオブジェクトプロパティに基づいて、画像の類似度を測定することである。
この問題はコンピュータビジョン文学において再同定として研究されてきたが、主に人や車のような特定の対象カテゴリーに限定されている。
我々は、これを一般のオブジェクトカテゴリに拡張し、オブジェクト内在性に基づく画像類似度メトリックを探索することを提案する。
このような測定をベンチマークするために、異なるextrinsics(cute)データセットの下で共通のペアオブジェクトを収集し、照明、ポーズ、撮像条件などの異なるextrinsic要素の下で180ドルのオブジェクトの18,000ドルのイメージを収集した。
LPIPSやCLIPスコアのような既存の手法は対象の内在性を十分に測定していないが、対比的な自己教師付き学習から学習した深い特徴と前景フィルタリングを組み合わせることは、類似性を近似するための単純かつ効果的なアプローチである。
提案手法は,従来の手法と異なり,本質的な対象中心画像の類似性を最もよく測定する強力なベースラインに到達するための,事前訓練された特徴と前景抽出手法の広範な調査を行う。
最後に,本手法は,人体のアナログとして振る舞うことや,汎用的な再同定を改善することなど,下流のアプリケーションを支援することができることを示す。
プロジェクトのwebサイトはhttps://s-tian.github.io/projects/cute/にある。
関連論文リスト
- Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Hybrid Optimized Deep Convolution Neural Network based Learning Model
for Object Detection [0.0]
物体の識別はコンピュータビジョンにおける最も基本的で難しい問題の1つである。
近年,ディープラーニングに基づく物体検出技術が大衆の関心を集めている。
本研究では,自律型物体検出システムを構築するために,独自のディープラーニング分類手法を用いる。
提案するフレームワークは検出精度0.9864であり、現在の技術よりも高い。
論文 参考訳(メタデータ) (2022-03-02T04:39:37Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Unknown Object Segmentation from Stereo Images [18.344801596121997]
対象のセマンティック情報や幾何学的情報を予め必要としない,新しいオブジェクトインスタンス分割手法を提案する。
ステレオセンサの汎用性に着目し,入力画像のペアからオブジェクトインスタンスへ直接マップするトランスフォーマティブベースのアーキテクチャを採用している。
いくつかの異なるアプリケーションドメインでの実験では、Instance Stereo Transformer(INSTR)アルゴリズムが、深度マップに基づく現在の最新手法を上回ることを示しています。
論文 参考訳(メタデータ) (2021-03-11T17:03:44Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Unsupervised Part Discovery via Feature Alignment [15.67978793872039]
我々はニューラルネットワークの特徴がニュアンス変数にほとんど不変であるという特性を利用する。
対応する特徴写像のアフィンアライメントを通して、同じポーズで同じオブジェクトカテゴリのインスタンスを示す類似した画像のセットを見つける。
推論中は、部品検出はシンプルで高速で、フィードフォワードニューラルネットワーク以外の追加モジュールやオーバーヘッドは不要である。
論文 参考訳(メタデータ) (2020-12-01T07:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。