論文の概要: Dual Pose-invariant Embeddings: Learning Category and Object-specific
Discriminative Representations for Recognition and Retrieval
- arxiv url: http://arxiv.org/abs/2403.00272v1
- Date: Fri, 1 Mar 2024 04:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:16:51.621185
- Title: Dual Pose-invariant Embeddings: Learning Category and Object-specific
Discriminative Representations for Recognition and Retrieval
- Title(参考訳): Dual Pose-invariant Embeddings:認識と検索のための学習カテゴリーとオブジェクト固有の識別表現
- Authors: Rohan Sarkar, Avinash Kak
- Abstract要約: 学習中にカテゴリベースとオブジェクトアイデンティティベースの埋め込みを同時に学習すれば,性能の大幅な向上が達成できることを示す。
本稿では,クラス間距離とクラス間距離を最適化する特別に設計された損失関数を持つ注目型デュアルエンコーダアーキテクチャを提案する。
3つの挑戦的なマルチビューデータセットでアプローチのパワーを実証する。
- 参考スコア(独自算出の注目度): 0.7770029179741429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the context of pose-invariant object recognition and retrieval, we
demonstrate that it is possible to achieve significant improvements in
performance if both the category-based and the object-identity-based embeddings
are learned simultaneously during training. In hindsight, that sounds intuitive
because learning about the categories is more fundamental than learning about
the individual objects that correspond to those categories. However, to the
best of what we know, no prior work in pose-invariant learning has demonstrated
this effect. This paper presents an attention-based dual-encoder architecture
with specially designed loss functions that optimize the inter- and intra-class
distances simultaneously in two different embedding spaces, one for the
category embeddings and the other for the object-level embeddings. The loss
functions we have proposed are pose-invariant ranking losses that are designed
to minimize the intra-class distances and maximize the inter-class distances in
the dual representation spaces. We demonstrate the power of our approach with
three challenging multi-view datasets, ModelNet-40, ObjectPI, and FG3D. With
our dual approach, for single-view object recognition, we outperform the
previous best by 20.0% on ModelNet40, 2.0% on ObjectPI, and 46.5% on FG3D. On
the other hand, for single-view object retrieval, we outperform the previous
best by 33.7% on ModelNet40, 18.8% on ObjectPI, and 56.9% on FG3D.
- Abstract(参考訳): ポーズ不変オブジェクト認識と検索の文脈において,学習中にカテゴリベースとオブジェクトidベースの両方が同時に学習された場合,性能が大幅に向上することを示す。
なぜなら、カテゴリについて学ぶことは、カテゴリに対応する個々のオブジェクトについて学ぶことよりも、より基本的なことです。
しかしながら、我々が知る限りでは、ポーズ不変学習における先行研究がこの効果を証明していない。
本稿では,2つの異なる埋め込み空間においてクラス間距離とクラス内距離を同時に最適化する,特別に設計された損失関数を備えた注意に基づくデュアルエンコーダアーキテクチャを提案する。
私たちが提案した損失関数は、クラス内距離を最小化し、双対表現空間におけるクラス間距離を最大化するために設計された、ポーズ不変ランキング損失である。
我々は、ModelNet-40、ObjectPI、FG3Dという3つの挑戦的なマルチビューデータセットを用いて、このアプローチのパワーを実証する。
シングルビューのオブジェクト認識では、ModelNet40では20.0%、ObjectPIでは2.0%、FG3Dでは46.5%を上回りました。
一方、シングルビューのオブジェクト検索では、ModelNet40では33.7%、ObjectPIでは18.8%、FG3Dでは56.9%で前年より優れていた。
関連論文リスト
- Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - CARD: Semantic Segmentation with Efficient Class-Aware Regularized
Decoder [31.223271128719603]
特徴学習におけるクラス内分散とクラス間距離を最適化するためのクラス認識正規化(CAR)手法を提案する。
CARはトレーニング中に既存のほとんどのセグメンテーションモデルに直接適用することができ、追加の推論オーバーヘッドなしに精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-11T01:41:37Z) - DcnnGrasp: Towards Accurate Grasp Pattern Recognition with Adaptive
Regularizer Learning [13.08779945306727]
現在の最先端手法は、パターン認識に不可欠なオブジェクトのカテゴリ情報を無視している。
本稿では,物体分類と把握パターン認識の連成学習を実現するために,二分岐畳み込みニューラルネットワーク(DcnnGrasp)を提案する。
論文 参考訳(メタデータ) (2022-05-11T00:34:27Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Single-stage Keypoint-based Category-level Object Pose Estimation from
an RGB Image [27.234658117816103]
カテゴリレベルのオブジェクトポーズ推定のための,単一段階のキーポイントに基づくアプローチを提案する。
提案ネットワークは2次元オブジェクト検出を行い、2次元キーポイントを検出し、6-DoFのポーズを推定し、相対的に有界な立方体次元を回帰する。
我々は,3次元IoU測定値における最先端の手法よりも優れた,挑戦的なObjectronベンチマークに関する広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-09-13T17:55:00Z) - Objectness-Aware Few-Shot Semantic Segmentation [31.13009111054977]
モデル全体のキャパシティを向上し、パフォーマンスを向上させる方法を示す。
我々は、クラス非依存であり、過度に適合しがちな客観性を導入する。
注釈のないカテゴリの例が1つだけあると、実験により、mIoUに関して、我々の手法が最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-04-06T19:12:08Z) - Learning What to Learn for Video Object Segmentation [157.4154825304324]
本稿では,多様な数発の学習モジュールを統合した,エンドツーエンドのトレーニング可能なVOSアーキテクチャを提案する。
この内部学習器は、ターゲットの強力なパラメトリックモデルを予測するように設計されている。
私たちは、大規模なYouTube-VOS 2018データセットに、総合スコア81.5を達成して、新たな最先端を設定しました。
論文 参考訳(メタデータ) (2020-03-25T17:58:43Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z) - Triangle-Net: Towards Robustness in Point Cloud Learning [0.0]
本稿では, 回転, 位置シフト, スケーリングに対する不変性を同時に実現し, 点間隔に頑健な3次元分類手法を提案する。
提案手法は,ModelNet 40分類タスクにおいて,ポイントネットと3DmFVをそれぞれ35.0%,28.1%で上回っている。
論文 参考訳(メタデータ) (2020-02-27T20:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。