論文の概要: Learning Dense Object Descriptors from Multiple Views for Low-shot
Category Generalization
- arxiv url: http://arxiv.org/abs/2211.15059v1
- Date: Mon, 28 Nov 2022 04:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:41:01.843209
- Title: Learning Dense Object Descriptors from Multiple Views for Low-shot
Category Generalization
- Title(参考訳): 低ショットカテゴリ一般化のための複数視点からの高密度オブジェクト記述子学習
- Authors: Stefan Stojanov, Anh Thai, Zixuan Huang, James M. Rehg
- Abstract要約: 本稿では、カテゴリやセマンティックなオブジェクト部分ラベルを使わずに、オブジェクトインスタンスの複数のビューからトレーニングできるDeep Object Patch rimis(DOPE)を提案する。
DOPEを訓練するために、物体の視界間の画素レベルの対応を得るために、スパースディープ、フォアグラウンドマスク、および既知のカメラへのアクセスを仮定する。
DOPEは, 局所的マッチングを用いて, 新規カテゴリーの低ショット分類に利用でき, 教師付き学習ベースラインや自己教師型学習ベースラインと競合し, 優れることがわかった。
- 参考スコア(独自算出の注目度): 27.583517870047487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A hallmark of the deep learning era for computer vision is the successful use
of large-scale labeled datasets to train feature representations for tasks
ranging from object recognition and semantic segmentation to optical flow
estimation and novel view synthesis of 3D scenes. In this work, we aim to learn
dense discriminative object representations for low-shot category recognition
without requiring any category labels. To this end, we propose Deep Object
Patch Encodings (DOPE), which can be trained from multiple views of object
instances without any category or semantic object part labels. To train DOPE,
we assume access to sparse depths, foreground masks and known cameras, to
obtain pixel-level correspondences between views of an object, and use this to
formulate a self-supervised learning task to learn discriminative object
patches. We find that DOPE can directly be used for low-shot classification of
novel categories using local-part matching, and is competitive with and
outperforms supervised and self-supervised learning baselines. Code and data
available at https://github.com/rehg-lab/dope_selfsup.
- Abstract(参考訳): コンピュータビジョンのディープラーニング時代の特徴は、オブジェクト認識やセマンティックセグメンテーション、光学フロー推定、そして3dシーンの新しいビュー合成まで、タスクの特徴表現を訓練するために大規模なラベル付きデータセットをうまく利用することである。
本研究では,カテゴリラベルを必要とせず,低ショットカテゴリ認識のための密な判別対象表現を学習することを目的とする。
そこで本稿では,対象インスタンスの複数ビューからカテゴリや意味的オブジェクト部分ラベルを使わずにトレーニング可能な,ディープオブジェクトパッチエンコーディング(dope)を提案する。
dopeを訓練するには,被写体の視野間のピクセルレベル対応を得るために,被写体深度,前景マスク,既知のカメラへのアクセスを想定し,これを用いて自己教師あり学習タスクを定式化し,識別対象パッチを学習する。
DOPEは, 局所的マッチングを用いて, 新規カテゴリーの低ショット分類に利用でき, 教師付き学習ベースラインや自己教師型学習ベースラインと競合する。
コードとデータはhttps://github.com/rehg-lab/dope_selfsup。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - CLIPose: Category-Level Object Pose Estimation with Pre-trained
Vision-Language Knowledge [18.57081150228812]
本稿では、事前学習された視覚言語モデルを用いて、オブジェクトカテゴリ情報の学習を改善する新しい6Dポーズフレームワークを提案する。
CLIPoseは、2つの主要なベンチマークデータセットであるREAL275とCAMERA25で最先端のパフォーマンスを達成し、推論中(40FPS)にリアルタイムに実行される。
論文 参考訳(メタデータ) (2024-02-24T05:31:53Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - SupeRGB-D: Zero-shot Instance Segmentation in Cluttered Indoor
Environments [67.34330257205525]
本研究では,RGB-Dデータからゼロショットのインスタンスセグメンテーション(ZSIS)を探索し,意味的カテゴリに依存しない方法で未知のオブジェクトを識別する。
本稿では,注釈付きオブジェクトを用いて画素のオブジェクト性」を学習し,乱雑な屋内環境における未知のオブジェクトカテゴリに一般化する手法を提案する。
論文 参考訳(メタデータ) (2022-12-22T17:59:48Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Cross-Supervised Object Detection [42.783400918552765]
完全ラベル付きベースカテゴリから学習した知識を活用して、新しいカテゴリの弱いラベル付き画像からより良いオブジェクト検出器を構築する方法を示す。
本稿では,インスタンスレベルのアノテーションから学習した検出ヘッドと,画像レベルのアノテーションから学習した認識ヘッドを組み合わせた統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-26T15:33:48Z) - A Deep Learning Approach to Object Affordance Segmentation [31.221897360610114]
我々は,ビデオと静的画像の両方において,画素単位の価格ラベルを推定するオートエンコーダを設計する。
本モデルは,ソフトアテンション機構を用いて,オブジェクトラベルやバウンディングボックスの必要性を克服する。
本モデルは,SOR3D-AFF上での強い教師付き手法と比較して,競争力のある結果が得られることを示す。
論文 参考訳(メタデータ) (2020-04-18T15:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。