論文の概要: Geometry Constrained Weakly Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2007.09727v1
- Date: Sun, 19 Jul 2020 17:33:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 00:23:56.441991
- Title: Geometry Constrained Weakly Supervised Object Localization
- Title(参考訳): 弱教師付き物体局在の幾何学的制約
- Authors: Weizeng Lu, Xi Jia, Weicheng Xie, Linlin Shen, Yicong Zhou, Jinming
Duan
- Abstract要約: 弱教師付きオブジェクトローカライゼーションのための幾何制約付きネットワークであるGC-Netを提案する。
検出器は、幾何学的形状を記述する係数の集合によって定義された物体の位置を予測する。
ジェネレータは、得られたマスクされた画像を入力として、オブジェクトとバックグラウンドの2つの補完的な分類タスクを実行する。
従来のアプローチとは対照的に、GC-Netはエンドツーエンドでトレーニングされ、後処理なしでオブジェクトの位置を予測する。
- 参考スコア(独自算出の注目度): 55.17224813345206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a geometry constrained network, termed GC-Net, for weakly
supervised object localization (WSOL). GC-Net consists of three modules: a
detector, a generator and a classifier. The detector predicts the object
location defined by a set of coefficients describing a geometric shape (i.e.
ellipse or rectangle), which is geometrically constrained by the mask produced
by the generator. The classifier takes the resulting masked images as input and
performs two complementary classification tasks for the object and background.
To make the mask more compact and more complete, we propose a novel multi-task
loss function that takes into account area of the geometric shape, the
categorical cross-entropy and the negative entropy. In contrast to previous
approaches, GC-Net is trained end-to-end and predict object location without
any post-processing (e.g. thresholding) that may require additional tuning.
Extensive experiments on the CUB-200-2011 and ILSVRC2012 datasets show that
GC-Net outperforms state-of-the-art methods by a large margin. Our source code
is available at https://github.com/lwzeng/GC-Net.
- Abstract(参考訳): 本稿では、弱教師付きオブジェクトローカライゼーション(WSOL)のための幾何制約付きネットワーク、GC-Netを提案する。
GC-Netは、検出器、ジェネレータ、分類器の3つのモジュールで構成される。
検出器は、生成器が生成するマスクによって幾何学的に制約される幾何学的形状(楕円または長方形)を記述する係数の集合によって定義される物体の位置を予測する。
分類器は、得られたマスクされた画像を入力として、オブジェクトと背景の2つの補完的な分類タスクを実行する。
マスクをよりコンパクトかつ完全にするために,幾何学的形状,カテゴリー的クロスエントロピー,負エントロピーの面積を考慮した新しいマルチタスク損失関数を提案する。
以前のアプローチとは対照的に、gc-netはエンドツーエンドでトレーニングされ、追加のチューニングを必要とする後処理(例えばしきい値付け)なしでオブジェクトの位置を予測する。
CUB-200-2011とILSVRC2012データセットの大規模な実験により、GC-Netは最先端の手法よりも大きなマージンで優れていることが示された。
ソースコードはhttps://github.com/lwzeng/gc-netで入手できます。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - ReFit: A Framework for Refinement of Weakly Supervised Semantic
Segmentation using Object Border Fitting for Medical Images [4.945138408504987]
Weakly Supervised Semantic (WSSS)は、画像レベルの監視のみに依存しているため、ネットワークの必要性に対処する上で有望なアプローチである。
本稿では,最新クラスのアクティベーションマップとポストプロセッシング手法を組み合わせたReFitフレームワークを提案する。
本手法をWSSS予測に適用することにより,医用画像の最先端WSSS法に対して最大10%の改善を実現した。
論文 参考訳(メタデータ) (2023-03-14T12:46:52Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - GaTector: A Unified Framework for Gaze Object Prediction [11.456242421204298]
我々は、視線オブジェクト予測問題に統一的に取り組むために、GaTectorという新しいフレームワークを構築した。
入力とタスクの特異性をよりよく考慮するために、GaTectorは共有バックボーンの前に2つの入力固有のブロックを導入し、共有バックボーン後に3つのタスク固有のブロックを導入している。
最後に、重なり合う領域を共有できない場合でも、ボックス間の差を明らかにすることのできる、新しいwUoCメトリックを提案する。
論文 参考訳(メタデータ) (2021-12-07T07:50:03Z) - Learnable Triangulation for Deep Learning-based 3D Reconstruction of
Objects of Arbitrary Topology from Single RGB Images [12.693545159861857]
モノクロ画像から3次元物体を再構成する深層強化学習手法を提案する。
提案手法は, 視覚的品質, 再構成精度, 計算時間において, 最先端技術よりも優れる。
論文 参考訳(メタデータ) (2021-09-24T09:44:22Z) - PIG-Net: Inception based Deep Learning Architecture for 3D Point Cloud
Segmentation [0.9137554315375922]
そこで我々はPIG-Netと呼ばれるインセプションに基づくディープネットワークアーキテクチャを提案し,点雲の局所的および大域的幾何学的詳細を効果的に特徴付ける。
我々は2つの最先端データセット上でPIG-Netアーキテクチャの徹底的な実験的解析を行う。
論文 参考訳(メタデータ) (2021-01-28T13:27:55Z) - Boundary-Aware Geometric Encoding for Semantic Segmentation of Point
Clouds [45.270215729464056]
境界情報は2Dイメージセグメンテーションにおいて重要な役割を果たすが、通常は3Dポイントクラウドセグメンテーションでは無視される。
境界点を予測するための境界予測モジュール(BPM)を提案する。
予測された境界に基づいて、境界認識ジオメトリック。
GEMは、幾何学的情報をエンコードし、近隣の差別を伴う特徴を集約するように設計されている。
論文 参考訳(メタデータ) (2021-01-07T05:38:19Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - GFPNet: A Deep Network for Learning Shape Completion in Generic Fitted
Primitives [68.8204255655161]
本稿では,GP(Generic Primitives)と呼ばれるオブジェクト再構成装置を提案する。
GFPNet は ModelNet および KITTI ベンチマークデータセットの性能評価結果を提供することで, 形状完成手法の状況と競合することを示す。
論文 参考訳(メタデータ) (2020-06-03T08:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。