論文の概要: PMODE: Prototypical Mask based Object Dimension Estimation
- arxiv url: http://arxiv.org/abs/2212.13281v1
- Date: Mon, 26 Dec 2022 19:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:19:13.361784
- Title: PMODE: Prototypical Mask based Object Dimension Estimation
- Title(参考訳): PMODE:原型マスクを用いた物体次元推定
- Authors: Thariq Khalid, Mohammed Yahya Hakami, Riad Souissi
- Abstract要約: そこで本研究では,モノクロカメラを用いて,映像の四辺形物体の寸法を推定する手法を提案する。
我々は,3種類のランダムカメラを用いて,次元推定のためのテストデータセットに対して,22%のMAPEを達成できるシステムを訓練した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Can a neural network estimate an object's dimension in the wild? In this
paper, we propose a method and deep learning architecture to estimate the
dimensions of a quadrilateral object of interest in videos using a monocular
camera. The proposed technique does not use camera calibration or handcrafted
geometric features; however, features are learned with the help of coefficients
of a segmentation neural network during the training process. A real-time
instance segmentation-based Deep Neural Network with a ResNet50 backbone is
employed, giving the object's prototype mask and thus provides a region of
interest to regress its dimensions. The instance segmentation network is
trained to look at only the nearest object of interest. The regression is
performed using an MLP head which looks only at the mask coefficients of the
bounding box detector head and the prototype segmentation mask. We trained the
system with three different random cameras achieving 22% MAPE for the test
dataset for the dimension estimation
- Abstract(参考訳): ニューラルネットワークは、野生の物体の次元を推定できるのか?
本稿では,単眼カメラを用いて映像に興味のある四角形物体の寸法を推定する手法とディープラーニングアーキテクチャを提案する。
提案手法は, カメラキャリブレーションや手作りの幾何学的特徴を用いないが, 訓練過程におけるセグメンテーションニューラルネットワークの係数を用いて特徴を学習する。
resnet50バックボーンを備えたリアルタイムインスタンスセグメンテーションベースのディープニューラルネットワークを採用し、オブジェクトのプロトタイプマスクを提供し、その次元を後退させる関心領域を提供する。
インスタンスセグメンテーションネットワークは、最も関心のあるオブジェクトのみを見るように訓練される。
回帰は、バウンディングボックス検出器ヘッドとプロトタイプセグメンテーションマスクのマスク係数のみを見るMLPヘッドを用いて実行される。
次元推定のためのテストデータセットで22%のmapeを実現する3つの異なるランダムカメラでシステムを訓練した。
関連論文リスト
- LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Intelligent Debris Mass Estimation Model for Autonomous Underwater
Vehicle [0.0]
海洋の破片は海洋の野生生物の生存に重大な脅威となり、しばしば絡み合いや飢餓につながる。
インスタンスセグメンテーション(インスタンスセグメンテーション)は、オブジェクトを識別し、それらを正確に特定し、分離するオブジェクト検出の高度な形式である。
AUVは画像セグメンテーションを使用して、カメラが捉えた画像を分析し、水中環境をナビゲートする。
論文 参考訳(メタデータ) (2023-09-19T13:47:31Z) - HAISTA-NET: Human Assisted Instance Segmentation Through Attention [3.073046540587735]
より正確な予測を可能にし,高品質なセグメンテーションマスクを生成する新しい手法を提案する。
我々の人間支援セグメンテーションモデルHAISTA-NETは、既存のStrong Mask R-CNNネットワークを拡張し、人間の特定部分境界を組み込む。
HAISTA-NETは,Mask R-CNN,Strong Mask R-CNN,Mask2Formerなどの最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-04T18:39:14Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - A singular Riemannian geometry approach to Deep Neural Networks II.
Reconstruction of 1-D equivalence classes [78.120734120667]
入力空間における出力多様体内の点の事前像を構築する。
我々は、n-次元実空間から(n-1)-次元実空間へのニューラルネットワークマップの場合の簡易性に焦点をあてる。
論文 参考訳(メタデータ) (2021-12-17T11:47:45Z) - DONet: Learning Category-Level 6D Object Pose and Size Estimation from
Depth Observation [53.55300278592281]
単一深度画像からカテゴリレベルの6次元オブジェクト・ポースとサイズ推定(COPSE)を提案する。
筆者らのフレームワークは,深度チャネルのみの物体のリッチな幾何学的情報に基づいて推論を行う。
我々のフレームワークは、ラベル付き現実世界の画像を必要とする最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-06-27T10:41:50Z) - Contour Primitive of Interest Extraction Network Based on One-Shot
Learning for Object-Agnostic Vision Measurement [37.552192926136065]
単発学習フレームワークに基づく利子抽出ネットワーク(CPieNet)の輪郭プリミティブを提案する。
新たなCPI抽出タスクのために,オンライン公開画像を用いたObject Contour Primitivesデータセットと,ロボットに搭載されたカメラを用いたRobotic Object Contour Measurementデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-07T11:00:30Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z) - SDOD:Real-time Segmenting and Detecting 3D Object by Depth [5.97602869680438]
本稿では,3次元物体を奥行きで分割・検出するリアルタイムフレームワークを提案する。
オブジェクトの深さを深度カテゴリに分類し、インスタンス分割タスクをピクセルレベルの分類タスクに変換する。
挑戦的なKITTIデータセットの実験から、我々のアプローチはLklNetを約1.8倍の性能で、セグメンテーションと3D検出の速度を上回ります。
論文 参考訳(メタデータ) (2020-01-26T09:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。