論文の概要: INSTA-YOLO: Real-Time Instance Segmentation
- arxiv url: http://arxiv.org/abs/2102.06777v3
- Date: Mon, 2 Sep 2024 20:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 07:30:16.638663
- Title: INSTA-YOLO: Real-Time Instance Segmentation
- Title(参考訳): Insta-YOLO: リアルタイムインスタンスセグメンテーション
- Authors: Eslam Mohamed, Abdelrahman Shaker, Ahmad El-Sallab, Mayada Hadhoud,
- Abstract要約: Insta-YOLOは,リアルタイムインスタンス分割のための一段階のエンドツーエンドディープラーニングモデルである。
提案モデルはYOLOワンショットオブジェクト検出器にインスパイアされ,ボックス回帰損失はローカライゼーションヘッドの回帰に置き換わる。
当社のモデルは,Carnva,Cityscapes,Airbusの3つのデータセットで評価する。
- 参考スコア(独自算出の注目度): 2.726684740197893
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Instance segmentation has gained recently huge attention in various computer vision applications. It aims at providing different IDs to different object of the scene, even if they belong to the same class. This is useful in various scenarios, especially in occlusions. Instance segmentation is usually performed as a two-stage pipeline. First, an object is detected, then semantic segmentation within the detected box area. This process involves costly up-sampling, especially for the segmentation part. Moreover, for some applications, such as LiDAR point clouds and aerial object detection, it is often required to predict oriented boxes, which add extra complexity to the two-stage pipeline. In this paper, we propose Insta-YOLO, a novel one-stage end-to-end deep learning model for real-time instance segmentation. The proposed model is inspired by the YOLO one-shot object detector, with the box regression loss is replaced with polynomial regression in the localization head. This modification enables us to skip the segmentation up-sampling decoder altogether and produces the instance segmentation contour from the polynomial output coefficients. In addition, this architecture is a natural fit for oriented objects. We evaluate our model on three datasets, namely, Carnva, Cityscapes and Airbus. The results show our model achieves competitive accuracy in terms of mAP with significant improvement in speed by 2x on GTX-1080 GPU.
- Abstract(参考訳): インスタンスセグメンテーションは、近年、様々なコンピュータビジョンアプリケーションで大きな注目を集めている。
これは、同じクラスに属している場合でも、シーンの異なるオブジェクトに異なるIDを提供することを目的としている。
これは様々なシナリオ、特にオクルージョンにおいて有用である。
インスタンスセグメンテーションは通常、2段階のパイプラインとして実行される。
まず、検出されたボックス領域内でオブジェクトを検出し、セマンティックセグメンテーションを行う。
このプロセスは、特にセグメンテーション部分において、コストのかかるアップサンプリングを伴う。
さらに、LiDARポイントクラウドや空中オブジェクト検出のようないくつかのアプリケーションでは、2段階のパイプラインに余分な複雑さをもたらすように、指向するボックスを予測する必要があることが多い。
本稿では,リアルタイムインスタンス分割のための一段階のエンドツーエンドディープラーニングモデルであるInsta-YOLOを提案する。
提案モデルはYOLOワンショットオブジェクト検出器にインスパイアされ,ボックス回帰損失はローカライゼーションヘッドの多項式回帰に置き換わる。
この修正により、セグメント化アップサンプリングデコーダを完全に省略し、多項式出力係数からインスタンス分割輪郭を生成することができる。
加えて、このアーキテクチャはオブジェクト指向オブジェクトに自然に適合します。
当社のモデルは,Carnva,Cityscapes,Airbusの3つのデータセットで評価する。
その結果,GTX-1080 GPUでは,mAPの精度は2倍に向上した。
関連論文リスト
- SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding [56.079013202051094]
ボックスレベルのアノテーションを信号として転送する新しい手法であるSegVGを提案する。
このアプローチでは,ボックスレベルのレグレッションとピクセルレベルのセグメンテーションの両方の信号としてアノテーションを反復的に利用することができる。
論文 参考訳(メタデータ) (2024-07-03T15:30:45Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - CASAPose: Class-Adaptive and Semantic-Aware Multi-Object Pose Estimation [2.861848675707602]
CASAPoseと呼ばれる新しい単一ステージアーキテクチャを提案する。
RGB画像中の複数の異なるオブジェクトのポーズ推定のための2D-3D対応を1パスで決定する。
高速でメモリ効率が高く、複数のオブジェクトに対して高い精度を実現する。
論文 参考訳(メタデータ) (2022-10-11T10:20:01Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Enhanced Boundary Learning for Glass-like Object Segmentation [55.45473926510806]
本稿では,拡張境界学習によるガラス状物体分割問題を解くことを目的とする。
特に,より微細な境界キューを生成するための改良された微分モジュールを最初に提案する。
境界に沿った大域的な形状表現をモデル化するために,エッジ対応のグラフ畳み込みネットワークモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-29T16:18:57Z) - Monocular Instance Motion Segmentation for Autonomous Driving: KITTI
InstanceMotSeg Dataset and Multi-task Baseline [5.000331633798637]
オブジェクトのセグメンテーションは、クラス非依存の方法でオブジェクトをセグメンテーションするために使用できるため、自動運転車にとって重要なタスクである。
自律走行の文献ではピクセル単位の運動セグメンテーションが研究されているが、インスタンスレベルではめったに研究されていない。
我々は、KITTIMoSegデータセットを改善した12.9Kサンプルからなる新しいInstanceMotSegデータセットを作成します。
論文 参考訳(メタデータ) (2020-08-16T21:47:09Z) - EOLO: Embedded Object Segmentation only Look Once [0.0]
3つの独立したブランチで概念的にシンプルであり、完全に畳み込み可能で、モバイルや組み込みデバイスに簡単に組み込むことができるアンカーフリーでシングルショットのインスタンスセグメンテーション手法を導入する。
EOLOと呼ばれる本手法では,各画素のインスタンス中心分類と4次元距離回帰により,意味的セグメンテーションを予測し,重なり合うオブジェクト問題を区別するものとして,インスタンス分割問題を再構成する。
ベルとホイッスルがなければ、EOLOはIoU50の下で27.7$%のマスクmAPを獲得し、1080Ti GPU上で30FPSに達し、シングルモデルとシングルスケールのトレーニング/テストが可能である。
論文 参考訳(メタデータ) (2020-03-31T21:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。