論文の概要: Real-time instance segmentation with polygons using an
Intersection-over-Union loss
- arxiv url: http://arxiv.org/abs/2305.05490v1
- Date: Tue, 9 May 2023 14:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 12:29:54.211983
- Title: Real-time instance segmentation with polygons using an
Intersection-over-Union loss
- Title(参考訳): 交叉結合損失を用いた多角形実時間インスタンスセグメンテーション
- Authors: Katia Jodogne-Del Litto, Guillaume-Alexandre Bilodeau
- Abstract要約: 従来型回帰L1損失を新しい領域ベース損失と新しい順序損失で向上させることにより、CenterPolyよりも改善する。
実験により、回帰損失と地域ベースの損失の組み合わせは、CityscapesとIDDテストセットに大きな改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 13.020122353444497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting a binary mask for an object is more accurate but also more
computationally expensive than a bounding box. Polygonal masks as developed in
CenterPoly can be a good compromise. In this paper, we improve over CenterPoly
by enhancing the classical regression L1 loss with a novel region-based loss
and a novel order loss, as well as with a new training process for the vertices
prediction head. Moreover, the previous methods that predict polygonal masks
use different coordinate systems, but it is not clear if one is better than
another, if we abstract the architecture requirement. We therefore investigate
their impact on the prediction. We also use a new evaluation protocol with
oracle predictions for the detection head, to further isolate the segmentation
process and better compare the polygonal masks with binary masks. Our instance
segmentation method is trained and tested with challenging datasets containing
urban scenes, with a high density of road users. Experiments show, in
particular, that using a combination of a regression loss and a region-based
loss allows significant improvements on the Cityscapes and IDD test set
compared to CenterPoly. Moreover the inference stage remains fast enough to
reach real-time performance with an average of 0.045 s per frame for
2048$\times$1024 images on a single RTX 2070 GPU. The code is available
$\href{https://github.com/KatiaJDL/CenterPoly-v2}{\text{here}}$.
- Abstract(参考訳): オブジェクトのバイナリマスクの予測はより正確だが、バウンディングボックスよりも計算コストが高い。
センターポリで開発された多角形のマスクは良い妥協点となる。
本稿では,従来のレグレッションL1損失を,新しい領域ベース損失と新しい順序損失ととともに,頂点予測ヘッドの新たなトレーニングプロセスにより向上させることにより,CenterPolyよりも改善する。
さらに, 従来の多角形マスク予測手法では, 座標系が異なるが, アーキテクチャ要件を抽象化すれば, 他よりも優れているかは明らかではない。
したがって、予測に対する彼らの影響を調査する。
また,検出ヘッドのオラクル予測を用いた新しい評価プロトコルを用いて,セグメント化プロセスをさらに分離し,多角形マスクと二乗マスクをよく比較する。
本手法は,道路利用者の密度が高い都市景観を含む挑戦的なデータセットを用いて,訓練・試験を行う。
特に実験では、回帰損失と領域ベース損失の組み合わせを用いることで、cityscapesとiddテストセットをcenterpolyと比較して大幅に改善できることが示されている。
さらに、推論ステージは、RTX 2070 GPUで2048$\times$1024の画像に対して、1フレームあたり0.045 sでリアルタイムのパフォーマンスに到達するのに十分な速度で残っている。
コードは$\href{https://github.com/KatiaJDL/CenterPoly-v2}{\text{here}}$で入手できる。
関連論文リスト
- Box2Poly: Memory-Efficient Polygon Prediction of Arbitrarily Shaped and
Rotated Text [27.556486778356014]
トランスフォーマーに基づくテキスト検出技術は多角形を予測する。
本稿では,ポリゴン予測のためのカスケードデコードパイプラインであるSparse R-CNNをルーツとする革新的なアプローチを提案する。
提案手法は,先行結果のスケールと位置を考慮し,ポリゴン予測を反復的に精錬することで精度を確保できる。
論文 参考訳(メタデータ) (2023-09-20T12:19:07Z) - PolyFormer: Referring Image Segmentation as Sequential Polygon
Generation [20.55281741205142]
画素レベルのセグメンテーションマスクを直接予測する代わりに、画像セグメンテーションを参照する問題はシーケンシャルポリゴン生成として定式化される。
これは新しいシーケンス・ツー・シーケンス・フレームワークであるPolygon Transformer(PolyFormer)によって実現されている。
より正確な幾何学的位置決めを行うために,正確な浮動小数点座標を直接予測する回帰型デコーダを提案する。
論文 参考訳(メタデータ) (2023-02-14T23:00:25Z) - Accurate Polygonal Mapping of Buildings in Satellite Imagery [30.262871819346213]
本稿では,マスク可逆性の問題に対処して,建物の多角写像問題について検討する。
本稿では,異なるレベルの監視信号から得られる特徴埋め込みの新たな相互作用機構を提案し,可逆なビルディングマスクを得る。
学習した可逆的なビルディングマスクは、ビルの高機能多角形マッピングのための深層畳み込みニューラルネットワークの進歩の恩恵を享受できることを示す。
論文 参考訳(メタデータ) (2022-08-01T04:54:55Z) - Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Planning and Learning with Adaptive Lookahead [74.39132848733847]
ポリシーイテレーション(PI)アルゴリズムは、欲求の一段階の改善と政策評価を交互に行う。
近年の文献では、複数段階のルックアヘッドポリシーの改善が、イテレーション毎の複雑さの増加を犠牲にして、よりコンバージェンス率の向上につながることが示されている。
本研究では,多段階の地平線を状態と推定値の関数として動的に適応する手法を初めて提案する。
論文 参考訳(メタデータ) (2022-01-28T20:26:55Z) - CenterPoly: real-time instance segmentation using bounding polygons [11.365829102707014]
有界多角形を用いたリアルタイムインスタンスセグメンテーションのための新しい手法であるCenterPolyを提案する。
都市部密集環境における道路利用者の検出に応用し,自動走行車などのインテリジェント交通システムへの適用に適している。
ネットワークパラメータのほとんどはネットワークヘッドによって共有され、高速かつ軽量でリアルタイムに実行することができる。
論文 参考訳(メタデータ) (2021-08-19T21:31:30Z) - BoxInst: High-Performance Instance Segmentation with Box Annotations [102.10713189544947]
本稿では,トレーニング用バウンディングボックスアノテーションのみを用いて,マスクレベルのインスタンスセグメンテーションを実現する高性能な手法を提案する。
私たちの中核となる考え方は、セグメンテーションネットワーク自体を変更することなく、インスタンスセグメンテーションにおける学習マスクの喪失を活用することです。
論文 参考訳(メタデータ) (2020-12-03T22:27:55Z) - Gaussian Vector: An Efficient Solution for Facial Landmark Detection [3.058685580689605]
本稿では,空間情報を保存し,出力サイズを小さくし,後処理を簡素化する新しい手法であるガウスベクトルを提案する。
提案手法を300W, COFW, WFLW, JDランドマークで評価した。
論文 参考訳(メタデータ) (2020-10-03T10:15:41Z) - Towards Accurate Pixel-wise Object Tracking by Attention Retrieval [50.06436600343181]
本稿では,バックボーンの特徴に対するソフト空間制約を実現するために,アテンション検索ネットワーク(ARN)を提案する。
私たちは40fpsで動作しながら、最近のピクセルワイドオブジェクトトラッキングベンチマークであるVOT 2020に最先端のベンチマークを新たに設定しました。
論文 参考訳(メタデータ) (2020-08-06T16:25:23Z) - Enhancing Geometric Factors in Model Learning and Inference for Object
Detection and Instance Segmentation [91.12575065731883]
境界ボックス回帰および非最大抑圧(NMS)における幾何学的要素の強化を目的とした完全IoU損失とクラスタNMSを提案する。
CIoU損失を用いたディープラーニングモデルのトレーニングは、広く採用されている$ell_n$-norm損失とIoUベースの損失と比較して、一貫性のあるAPとARの改善をもたらす。
クラスタ-NMSは、純粋なGPU実装のため非常に効率的であり、APとARの両方を改善するために幾何学的要素を組み込むことができる。
論文 参考訳(メタデータ) (2020-05-07T16:00:27Z) - Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the
Wild [104.61677518999976]
顔のランドマークを検出するために,Pixel-in-Pixel Net(PIPNet)を提案する。
提案モデルは,熱マップ回帰に基づく新しい検出ヘッドを備える。
PIPNetのクロスドメイン一般化能力をさらに向上するため,カリキュラムによる自己学習を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。