論文の概要: YolactEdge: Real-time Instance Segmentation on the Edge
- arxiv url: http://arxiv.org/abs/2012.12259v2
- Date: Thu, 1 Apr 2021 17:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:49:53.671367
- Title: YolactEdge: Real-time Instance Segmentation on the Edge
- Title(参考訳): YolactEdge: エッジ上のリアルタイムインスタンスセグメンテーション
- Authors: Haotian Liu, Rafael A. Rivera Soto, Fanyi Xiao, Yong Jae Lee
- Abstract要約: YolactEdgeは、小さなエッジデバイス上でリアルタイムに動作する最初の競合インスタンスセグメンテーションアプローチです。
これを実現するために,最先端のイメージベースリアルタイムメソッドであるyolartを2つ改善した。
YouTube VISおよびMS COCOデータセットの実験では、YolactEdgeが既存のリアルタイムメソッドよりも3〜5倍の速度を生成できることが示されている。
- 参考スコア(独自算出の注目度): 34.110716486315525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose YolactEdge, the first competitive instance segmentation approach
that runs on small edge devices at real-time speeds. Specifically, YolactEdge
runs at up to 30.8 FPS on a Jetson AGX Xavier (and 172.7 FPS on an RTX 2080 Ti)
with a ResNet-101 backbone on 550x550 resolution images. To achieve this, we
make two improvements to the state-of-the-art image-based real-time method
YOLACT: (1) applying TensorRT optimization while carefully trading off speed
and accuracy, and (2) a novel feature warping module to exploit temporal
redundancy in videos. Experiments on the YouTube VIS and MS COCO datasets
demonstrate that YolactEdge produces a 3-5x speed up over existing real-time
methods while producing competitive mask and box detection accuracy. We also
conduct ablation studies to dissect our design choices and modules. Code and
models are available at https://github.com/haotian-liu/yolact_edge.
- Abstract(参考訳): YolactEdgeは,小さなエッジデバイス上でリアルタイムに動作する,最初の競合インスタンスセグメンテーションアプローチである。
具体的には、YolactEdgeはJetson AGX Xavierで最大30.8 FPS(RTX 2080 Tiで172.7 FPS)、ResNet-101のバックボーンを550x550解像度イメージで実行している。
そこで本研究では,現在最先端の画像ベースリアルタイム手法であるYOLACTの2つの改良点について述べる。(1) 速度と精度を慎重に交換しながらTensorRTを最適化し,(2) ビデオの時間的冗長性を活かす新しい特徴変形モジュールである。
YouTube VISとMS COCOデータセットの実験では、YolactEdgeは既存のリアルタイムメソッドよりも3~5倍高速で、競合マスクとボックス検出の精度が得られている。
デザインの選択やモジュールを識別するアブレーション研究も行っています。
コードとモデルはhttps://github.com/haotian-liu/yolact_edgeで入手できる。
関連論文リスト
- FastPCI: Motion-Structure Guided Fast Point Cloud Frame Interpolation [33.03296549547926]
この研究は、ポイントクラウドフレームのためのPraamid Convolution-Transformerアーキテクチャを導入したFast PCIを示す。
我々のハイブリッドConvolution-Transformerは、局所的および長距離的な特徴学習を改善し、ピラミッドネットワークはマルチレベル機能を提供し、計算量を削減する。
この設計は,(1)正確なシーンフローが3次元構造を保存すること,(2)前の時刻の点雲が将来の時刻からの逆運動で再構成可能であること,の2つの事実によって動機付けられている。
論文 参考訳(メタデータ) (2024-10-25T14:10:17Z) - RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文 参考訳(メタデータ) (2022-10-13T16:03:53Z) - Real-time Online Video Detection with Temporal Smoothing Transformers [4.545986838009774]
優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。
この問題に対処するため、カーネルのレンズを通してビデオトランスのクロスアテンションを再構成する。
テンポラルスムース変換器であるTeSTraを構築し、キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
論文 参考訳(メタデータ) (2022-09-19T17:59:02Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Deformable VisTR: Spatio temporal deformable attention for video
instance segmentation [79.76273774737555]
ビデオインスタンスセグメンテーション(VIS)タスクは、クリップ内のすべてのフレーム上でのオブジェクトインスタンスのセグメンテーション、分類、追跡を必要とする。
近年、VisTRは最先端の性能を実証しつつ、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。
本稿では,小さな鍵時間サンプリングポイントのみに対応する時間変形型アテンションモジュールであるDeformable VisTRを提案する。
論文 参考訳(メタデータ) (2022-03-12T02:27:14Z) - Fast and Data Efficient Reinforcement Learning from Pixels via
Non-Parametric Value Approximation [90.78178803486746]
離散動作,画素ベース環境のための強化学習アルゴリズムであるNonparametric Approximation of Inter-Trace Return (NAIT)を提案する。
ATARI100kの26ゲーム版と57ゲーム版の両方においてNAITを実証的に評価した。
論文 参考訳(メタデータ) (2022-03-07T00:31:31Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Feature Reuse and Fusion for Real-time Semantic segmentation [0.0]
高分解能を維持しながら速度を上げる方法は議論され解決された問題である。
従来の設計経験に基づいて軽量ネットワークを設計し、最先端のリアルタイムセマンティックセマンティックセグメンテーションのレベルに到達したいと考えています。
論文 参考訳(メタデータ) (2021-05-27T06:47:02Z) - Deep Dual-resolution Networks for Real-time and Accurate Semantic
Segmentation of Road Scenes [0.23090185577016442]
道路シーンのリアルタイムセマンティックセグメンテーションのための新しいディープデュアルリゾリューションネットワーク(DDRNets)を提案する。
提案手法は,Cityscapes と CamVid 両方のデータセットにおける精度と速度の新たなトレードオフを実現する。
論文 参考訳(メタデータ) (2021-01-15T12:56:18Z) - Directional Deep Embedding and Appearance Learning for Fast Video Object
Segmentation [11.10636117512819]
本稿では,オンラインファインチューニングを不要とした指向性深層埋め込みとYouTube外見学習(DEmbed)手法を提案する。
本手法は,オンラインファインチューニングを使わずに最先端のVOS性能を実現する。
論文 参考訳(メタデータ) (2020-02-17T01:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。