論文の概要: MobileInst: Video Instance Segmentation on the Mobile
- arxiv url: http://arxiv.org/abs/2303.17594v1
- Date: Thu, 30 Mar 2023 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 12:26:02.397394
- Title: MobileInst: Video Instance Segmentation on the Mobile
- Title(参考訳): MobileInst: モバイル上のビデオインスタンスのセグメンテーション
- Authors: Renhong Zhang, Tianheng Cheng, Shusheng Yang, Haoyi Jiang, Shuai
Zhang, Jiancheng Lyu, Xin Li, Xiaowen Ying, Dashan Gao, Wenyu Liu, Xinggang
Wang
- Abstract要約: MobileInstは、モバイル機器上のビデオインスタンスセグメンテーションのための軽量でモバイルフレンドリーなフレームワークである。
MobileInstは、ビデオインスタンスのセグメンテーションのためのオブジェクトを追跡するために、シンプルだが効果的なカーネル再利用とカーネル関連を利用する。
我々は,MobileInstの優位性を示すため,COCOとYouTube-VISデータセットの実験を行った。
- 参考スコア(独自算出の注目度): 31.07649403070351
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although recent approaches aiming for video instance segmentation have
achieved promising results, it is still difficult to employ those approaches
for real-world applications on mobile devices, which mainly suffer from (1)
heavy computation and memory cost and (2) complicated heuristics for tracking
objects. To address those issues, we present MobileInst, a lightweight and
mobile-friendly framework for video instance segmentation on mobile devices.
Firstly, MobileInst adopts a mobile vision transformer to extract multi-level
semantic features and presents an efficient query-based dual-transformer
instance decoder for mask kernels and a semantic-enhanced mask decoder to
generate instance segmentation per frame. Secondly, MobileInst exploits simple
yet effective kernel reuse and kernel association to track objects for video
instance segmentation. Further, we propose temporal query passing to enhance
the tracking ability for kernels. We conduct experiments on COCO and
YouTube-VIS datasets to demonstrate the superiority of MobileInst and evaluate
the inference latency on a mobile CPU core of Qualcomm Snapdragon-778G, without
other methods of acceleration. On the COCO dataset, MobileInst achieves 30.5
mask AP and 176 ms on the mobile CPU, which reduces the latency by 50% compared
to the previous SOTA. For video instance segmentation, MobileInst achieves 35.0
AP on YouTube-VIS 2019 and 30.1 AP on YouTube-VIS 2021. Code will be available
to facilitate real-world applications and future research.
- Abstract(参考訳): ビデオインスタンスのセグメンテーションを目指す最近のアプローチは有望な成果を上げているが,(1)重計算とメモリコスト,(2)追跡対象の複雑なヒューリスティックスに苦しむモバイルデバイス上での現実的なアプリケーションにこれらのアプローチを採用することは依然として困難である。
そこで我々は,モバイル端末上でビデオインスタンスセグメンテーションを行うための軽量かつモバイルフレンドリーなフレームワークであるmobileinstを提案する。
まずmobileinstでは,マルチレベルセマンティクス機能を抽出するためにmobile vision transformerを採用し,マスクカーネル用のクエリベースのデュアルトランスフォーマインスタンスデコーダと,セマンティクスエンハンスドマスクデコーダを使用して,フレーム毎にインスタンスセグメンテーションを生成する。
次にmobileinstは、シンプルで効果的なカーネル再利用とカーネルアソシエーションを利用して、ビデオインスタンスセグメンテーションのオブジェクトを追跡する。
さらに,カーネルのトラッキング能力を高めるために,時間的クエリパッシングを提案する。
我々はCOCOとYouTube-VISデータセットの実験を行い、MobileInstの優位性を実証し、Qualcomm Snapdragon-778GのモバイルCPUコア上での推論遅延を評価する。
cocoデータセットでは、mobileinstは30.5マスクapと176msをモバイルcpu上で達成し、以前のsomaと比較してレイテンシを50%削減した。
ビデオインスタンスのセグメンテーションでは、YouTube-VIS 2019で35.0 AP、YouTube-VIS 2021で30.1 APを達成した。
コードは現実世界のアプリケーションと将来の研究を促進するために利用できる。
関連論文リスト
- PP-MobileSeg: Explore the Fast and Accurate Semantic Segmentation Model
on Mobile Devices [4.784867435788648]
PP-MobileSegは、モバイルデバイス上で最先端のパフォーマンスを実現するセマンティックセグメンテーションモデルである。
VIMは最終予測に存在するクラスのみを補間することで、モデルのレイテンシを低減する。
実験の結果,PP-MobileSegは他の手法に比べて精度,モデルサイズ,レイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-11T11:43:10Z) - You Only Segment Once: Towards Real-Time Panoptic Segmentation [68.91492389185744]
YOSOはリアルタイムのパン光学セグメンテーションフレームワークである。
YOSOは、パン光学カーネルと画像特徴マップの間の動的畳み込みを通じてマスクを予測する。
YOSOは、COCOで46.4 PQ、45.6 FPS、都市景観で52.5 PQ、22.6 FPS、ADE20Kで38.0 PQ、35.4 FPSを達成している。
論文 参考訳(メタデータ) (2023-03-26T07:55:35Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - SeaFormer++: Squeeze-enhanced Axial Transformer for Mobile Visual Recognition [29.522565659389183]
本研究では,モバイル視覚認識のための圧縮強化軸変換器 (SeaFormer) を提案する。
モバイルフレンドリーなライバルとTransformerベースのライバルに勝って、パフォーマンスが良く、レイテンシも低い。
論文 参考訳(メタデータ) (2023-01-30T18:34:16Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - MobileOne: An Improved One millisecond Mobile Backbone [14.041480018494394]
モバイルデバイス上に複数のモバイルフレンドリーなネットワークを配置することで、さまざまなメトリクスを分析します。
我々は,iPhone12で1ミリ秒未満の推論時間を実現した,効率的なバックボーンMobileOneを設計する。
我々はMobileOneが,モバイル上での処理速度を何倍にも向上しつつ,効率的なアーキテクチャ内での最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-06-08T17:55:11Z) - Separable Self-attention for Mobile Vision Transformers [34.32399598443582]
本稿では,線形複雑度を持つ分離型自己注意法,すなわち$O(k)$を提案する。
改良されたモデルであるMobileViTv2は、ImageNetオブジェクト分類やMS-COCOオブジェクト検出など、いくつかのモバイルビジョンタスクの最先端技術である。
論文 参考訳(メタデータ) (2022-06-06T15:31:35Z) - TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文 参考訳(メタデータ) (2022-04-12T04:51:42Z) - MobileDets: Searching for Object Detection Architectures for Mobile
Accelerators [61.30355783955777]
逆ボトルネック層は、モバイルデバイス上の最先端のオブジェクト検出モデルにおいて、主要なビルディングブロックとなっている。
通常の畳み込みは、アクセラレーターにおけるオブジェクト検出の遅延精度トレードオフを高める強力なコンポーネントである。
我々は、モバイルアクセラレーター全体で最先端の成果を得られるオブジェクト検出モデル、MobileDetsのファミリーを得る。
論文 参考訳(メタデータ) (2020-04-30T00:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。