論文の概要: Towards Real-Time Open-Vocabulary Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2412.04434v1
- Date: Thu, 05 Dec 2024 18:53:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:29.885690
- Title: Towards Real-Time Open-Vocabulary Video Instance Segmentation
- Title(参考訳): リアルタイムオープン語彙ビデオインスタンスセグメンテーションを目指して
- Authors: Bin Yan, Martin Sundermeyer, David Joseph Tan, Huchuan Lu, Federico Tombari,
- Abstract要約: オープン語彙ビデオインスタンス分割(OV-VIS)をリアルタイムに実行するための新しい手法を提案する。
TROY-VISは2つの大規模OV-VISベンチマークで精度と速度の最良のトレードオフを達成する。
これらの結果は,モバイルロボティクスや拡張現実といった動的環境におけるTROY-VISのリアルタイム応用の可能性を示している。
- 参考スコア(独自算出の注目度): 88.04508795121681
- License:
- Abstract: In this paper, we address the challenge of performing open-vocabulary video instance segmentation (OV-VIS) in real-time. We analyze the computational bottlenecks of state-of-the-art foundation models that performs OV-VIS, and propose a new method, TROY-VIS, that significantly improves processing speed while maintaining high accuracy. We introduce three key techniques: (1) Decoupled Attention Feature Enhancer to speed up information interaction between different modalities and scales; (2) Flash Embedding Memory for obtaining fast text embeddings of object categories; and, (3) Kernel Interpolation for exploiting the temporal continuity in videos. Our experiments demonstrate that TROY-VIS achieves the best trade-off between accuracy and speed on two large-scale OV-VIS benchmarks, BURST and LV-VIS, running 20x faster than GLEE-Lite (25 FPS v.s. 1.25 FPS) with comparable or even better accuracy. These results demonstrate TROY-VIS's potential for real-time applications in dynamic environments such as mobile robotics and augmented reality. Code and model will be released at https://github.com/google-research/troyvis.
- Abstract(参考訳): 本稿では,オープン語彙ビデオインスタンスセグメンテーション(OV-VIS)をリアルタイムに行うという課題に対処する。
我々は、OV-VISを実行する最先端基礎モデルの計算ボトルネックを分析し、高い精度を維持しながら処理速度を大幅に向上させる新しい方法TROY-VISを提案する。
本稿では,(1)異なるモダリティとスケール間の情報相互作用を高速化するデカップリング・アテンション・フィーチャー・エンハンサー,(2)オブジェクトカテゴリの高速テキスト埋め込みを得るフラッシュ埋め込みメモリ,(3)ビデオの時間的連続性を利用するカーネル補間という3つの主要な手法を紹介する。
実験の結果,TROY-VISは2つの大規模OV-VISベンチマーク(BURSTとLV-VIS)において,GLEE-Lite(25 FPS v.25 FPS v.1.25 FPS)よりも20倍高速に動作し,精度と速度のトレードオフを達成できた。
これらの結果は,モバイルロボティクスや拡張現実といった動的環境におけるTROY-VISのリアルタイム応用の可能性を示している。
コードとモデルはhttps://github.com/google-research/troyvis.comで公開される。
関連論文リスト
- DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Temporally Efficient Vision Transformer for Video Instance Segmentation [40.32376033054237]
ビデオインスタンスセグメンテーション(VIS)のためのTeViT(Temporally Efficient Vision Transformer)を提案する。
TeViTはほぼ畳み込みなしで、トランスフォーマーバックボーンとクエリベースのビデオインスタンスセグメンテーションヘッドを含んでいる。
広く採用されている3つのVISベンチマークでは、TeViTは最先端の結果を取得し、高い推論速度を維持する。
論文 参考訳(メタデータ) (2022-04-18T17:09:20Z) - Deformable VisTR: Spatio temporal deformable attention for video
instance segmentation [79.76273774737555]
ビデオインスタンスセグメンテーション(VIS)タスクは、クリップ内のすべてのフレーム上でのオブジェクトインスタンスのセグメンテーション、分類、追跡を必要とする。
近年、VisTRは最先端の性能を実証しつつ、エンドツーエンドのトランスフォーマーベースのVISフレームワークとして提案されている。
本稿では,小さな鍵時間サンプリングポイントのみに対応する時間変形型アテンションモジュールであるDeformable VisTRを提案する。
論文 参考訳(メタデータ) (2022-03-12T02:27:14Z) - Crossover Learning for Fast Online Video Instance Segmentation [53.5613957875507]
本稿では,現在のフレームのインスタンス特徴を用いて,他のフレームで同じインスタンスをピクセル単位でローカライズする,新しいクロスオーバー学習方式を提案する。
私たちの知る限り、CrossVISはすべてのオンラインVISメソッドの中で最先端のパフォーマンスを達成し、レイテンシと精度の適切なトレードオフを示します。
論文 参考訳(メタデータ) (2021-04-13T06:47:40Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。