論文の概要: Video Instance Segmentation using Inter-Frame Communication Transformers
- arxiv url: http://arxiv.org/abs/2106.03299v1
- Date: Mon, 7 Jun 2021 02:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:03:30.857887
- Title: Video Instance Segmentation using Inter-Frame Communication Transformers
- Title(参考訳): フレーム間通信変換器を用いたビデオインスタンス分割
- Authors: Sukjun Hwang, Miran Heo, Seoung Wug Oh, Seon Joo Kim
- Abstract要約: 最近では、フレーム単位のパイプラインは、フレーム単位のメソッドよりも優れたパフォーマンスを示している。
以前は、フレーム間通信を実現するために、大量の計算とメモリ使用量が必要だった。
フレーム間の情報転送のオーバーヘッドを大幅に低減するフレーム間通信変換器(IFC)を提案する。
- 参考スコア(独自算出の注目度): 28.539742250704695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel end-to-end solution for video instance segmentation (VIS)
based on transformers. Recently, the per-clip pipeline shows superior
performance over per-frame methods leveraging richer information from multiple
frames. However, previous per-clip models require heavy computation and memory
usage to achieve frame-to-frame communications, limiting practicality. In this
work, we propose Inter-frame Communication Transformers (IFC), which
significantly reduces the overhead for information-passing between frames by
efficiently encoding the context within the input clip. Specifically, we
propose to utilize concise memory tokens as a mean of conveying information as
well as summarizing each frame scene. The features of each frame are enriched
and correlated with other frames through exchange of information between the
precisely encoded memory tokens. We validate our method on the latest benchmark
sets and achieved the state-of-the-art performance (AP 44.6 on YouTube-VIS 2019
val set using the offline inference) while having a considerably fast runtime
(89.4 FPS). Our method can also be applied to near-online inference for
processing a video in real-time with only a small delay. The code will be made
available.
- Abstract(参考訳): 本稿では,トランスを用いたビデオインスタンスセグメンテーション(VIS)のための新しいエンドツーエンドソリューションを提案する。
近年,クリップ単位のパイプラインは,複数のフレームからよりリッチな情報を活用するフレーム単位よりも優れた性能を示している。
しかし、フレーム間通信を実現するために、従来のクリック単位のモデルは計算量とメモリ使用量を必要とするため、実用性は制限される。
本研究では,入力クリップ内のコンテキストを効率的にエンコードすることにより,フレーム間の情報転送のオーバーヘッドを大幅に低減するフレーム間通信トランス(ifc)を提案する。
具体的には,各フレームシーンの要約と情報伝達手段として,簡潔なメモリトークンの利用を提案する。
各フレームの特徴は、正確に符号化されたメモリトークン間の情報交換を通じて、他のフレームと豊かに関連付けられる。
提案手法を最新のベンチマークセットで検証し,非常に高速なランタイム(89.4 FPS)で最先端のパフォーマンス(YouTube-VIS 2019 valセットのAP 44.6)を達成した。
提案手法は,遅延の少ない映像をリアルタイムに処理するためのニアオンライン推論にも応用できる。
コードは利用可能になります。
関連論文リスト
- Space-time Reinforcement Network for Video Object Segmentation [16.67780344875854]
ビデオオブジェクトセグメンテーション(VOS)ネットワークは通常、メモリベースの手法を使用する。
これらの手法は,1) 隣接するビデオフレーム間の空間的コヒーレンスをデータの整合によって破壊し,2) 画素レベルのマッチングが望ましくないミスマッチを引き起こすという2つの問題に悩まされる。
本稿では,隣接フレーム間の補助フレームを生成することを提案し,クエリの暗黙的短時間参照として機能する。
論文 参考訳(メタデータ) (2024-05-07T06:26:30Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring [76.54162653678871]
本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - No frame left behind: Full Video Action Recognition [26.37329995193377]
我々は全映像の動作認識を提案し,全映像のフレームを考察する。
まず、時間次元に沿って全てのフレームアクティベーションをクラスタ化する。
次に、時間的にクラスタ内のフレームをより少ない数の表現に集約する。
論文 参考訳(メタデータ) (2021-03-29T07:44:28Z) - Frame-To-Frame Consistent Semantic Segmentation [2.538209532048867]
我々は、ビデオ内の連続したフレームを通して特徴を伝播する畳み込みニューラルネットワーク(CNN)を訓練する。
その結果,時間情報を追加することで,フレーム間の一貫性とより正確な画像理解が得られることがわかった。
論文 参考訳(メタデータ) (2020-08-03T15:28:40Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。