論文の概要: A Simple Video Segmenter by Tracking Objects Along Axial Trajectories
- arxiv url: http://arxiv.org/abs/2311.18537v2
- Date: Wed, 12 Jun 2024 08:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 23:23:18.310419
- Title: A Simple Video Segmenter by Tracking Objects Along Axial Trajectories
- Title(参考訳): 軸方向の物体追跡による簡易ビデオセグメンタ
- Authors: Ju He, Qihang Yu, Inkyu Shin, Xueqing Deng, Alan Yuille, Xiaohui Shen, Liang-Chieh Chen,
- Abstract要約: ビデオセグメンテーションは、時間とともにオブジェクトのセグメンテーションと追跡を必要とする。
入力サイズに二次的な依存があるため、高解像度の入力特徴を持つビデオセグメンテーションに自己注意を直接適用することが大きな課題となる。
Axial-VSは,物体を軸方向に沿って追跡することで映像セグメンタを強化するフレームワークである。
- 参考スコア(独自算出の注目度): 30.272535124699164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video segmentation requires consistently segmenting and tracking objects over time. Due to the quadratic dependency on input size, directly applying self-attention to video segmentation with high-resolution input features poses significant challenges, often leading to insufficient GPU memory capacity. Consequently, modern video segmenters either extend an image segmenter without incorporating any temporal attention or resort to window space-time attention in a naive manner. In this work, we present Axial-VS, a general and simple framework that enhances video segmenters by tracking objects along axial trajectories. The framework tackles video segmentation through two sub-tasks: short-term within-clip segmentation and long-term cross-clip tracking. In the first step, Axial-VS augments an off-the-shelf clip-level video segmenter with the proposed axial-trajectory attention, sequentially tracking objects along the height- and width-trajectories within a clip, thereby enhancing temporal consistency by capturing motion trajectories. The axial decomposition significantly reduces the computational complexity for dense features, and outperforms the window space-time attention in segmentation quality. In the second step, we further employ axial-trajectory attention to the object queries in clip-level segmenters, which are learned to encode object information, thereby aiding object tracking across different clips and achieving consistent segmentation throughout the video. Without bells and whistles, Axial-VS showcases state-of-the-art results on video segmentation benchmarks, emphasizing its effectiveness in addressing the limitations of modern clip-level video segmenters. Code and models are available at https://github.com/TACJu/Axial-VS.
- Abstract(参考訳): ビデオセグメンテーションは、時間とともにオブジェクトのセグメンテーションと追跡を必要とする。
入力サイズに二次的な依存があるため、高解像度の入力機能を備えたビデオセグメンテーションに直接自己アテンションを適用することは大きな課題となり、しばしばGPUメモリ容量が不足する。
その結果、現代のビデオセグメンタは、時間的注意を組み込まずに画像セグメンタを拡張したり、あるいは窓の時空間の注意を素直に頼ったりすることができる。
本研究では,物体を軸方向に沿って追従することで,映像セグメンタを強化する,汎用的でシンプルなフレームワークであるAxial-VSを提案する。
このフレームワークは,2つのサブタスク – 短期的イントラクリップセグメンテーションと長期的クロスクリップトラッキング – を通じて,ビデオセグメンテーションに取り組む。
第1のステップでは、Axial-VSは、提案した軸方向の注目により、オフザシェルフクリップレベルのビデオセグメンタを拡張し、クリップ内の高さおよび幅軌跡に沿ったオブジェクトを逐次追跡することにより、モーショントラジェクトリをキャプチャすることで、時間的一貫性を向上させる。
軸方向分解は、高密度な特徴に対する計算複雑性を著しく低減し、セグメンテーション品質においてウィンドウ時空間の注意力より優れる。
第2のステップでは、クリップレベルのセグメンタにおいて、オブジェクトクエリに軸トラジェクティブを付加し、オブジェクト情報を符号化し、異なるクリップをまたいでオブジェクト追跡を支援し、ビデオ全体を通して一貫したセグメンテーションを実現する。
Axial-VSは、ビデオセグメンテーションのベンチマークで最先端の結果を示し、現代のクリップレベルのビデオセグメンタの制限に対処する効果を強調している。
コードとモデルはhttps://github.com/TACJu/Axial-VS.comで入手できる。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。
スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。
我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文 参考訳(メタデータ) (2024-06-08T14:25:57Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Self-supervised Sparse to Dense Motion Segmentation [13.888344214818737]
単一ビデオフレームからスパース動作セグメントの密度化を学習するための自己教師付き手法を提案する。
FBMS59 と DAVIS16 でよく知られた動作セグメンテーションデータセットについて検討した。
論文 参考訳(メタデータ) (2020-08-18T11:40:18Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。