Fugu-MT 論文翻訳(概要): MaXTron: Mask Transformer with Trajectory Attention for Video Panoptic Segmentation

論文の概要: MaXTron: Mask Transformer with Trajectory Attention for Video Panoptic Segmentation

arxiv url: http://arxiv.org/abs/2311.18537v1
Date: Thu, 30 Nov 2023 13:20:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 16:32:00.740830
Title: MaXTron: Mask Transformer with Trajectory Attention for Video Panoptic Segmentation
Title（参考訳）: MaXTron:ビデオパノプティカルセグメンテーションのための軌道注意型マスクトランス
Authors: Ju He, Qihang Yu, Inkyu Shin, Xueqing Deng, Xiaohui Shen, Alan Yuille, Liang-Chieh Chen
Abstract要約: MaXTronは、ビデオパノプティクスセグメンテーションに取り組むために、Trajectory AttentionでMask XFormerを利用するフレームワークである。 MaXTronは、トラジェクティブアテンションを効率的に活用し、インバークリップとクロスクリップトラッキングモジュールを使用している。 MaXTronはビデオセグメンテーションベンチマークで最先端のパフォーマンスを示す。
参考スコア（独自算出の注目度）: 31.790573214294152
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video panoptic segmentation requires consistently segmenting (for both `thing' and `stuff' classes) and tracking objects in a video over time. In this work, we present MaXTron, a general framework that exploits Mask XFormer with Trajectory Attention to tackle the task. MaXTron enriches an off-the-shelf mask transformer by leveraging trajectory attention. The deployed mask transformer takes as input a short clip consisting of only a few frames and predicts the clip-level segmentation. To enhance the temporal consistency, MaXTron employs within-clip and cross-clip tracking modules, efficiently utilizing trajectory attention. Originally designed for video classification, trajectory attention learns to model the temporal correspondences between neighboring frames and aggregates information along the estimated motion paths. However, it is nontrivial to directly extend trajectory attention to the per-pixel dense prediction tasks due to its quadratic dependency on input size. To alleviate the issue, we propose to adapt the trajectory attention for both the dense pixel features and object queries, aiming to improve the short-term and long-term tracking results, respectively. Particularly, in our within-clip tracking module, we propose axial-trajectory attention that effectively computes the trajectory attention for tracking dense pixels sequentially along the height- and width-axes. The axial decomposition significantly reduces the computational complexity for dense pixel features. In our cross-clip tracking module, since the object queries in mask transformer are learned to encode the object information, we are able to capture the long-term temporal connections by applying trajectory attention to object queries, which learns to track each object across different clips. Without bells and whistles, MaXTron demonstrates state-of-the-art performances on video segmentation benchmarks.
Abstract（参考訳）: ビデオパノプティクスのセグメンテーションには、一貫したセグメンテーション('thing'クラスと'stuff'クラスの両方)と、時間とともにビデオ内のオブジェクトを追跡する必要がある。本稿では,タスクに対処するために,Mask XFormer と Trajectory Attention を利用する汎用フレームワークである MaXTron を紹介する。 MaXTronは軌道の注意を生かして市販のマスクトランスを充実させる。デプロイされたマスクトランスフォーマーは、わずか数フレームからなる短いクリップを入力として、クリップレベルのセグメンテーションを予測する。時間的整合性を高めるため、MaXTronはインバークリップとクロスクリップトラッキングモジュールを採用し、軌道の注意を効率的に利用している。元々はビデオ分類のために設計され、軌道注意は隣接するフレーム間の時間対応をモデル化し、推定された動き経路に沿って情報を集約する。しかし、入力サイズに依存するため、ピクセル毎の密集した予測タスクに軌道注意を直接拡張することは非自明である。この問題を軽減するため,提案手法では,高密度画素特徴とオブジェクトクエリの両方に軌道注意を適応させ,短期追跡結果と長期追跡結果の改善を目標とする。特に,本モジュールでは,高さ・幅軸に沿って高密度画素を逐次追跡するために,トラジェクティブアテンションを効果的に計算する軸方向アテンションを提案する。軸方向分解は、高密度画素の特徴の計算複雑性を著しく減少させる。クロスクリップ追跡モジュールでは,マスキングトランスフォーマーのオブジェクトクエリがオブジェクト情報をエンコードするために学習されるので,各オブジェクトを異なるクリップにまたがって追跡するオブジェクトクエリに軌跡注意をあてることで,長期的な時間的接続を捉えることができる。 MaXTronは、ベルとホイッスルなしで、ビデオセグメンテーションベンチマークで最先端のパフォーマンスを示す。

関連論文リスト

Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文参考訳（メタデータ） (2025-03-28T09:34:11Z)
3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文参考訳（メタデータ） (2024-08-19T10:08:25Z)
Training-Free Robust Interactive Video Object Segmentation [82.05906654403684]
対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプトトラッキングフレームワークを提案する。スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクトワイズ情報をキャプチャします。我々のフレームワークは、人気のあるVOSデータセット上で、ゼロショットビデオセグメンテーションの堅牢な結果を示してきた。
論文参考訳（メタデータ） (2024-06-08T14:25:57Z)
Efficient Long-Short Temporal Attention Network for Unsupervised Video Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文参考訳（メタデータ） (2023-09-21T01:09:46Z)
Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文参考訳（メタデータ） (2023-09-07T17:59:41Z)
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文参考訳（メタデータ） (2023-08-16T17:58:34Z)
TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文参考訳（メタデータ） (2023-03-09T10:46:23Z)
Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文参考訳（メタデータ） (2022-03-14T17:55:41Z)
Self-supervised Sparse to Dense Motion Segmentation [13.888344214818737]
単一ビデオフレームからスパース動作セグメントの密度化を学習するための自己教師付き手法を提案する。 FBMS59 と DAVIS16 でよく知られた動作セグメンテーションデータセットについて検討した。
論文参考訳（メタデータ） (2020-08-18T11:40:18Z)
Fast Video Object Segmentation With Temporal Aggregation Network and Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-11T05:44:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。