論文の概要: MaXTron: Mask Transformer with Trajectory Attention for Video Panoptic
Segmentation
- arxiv url: http://arxiv.org/abs/2311.18537v1
- Date: Thu, 30 Nov 2023 13:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 16:32:00.740830
- Title: MaXTron: Mask Transformer with Trajectory Attention for Video Panoptic
Segmentation
- Title(参考訳): MaXTron:ビデオパノプティカルセグメンテーションのための軌道注意型マスクトランス
- Authors: Ju He, Qihang Yu, Inkyu Shin, Xueqing Deng, Xiaohui Shen, Alan Yuille,
Liang-Chieh Chen
- Abstract要約: MaXTronは、ビデオパノプティクスセグメンテーションに取り組むために、Trajectory AttentionでMask XFormerを利用するフレームワークである。
MaXTronは、トラジェクティブアテンションを効率的に活用し、インバークリップとクロスクリップトラッキングモジュールを使用している。
MaXTronはビデオセグメンテーションベンチマークで最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 31.790573214294152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video panoptic segmentation requires consistently segmenting (for both
`thing' and `stuff' classes) and tracking objects in a video over time. In this
work, we present MaXTron, a general framework that exploits Mask XFormer with
Trajectory Attention to tackle the task. MaXTron enriches an off-the-shelf mask
transformer by leveraging trajectory attention. The deployed mask transformer
takes as input a short clip consisting of only a few frames and predicts the
clip-level segmentation. To enhance the temporal consistency, MaXTron employs
within-clip and cross-clip tracking modules, efficiently utilizing trajectory
attention. Originally designed for video classification, trajectory attention
learns to model the temporal correspondences between neighboring frames and
aggregates information along the estimated motion paths. However, it is
nontrivial to directly extend trajectory attention to the per-pixel dense
prediction tasks due to its quadratic dependency on input size. To alleviate
the issue, we propose to adapt the trajectory attention for both the dense
pixel features and object queries, aiming to improve the short-term and
long-term tracking results, respectively. Particularly, in our within-clip
tracking module, we propose axial-trajectory attention that effectively
computes the trajectory attention for tracking dense pixels sequentially along
the height- and width-axes. The axial decomposition significantly reduces the
computational complexity for dense pixel features. In our cross-clip tracking
module, since the object queries in mask transformer are learned to encode the
object information, we are able to capture the long-term temporal connections
by applying trajectory attention to object queries, which learns to track each
object across different clips. Without bells and whistles, MaXTron demonstrates
state-of-the-art performances on video segmentation benchmarks.
- Abstract(参考訳): ビデオパノプティクスのセグメンテーションには、一貫したセグメンテーション('thing'クラスと'stuff'クラスの両方)と、時間とともにビデオ内のオブジェクトを追跡する必要がある。
本稿では,タスクに対処するために,Mask XFormer と Trajectory Attention を利用する汎用フレームワークである MaXTron を紹介する。
MaXTronは軌道の注意を生かして市販のマスクトランスを充実させる。
デプロイされたマスクトランスフォーマーは、わずか数フレームからなる短いクリップを入力として、クリップレベルのセグメンテーションを予測する。
時間的整合性を高めるため、MaXTronはインバークリップとクロスクリップトラッキングモジュールを採用し、軌道の注意を効率的に利用している。
元々はビデオ分類のために設計され、軌道注意は隣接するフレーム間の時間対応をモデル化し、推定された動き経路に沿って情報を集約する。
しかし、入力サイズに依存するため、ピクセル毎の密集した予測タスクに軌道注意を直接拡張することは非自明である。
この問題を軽減するため,提案手法では,高密度画素特徴とオブジェクトクエリの両方に軌道注意を適応させ,短期追跡結果と長期追跡結果の改善を目標とする。
特に,本モジュールでは,高さ・幅軸に沿って高密度画素を逐次追跡するために,トラジェクティブアテンションを効果的に計算する軸方向アテンションを提案する。
軸方向分解は、高密度画素の特徴の計算複雑性を著しく減少させる。
クロスクリップ追跡モジュールでは,マスキングトランスフォーマーのオブジェクトクエリがオブジェクト情報をエンコードするために学習されるので,各オブジェクトを異なるクリップにまたがって追跡するオブジェクトクエリに軌跡注意をあてることで,長期的な時間的接続を捉えることができる。
MaXTronは、ベルとホイッスルなしで、ビデオセグメンテーションベンチマークで最先端のパフォーマンスを示す。
関連論文リスト
- Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Robust Visual Tracking by Segmentation [103.87369380021441]
対象範囲を推定することは、視覚的物体追跡において根本的な課題となる。
高精度なセグメンテーションマスクを生成するセグメンテーション中心のトラッキングパイプラインを提案する。
我々のトラッカーは、シーンのターゲットを背景コンテンツと明確に区別するターゲット表現をよりよく学習することができる。
論文 参考訳(メタデータ) (2022-03-21T17:59:19Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z) - Self-supervised Sparse to Dense Motion Segmentation [13.888344214818737]
単一ビデオフレームからスパース動作セグメントの密度化を学習するための自己教師付き手法を提案する。
FBMS59 と DAVIS16 でよく知られた動作セグメンテーションデータセットについて検討した。
論文 参考訳(メタデータ) (2020-08-18T11:40:18Z) - Revisiting Sequence-to-Sequence Video Object Segmentation with
Multi-Task Loss and Skip-Memory [4.343892430915579]
ビデオオブジェクト(VOS)は、視覚領域の活発な研究領域である。
現行のアプローチでは、特にオブジェクトが小さく、あるいは一時的に隠された場合、長いシーケンスでオブジェクトを失う。
我々は,エンコーダ・デコーダアーキテクチャとメモリモジュールを組み合わせたシーケンス・ツー・シーケンス・アプローチを構築し,シーケンシャルデータを活用する。
論文 参考訳(メタデータ) (2020-04-25T15:38:09Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。