論文の概要: ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2307.02010v2
- Date: Mon, 10 Jul 2023 09:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 17:45:32.314474
- Title: ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation
- Title(参考訳): ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised Video Object Segmentation
- Authors: Jiahao Li, Yuanyou Xu, Zongxin Yang, Yi Yang, Yueting Zhuang
- Abstract要約: マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
- 参考スコア(独自算出の注目度): 62.98078087018469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Associating Objects with Transformers (AOT) framework has exhibited
exceptional performance in a wide range of complex scenarios for video object
segmentation. In this study, we introduce MSDeAOT, a variant of the AOT series
that incorporates transformers at multiple feature scales. Leveraging the
hierarchical Gated Propagation Module (GPM), MSDeAOT efficiently propagates
object masks from previous frames to the current frame using a feature scale
with a stride of 16. Additionally, we employ GPM in a more refined feature
scale with a stride of 8, leading to improved accuracy in detecting and
tracking small objects. Through the implementation of test-time augmentations
and model ensemble techniques, we achieve the top-ranking position in the
EPIC-KITCHEN VISOR Semi-supervised Video Object Segmentation Challenge.
- Abstract(参考訳): Associating Objects with Transformers (AOT)フレームワークは、ビデオオブジェクトセグメンテーションの幅広い複雑なシナリオにおいて、例外的なパフォーマンスを示した。
本研究では,複数の特徴尺度で変換器を組み込んだAOTシリーズの変種であるMSDeAOTを紹介する。
階層的なGated Propagation Module (GPM)を活用することで、MSDeAOTは16のストライドを持つ特徴スケールを用いて、オブジェクトマスクを以前のフレームから現在のフレームに効率的に伝播する。
さらに,GPMを8ストライドで改良した機能スケールで採用することにより,小型物体の検出・追跡の精度が向上した。
テスト時間拡張とモデルアンサンブル技術の実装により,EPIC-KITCHEN VISOR セミ教師付きビデオオブジェクトセグメンテーションチャレンジの上位に位置する。
関連論文リスト
- Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: TREK-150 Single
Object Tracking [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16と8の2つの特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
設計の有効性の証明として,EPIC-KITCHENS TREK-150 Object Tracking Challengeで1位を獲得した。
論文 参考訳(メタデータ) (2023-07-05T03:50:58Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。