論文の概要: MDQE: Mining Discriminative Query Embeddings to Segment Occluded
Instances on Challenging Videos
- arxiv url: http://arxiv.org/abs/2303.14395v1
- Date: Sat, 25 Mar 2023 08:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:01:33.324842
- Title: MDQE: Mining Discriminative Query Embeddings to Segment Occluded
Instances on Challenging Videos
- Title(参考訳): MDQE: ビデオに蓄積したセグメントインスタンスに対する差別的クエリ埋め込みのマイニング
- Authors: Minghan Li and Shuai Li and Wangmeng Xiang and Lei Zhang
- Abstract要約: 本稿では,識別クエリ埋め込み (MDQE) を用いて,難易度の高いビデオに隠蔽されたインスタンスを分割する手法を提案する。
提案したMDQEは,簡単なビデオ上での挑戦的なビデオと競争性能について,最先端の結果を得られる,クリップごとの入力を持つ最初のVIS手法である。
- 参考スコア(独自算出の注目度): 18.041697331616948
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While impressive progress has been achieved, video instance segmentation
(VIS) methods with per-clip input often fail on challenging videos with
occluded objects and crowded scenes. This is mainly because instance queries in
these methods cannot encode well the discriminative embeddings of instances,
making the query-based segmenter difficult to distinguish those `hard'
instances. To address these issues, we propose to mine discriminative query
embeddings (MDQE) to segment occluded instances on challenging videos. First,
we initialize the positional embeddings and content features of object queries
by considering their spatial contextual information and the inter-frame object
motion. Second, we propose an inter-instance mask repulsion loss to distance
each instance from its nearby non-target instances. The proposed MDQE is the
first VIS method with per-clip input that achieves state-of-the-art results on
challenging videos and competitive performance on simple videos. In specific,
MDQE with ResNet50 achieves 33.0\% and 44.5\% mask AP on OVIS and YouTube-VIS
2021, respectively. Code of MDQE can be found at
\url{https://github.com/MinghanLi/MDQE_CVPR2023}.
- Abstract(参考訳): 目覚ましい進歩はあったが、クリップごとのインプットを持つビデオインスタンスセグメンテーション(VIS)メソッドは、隠されたオブジェクトや混み合ったシーンを持つ挑戦的なビデオでは失敗することが多い。
これは主に、これらのメソッドのインスタンスクエリが、インスタンスの判別的な埋め込みをうまくエンコードできないため、クエリベースのセグメンタがこれらの'ハード'インスタンスを区別することが難しいためである。
これらの問題に対処するため,本論文では,難解なビデオ上でオクルードされたインスタンスをセグメント化するための識別クエリ埋め込み(mdqe)を提案する。
まず,空間的文脈情報とフレーム間物体の動きを考慮し,対象クエリの位置埋め込みとコンテンツ特徴を初期化する。
次に, 近接する非ターゲットインスタンスから各インスタンスを遠ざけるため, インスタンス間マスク反発損失を提案する。
提案したMDQEは,簡単なビデオ上での挑戦的なビデオと競争性能の最先端結果を実現する,クリップごとの入力を持つ最初のVIS手法である。
具体的には、ResNet50のMDQEはOVISとYouTube-VIS 2021でそれぞれ33.0\%と44.5\%のマスクAPを達成する。
MDQEのコードは \url{https://github.com/MinghanLi/MDQE_CVPR2023} にある。
関連論文リスト
- PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation [15.9587266448337]
ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。
本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T05:22:39Z) - OW-VISCap: Open-World Video Instance Segmentation and Captioning [95.6696714640357]
本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。
マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。
当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
論文 参考訳(メタデータ) (2024-04-04T17:59:58Z) - What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。
トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。
3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文 参考訳(メタデータ) (2024-04-01T17:38:25Z) - Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - QueryInst: Parallelly Supervised Mask Query for Instance Segmentation [53.5613957875507]
本稿では,動的マスクヘッドの並列監視によるクエリベースインスタンスセグメンテーション手法であるqueryinstを提案する。
COCO、CityScapes、YouTube-VISの3つの挑戦的なベンチマークについて広範な実験を行っています。
QueryInstは、すべてのオンラインVISアプローチの中で最高のパフォーマンスを達成し、十分なスピード精度のトレードオフを打ち負かす。
論文 参考訳(メタデータ) (2021-05-05T08:38:25Z) - Occluded Video Instance Segmentation [133.80567761430584]
OVISと呼ばれる大規模なデータセットを収集し、ビデオインスタンスのセグメンテーションをブロックする。
OVISは25のセマンティックカテゴリから296kの高品質なインスタンスマスクで構成されている。
最先端のアルゴリズムによって達成された最も高いAPは14.4であり、現実世界のシナリオでオブジェクト、インスタンス、ビデオを理解するための初期段階にあることを示している。
論文 参考訳(メタデータ) (2021-02-02T15:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。