論文の概要: MDQE: Mining Discriminative Query Embeddings to Segment Occluded
Instances on Challenging Videos
- arxiv url: http://arxiv.org/abs/2303.14395v1
- Date: Sat, 25 Mar 2023 08:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:01:33.324842
- Title: MDQE: Mining Discriminative Query Embeddings to Segment Occluded
Instances on Challenging Videos
- Title(参考訳): MDQE: ビデオに蓄積したセグメントインスタンスに対する差別的クエリ埋め込みのマイニング
- Authors: Minghan Li and Shuai Li and Wangmeng Xiang and Lei Zhang
- Abstract要約: 本稿では,識別クエリ埋め込み (MDQE) を用いて,難易度の高いビデオに隠蔽されたインスタンスを分割する手法を提案する。
提案したMDQEは,簡単なビデオ上での挑戦的なビデオと競争性能について,最先端の結果を得られる,クリップごとの入力を持つ最初のVIS手法である。
- 参考スコア(独自算出の注目度): 18.041697331616948
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While impressive progress has been achieved, video instance segmentation
(VIS) methods with per-clip input often fail on challenging videos with
occluded objects and crowded scenes. This is mainly because instance queries in
these methods cannot encode well the discriminative embeddings of instances,
making the query-based segmenter difficult to distinguish those `hard'
instances. To address these issues, we propose to mine discriminative query
embeddings (MDQE) to segment occluded instances on challenging videos. First,
we initialize the positional embeddings and content features of object queries
by considering their spatial contextual information and the inter-frame object
motion. Second, we propose an inter-instance mask repulsion loss to distance
each instance from its nearby non-target instances. The proposed MDQE is the
first VIS method with per-clip input that achieves state-of-the-art results on
challenging videos and competitive performance on simple videos. In specific,
MDQE with ResNet50 achieves 33.0\% and 44.5\% mask AP on OVIS and YouTube-VIS
2021, respectively. Code of MDQE can be found at
\url{https://github.com/MinghanLi/MDQE_CVPR2023}.
- Abstract(参考訳): 目覚ましい進歩はあったが、クリップごとのインプットを持つビデオインスタンスセグメンテーション(VIS)メソッドは、隠されたオブジェクトや混み合ったシーンを持つ挑戦的なビデオでは失敗することが多い。
これは主に、これらのメソッドのインスタンスクエリが、インスタンスの判別的な埋め込みをうまくエンコードできないため、クエリベースのセグメンタがこれらの'ハード'インスタンスを区別することが難しいためである。
これらの問題に対処するため,本論文では,難解なビデオ上でオクルードされたインスタンスをセグメント化するための識別クエリ埋め込み(mdqe)を提案する。
まず,空間的文脈情報とフレーム間物体の動きを考慮し,対象クエリの位置埋め込みとコンテンツ特徴を初期化する。
次に, 近接する非ターゲットインスタンスから各インスタンスを遠ざけるため, インスタンス間マスク反発損失を提案する。
提案したMDQEは,簡単なビデオ上での挑戦的なビデオと競争性能の最先端結果を実現する,クリップごとの入力を持つ最初のVIS手法である。
具体的には、ResNet50のMDQEはOVISとYouTube-VIS 2021でそれぞれ33.0\%と44.5\%のマスクAPを達成する。
MDQEのコードは \url{https://github.com/MinghanLi/MDQE_CVPR2023} にある。
関連論文リスト
- Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。
十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文 参考訳(メタデータ) (2022-11-16T18:50:14Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge [133.80567761430584]
我々はOVISと呼ばれる大規模データセットを収集し、隠されたシナリオでビデオインスタンスのセグメンテーションを行う。
OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。
全てのベースライン法は、強吸収対象群で約80%の性能低下に遭遇する。
論文 参考訳(メタデータ) (2021-11-15T17:59:03Z) - QueryInst: Parallelly Supervised Mask Query for Instance Segmentation [53.5613957875507]
本稿では,動的マスクヘッドの並列監視によるクエリベースインスタンスセグメンテーション手法であるqueryinstを提案する。
COCO、CityScapes、YouTube-VISの3つの挑戦的なベンチマークについて広範な実験を行っています。
QueryInstは、すべてのオンラインVISアプローチの中で最高のパフォーマンスを達成し、十分なスピード精度のトレードオフを打ち負かす。
論文 参考訳(メタデータ) (2021-05-05T08:38:25Z) - Occluded Video Instance Segmentation [133.80567761430584]
OVISと呼ばれる大規模なデータセットを収集し、ビデオインスタンスのセグメンテーションをブロックする。
OVISは25のセマンティックカテゴリから296kの高品質なインスタンスマスクで構成されている。
最先端のアルゴリズムによって達成された最も高いAPは14.4であり、現実世界のシナリオでオブジェクト、インスタンス、ビデオを理解するための初期段階にあることを示している。
論文 参考訳(メタデータ) (2021-02-02T15:35:43Z) - VideoClick: Video Object Segmentation with a Single Click [93.7733828038616]
ビデオ中の各オブジェクトに対して1クリックずつのボトムアップアプローチを提案し,全ビデオ中の各オブジェクトのセグメンテーションマスクを取得する。
特に、対象フレーム内の各ピクセルを基準フレーム内のオブジェクトまたは背景のいずれかに割り当てる相関ボリュームを構築します。
この新しいCityscapesVideoデータセットの結果から、この困難な環境では、私たちのアプローチがすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-16T23:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。