Fugu-MT 論文翻訳(概要): MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos

論文の概要: MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos

arxiv url: http://arxiv.org/abs/2303.14395v1
Date: Sat, 25 Mar 2023 08:13:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 20:01:33.324842
Title: MDQE: Mining Discriminative Query Embeddings to Segment Occluded Instances on Challenging Videos
Title（参考訳）: MDQE: ビデオに蓄積したセグメントインスタンスに対する差別的クエリ埋め込みのマイニング
Authors: Minghan Li and Shuai Li and Wangmeng Xiang and Lei Zhang
Abstract要約: 本稿では,識別クエリ埋め込み (MDQE) を用いて,難易度の高いビデオに隠蔽されたインスタンスを分割する手法を提案する。提案したMDQEは,簡単なビデオ上での挑戦的なビデオと競争性能について,最先端の結果を得られる,クリップごとの入力を持つ最初のVIS手法である。
参考スコア（独自算出の注目度）: 18.041697331616948
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: While impressive progress has been achieved, video instance segmentation (VIS) methods with per-clip input often fail on challenging videos with occluded objects and crowded scenes. This is mainly because instance queries in these methods cannot encode well the discriminative embeddings of instances, making the query-based segmenter difficult to distinguish those `hard' instances. To address these issues, we propose to mine discriminative query embeddings (MDQE) to segment occluded instances on challenging videos. First, we initialize the positional embeddings and content features of object queries by considering their spatial contextual information and the inter-frame object motion. Second, we propose an inter-instance mask repulsion loss to distance each instance from its nearby non-target instances. The proposed MDQE is the first VIS method with per-clip input that achieves state-of-the-art results on challenging videos and competitive performance on simple videos. In specific, MDQE with ResNet50 achieves 33.0\% and 44.5\% mask AP on OVIS and YouTube-VIS 2021, respectively. Code of MDQE can be found at \url{https://github.com/MinghanLi/MDQE_CVPR2023}.
Abstract（参考訳）: 目覚ましい進歩はあったが、クリップごとのインプットを持つビデオインスタンスセグメンテーション(VIS)メソッドは、隠されたオブジェクトや混み合ったシーンを持つ挑戦的なビデオでは失敗することが多い。これは主に、これらのメソッドのインスタンスクエリが、インスタンスの判別的な埋め込みをうまくエンコードできないため、クエリベースのセグメンタがこれらの'ハード'インスタンスを区別することが難しいためである。これらの問題に対処するため,本論文では,難解なビデオ上でオクルードされたインスタンスをセグメント化するための識別クエリ埋め込み(mdqe)を提案する。まず,空間的文脈情報とフレーム間物体の動きを考慮し,対象クエリの位置埋め込みとコンテンツ特徴を初期化する。次に, 近接する非ターゲットインスタンスから各インスタンスを遠ざけるため, インスタンス間マスク反発損失を提案する。提案したMDQEは,簡単なビデオ上での挑戦的なビデオと競争性能の最先端結果を実現する,クリップごとの入力を持つ最初のVIS手法である。具体的には、ResNet50のMDQEはOVISとYouTube-VIS 2021でそれぞれ33.0\%と44.5\%のマスクAPを達成する。 MDQEのコードは \url{https://github.com/MinghanLi/MDQE_CVPR2023} にある。

関連論文リスト

ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts [64.93416171745693]
ビデオオブジェクトの推論は難しいタスクであり、入力ビデオと暗黙の複雑なテキストクエリからマスクシーケンスを生成する。既存の作業は、セグメント化に基づく出力のためにMLLM(Multimodal Large Language Model)を微調整することでこの問題を調査するが、時間に敏感なクエリが与えられたビデオでは難しいケースでは依然として不足している。 MLLMのゼロショット・チェーン・オブ・ソート(CoT)機能を利用してこれらの課題に対処する新しいフレームワークであるThinkVideoを提案する。
論文参考訳（メタデータ） (2025-05-24T07:01:31Z)
Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文参考訳（メタデータ） (2024-12-02T13:17:41Z)
PM-VIS+: High-Performance Video Instance Segmentation without Video Annotation [15.9587266448337]
ビデオインスタンスのセグメンテーションには、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡する必要がある。本稿では,画像データセットを利用してビデオアノテーションを除去する手法を提案する。
論文参考訳（メタデータ） (2024-06-28T05:22:39Z)
1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文参考訳（メタデータ） (2024-06-07T03:13:46Z)
OW-VISCap: Open-World Video Instance Segmentation and Captioning [95.6696714640357]
本研究では,映像中の映像や未確認の物体の分割,追跡,キャプションを共同で行う手法を提案する。マスク付アテンション拡張LDM入力により,検出対象毎にリッチな記述文とオブジェクト中心のキャプションを生成する。当社のアプローチは,3つのタスクにおいて最先端の作業と一致しているか,あるいは超えています。
論文参考訳（メタデータ） (2024-04-04T17:59:58Z)
What is Point Supervision Worth in Video Instance Segmentation? [119.71921319637748]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的とした、難しいビジョンタスクである。トレーニング中、ビデオフレーム内の各オブジェクトについて、人間のアノテーションを1点に減らし、完全に教師されたモデルに近い高品質なマスク予測を得る。 3つのVISベンチマークに関する総合的な実験は、提案フレームワークの競合性能を示し、完全に教師付きされた手法にほぼ一致する。
論文参考訳（メタデータ） (2024-04-01T17:38:25Z)
Robust Online Video Instance Segmentation with Track Queries [15.834703258232002]
我々は,YouTube-VIS 2019ベンチマークにおいて,上位のオフラインメソッドと同等に動作するフルオンライントランスフォーマーベースのビデオインスタンスセグメンテーションモデルを提案する。十分な画像セグメンテーションアーキテクチャと組み合わせることで,ショートビデオに拘束されずに,トラッククエリが印象的な精度を示すことを示す。
論文参考訳（メタデータ） (2022-11-16T18:50:14Z)
Multi-Attention Network for Compressed Video Referring Object Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文参考訳（メタデータ） (2022-07-26T03:00:52Z)
Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文参考訳（メタデータ） (2022-04-22T15:32:46Z)
QueryInst: Parallelly Supervised Mask Query for Instance Segmentation [53.5613957875507]
本稿では,動的マスクヘッドの並列監視によるクエリベースインスタンスセグメンテーション手法であるqueryinstを提案する。 COCO、CityScapes、YouTube-VISの3つの挑戦的なベンチマークについて広範な実験を行っています。 QueryInstは、すべてのオンラインVISアプローチの中で最高のパフォーマンスを達成し、十分なスピード精度のトレードオフを打ち負かす。
論文参考訳（メタデータ） (2021-05-05T08:38:25Z)
Occluded Video Instance Segmentation [133.80567761430584]
OVISと呼ばれる大規模なデータセットを収集し、ビデオインスタンスのセグメンテーションをブロックする。 OVISは25のセマンティックカテゴリから296kの高品質なインスタンスマスクで構成されている。最先端のアルゴリズムによって達成された最も高いAPは14.4であり、現実世界のシナリオでオブジェクト、インスタンス、ビデオを理解するための初期段階にあることを示している。
論文参考訳（メタデータ） (2021-02-02T15:35:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。