論文の概要: 2nd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2406.08192v1
- Date: Wed, 12 Jun 2024 13:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:55:44.817863
- Title: 2nd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation
- Title(参考訳): 2nd Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation
- Authors: Zhensong Xu, Jiangtao Yao, Chengjing Wu, Ting Liu, Luoqi Liu,
- Abstract要約: インスタンスセグメンテーションを使用して、MOSEの有効およびテストセットから追加の事前学習データを生成する。
セグメント化されたインスタンスは、COCOから抽出されたオブジェクトと組み合わせて、トレーニングデータを増強し、ベースラインモデルのセマンティック表現を強化する。
PVUW 2024のMOSEトラックでは,$mathcalJ$が0.8007,$mathcalF$が0.8683,$mathcalJ$&$mathcalF$が0.8345であった。
- 参考スコア(独自算出の注目度): 8.858448849921832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex video object segmentation serves as a fundamental task for a wide range of downstream applications such as video editing and automatic data annotation. Here we present the 2nd place solution in the MOSE track of PVUW 2024. To mitigate problems caused by tiny objects, similar objects and fast movements in MOSE. We use instance segmentation to generate extra pretraining data from the valid and test set of MOSE. The segmented instances are combined with objects extracted from COCO to augment the training data and enhance semantic representation of the baseline model. Besides, motion blur is added during training to increase robustness against image blur induced by motion. Finally, we apply test time augmentation (TTA) and memory strategy to the inference stage. Our method ranked 2nd in the MOSE track of PVUW 2024, with a $\mathcal{J}$ of 0.8007, a $\mathcal{F}$ of 0.8683 and a $\mathcal{J}$\&$\mathcal{F}$ of 0.8345.
- Abstract(参考訳): 複雑なビデオオブジェクトのセグメンテーションは、ビデオ編集や自動データアノテーションなど、幅広い下流アプリケーションの基本的なタスクとして機能する。
ここでは,PVUW 2024のMOSEトラックにおける2位解について述べる。
MOSEにおける微小な物体、類似した物体、高速な動きによる問題を緩和する。
インスタンスセグメンテーションを使用して、MOSEの有効およびテストセットから追加の事前学習データを生成する。
セグメント化されたインスタンスは、COCOから抽出されたオブジェクトと組み合わせて、トレーニングデータを増強し、ベースラインモデルのセマンティック表現を強化する。
さらに、運動によって誘発される画像のぼかしに対する堅牢性を高めるために、トレーニング中に動きのぼかしが追加される。
最後に,テスト時間拡張(TTA)とメモリ戦略を推論段階に適用する。
PVUW 2024のMOSEトラックでは,$\mathcal{J}$0.8007,$\mathcal{F}$0.8683,$\mathcal{J}$\&$\mathcal{F}$0.8345で2位となった。
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - Coarse-to-Fine Amodal Segmentation with Shape Prior [52.38348188589834]
アモーダルオブジェクトセグメンテーション(Amodal object segmentation)は、オブジェクトの可視部分と隠蔽部分の両方をセグメンテーションする、難しいタスクである。
本稿では、アモーダルセグメンテーションを段階的にモデル化することで、この問題に対処する、Coarse-to-Fine: C2F-Segという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-31T15:56:29Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Multi-Modal and Multi-Factor Branching Time Active Inference [2.513785998932353]
モンテカルロ木探索に基づく分枝時間アクティブ推論(BTAI)の2つのバージョンが開発されている。
しかし、BTAIのこれらの2つのバージョンはいまだ指数複雑性クラスに悩まされており、観測変数と潜伏変数の数がモデル化されている。
本稿では、この制限をいくつかの観測をモデル化することで解決する。
推論アルゴリズムは、後部の計算を高速化するために、可能性と遷移写像の分解を利用する。
論文 参考訳(メタデータ) (2022-06-24T22:07:21Z) - Weakly Supervised Instance Segmentation for Videos with Temporal Mask
Consistency [28.352140544936198]
弱い教師付きインスタンスセグメンテーションは、モデルのトレーニングに必要なアノテーションのコストを削減します。
画像ではなく弱いラベル付きビデオでトレーニングすることで,これらの問題に対処できることを示す。
私たちは、弱い教師付きインスタンスセグメンテーションに取り組むために、これらのビデオ信号の使用を初めて調査しました。
論文 参考訳(メタデータ) (2021-03-23T23:20:46Z) - Monocular Instance Motion Segmentation for Autonomous Driving: KITTI
InstanceMotSeg Dataset and Multi-task Baseline [5.000331633798637]
オブジェクトのセグメンテーションは、クラス非依存の方法でオブジェクトをセグメンテーションするために使用できるため、自動運転車にとって重要なタスクである。
自律走行の文献ではピクセル単位の運動セグメンテーションが研究されているが、インスタンスレベルではめったに研究されていない。
我々は、KITTIMoSegデータセットを改善した12.9Kサンプルからなる新しいInstanceMotSegデータセットを作成します。
論文 参考訳(メタデータ) (2020-08-16T21:47:09Z) - Motion2Vec: Semi-Supervised Representation Learning from Surgical Videos [23.153335327822685]
動作セグメント/サブゴール/オプションにグループ化することで,手術映像の動作中心の表現を学習する。
我々はビデオ観察から深い埋め込み特徴空間を学習するアルゴリズムであるMotion2Vecを紹介する。
この表現を用いて,JIGSAWSデータセットの公開ビデオからの外科的縫合動作を模倣する。
論文 参考訳(メタデータ) (2020-05-31T15:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。