論文の概要: 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2401.00663v1
- Date: Mon, 1 Jan 2024 04:24:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:18:34.670365
- Title: 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation
- Title(参考訳): 第5回lsvosチャレンジの1位:ビデオオブジェクトのセグメンテーションを参照
- Authors: Zhuoyan Luo, Yicheng Xiao, Yong Liu, Yitong Wang, Yansong Tang, Xiu
Li, Yujiu Yang
- Abstract要約: 主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
- 参考スコア(独自算出の注目度): 65.45702890457046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent transformer-based models have dominated the Referring Video Object
Segmentation (RVOS) task due to the superior performance. Most prior works
adopt unified DETR framework to generate segmentation masks in
query-to-instance manner. In this work, we integrate strengths of that leading
RVOS models to build up an effective paradigm. We first obtain binary mask
sequences from the RVOS models. To improve the consistency and quality of
masks, we propose Two-Stage Multi-Model Fusion strategy. Each stage rationally
ensembles RVOS models based on framework design as well as training strategy,
and leverages different video object segmentation (VOS) models to enhance mask
coherence by object propagation mechanism. Our method achieves 75.7% J&F on
Ref-Youtube-VOS validation set and 70% J&F on test set, which ranks 1st place
on 5th Large-scale Video Object Segmentation Challenge (ICCV 2023) track 3.
Code is available at https://github.com/RobertLuo1/iccv2023_RVOS_Challenge.
- Abstract(参考訳): 最近のトランスフォーマーベースのモデルは、優れたパフォーマンスのためにReferring Video Object Segmentation (RVOS)タスクを支配している。
以前のほとんどの作業では、クエリ・トゥ・インスタンス方式でセグメンテーションマスクを生成するために統一されたdetrフレームワークを採用している。
この作業では、主要なRVOSモデルの強みを統合し、効果的なパラダイムを構築します。
まず、RVOSモデルから二項マスク列を得る。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
各ステージは、フレームワーク設計とトレーニング戦略に基づいてRVOSモデルを合理的にアンサンブルし、異なるビデオオブジェクトセグメンテーション(VOS)モデルを活用して、オブジェクト伝搬機構によるマスクコヒーレンスを向上させる。
ref-youtube-vos検証セットでは75.7%,テストセットでは70%のj&fを達成し,第5回大規模ビデオオブジェクトセグメンテーションチャレンジ(iccv 2023)トラックでは第1位となった。
コードはhttps://github.com/RobertLuo1/iccv2023_RVOS_Challengeで入手できる。
関連論文リスト
- OneVOS: Unifying Video Object Segmentation with All-in-One Transformer
Framework [24.947436083365925]
OneVOSは、VOSのコアコンポーネントをAll-in-One Transformerと統合する新しいフレームワークである。
OneVOSは、7つのデータセット、特に70.1%と66.4%の複雑なLVOSとMOSEデータセットにおいて、最先端のパフォーマンスを達成し、それぞれ4.2%と7.0%の従来の最先端メソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-13T16:38:26Z) - Fully Transformer-Equipped Architecture for End-to-End Referring Video
Object Segmentation [24.814534011440877]
本稿では,RVOSタスクをマスクシーケンス学習問題として扱うエンドツーエンドのRVOSフレームワークを提案する。
オブジェクトレベルの空間コンテキストをキャプチャするために,Stacked Transformerを開発した。
このモデルは、マスクシーケンスとテキストクエリの最適なマッチングを見つける。
論文 参考訳(メタデータ) (2023-09-21T09:47:47Z) - Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z) - 1st Place Solution for YouTubeVOS Challenge 2022: Referring Video Object
Segmentation [12.100628128028385]
言語記述と強く相関するマス列を得るための1段法ReferFormerの改良を行った。
我々は,映像オブジェクト分割モデルの優れた性能を活用し,マスク結果の品質と時間的一貫性をさらに向上させる。
我々のシングルモデルは、Referring Youtube-VOS検証セットで70.3J&F、テストセットで63.0に達し、CVPR2022 Referring Youtube-VOSチャレンジで1位にランクインした。
論文 参考訳(メタデータ) (2022-12-27T09:22:45Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - ALBA : Reinforcement Learning for Video Object Segmentation [11.29255792513528]
ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。
我々はこれを、オブジェクトの提案を活用し、空間と時間の両方でグループ化に関する共同推論を行うことによって、グループ化問題として扱う。
提案手法はALBAと呼ばれ,従来の3つのベンチマークよりも優れていた。
論文 参考訳(メタデータ) (2020-05-26T20:57:28Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。