論文の概要: 1st Place Solution for YouTubeVOS Challenge 2022: Referring Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2212.14679v1
- Date: Tue, 27 Dec 2022 09:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 01:47:25.707339
- Title: 1st Place Solution for YouTubeVOS Challenge 2022: Referring Video Object
Segmentation
- Title(参考訳): youtubevosチャレンジ2022の第1位:ビデオオブジェクトのセグメンテーションを参照
- Authors: Zhiwei Hu, Bo Chen, Yuan Gao, Zhilong Ji, Jinfeng Bai
- Abstract要約: 言語記述と強く相関するマス列を得るための1段法ReferFormerの改良を行った。
我々は,映像オブジェクト分割モデルの優れた性能を活用し,マスク結果の品質と時間的一貫性をさらに向上させる。
我々のシングルモデルは、Referring Youtube-VOS検証セットで70.3J&F、テストセットで63.0に達し、CVPR2022 Referring Youtube-VOSチャレンジで1位にランクインした。
- 参考スコア(独自算出の注目度): 12.100628128028385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of referring video object segmentation aims to segment the object in
the frames of a given video to which the referring expressions refer. Previous
methods adopt multi-stage approach and design complex pipelines to obtain
promising results. Recently, the end-to-end method based on Transformer has
proved its superiority. In this work, we draw on the advantages of the above
methods to provide a simple and effective pipeline for RVOS. Firstly, We
improve the state-of-the-art one-stage method ReferFormer to obtain mask
sequences that are strongly correlated with language descriptions. Secondly,
based on a reliable and high-quality keyframe, we leverage the superior
performance of video object segmentation model to further enhance the quality
and temporal consistency of the mask results. Our single model reaches 70.3 J
&F on the Referring Youtube-VOS validation set and 63.0 on the test set. After
ensemble, we achieve 64.1 on the final leaderboard, ranking 1st place on
CVPR2022 Referring Youtube-VOS challenge. Code will be available at
https://github.com/Zhiweihhh/cvpr2022-rvos-challenge.git.
- Abstract(参考訳): ビデオオブジェクトのセグメンテーションを参照するタスクは、参照表現が参照するビデオのフレーム内のオブジェクトをセグメンテーションすることを目的としている。
従来の手法では多段階アプローチを採用し、複雑なパイプラインを設計して有望な結果が得られる。
近年,Transformer を用いたエンドツーエンド手法が優れていることが証明されている。
本稿では,RVOSの簡易かつ効率的なパイプラインを提供する上で,上記の手法の利点について述べる。
まず, 言語記述に強い相関を持つマスクシーケンスを得るために, 最先端のワンステージメソッドレファレンサを改善した。
第2に,信頼性の高い高品質なキーフレームに基づいて,映像オブジェクトセグメンテーションモデルの優れた性能を活用し,マスク結果の品質と時間的一貫性をさらに向上させる。
我々の単一モデルは、Referring Youtube-VOSバリデーションセットで70.3J&F、テストセットで63.0に達します。
アンサンブル後、最終リーダーボードで64.1を獲得し、CVPR2022 Referring Youtube-VOS Challengeで1位を獲得した。
コードはhttps://github.com/Zhiweihhh/cvpr2022-rvos-challenge.gitで入手できる。
関連論文リスト
- 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - Fully Transformer-Equipped Architecture for End-to-End Referring Video
Object Segmentation [24.814534011440877]
本稿では,RVOSタスクをマスクシーケンス学習問題として扱うエンドツーエンドのRVOSフレームワークを提案する。
オブジェクトレベルの空間コンテキストをキャプチャするために,Stacked Transformerを開発した。
このモデルは、マスクシーケンスとテキストクエリの最適なマッチングを見つける。
論文 参考訳(メタデータ) (2023-09-21T09:47:47Z) - Learning Cross-Modal Affinity for Referring Video Object Segmentation
Targeting Limited Samples [61.66967790884943]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のシーンに十分なデータに依存する。
より現実的なシナリオでは、新しいシーンで利用できるのは最小限のアノテーションだけです。
トランスフォーマーアーキテクチャに基づいた,新たに設計したクロスモーダル親和性(CMA)モジュールを用いたモデルを提案する。
CMAモジュールは、いくつかのサンプルでマルチモーダル親和性を構築し、新しいセマンティック情報を素早く学習し、モデルが異なるシナリオに適応できるようにする。
論文 参考訳(メタデータ) (2023-09-05T08:34:23Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - 5th Place Solution for YouTube-VOS Challenge 2022: Video Object
Segmentation [4.004851693068654]
ビデオオブジェクトセグメンテーション(VOS)は、ディープラーニングの台頭とともに大きな進歩を遂げた。
類似の物体は容易に混同され、小さな物体を見つけるのが困難である。
本稿では,この課題に対する単純かつ効果的な解決法を提案する。
論文 参考訳(メタデータ) (2022-06-20T06:14:27Z) - Language as Queries for Referring Video Object Segmentation [23.743637144137498]
参照ビデオオブジェクトセグメンテーション(R-VOS)は、すべてのビデオフレームで言語表現によって参照される対象オブジェクトをセグメント化することを目的とした、新たなクロスモーダルタスクである。
本研究では,ReferFormerと呼ばれるTransformer上に構築されたシンプルで統一的なフレームワークを提案する。
言語をクェリとみなし、ビデオフレーム内の最も関連性の高い領域に直接参加する。
論文 参考訳(メタデータ) (2022-01-03T05:54:00Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - A Transductive Approach for Video Object Segmentation [55.83842083823267]
半教師付きビデオオブジェクトセグメンテーションは、第1フレームのマスクを考えると、対象オブジェクトをビデオシーケンスから分離することを目的としている。
現在の一般的な手法のほとんどは、光学フローやインスタンスセグメンテーションといった他の領域で訓練された追加モジュールの情報を利用する。
本稿では,モジュールやデータセット,専用のアーキテクチャ設計を必要としない,単純かつ強力なトランスダクティブ手法を提案する。
論文 参考訳(メタデータ) (2020-04-15T16:39:36Z) - Learning What to Learn for Video Object Segmentation [157.4154825304324]
本稿では,多様な数発の学習モジュールを統合した,エンドツーエンドのトレーニング可能なVOSアーキテクチャを提案する。
この内部学習器は、ターゲットの強力なパラメトリックモデルを予測するように設計されている。
私たちは、大規模なYouTube-VOS 2018データセットに、総合スコア81.5を達成して、新たな最先端を設定しました。
論文 参考訳(メタデータ) (2020-03-25T17:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。