論文の概要: The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2206.12035v1
- Date: Fri, 24 Jun 2022 02:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 14:25:00.989428
- Title: The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation
- Title(参考訳): 第4回大規模ビデオオブジェクトセグメンテーションチャレンジの2位-トラック3:ビデオオブジェクトセグメンテーションを参照して
- Authors: Leilei Cao, Zhuang Li, Bo Yan, Feng Zhang, Fengliang Qi, Yuchen Hu and
Hongbin Wang
- Abstract要約: ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
- 参考スコア(独自算出の注目度): 18.630453674396534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The referring video object segmentation task (RVOS) aims to segment object
instances in a given video referred by a language expression in all video
frames. Due to the requirement of understanding cross-modal semantics within
individual instances, this task is more challenging than the traditional
semi-supervised video object segmentation where the ground truth object masks
in the first frame are given. With the great achievement of Transformer in
object detection and object segmentation, RVOS has been made remarkable
progress where ReferFormer achieved the state-of-the-art performance. In this
work, based on the strong baseline framework--ReferFormer, we propose several
tricks to boost further, including cyclical learning rates, semi-supervised
approach, and test-time augmentation inference. The improved ReferFormer ranks
2nd place on CVPR2022 Referring Youtube-VOS Challenge.
- Abstract(参考訳): 参照ビデオオブジェクトセグメンテーションタスク(RVOS)は、すべてのビデオフレームにおける言語表現によって参照される所定のビデオ内のオブジェクトインスタンスをセグメントすることを目的としている。
個々のインスタンス内でクロスモーダルセマンティクスを理解する必要があるため、このタスクは、最初のフレームのグランド真理オブジェクトマスクが与えられる従来の半教師付きビデオオブジェクトセグメンテーションよりも難しい。
オブジェクト検出とオブジェクトセグメンテーションにおけるTransformerの大きな成果により、RVOSは、ReferFormerが最先端のパフォーマンスを達成した際、顕著な進歩を遂げた。
本稿では,強力なベースラインフレームワーク--referformerに基づいて,循環学習率,半教師付きアプローチ,テスト時間拡張推論など,さらに強化するためのいくつかのトリックを提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位となった。
関連論文リスト
- MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - Local-Global Context Aware Transformer for Language-Guided Video
Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文 参考訳(メタデータ) (2022-03-18T07:35:26Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - ALBA : Reinforcement Learning for Video Object Segmentation [11.29255792513528]
ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。
我々はこれを、オブジェクトの提案を活用し、空間と時間の両方でグループ化に関する共同推論を行うことによって、グループ化問題として扱う。
提案手法はALBAと呼ばれ,従来の3つのベンチマークよりも優れていた。
論文 参考訳(メタデータ) (2020-05-26T20:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。