論文の概要: The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2206.12035v1
- Date: Fri, 24 Jun 2022 02:15:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 14:25:00.989428
- Title: The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation
- Title(参考訳): 第4回大規模ビデオオブジェクトセグメンテーションチャレンジの2位-トラック3:ビデオオブジェクトセグメンテーションを参照して
- Authors: Leilei Cao, Zhuang Li, Bo Yan, Feng Zhang, Fengliang Qi, Yuchen Hu and
Hongbin Wang
- Abstract要約: ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
- 参考スコア(独自算出の注目度): 18.630453674396534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The referring video object segmentation task (RVOS) aims to segment object
instances in a given video referred by a language expression in all video
frames. Due to the requirement of understanding cross-modal semantics within
individual instances, this task is more challenging than the traditional
semi-supervised video object segmentation where the ground truth object masks
in the first frame are given. With the great achievement of Transformer in
object detection and object segmentation, RVOS has been made remarkable
progress where ReferFormer achieved the state-of-the-art performance. In this
work, based on the strong baseline framework--ReferFormer, we propose several
tricks to boost further, including cyclical learning rates, semi-supervised
approach, and test-time augmentation inference. The improved ReferFormer ranks
2nd place on CVPR2022 Referring Youtube-VOS Challenge.
- Abstract(参考訳): 参照ビデオオブジェクトセグメンテーションタスク(RVOS)は、すべてのビデオフレームにおける言語表現によって参照される所定のビデオ内のオブジェクトインスタンスをセグメントすることを目的としている。
個々のインスタンス内でクロスモーダルセマンティクスを理解する必要があるため、このタスクは、最初のフレームのグランド真理オブジェクトマスクが与えられる従来の半教師付きビデオオブジェクトセグメンテーションよりも難しい。
オブジェクト検出とオブジェクトセグメンテーションにおけるTransformerの大きな成果により、RVOSは、ReferFormerが最先端のパフォーマンスを達成した際、顕著な進歩を遂げた。
本稿では,強力なベースラインフレームワーク--referformerに基づいて,循環学習率,半教師付きアプローチ,テスト時間拡張推論など,さらに強化するためのいくつかのトリックを提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位となった。
関連論文リスト
- VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - 2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [8.20168024462357]
Motion Expression Guided Videoは、モーション記述付き自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした、挑戦的なタスクである。
本稿では、時間的拡張のための予備情報としてビデオインスタンス分割モデルから得られたマスク情報を紹介し、空間的洗練のためにSAMを用いる。
CVPR 2024 PVUW Challengeでは,試験段階では49.92 J &F,試験段階では54.20 J &F,MeViS Trackでは2位となった。
論文 参考訳(メタデータ) (2024-06-20T02:16:23Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Local-Global Context Aware Transformer for Language-Guided Video
Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文 参考訳(メタデータ) (2022-03-18T07:35:26Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - ALBA : Reinforcement Learning for Video Object Segmentation [11.29255792513528]
ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。
我々はこれを、オブジェクトの提案を活用し、空間と時間の両方でグループ化に関する共同推論を行うことによって、グループ化問題として扱う。
提案手法はALBAと呼ばれ,従来の3つのベンチマークよりも優れていた。
論文 参考訳(メタデータ) (2020-05-26T20:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。