Fugu-MT 論文翻訳(概要): The Second Place Solution for The 4th Large-scale Video Object Segmentation Challenge--Track 3: Referring Video Object Segmentation

論文の概要: The Second Place Solution for The 4th Large-scale Video Object Segmentation Challenge--Track 3: Referring Video Object Segmentation

arxiv url: http://arxiv.org/abs/2206.12035v1
Date: Fri, 24 Jun 2022 02:15:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-27 14:25:00.989428
Title: The Second Place Solution for The 4th Large-scale Video Object Segmentation Challenge--Track 3: Referring Video Object Segmentation
Title（参考訳）: 第4回大規模ビデオオブジェクトセグメンテーションチャレンジの2位-トラック3:ビデオオブジェクトセグメンテーションを参照して
Authors: Leilei Cao, Zhuang Li, Bo Yan, Feng Zhang, Fengliang Qi, Yuchen Hu and Hongbin Wang
Abstract要約: ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
参考スコア（独自算出の注目度）: 18.630453674396534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The referring video object segmentation task (RVOS) aims to segment object instances in a given video referred by a language expression in all video frames. Due to the requirement of understanding cross-modal semantics within individual instances, this task is more challenging than the traditional semi-supervised video object segmentation where the ground truth object masks in the first frame are given. With the great achievement of Transformer in object detection and object segmentation, RVOS has been made remarkable progress where ReferFormer achieved the state-of-the-art performance. In this work, based on the strong baseline framework--ReferFormer, we propose several tricks to boost further, including cyclical learning rates, semi-supervised approach, and test-time augmentation inference. The improved ReferFormer ranks 2nd place on CVPR2022 Referring Youtube-VOS Challenge.
Abstract（参考訳）: 参照ビデオオブジェクトセグメンテーションタスク(RVOS)は、すべてのビデオフレームにおける言語表現によって参照される所定のビデオ内のオブジェクトインスタンスをセグメントすることを目的としている。個々のインスタンス内でクロスモーダルセマンティクスを理解する必要があるため、このタスクは、最初のフレームのグランド真理オブジェクトマスクが与えられる従来の半教師付きビデオオブジェクトセグメンテーションよりも難しい。オブジェクト検出とオブジェクトセグメンテーションにおけるTransformerの大きな成果により、RVOSは、ReferFormerが最先端のパフォーマンスを達成した際、顕著な進歩を遂げた。本稿では,強力なベースラインフレームワーク--referformerに基づいて,循環学習率,半教師付きアプローチ,テスト時間拡張推論など,さらに強化するためのいくつかのトリックを提案する。改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位となった。

関連論文リスト

ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通して対象オブジェクトをセグメンテーションすることを目的としている。我々は、事前訓練された視覚基盤モデルから強力な視覚言語理解を継承する、エンドツーエンドのRVOSモデルである textbfReferDINO を提案する。
論文参考訳（メタデータ） (2025-01-24T16:24:15Z)
Multi-Granularity Video Object Segmentation [36.06127939037613]
本稿では,MUG-VOS(Multigranularity Video Object segmentation)データセットを提案する。我々は,正当性および非正当性の両方をトラッキングするトレーニングセットを自動的に収集し,信頼性の高い評価のために人手による検査セットをキュレートした。さらに,MUG-VOSデータセットを用いたメモリベースのマスク伝搬モデル(MMPM)を提案する。
論文参考訳（メタデータ） (2024-12-02T13:17:41Z)
VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文参考訳（メタデータ） (2024-07-16T02:29:29Z)
2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [8.20168024462357]
Motion Expression Guided Videoは、モーション記述付き自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした、挑戦的なタスクである。本稿では、時間的拡張のための予備情報としてビデオインスタンス分割モデルから得られたマスク情報を紹介し、空間的洗練のためにSAMを用いる。 CVPR 2024 PVUW Challengeでは,試験段階では49.92 J &F,試験段階では54.20 J &F,MeViS Trackでは2位となった。
論文参考訳（メタデータ） (2024-06-20T02:16:23Z)
1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文参考訳（メタデータ） (2024-06-07T03:13:46Z)
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文参考訳（メタデータ） (2023-08-16T17:58:34Z)
Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文参考訳（メタデータ） (2022-07-05T17:59:43Z)
Local-Global Context Aware Transformer for Language-Guided Video Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。 LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文参考訳（メタデータ） (2022-03-18T07:35:26Z)
Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文参考訳（メタデータ） (2021-06-02T10:26:13Z)
ALBA : Reinforcement Learning for Video Object Segmentation [11.29255792513528]
ゼロショットビデオオブジェクトセグメンテーション(VOS)の課題について考察する。我々はこれを、オブジェクトの提案を活用し、空間と時間の両方でグループ化に関する共同推論を行うことによって、グループ化問題として扱う。提案手法はALBAと呼ばれ,従来の3つのベンチマークよりも優れていた。
論文参考訳（メタデータ） (2020-05-26T20:57:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。