論文の概要: Language as Queries for Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2201.00487v1
- Date: Mon, 3 Jan 2022 05:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:23:42.562178
- Title: Language as Queries for Referring Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーション参照のためのクエリとしての言語
- Authors: Jiannan Wu, Yi Jiang, Peize Sun, Zehuan Yuan, Ping Luo
- Abstract要約: 参照ビデオオブジェクトセグメンテーション(R-VOS)は、すべてのビデオフレームで言語表現によって参照される対象オブジェクトをセグメント化することを目的とした、新たなクロスモーダルタスクである。
本研究では,ReferFormerと呼ばれるTransformer上に構築されたシンプルで統一的なフレームワークを提案する。
言語をクェリとみなし、ビデオフレーム内の最も関連性の高い領域に直接参加する。
- 参考スコア(独自算出の注目度): 23.743637144137498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (R-VOS) is an emerging cross-modal task
that aims to segment the target object referred by a language expression in all
video frames. In this work, we propose a simple and unified framework built
upon Transformer, termed ReferFormer. It views the language as queries and
directly attends to the most relevant regions in the video frames. Concretely,
we introduce a small set of object queries conditioned on the language as the
input to the Transformer. In this manner, all the queries are obligated to find
the referred objects only. They are eventually transformed into dynamic kernels
which capture the crucial object-level information, and play the role of
convolution filters to generate the segmentation masks from feature maps. The
object tracking is achieved naturally by linking the corresponding queries
across frames. This mechanism greatly simplifies the pipeline and the
end-to-end framework is significantly different from the previous methods.
Extensive experiments on Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences and
JHMDB-Sentences show the effectiveness of ReferFormer. On Ref-Youtube-VOS,
Refer-Former achieves 55.6J&F with a ResNet-50 backbone without bells and
whistles, which exceeds the previous state-of-the-art performance by 8.4
points. In addition, with the strong Swin-Large backbone, ReferFormer achieves
the best J&F of 62.4 among all existing methods. The J&F metric can be further
boosted to 63.3 by adopting a simple post-process technique. Moreover, we show
the impressive results of 55.0 mAP and 43.7 mAP on A2D-Sentences
andJHMDB-Sentences respectively, which significantly outperforms the previous
methods by a large margin. Code is publicly available at
https://github.com/wjn922/ReferFormer.
- Abstract(参考訳): 参照ビデオオブジェクトセグメンテーション(R-VOS)は、すべてのビデオフレームで言語表現によって参照される対象オブジェクトをセグメント化することを目的とした、新たなクロスモーダルタスクである。
本稿では,transformer を基盤としたシンプルな統一フレームワークである referformer を提案する。
言語をクエリとみなし、ビデオフレーム内の最も関連性の高い領域に直接参加する。
具体的には、Transformerへの入力として、言語で条件付けられたオブジェクトクエリの小さなセットを導入する。
このようにして、全てのクエリは参照オブジェクトのみを見つけるように義務付けられます。
最終的にそれらは動的カーネルに変換され、重要なオブジェクトレベル情報をキャプチャし、特徴マップからセグメンテーションマスクを生成する畳み込みフィルタの役割を担う。
オブジェクト追跡は、フレーム間で対応するクエリをリンクすることで、自然に達成される。
このメカニズムはパイプラインを大幅に単純化し、エンドツーエンドフレームワークは以前の方法と大きく異なる。
Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences, JHMDB-Sentencesの大規模な実験はReferFormerの有効性を示した。
ref-youtube-vosでは、refer-formerはresnet-50バックボーンで55.6j&fを達成した。
さらに、強力なSwin-Largeバックボーンによって、ReferFormerは既存のすべてのメソッドの中で最高の62.4のJ&Fを達成する。
単純な後処理技術を採用することにより、J&Fメートル法はさらに63.3に引き上げることができる。
さらに, A2D-Sentences と JHMDB-Sentences の55.0 mAP と43.7 mAP がそれぞれ有意な結果を示し, 従来手法よりも有意に優れていた。
コードはhttps://github.com/wjn922/referformerで公開されている。
関連論文リスト
- 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - Fully Transformer-Equipped Architecture for End-to-End Referring Video
Object Segmentation [24.814534011440877]
本稿では,RVOSタスクをマスクシーケンス学習問題として扱うエンドツーエンドのRVOSフレームワークを提案する。
オブジェクトレベルの空間コンテキストをキャプチャするために,Stacked Transformerを開発した。
このモデルは、マスクシーケンスとテキストクエリの最適なマッチングを見つける。
論文 参考訳(メタデータ) (2023-09-21T09:47:47Z) - OnlineRefer: A Simple Online Baseline for Referring Video Object
Segmentation [75.07460026246582]
ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在の最先端のメソッドはオフラインパターンに陥り、各クリップが独立してテキスト埋め込みと相互作用する。
明示的なクエリ伝搬を用いたシンプルなオンラインモデルである OnlineRefer を提案する。
論文 参考訳(メタデータ) (2023-07-18T15:43:35Z) - 1st Place Solution for YouTubeVOS Challenge 2022: Referring Video Object
Segmentation [12.100628128028385]
言語記述と強く相関するマス列を得るための1段法ReferFormerの改良を行った。
我々は,映像オブジェクト分割モデルの優れた性能を活用し,マスク結果の品質と時間的一貫性をさらに向上させる。
我々のシングルモデルは、Referring Youtube-VOS検証セットで70.3J&F、テストセットで63.0に達し、CVPR2022 Referring Youtube-VOSチャレンジで1位にランクインした。
論文 参考訳(メタデータ) (2022-12-27T09:22:45Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Object-aware Video-language Pre-training for Retrieval [24.543719616308945]
我々は、オブジェクト表現を組み込むためにビデオ言語トランスフォーマーを拡張するオブジェクト中心のアプローチであるObject-Aware Transformersを提案する。
対象表現をビデオ言語アーキテクチャに組み込んだモデルの価値を実証し、考慮したすべてのタスクやデータセットのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-12-01T17:06:39Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - A Transductive Approach for Video Object Segmentation [55.83842083823267]
半教師付きビデオオブジェクトセグメンテーションは、第1フレームのマスクを考えると、対象オブジェクトをビデオシーケンスから分離することを目的としている。
現在の一般的な手法のほとんどは、光学フローやインスタンスセグメンテーションといった他の領域で訓練された追加モジュールの情報を利用する。
本稿では,モジュールやデータセット,専用のアーキテクチャ設計を必要としない,単純かつ強力なトランスダクティブ手法を提案する。
論文 参考訳(メタデータ) (2020-04-15T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。