論文の概要: Instance Brownian Bridge as Texts for Open-vocabulary Video Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2401.09732v1
- Date: Thu, 18 Jan 2024 05:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:43:51.021076
- Title: Instance Brownian Bridge as Texts for Open-vocabulary Video Instance
Segmentation
- Title(参考訳): Open-vocabulary Video Instance Segmentation 用テキストとしてのBrownian Bridge
- Authors: Zesen Cheng and Kehan Li and Hao Li and Peng Jin and Chang Liu and
Xiawu Zheng and Rongrong Ji and Jie Chen
- Abstract要約: 任意のクラステキストでオブジェクトを一時配置することは、オープン語彙ビデオインスタンス(VIS)の第一の追求である
従来の方法は、各フレームとクラステキストを別々にアライメントすることで、オブジェクトインスタンスを認識するために、画像テキスト事前学習モデルを活用する。
フレームレベルのインスタンス表現をBrownian Bridgeとしてリンクして、インスタンスのダイナミクスをモデル化し、ブリッジレベルのインスタンス表現をクラステキストにアライメントすることを提案する。
- 参考スコア(独自算出の注目度): 56.952641048517364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporally locating objects with arbitrary class texts is the primary pursuit
of open-vocabulary Video Instance Segmentation (VIS). Because of the
insufficient vocabulary of video data, previous methods leverage image-text
pretraining model for recognizing object instances by separately aligning each
frame and class texts, ignoring the correlation between frames. As a result,
the separation breaks the instance movement context of videos, causing inferior
alignment between video and text. To tackle this issue, we propose to link
frame-level instance representations as a Brownian Bridge to model instance
dynamics and align bridge-level instance representation to class texts for more
precisely open-vocabulary VIS (BriVIS). Specifically, we build our system upon
a frozen video segmentor to generate frame-level instance queries, and design
Temporal Instance Resampler (TIR) to generate queries with temporal context
from frame queries. To mold instance queries to follow Brownian bridge and
accomplish alignment with class texts, we design Bridge-Text Alignment (BTA) to
learn discriminative bridge-level representations of instances via contrastive
objectives. Setting MinVIS as the basic video segmentor, BriVIS surpasses the
Open-vocabulary SOTA (OV2Seg) by a clear margin. For example, on the
challenging large-vocabulary VIS dataset (BURST), BriVIS achieves 7.43 mAP and
exhibits 49.49% improvement compared to OV2Seg (4.97 mAP).
- Abstract(参考訳): 任意のクラステキストでオブジェクトを一時配置することは、オープン語彙ビデオインスタンスセグメンテーション(VIS)の第一の追求である。
ビデオデータの語彙不足のため、従来の手法では、各フレームとクラステキストを別々に調整し、フレーム間の相関を無視して、オブジェクトインスタンスを認識するための画像テキストプリトレーニングモデルを利用している。
その結果、分離はビデオのインスタンスの動きコンテキストを破り、ビデオとテキストの間に劣ったアライメントを引き起こす。
この問題に対処するため、Brownian Bridgeとしてフレームレベルのインスタンス表現をリンクしてインスタンスダイナミクスをモデル化し、より正確にオープンなVIS(BriVIS)のためにブリッジレベルのインスタンス表現をクラステキストにアライメントすることを提案する。
具体的には,フレームレベルのインスタンスクエリを生成するための冷凍ビデオセグメンタ上にシステムを構築し,フレームクエリから時間的コンテキストでクエリを生成するためのTIR(Temporal Instance Resampler)を設計する。
ブラウンブリッジに従うインスタンスクエリを型付けし、クラステキストとの整合を達成するために、ブリッジテキストアライメント(bta)を設計し、対照的な目的を通じてインスタンスの橋レベル表現を識別する。
MinVISを基本的なビデオセグメンタとし、Open-vocabulary SOTA (OV2Seg) をクリアマージンで上回る。
例えば、挑戦的な大語彙VISデータセット(BURST)では、7.43mAPに達し、OV2Seg (4.97mAP)と比較して49.49%改善されている。
関連論文リスト
- DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - LoSh: Long-Short Text Joint Prediction Network for Referring Video Object Segmentation [18.832338318596648]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、所定のテキスト表現によって参照されるターゲットインスタンスをビデオクリップにセグメントすることを目的としている。
テキスト表現は通常、インスタンスの外観、動作、および他者との関係に関する洗練された記述を含む。
本稿では,元来の長文表現から主語中心の短文表現を取り出すことにより,この問題に対処する。
論文 参考訳(メタデータ) (2023-06-14T20:40:28Z) - Towards Open-Vocabulary Video Instance Segmentation [61.469232166803465]
Video Instanceは、ビデオ内のオブジェクトをクローズドなトレーニングカテゴリから分類し分類することを目的としている。
本稿では,オープンなカテゴリからビデオ内のオブジェクトを分割,追跡,分類することを目的とした,Open-Vocabulary Video Instanceの新たなタスクを紹介する。
Open-Vocabulary VISをベンチマークするために、我々は1,196の多様なカテゴリから、よく注釈付けされたオブジェクトを含む大語彙ビデオインスタンスデータセット(LV-VIS)を収集します。
論文 参考訳(メタデータ) (2023-04-04T11:25:23Z) - InsPro: Propagating Instance Query and Proposal for Online Video
Instance Segmentation [41.85216306978024]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内のオブジェクトのセグメンテーションと追跡を目的としている。
以前のメソッドは、まずフレームレベルまたはクリップレベルのオブジェクトインスタンスを生成し、その後、追加のトラッキングヘッドまたは複雑なインスタンスマッチングアルゴリズムによってそれらを関連付ける。
本稿では,オンラインVISのためのシンプルな,高速かつ効果的なクエリベースのフレームワークを設計する。
論文 参考訳(メタデータ) (2023-01-05T02:41:20Z) - Bi-Calibration Networks for Weakly-Supervised Video Representation
Learning [153.54638582696128]
本稿では,弱い教師付きビデオ表現学習を促進するために,問合せとテキストの相互校正の新たな設計を提案する。
本稿では,バイキャリブレーションネットワーク(BCN)を新たに2つのキャリブレーションを結合して,テキストからクエリへの修正学習を行う。
BCNは3MのWebビデオで学習し、下流タスクの線形モデルプロトコルの下で優れた結果を得る。
論文 参考訳(メタデータ) (2022-06-21T16:02:12Z) - VITA: Video Instance Segmentation via Object Token Association [56.17453513956142]
VITAは、既製のTransformerベースのイメージインスタンスセグメンテーションモデルの上に構築されたシンプルな構造である。
バックボーン機能を使わずにフレームレベルの時間的オブジェクトトークンを関連付けることで、ビデオレベルの理解を実現する。
4 AP、49.8 AP-VIS 2019 & 2021、19.6 AP on OVIS。
論文 参考訳(メタデータ) (2022-06-09T10:33:18Z) - Hybrid Instance-aware Temporal Fusion for Online Video Instance
Segmentation [23.001856276175506]
本稿では,新しいインスタンス対応時間融合手法を用いたオンラインビデオインスタンスセグメンテーションフレームワークを提案する。
我々のモデルは,全オンラインVIS手法の中で最高の性能を達成している。
論文 参考訳(メタデータ) (2021-12-03T03:37:57Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - End-to-End Video Instance Segmentation with Transformers [84.17794705045333]
ビデオインスタンスセグメンテーション(ビデオインスタンスセグメンテーション、英: Video instance segmentation、VIS)は、ビデオに関心のあるオブジェクトインスタンスを同時に分類、セグメンテーション、追跡することを必要とするタスクである。
本稿では,Transformer上に構築された新しいビデオインスタンスセグメンテーションフレームワークVisTRを提案する。
初めて、Transformers上に構築されたよりシンプルで高速なビデオインスタンスセグメンテーションフレームワークをデモし、競争力のある精度を実現した。
論文 参考訳(メタデータ) (2020-11-30T02:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。