論文の概要: Tube-Link: A Flexible Cross Tube Baseline for Universal Video
Segmentation
- arxiv url: http://arxiv.org/abs/2303.12782v2
- Date: Tue, 27 Jun 2023 17:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 17:17:20.408953
- Title: Tube-Link: A Flexible Cross Tube Baseline for Universal Video
Segmentation
- Title(参考訳): チューブリンク:ユニバーサルビデオセグメンテーションのためのフレキシブルクロスチューブベースライン
- Authors: Xiangtai Li, Haobo Yuan, Wenwei Zhang, Guangliang Cheng, Jiangmiao
Pang, Chen Change Loy
- Abstract要約: Tube-Linkは、ビデオセグメンテーションの複数のコアタスクを統一アーキテクチャで処理する汎用フレームワークである。
我々のフレームワークは、短いサブクリップを入力として取り、対応する時空間管マスクを出力するほぼオンラインアプローチである。
- 参考スコア(独自算出の注目度): 77.401503270136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of video segmentation is to accurately segment and track every pixel
in diverse scenarios. In this paper, we present Tube-Link, a versatile
framework that addresses multiple core tasks of video segmentation with a
unified architecture. Our framework is a near-online approach that takes a
short subclip as input and outputs the corresponding spatial-temporal tube
masks. To enhance the modeling of cross-tube relationships, we propose an
effective way to perform tube-level linking via attention along the queries. In
addition, we introduce temporal contrastive learning to instance-wise
discriminative features for tube-level association. Our approach offers
flexibility and efficiency for both short and long video inputs, as the length
of each subclip can be varied according to the needs of datasets or scenarios.
Tube-Link outperforms existing specialized architectures by a significant
margin on five video segmentation datasets. Specifically, it achieves almost
13% relative improvements on VIPSeg and 4% improvements on KITTI-STEP over the
strong baseline Video K-Net. When using a ResNet50 backbone on Youtube-VIS-2019
and 2021, Tube-Link boosts IDOL by 3% and 4%, respectively. Code will be
available.
- Abstract(参考訳): ビデオセグメンテーションの目標は、さまざまなシナリオにおいて、すべてのピクセルを正確にセグメンテーションし、追跡することだ。
本稿では,ビデオセグメンテーションの複数のコアタスクを統一アーキテクチャで処理する汎用フレームワークであるTube-Linkを提案する。
我々のフレームワークは、短いサブクリップを入力として取り、対応する時空間管マスクを出力するほぼオンラインアプローチである。
クロスチューブ関係のモデリングを強化するために,クエリに沿って注目してチューブレベルのリンクを行う効果的な方法を提案する。
さらに, 時間的コントラスト学習を, チューブレベルの関連性に対するインスタンス単位の識別的特徴に導入する。
我々のアプローチは、データセットやシナリオのニーズに応じて各サブクリップの長さを変更できるため、短いビデオ入力と長いビデオ入力の両方に柔軟性と効率性を提供します。
Tube-Linkは5つのビデオセグメンテーションデータセットにおいて、既存の特殊なアーキテクチャよりも優れたパフォーマンスを示している。
具体的には、VIPSegの相対的な13%の改善と、強力なベースラインであるVideo K-NetよりもKITTI-STEPの4%改善を実現している。
Youtube-VIS-2019 と 2021 で ResNet50 のバックボーンを使用する場合、Tune-Link は IDOL を 3% と 4% に向上させる。
コードは利用可能だ。
関連論文リスト
- Making Every Frame Matter: Continuous Video Understanding for Large Models via Adaptive State Modeling [14.450847211200292]
マルチモダリティアプリケーションの台頭に伴い、ビデオ理解はますます重要になっている。
適応状態モデリングによりこれらの問題を克服する新しいシステムC-VUEを導入する。
C-VUEには3つの重要な設計がある。第1に、歴史的ビデオ情報を保持するためにビデオ認識アプローチを使用する長距離履歴モデリング技術である。
2つ目は空間冗長性低減手法で、時間的関係に基づく歴史モデリングの効率を高める。
論文 参考訳(メタデータ) (2024-10-19T05:50:00Z) - Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - In Defense of Clip-based Video Relation Detection [32.05021939177942]
ビデオ視覚関係検出(VidVRD)は、空間的境界ボックスと時間的境界を用いて、ビデオ内の視覚的関係三重項を検出することを目的としている。
ビデオクリップに基づくオブジェクトベースの空間コンテキストと関係ベースの時間コンテキストを豊かにする階層型コンテキストモデル(HCM)を提案する。
我々のHCMは、クリップベースパラダイムに高度な空間的・時間的コンテキストモデリングを組み込むことの有効性を強調し、新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-18T05:42:01Z) - Efficient Video Instance Segmentation via Tracklet Query and Proposal [62.897552852894854]
Video Instanceは、ビデオ内の複数のオブジェクトインスタンスを同時に分類、セグメント化、追跡することを目的としている。
ほとんどのクリップレベルメソッドはエンドツーエンドの学習可能でもリアルタイムでもない。
本稿では,効率的なトレーニングと推論を行う完全エンドツーエンドフレームワークであるEfficientVISを提案する。
論文 参考訳(メタデータ) (2022-03-03T17:00:11Z) - STC: Spatio-Temporal Contrastive Learning for Video Instance
Segmentation [47.28515170195206]
ビデオインスタンス(VIS)は、ビデオ内の分類、セグメンテーション、インスタンスアソシエーションを同時に必要とするタスクである。
最近のVISアプローチは、RoI関連の操作や3D畳み込みなど、この目標を達成するために洗練されたパイプラインに依存している。
本稿では,インスタンスセグメンテーション手法であるConInstをベースとした,シンプルで効率的な単一ステージVISフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-08T09:34:26Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。