論文の概要: Multi-Attention Network for Compressed Video Referring Object
Segmentation
- arxiv url: http://arxiv.org/abs/2207.12622v1
- Date: Tue, 26 Jul 2022 03:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:50:07.369875
- Title: Multi-Attention Network for Compressed Video Referring Object
Segmentation
- Title(参考訳): 圧縮ビデオ参照オブジェクトセグメンテーションのためのマルチアテンションネットワーク
- Authors: Weidong Chen, Dexiang Hong, Yuankai Qi, Zhenjun Han, Shuhui Wang,
Laiyun Qing, Qingming Huang and Guorong Li
- Abstract要約: ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
- 参考スコア(独自算出の注目度): 103.18477550023513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation aims to segment the object referred by a
given language expression. Existing works typically require compressed video
bitstream to be decoded to RGB frames before being segmented, which increases
computation and storage requirements and ultimately slows the inference down.
This may hamper its application in real-world computing resource limited
scenarios, such as autonomous cars and drones. To alleviate this problem, in
this paper, we explore the referring object segmentation task on compressed
videos, namely on the original video data flow. Besides the inherent difficulty
of the video referring object segmentation task itself, obtaining
discriminative representation from compressed video is also rather challenging.
To address this problem, we propose a multi-attention network which consists of
dual-path dual-attention module and a query-based cross-modal Transformer
module. Specifically, the dual-path dual-attention module is designed to
extract effective representation from compressed data in three modalities,
i.e., I-frame, Motion Vector and Residual. The query-based cross-modal
Transformer firstly models the correlation between linguistic and visual
modalities, and then the fused multi-modality features are used to guide object
queries to generate a content-aware dynamic kernel and to predict final
segmentation masks. Different from previous works, we propose to learn just one
kernel, which thus removes the complicated post mask-matching procedure of
existing methods. Extensive promising experimental results on three challenging
datasets show the effectiveness of our method compared against several
state-of-the-art methods which are proposed for processing RGB data. Source
code is available at: https://github.com/DexiangHong/MANet.
- Abstract(参考訳): ビデオオブジェクトのセグメンテーションは、与えられた言語表現で参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作品では、圧縮されたビデオビットストリームをセグメント化する前にrgbフレームにデコードする必要があるため、計算とストレージの要件が増大し、最終的に推論が遅くなる。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
この問題を軽減するため,本稿では,圧縮ビデオ,すなわちオリジナルのビデオデータフローにおける参照対象セグメント化タスクについて検討する。
ビデオ参照オブジェクトセグメンテーションタスク自体の本質的な困難さに加えて、圧縮されたビデオから識別的表現を得ることもかなり難しい。
この問題に対処するため,デュアルパスデュアルアテンションモジュールとクエリベースのクロスモーダルトランスフォーマーモジュールからなるマルチアテンションネットワークを提案する。
具体的には、dual-path dual-attentionモジュールは、圧縮データからi-frame、運動ベクトル、残差の3つのモダリティで効果的な表現を抽出するように設計されている。
クエリベースのクロスモーダルトランスフォーマーは、まず言語と視覚の相互関係をモデル化し、融合したマルチモーダル特徴を用いて、オブジェクトクエリを誘導し、コンテンツ対応動的カーネルを生成し、最終的なセグメンテーションマスクを予測する。
従来の研究とは違って、1つのカーネルのみを学習し、既存の手法の複雑なマスクマッチング手順を取り除くことを提案する。
3つの挑戦的データセットに対する有望な実験結果から,RGBデータ処理のためのいくつかの最先端手法と比較して,本手法の有効性が示された。
ソースコードはhttps://github.com/dexianghong/manet。
関連論文リスト
- ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Video Object Segmentation with Dynamic Query Modulation [23.811776213359625]
オブジェクトとマルチオブジェクトセグメンテーションのためのクエリ変調手法QMVOSを提案する。
提案手法は,メモリベースSVOS法を大幅に改善し,標準SVOSベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-03-18T07:31:39Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - Fully Transformer-Equipped Architecture for End-to-End Referring Video
Object Segmentation [24.814534011440877]
本稿では,RVOSタスクをマスクシーケンス学習問題として扱うエンドツーエンドのRVOSフレームワークを提案する。
オブジェクトレベルの空間コンテキストをキャプチャするために,Stacked Transformerを開発した。
このモデルは、マスクシーケンスとテキストクエリの最適なマッチングを見つける。
論文 参考訳(メタデータ) (2023-09-21T09:47:47Z) - Spectrum-guided Multi-granularity Referring Video Object Segmentation [56.95836951559529]
現在の参照ビデオオブジェクトセグメンテーション(R-VOS)技術は、符号化された(低解像度)視覚言語特徴から条件付きカーネルを抽出し、デコードされた高解像度特徴をセグメンテーションする。
これは、セグメント化カーネルが前方の計算で知覚に苦慮する重要な特徴の漂流を引き起こす。
符号化された特徴に対して直接セグメント化を行い,マスクをさらに最適化するために視覚的詳細を利用するスペクトル誘導多粒度手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T14:35:25Z) - Bimodal SegNet: Instance Segmentation Fusing Events and RGB Frames for
Robotic Grasping [4.191965713559235]
本稿では,イベントベースデータとRGBフレームデータという2種類の視覚信号を融合したディープラーニングネットワークを提案する。
Bimodal SegNetネットワークには、2つの異なるエンコーダがある。
評価結果から,コンバウンドと画素精度の平均交叉点において,最先端手法よりも6~10%向上したことが示された。
論文 参考訳(メタデータ) (2023-03-20T16:09:25Z) - Unsupervised Video Object Segmentation via Prototype Memory Network [5.612292166628669]
教師なしビデオオブジェクトセグメンテーションは、初期フレームに接地真実マスクなしで、対象オブジェクトをビデオにセグメントすることを目的としている。
この課題は、ビデオシーケンス内で最も有能な共通オブジェクトの機能を抽出することである。
本稿では,この問題を解決するために,新しいメモリネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-08T11:08:58Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Local-Global Context Aware Transformer for Language-Guided Video
Segmentation [103.35509224722097]
言語誘導ビデオセグメンテーション(LVS)の課題について検討する。
そこで我々は,Transformerアーキテクチャを有限メモリで拡張し,動画全体を言語表現で効率的にクエリするLocaterを提案する。
LVSモデルの視覚的接地能力を徹底的に検討するため、新しいLVSデータセットであるA2D-S+をA2D-Sデータセット上に構築する。
論文 参考訳(メタデータ) (2022-03-18T07:35:26Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。