論文の概要: TransVCL: Attention-enhanced Video Copy Localization Network with
Flexible Supervision
- arxiv url: http://arxiv.org/abs/2211.13090v2
- Date: Thu, 24 Nov 2022 01:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 12:07:00.153325
- Title: TransVCL: Attention-enhanced Video Copy Localization Network with
Flexible Supervision
- Title(参考訳): TransVCL:フレキシブル・スーパービジョンによる注意力強化ビデオコピー・ローカライゼーション・ネットワーク
- Authors: Sifeng He, Yue He, Minlong Lu, Chen Jiang, Xudong Yang, Feng Qian,
Xiaobo Zhang, Lei Yang, Jiandong Zhang
- Abstract要約: コピーローカライゼーションは、ビデオ検索アプリケーションにおいて、コピーされた全セグメントを、ラベルなしのビデオのペアに正確にローカライズすることを目的としている。
従来の手法は、通常、入力されたビデオペアのフレームレベルの特徴間のコサイン類似性によって生成されるフレーム間類似性行列から始まる。
本稿では,初期フレームレベルの機能から直接最適化された注目度の高いビデオコピーローカライゼーションネットワークであるTransを提案する。
- 参考スコア(独自算出の注目度): 17.269652184918755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video copy localization aims to precisely localize all the copied segments
within a pair of untrimmed videos in video retrieval applications. Previous
methods typically start from frame-to-frame similarity matrix generated by
cosine similarity between frame-level features of the input video pair, and
then detect and refine the boundaries of copied segments on similarity matrix
under temporal constraints. In this paper, we propose TransVCL: an
attention-enhanced video copy localization network, which is optimized directly
from initial frame-level features and trained end-to-end with three main
components: a customized Transformer for feature enhancement, a correlation and
softmax layer for similarity matrix generation, and a temporal alignment module
for copied segments localization. In contrast to previous methods demanding the
handcrafted similarity matrix, TransVCL incorporates long-range temporal
information between feature sequence pair using self- and cross- attention
layers. With the joint design and optimization of three components, the
similarity matrix can be learned to present more discriminative copied
patterns, leading to significant improvements over previous methods on
segment-level labeled datasets (VCSL and VCDB). Besides the state-of-the-art
performance in fully supervised setting, the attention architecture facilitates
TransVCL to further exploit unlabeled or simply video-level labeled data.
Additional experiments of supplementing video-level labeled datasets including
SVD and FIVR reveal the high flexibility of TransVCL from full supervision to
semi-supervision (with or without video-level annotation). Code is publicly
available at https://github.com/transvcl/TransVCL.
- Abstract(参考訳): ビデオコピーのローカライゼーションは、ビデオ検索アプリケーションにおいて、コピーされた全セグメントを、一対の未トリミングビデオに正確にローカライズすることを目的としている。
従来の手法は、入力されたビデオペアのフレームレベルの特徴間のコサイン類似性によって生成されるフレーム間類似性行列から始まり、時間的制約の下で類似性行列上のコピーセグメントの境界を検出して洗練する。
本稿では,初期フレームレベルの特徴から直接最適化され,特徴強化のためのカスタマイズされたトランスフォーマー,類似度行列生成のための相関・ソフトマックス層,コピーセグメントローカライズのための時間的アライメントモジュールの3つの主要コンポーネントを備えた,注目度の高いビデオコピーローカライゼーションネットワークであるTransVCLを提案する。
従来の手作り類似性行列要求手法とは対照的に,TransVCLでは,自己注意層と横断注意層を用いた特徴系列ペア間の長距離時間情報を組み込んでいる。
3つのコンポーネントの合同設計と最適化により、類似性マトリックスはより識別可能なコピーパターンを示し、セグメントレベルのラベル付きデータセット(vcslとvcdb)の以前の方法を大きく改善した。
完全に教師された環境での最先端のパフォーマンスに加えて、アテンションアーキテクチャはTransVCLにラベルなしまたは単にビデオレベルのラベル付きデータをさらに活用させる。
SVDやFIVRなど、ビデオレベルのラベル付きデータセットを補完する追加実験は、TransVCLの完全な監督から半監督(ビデオレベルのアノテーションの有無に関わらず)への高い柔軟性を明らかにしている。
コードはhttps://github.com/transvcl/TransVCLで公開されている。
関連論文リスト
- Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation
Protocol for Segment-level Video Copy Detection [19.269688184942833]
本稿では,新しい包括的セグメントレベルのアノテーション付きビデオコピーデータセットであるVCSLを紹介する。
280k以上のローカライズされたコピーセグメントペアを含む、160k以上のリアルなビデオコピーペアを含んでいる。
収集されたビデオペア内のすべてのコピーされたセグメントを手作業で抽出し、正確に注釈付けされた開始と終了のタイムスタンプを添付する。
論文 参考訳(メタデータ) (2022-03-05T04:39:34Z) - Video Similarity and Alignment Learning on Partial Video Copy Detection [17.05845334166203]
本稿では,空間的類似性,時間的類似性,部分的アライメントを共同でモデル化するビデオ類似性とアライメント学習手法を提案する。
類似性とアライメント学習戦略により、VSALはVCDBコアデータセット上で最先端のF1スコアを達成する。
FIVR-200kデータセットにセグメントレベルのアノテーションを追加することで、部分的ビデオコピー検出とローカライゼーションの新しいベンチマークを構築する。
論文 参考訳(メタデータ) (2021-08-04T02:33:32Z) - TransVOS: Video Object Segmentation with Transformers [13.311777431243296]
本研究では,時間的・空間的関係をフル活用し,モデル化する視覚変換器を提案する。
人気のある2エンコーダパイプラインをスリム化するために,単一の2パス特徴抽出器を設計する。
実験では、DAVISとYouTube-VOSのデータセットにおける最先端の手法よりもTransVOSの方が優れていることを示した。
論文 参考訳(メタデータ) (2021-06-01T15:56:10Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。