Fugu-MT 論文翻訳(概要): Spatio-temporal Prompting Network for Robust Video Feature Extraction

論文の概要: Spatio-temporal Prompting Network for Robust Video Feature Extraction

arxiv url: http://arxiv.org/abs/2402.02574v1
Date: Sun, 4 Feb 2024 17:52:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 18:48:55.654315
Title: Spatio-temporal Prompting Network for Robust Video Feature Extraction
Title（参考訳）: ロバストビデオ特徴抽出のための時空間プロンプトネットワーク
Authors: Guanxiong Sun, Chi Wang, Zhaoyu Zhang, Jiankang Deng, Stefanos Zafeiriou, Yang Hua
Abstract要約: フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。 N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
参考スコア（独自算出の注目度）: 74.54597668310707
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Frame quality deterioration is one of the main challenges in the field of video understanding. To compensate for the information loss caused by deteriorated frames, recent approaches exploit transformer-based integration modules to obtain spatio-temporal information. However, these integration modules are heavy and complex. Furthermore, each integration module is specifically tailored for its target task, making it difficult to generalise to multiple tasks. In this paper, we present a neat and unified framework, called Spatio-Temporal Prompting Network (STPN). It can efficiently extract robust and accurate video features by dynamically adjusting the input features in the backbone network. Specifically, STPN predicts several video prompts containing spatio-temporal information of neighbour frames. Then, these video prompts are prepended to the patch embeddings of the current frame as the updated input for video feature extraction. Moreover, STPN is easy to generalise to various video tasks because it does not contain task-specific modules. Without bells and whistles, STPN achieves state-of-the-art performance on three widely-used datasets for different video understanding tasks, i.e., ImageNetVID for video object detection, YouTubeVIS for video instance segmentation, and GOT-10k for visual object tracking. Code is available at https://github.com/guanxiongsun/vfe.pytorch.
Abstract（参考訳）: フレーム品質の劣化は、ビデオ理解の分野で大きな課題の1つである。劣化したフレームによる情報損失を補うため,最近の手法ではトランスフォーマーベースの統合モジュールを利用して時空間情報を取得する。しかし、これらの統合モジュールは重く複雑です。さらに、各統合モジュールはターゲットタスク用に特別に調整されており、複数のタスクに一般化することが困難である。本稿では,スポーティ・テンポラル・プロンプティング・ネットワーク(STPN)と呼ばれる,クリーンで統一されたフレームワークを提案する。バックボーンネットワークの入力特徴を動的に調整することにより、ロバストで正確な映像特徴を効率的に抽出することができる。具体的には、STPNは近隣フレームの時空間情報を含む複数のビデオプロンプトを予測する。そして、ビデオ特徴抽出のための更新入力として、現在のフレームのパッチ埋め込みに、これらのビデオプロンプトをプリプットする。さらに、STPNはタスク固有のモジュールを含まないため、様々なビデオタスクに簡単に一般化できる。 STPNは、ビデオオブジェクト検出のためのImageNetVID、ビデオインスタンスセグメンテーションのためのYouTubeVIS、ビジュアルオブジェクト追跡のためのGOT-10kという、さまざまなビデオ理解タスクのために広く使用されている3つのデータセットに対して、最先端のパフォーマンスを達成する。コードはhttps://github.com/guanxiongsun/vfe.pytorchで入手できる。

関連論文リスト

Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Disentangling spatio-temporal knowledge for weakly supervised object detection and segmentation in surgical video [10.287675722826028]
本稿では,セミデカップリング型時間的知識蒸留を用いて,高品質なクラスアクティベーションマップ(CAM)の予測を行うために,VDST-Net(Video Spatio-Temporal Disment Networks)を導入している。提案するフレームワークは,一般的な参照データセットや,オブジェクトが平均60%未満の注釈付きフレームに存在する,より困難な手術用ビデオデータセット上で有効であることを示す。
論文参考訳（メタデータ） (2024-07-22T16:52:32Z)
OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer [14.503628667535425]
広範なビデオの処理は、膨大なデータと処理要求のために大きな課題をもたらします。我々はOmAgentを開発し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。自律推論が可能なDivide-and-Conquer Loopを備えている。より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。
論文参考訳（メタデータ） (2024-06-24T13:05:39Z)
LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文参考訳（メタデータ） (2024-04-04T11:33:29Z)
TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文参考訳（メタデータ） (2023-12-13T21:02:03Z)
Multi-entity Video Transformers for Fine-Grained Video Representation Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2023-11-17T21:23:12Z)
TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。 TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文参考訳（メタデータ） (2023-10-29T16:25:32Z)
Streaming Video Model [90.24390609039335]
本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。 S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。 S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
論文参考訳（メタデータ） (2023-03-30T08:51:49Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
Temporal Complementary Learning for Video Person Re-Identification [110.43147302200101]
本稿では,連続する映像フレームの相補的特徴を抽出し,映像人物の再同定を行う時間補完学習ネットワークを提案する。サリエンシ消去操作により、特定の学習者は、前のフレームによって活性化された部分を消去することにより、新規かつ補完的な部分をマイニングする。テンポラル・サリエンシ・ブースティング(TSB)モジュールは、ビデオフレーム間のサリエント情報を伝播してサリエント機能を強化するように設計されている。
論文参考訳（メタデータ） (2020-07-18T07:59:01Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。