論文の概要: VS-Net: Multiscale Spatiotemporal Features for Lightweight Video Salient
Document Detection
- arxiv url: http://arxiv.org/abs/2301.04447v1
- Date: Wed, 11 Jan 2023 13:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:19:48.168497
- Title: VS-Net: Multiscale Spatiotemporal Features for Lightweight Video Salient
Document Detection
- Title(参考訳): vs-net: 軽量ビデオサルエント文書検出のためのマルチスケール時空間機能
- Authors: Hemraj Singh, Mridula Verma, Ramalingaswamy Cheruku
- Abstract要約: 拡張深度分割可能な畳み込みと近似ランクプーリングの助けを借りて,マルチスケールの時間情報をキャプチャするVS-Netを提案する。
本モデルでは,背景と前景の両方を考慮したサリエンシマップを作成した。
MIDV-500データセットで規制された膨大な実験は、VS-Netモデルが時間と堅牢性の両方で最先端のアプローチより優れていることを示している。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Salient Document Detection (VSDD) is an essential task of practical
computer vision, which aims to highlight visually salient document regions in
video frames. Previous techniques for VSDD focus on learning features without
considering the cooperation among and across the appearance and motion cues and
thus fail to perform in practical scenarios. Moreover, most of the previous
techniques demand high computational resources, which limits the usage of such
systems in resource-constrained settings. To handle these issues, we propose
VS-Net, which captures multi-scale spatiotemporal information with the help of
dilated depth-wise separable convolution and Approximation Rank Pooling. VS-Net
extracts the key features locally from each frame across embedding sub-spaces
and forwards the features between adjacent and parallel nodes, enhancing model
performance globally. Our model generates saliency maps considering both the
background and foreground simultaneously, making it perform better in
challenging scenarios. The immense experiments regulated on the benchmark
MIDV-500 dataset show that the VS-Net model outperforms state-of-the-art
approaches in both time and robustness measures.
- Abstract(参考訳): ビデオ・サリエント文書検出(VSDD)は,映像フレーム内の視覚的サリエント文書領域の強調を目的とした,実用的なコンピュータビジョンの必須課題である。
従来のVSDDのテクニックは、外観や動作手段間の協調を考慮せずに学習機能に重点を置いており、現実的なシナリオでは実行できない。
さらに,従来の手法では高い計算資源が要求されるため,そのようなシステムの利用が制限される。
これらの問題に対処するために,拡張深度分割可能な畳み込みと近似ランクプーリングの助けを借りて,マルチスケールの時空間情報をキャプチャするVS-Netを提案する。
vs-netは、各フレームから各部分空間にまたがる重要な機能をローカルに抽出し、隣接ノードと並列ノードの間で機能を転送し、モデルパフォーマンスをグローバルに向上させる。
我々のモデルでは,背景と前景の両方を同時に考慮し,サルジェンシーマップを生成する。
MIDV-500データセットで規制された膨大な実験は、VS-Netモデルが時間と堅牢性の両方で最先端のアプローチより優れていることを示している。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - MVFuseNet: Improving End-to-End Object Detection and Motion Forecasting
through Multi-View Fusion of LiDAR Data [4.8061970432391785]
We propose itMVFusenet, a novel end-to-end method for joint object detection motion forecasting from a temporal sequence of LiDAR data。
2つの大規模自動運転データセットの検出と動作予測のタスクに対する当社のマルチビューアプローチの利点を示します。
論文 参考訳(メタデータ) (2021-04-21T21:29:08Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Representation Learning with Video Deep InfoMax [26.692717942430185]
我々は、DeepInfoMaxをビデオ領域に拡張し、時間的ネットワークにおける同様の構造を利用する。
自然数列と時間ダウンサンプル列の両方からの描画ビューが,キネティクスに制約された行動認識タスクに結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-07-27T02:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。