論文の概要: Fusion of Short-term and Long-term Attention for Video Mirror Detection
- arxiv url: http://arxiv.org/abs/2407.07999v1
- Date: Wed, 10 Jul 2024 19:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 21:39:04.203001
- Title: Fusion of Short-term and Long-term Attention for Video Mirror Detection
- Title(参考訳): ビデオミラー検出のための短期的・長期的注意の融合
- Authors: Mingchen Xu, Jing Wu, Yukun Lai, Ze Ji,
- Abstract要約: 人間は、その外観に基づいて、わずか1つか2つのフレームからミラー候補を認識することができる。
候補が本当にミラーであることを確実にするためには、グローバルな視点のためにもっと多くのフレームを観察する必要があります。
この観察は、短期の注意モジュールから抽出した外観特徴と長期の注意モジュールから抽出した文脈情報を融合させることで、ミラーを検出する動機付けとなる。
- 参考スコア(独自算出の注目度): 44.075391617727526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Techniques for detecting mirrors from static images have witnessed rapid growth in recent years. However, these methods detect mirrors from single input images. Detecting mirrors from video requires further consideration of temporal consistency between frames. We observe that humans can recognize mirror candidates, from just one or two frames, based on their appearance (e.g. shape, color). However, to ensure that the candidate is indeed a mirror (not a picture or a window), we often need to observe more frames for a global view. This observation motivates us to detect mirrors by fusing appearance features extracted from a short-term attention module and context information extracted from a long-term attention module. To evaluate the performance, we build a challenging benchmark dataset of 19,255 frames from 281 videos. Experimental results demonstrate that our method achieves state-of-the-art performance on the benchmark dataset.
- Abstract(参考訳): 静止画像から鏡を検出する技術は近年急速に成長している。
しかし,これらの手法は単一入力画像からミラーを検出する。
映像から鏡を検出するには、フレーム間の時間的一貫性をさらに考慮する必要がある。
人間は、その外観(例えば、形状、色)に基づいて、わずか1つか2つのフレームからミラー候補を認識することができる。
しかし、候補が(写真やウィンドウではなく)鏡であることを確実にするためには、グローバルなビューのためにより多くのフレームを観察する必要があることが多い。
この観察は、短期の注意モジュールから抽出した外観特徴と長期の注意モジュールから抽出した文脈情報を融合させることで、ミラーを検出する動機付けとなる。
性能を評価するため,281本のビデオから19,255フレームのベンチマークデータセットを構築した。
実験により,本手法がベンチマークデータセット上で最先端の性能を実現することを示す。
関連論文リスト
- Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - Symmetry-Aware Transformer-based Mirror Detection [85.47570468668955]
デュアルパス・シンメトリ・アウェア・トランスフォーマーを用いたミラー検出ネットワーク(SATNet)を提案する。
SATNetにはSymmetry-Aware Attention Module (SAAM)とContrastとFusion Decoder Module (CFDM)の2つの新しいモジュールが含まれている。
実験の結果,SATNet は RGB と RGB-D の両方のミラー検出法に優れることがわかった。
論文 参考訳(メタデータ) (2022-07-13T16:40:01Z) - Mirror-Yolo: An attention-based instance segmentation and detection
model for mirrors [7.26389301409471]
YOLOv4は、物体検出精度と速度の両方で驚くべき結果が得られる。
ミラーヨーロはミラー検出を中心に提案されている。
論文 参考訳(メタデータ) (2022-02-17T08:03:48Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Temporal Feature Warping for Video Shadow Detection [30.82493923485278]
本稿では,情報収集を時間的に改善する簡易かつ強力な手法を提案する。
我々は、光フローベースのワープモジュールを使用して、フレーム間の特徴を調整し、組み合わせます。
このワープモジュールを複数のディープ・ネットワーク・レイヤにまたがって適用し、局所的な詳細情報と高レベルのセマンティック情報を含む近隣のフレームから情報を取得する。
論文 参考訳(メタデータ) (2021-07-29T19:12:50Z) - Triple-cooperative Video Shadow Detection [43.030759888063194]
60のオブジェクトカテゴリ、さまざまな長さ、異なるモーション/照明条件をカバーする、11,685フレームの120のビデオを含む新しいビデオシャドウ検出データセットを収集します。
また、新しいベースラインモデルであるトリプル協調ビデオシャドウ検出ネットワーク(TVSD-Net)も開発している。
ネットワーク内では、同一ビデオ内の隣接するフレームから特徴を制限するためにデュアルゲートコアテンションモジュールが提案され、異なるビデオ間で意味情報をマイニングするために補助的な類似性損失が導入された。
論文 参考訳(メタデータ) (2021-03-11T08:54:19Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。