論文の概要: MGSampler: An Explainable Sampling Strategy for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2104.09952v1
- Date: Tue, 20 Apr 2021 13:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 18:37:34.290281
- Title: MGSampler: An Explainable Sampling Strategy for Video Action Recognition
- Title(参考訳): MGSampler: ビデオアクション認識のための説明可能なサンプリング戦略
- Authors: Yuan Zhi, Zhan Tong, Limin Wang, Gangshan Wu
- Abstract要約: Motion-Guided Sampler (MGSampler) と呼ばれる、説明可能で適応性が高く効果的なフレームサンプラーを紹介します。
私たちの基本的な動機は、モーションは重要で普遍的な信号であり、ビデオからフレームを適応的に選択できるということです。
MGSamplerは、既存のビデオアーキテクチャに組み込むことができる新しい原則化された包括的なサンプルスキームを提供します。
- 参考スコア(独自算出の注目度): 30.516462193231888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frame sampling is a fundamental problem in video action recognition due to
the essential redundancy in time and limited computation resources. The
existing sampling strategy often employs a fixed frame selection and lacks the
flexibility to deal with complex variations in videos. In this paper, we
present an explainable, adaptive, and effective frame sampler, called
Motion-guided Sampler (MGSampler). Our basic motivation is that motion is an
important and universal signal that can drive us to select frames from videos
adaptively. Accordingly, we propose two important properties in our MGSampler
design: motion sensitive and motion uniform. First, we present two different
motion representations to enable us to efficiently distinguish the motion
salient frames from the background. Then, we devise a motion-uniform sampling
strategy based on the cumulative motion distribution to ensure the sampled
frames evenly cover all the important frames with high motion saliency. Our
MGSampler yields a new principled and holistic sample scheme, that could be
incorporated into any existing video architecture. Experiments on five
benchmarks demonstrate the effectiveness of our MGSampler over previously fixed
sampling strategies, and also its generalization power across different
backbones, video models, and datasets.
- Abstract(参考訳): フレームサンプリングは、時間と限られた計算資源の欠如により、ビデオアクション認識の基本的な問題である。
既存のサンプリング戦略はしばしば固定フレーム選択を採用しており、ビデオの複雑なバリエーションを扱う柔軟性に欠ける。
本稿では、Motion-Guided Sampler(MGSampler)と呼ばれる、説明可能な、適応的で効果的なフレームサンプリング手法を提案する。
私たちの基本的な動機は、モーションは重要で普遍的な信号であり、ビデオからフレームを適応的に選択できるということです。
そこで我々は,MGSamplerの設計における2つの重要な特性として,運動感度と運動均一性を提案する。
まず,2つの異なる動き表現を提示することで,動きのサルエントフレームを背景から効率的に区別することができる。
次に, 累積運動分布に基づく運動一様サンプリング戦略を考案し, サンプリングされたフレームがすべての重要なフレームを高い運動塩分で均等にカバーすることを保証する。
私たちのMGSamplerは、既存のビデオアーキテクチャに組み込むことのできる、新しい原則で総合的なサンプルスキームを提供します。
5つのベンチマークにおける実験は、以前の固定されたサンプリング戦略に対するmgsamplerの有効性と、異なるバックボーン、ビデオモデル、データセットにまたがる一般化能力を示しています。
関連論文リスト
- An Empirical Comparison of Video Frame Sampling Methods for Multi-Modal RAG Retrieval [1.6581184950812533]
自然言語質問を用いたビデオ・フレーム検索におけるフレームサンプリング手法のトレードオフについて検討する。
本稿では,ビデオRAGパターンが必要とするベクトルデータベース内の画像データ(ビデオフレーム)の保存と検索に焦点を当てた。
論文 参考訳(メタデータ) (2024-07-22T11:44:08Z) - End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling [43.024232182899354]
そこで我々は,VidF4を提案する。VidF4は,ビデオQAを効果的かつ効率的に選択するためのフレーム選択戦略を備えた,新しいビデオQAフレームワークである。
本稿では,ビデオ上での質問に対する各フレームの重要性を評価するために,質問関連性とフレーム間類似性の両方を考慮した3つのフレーム照合機構を提案する。
広く採用されている3つのベンチマークによる実験結果から,我々のモデルは既存のビデオQA手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-07-21T04:09:37Z) - Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。
本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T14:54:30Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z) - Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance [83.25826307000717]
単一の動き赤画像から詳細な動きを復元する際の課題について検討する。
既存の解法では、各領域の運動のあいまいさを考慮せずに単一の画像列を推定する。
本稿では、このような動きのあいまいさを明示的に説明し、複数の可算解をシャープな詳細で生成することができる。
論文 参考訳(メタデータ) (2022-07-20T18:05:53Z) - Task-adaptive Spatial-Temporal Video Sampler for Few-shot Action
Recognition [25.888314212797436]
本稿では,アクション認識のための新しいビデオフレームサンプリング手法を提案する。
タスク固有の時空間フレームサンプリングは時空間セレクタ(TS)と空間増幅器(SA)を介して実現される
実験では、長期ビデオを含む様々なベンチマークが大幅に向上した。
論文 参考訳(メタデータ) (2022-07-20T09:04:12Z) - Context-Aware Video Reconstruction for Rolling Shutter Cameras [52.28710992548282]
本稿では,文脈対応のGSビデオ再構成アーキテクチャを提案する。
まず、2つのRSフレームの画素が共通のGSフレームに歪むように、左右の運動場を推定する。
そこで,両面閉塞マスクとともにGSフレーム合成を誘導し,高忠実度GSビデオフレームを生成するための改良手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:05:47Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。