論文の概要: Adversarially Robust Frame Sampling with Bounded Irregularities
- arxiv url: http://arxiv.org/abs/2002.01147v1
- Date: Tue, 4 Feb 2020 06:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 03:18:40.307361
- Title: Adversarially Robust Frame Sampling with Bounded Irregularities
- Title(参考訳): 境界不規則性をもつ逆ロバストフレームサンプリング
- Authors: Hanhan Li, Pin Wang
- Abstract要約: ビデオから意味のある情報を自動抽出するビデオ解析ツールが広く研究され、デプロイされている。
多くは計算コストのかかるディープニューラルネットワークを使用しており、そのようなアルゴリズムにビデオフレームのサブセットだけを投入することが望ましい。
このサンプリング問題に対するエレガントな解法は、敵攻撃に対して確実に堅牢であり、また有界な不規則性も導入する。
- 参考スコア(独自算出の注目度): 11.434633941880143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, video analysis tools for automatically extracting meaningful
information from videos are widely studied and deployed. Because most of them
use deep neural networks which are computationally expensive, feeding only a
subset of video frames into such algorithms is desired. Sampling the frames
with fixed rate is always attractive for its simplicity, representativeness,
and interpretability. For example, a popular cloud video API generated video
and shot labels by processing only the first frame of every second in a video.
However, one can easily attack such strategies by placing chosen frames at the
sampled locations. In this paper, we present an elegant solution to this
sampling problem that is provably robust against adversarial attacks and
introduces bounded irregularities as well.
- Abstract(参考訳): 近年,ビデオから意味のある情報を自動抽出するビデオ解析ツールが広く研究され,展開されている。
ほとんどが計算コストのかかるディープニューラルネットワークを使用しているため、そのようなアルゴリズムにビデオフレームのサブセットだけを投入することが望ましい。
フレームを固定レートでサンプリングすることは、その単純さ、代表性、解釈性のために常に魅力的である。
例えば、人気のcloud video apiは、ビデオ中の毎秒1フレームのみを処理することで、ビデオとショットのラベルを生成した。
しかし、選択したフレームをサンプリングされた場所に配置することで、このような戦略を簡単に攻撃することができる。
本稿では,このサンプリング問題に対するエレガントな解決法を提案する。
関連論文リスト
- SSVOD: Semi-Supervised Video Object Detection with Sparse Annotations [12.139451002212063]
SSVODはビデオのモーションダイナミクスを利用して、スパースアノテーション付き大規模未ラベルフレームを利用する。
提案手法は,ImageNet-VID, Epic-KITCHENS, YouTube-VISの既存手法に比べて,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-09-04T06:41:33Z) - Self-Adaptive Sampling for Efficient Video Question-Answering on Image--Text Models [41.12711820047315]
ビデオ理解モデルは通常、フレームやクリップの集合をランダムにサンプリングする。
本稿では,最多領域フレーム (MDF) と最多命令フレーム (MIF) の2つのフレームサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T14:54:30Z) - Key Frame Extraction with Attention Based Deep Neural Networks [0.0]
本稿では,注目層を持つディープオートエンコーダモデルを用いて,ディープラーニングに基づく検出手法を提案する。
提案手法は,まずオートエンコーダのエンコーダ部を用いて映像フレームから特徴を抽出し,k-meansアルゴリズムを用いて特徴と類似フレームをグループ化する。
本手法は,TVSUMクラスタリングビデオデータセットを用いて評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
論文 参考訳(メタデータ) (2023-06-21T15:09:37Z) - Blind Video Deflickering by Neural Filtering with a Flawed Atlas [90.96203200658667]
本稿では,一本のフリック動画のみを入力として受信する一般的なフリック除去フレームワークを提案する。
われわれのアプローチの核心は、ニューラルフィルター戦略と協調して、ニューラルアトラスを活用することである。
提案手法を検証するために,実世界のフリックングビデオを含むデータセットを構築した。
論文 参考訳(メタデータ) (2023-03-14T17:52:29Z) - Rethinking the Video Sampling and Reasoning Strategies for Temporal
Sentence Grounding [64.99924160432144]
時間的文グラウンドディング(TSG)は、特定のセグメントの時間的境界を文問合せによってビデオから識別することを目的としている。
本稿では,TSG のための新しいサイムズサンプリング・推論ネットワーク (SSRN) を提案し,シムズサンプリング機構を導入し,追加のコンテキストフレームを生成する。
論文 参考訳(メタデータ) (2023-01-02T03:38:22Z) - NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition [89.84188594758588]
非定常フレームの応答を抑制するために, NSNet(Non-Sliency Suppression Network)を提案する。
NSNetは最先端の精度効率トレードオフを実現し、最先端の手法よりもはるかに高速な2.44.3xの実用的な推論速度を示す。
論文 参考訳(メタデータ) (2022-07-21T09:41:22Z) - FrameHopper: Selective Processing of Video Frames in Detection-driven
Real-Time Video Analytics [2.5119455331413376]
検出駆動リアルタイムビデオ分析では、ビデオフレームに含まれるオブジェクトを連続的に検出する必要がある。
これらの検出器をリソース制約されたエッジデバイスの各フレームで実行することは、計算集約的である。
本稿では,これらのスキップ長を決定するために,オフライン強化学習(RL)に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-22T07:05:57Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。