論文の概要: Adversarially Robust Video Perception by Seeing Motion
- arxiv url: http://arxiv.org/abs/2212.07815v1
- Date: Tue, 13 Dec 2022 02:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 17:09:09.673971
- Title: Adversarially Robust Video Perception by Seeing Motion
- Title(参考訳): 動きによる対向的ロバスト映像知覚
- Authors: Lingyu Zhang, Chengzhi Mao, Junfeng Yang, Carl Vondrick
- Abstract要約: ビデオモデルの脆弱性の1つの原因は、敵対的摂動下での正しい動きを認識できないことである。
人間の視覚システムにとって、動きが重要な要素であるという広範な証拠に触発され、知覚された動き情報を復元することで、モデルが何を見ているかを修正することを提案する。
我々の研究は、データから本質的な構造を用いることで、ロバストな映像認識アルゴリズムに関する新たな洞察を提供する。
- 参考スコア(独自算出の注目度): 29.814393563282753
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite their excellent performance, state-of-the-art computer vision models
often fail when they encounter adversarial examples. Video perception models
tend to be more fragile under attacks, because the adversary has more places to
manipulate in high-dimensional data. In this paper, we find one reason for
video models' vulnerability is that they fail to perceive the correct motion
under adversarial perturbations. Inspired by the extensive evidence that motion
is a key factor for the human visual system, we propose to correct what the
model sees by restoring the perceived motion information. Since motion
information is an intrinsic structure of the video data, recovering motion
signals can be done at inference time without any human annotation, which
allows the model to adapt to unforeseen, worst-case inputs. Visualizations and
empirical experiments on UCF-101 and HMDB-51 datasets show that restoring
motion information in deep vision models improves adversarial robustness. Even
under adaptive attacks where the adversary knows our defense, our algorithm is
still effective. Our work provides new insight into robust video perception
algorithms by using intrinsic structures from the data. Our webpage is
available at https://motion4robust.cs.columbia.edu.
- Abstract(参考訳): 優れた性能にもかかわらず、最先端のコンピュータビジョンモデルは敵の例に遭遇すると失敗することが多い。
映像知覚モデルは、高次元データで操作する場所が多いため、攻撃下ではより脆弱な傾向にある。
本稿では,ビデオモデルの脆弱性の一つとして,逆摂動下での正しい動きを認識できないことを見出す。
運動が人間の視覚システムにとって重要な要素であるという広範な証拠に触発され、知覚された動き情報を復元することでモデルが見ているものを修正することを提案する。
モーション情報はビデオデータの本質的な構造であるため、人間のアノテーションを使わずに推論時に動き信号を復元することができ、予期せぬ最悪の入力に適応することができる。
UCF-101データセットとHMDB-51データセットの可視化と実証実験により、深部視覚モデルにおける動き情報の復元が対向的堅牢性を改善することが示された。
敵が我々の防御を知っていても、我々のアルゴリズムは有効だ。
本研究は,データからの固有構造を用いて,ロバストな映像知覚アルゴリズムに対する新たな洞察を提供する。
私たちのwebページはhttps://motion4robust.cs.columbia.eduで閲覧できます。
関連論文リスト
- Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Exploring Human Crowd Patterns and Categorization in Video Footage for
Enhanced Security and Surveillance using Computer Vision and Machine Learning [0.0]
本稿では,映像中の動きを追跡する新しいアプローチとして,コンピュータビジョンのセキュリティと監視の可能性について考察する。
動作をArcs, Lanes, Converging/Diverging, Random/Block動作に分類することにより、異なる光フロー技術、CNNモデル、機械学習モデルについて検討する。
その結果、異常検出モデルのトレーニング、動きに基づく行動洞察の提供、シーンの理解の向上が可能となった。
論文 参考訳(メタデータ) (2023-08-26T16:09:20Z) - Adversarial Self-Attack Defense and Spatial-Temporal Relation Mining for
Visible-Infrared Video Person Re-Identification [24.9205771457704]
本稿では,新しい視点,すなわち対人自己防衛と時空間的関係のマイニングから,新しい可視赤外ビデオパーソン re-ID 手法を提案する。
提案手法は,大規模なクロスモダリティビデオデータセットにおいて魅力的な性能を示す。
論文 参考訳(メタデータ) (2023-07-08T05:03:10Z) - Why is the video analytics accuracy fluctuating, and what can we do
about it? [2.0741583844039915]
ビデオは一連の画像(フレーム)と考えるのが一般的であり、ビデオ上の同様の分析タスクのためにイメージのみに基づいてトレーニングされたディープニューラルネットワークモデルを再利用する。
本稿では、画像上でうまく機能するディープラーニングモデルが、ビデオ上でもうまく機能する、という信念の飛躍が、実際は欠陥であることを示す。
映像カメラが人間の知覚で変化しないシーンを見ているときでも、映像解析アプリケーションの精度は顕著に変動する。
論文 参考訳(メタデータ) (2022-08-23T23:16:24Z) - Temporal Shuffling for Defending Deep Action Recognition Models against
Adversarial Attacks [67.58887471137436]
本研究では,動作認識モデルに対する対人攻撃に対して,入力ビデオの時間的シャッフルを用いた新しい防御手法を開発した。
我々の知る限りでは、これは3D CNNに基づく映像行動認識モデルのための追加トレーニングなしで防御方法を設計する最初の試みである。
論文 参考訳(メタデータ) (2021-12-15T06:57:01Z) - Boosting the Transferability of Video Adversarial Examples via Temporal
Translation [82.0745476838865]
敵の例は転送可能であり、現実世界のアプリケーションにおけるブラックボックス攻撃に対して実現可能である。
本稿では,一組の時間的翻訳ビデオクリップ上での対向的摂動を最適化する時間的翻訳攻撃手法を提案する。
Kinetics-400 データセットと UCF-101 データセットを用いた実験により,本手法がビデオ対向例の転送可能性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2021-10-18T07:52:17Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - Motion-Excited Sampler: Video Adversarial Attack with Sparked Prior [63.11478060678794]
そこで本研究では,前もってモーションアウェアノイズを得るための効果的なモーションエキサイティングサンプリング手法を提案する。
より少ないクエリ数で様々なビデオ分類モデルを攻撃することができる。
論文 参考訳(メタデータ) (2020-03-17T10:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。