論文の概要: Adversarial Memory Networks for Action Prediction
- arxiv url: http://arxiv.org/abs/2112.09875v1
- Date: Sat, 18 Dec 2021 08:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 16:38:26.667015
- Title: Adversarial Memory Networks for Action Prediction
- Title(参考訳): 行動予測のためのadversarial memory network
- Authors: Zhiqiang Tao, Yue Bai, Handong Zhao, Sheng Li, Yu Kong, Yun Fu
- Abstract要約: アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
- 参考スコア(独自算出の注目度): 95.09968654228372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action prediction aims to infer the forthcoming human action with
partially-observed videos, which is a challenging task due to the limited
information underlying early observations. Existing methods mainly adopt a
reconstruction strategy to handle this task, expecting to learn a single
mapping function from partial observations to full videos to facilitate the
prediction process. In this study, we propose adversarial memory networks
(AMemNet) to generate the "full video" feature conditioning on a partial video
query from two new aspects. Firstly, a key-value structured memory generator is
designed to memorize different partial videos as key memories and dynamically
write full videos in value memories with gating mechanism and querying
attention. Secondly, we develop a class-aware discriminator to guide the memory
generator to deliver not only realistic but also discriminative full video
features upon adversarial training. The final prediction result of AMemNet is
given by late fusion over RGB and optical flow streams. Extensive experimental
results on two benchmark video datasets, UCF-101 and HMDB51, are provided to
demonstrate the effectiveness of the proposed AMemNet model over
state-of-the-art methods.
- Abstract(参考訳): アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
既存の手法では,部分的な観察からフルビデオへの単一マッピング関数の学習を期待して,このタスクに対処する再構築戦略を主に採用している。
本研究では,2つの新たな側面から,部分的ビデオクエリ上で"フルビデオ"特徴条件付けを生成するために,adversarial memory network (amemnet)を提案する。
まず、キー値構造化メモリ生成器は、異なる部分映像をキーメモリとして記憶し、ゲーティング機構とクエリアテンションによって、バリューメモリにフルビデオを動的に書き込むように設計されている。
第2に,メモリジェネレータを誘導するクラス認識型判別器を開発した。
AMemNetの最終的な予測結果は、RGBおよび光フローストリーム上の後期融合によって与えられる。
UCF-101とHMDB51という2つのベンチマークビデオデータセットの大規模な実験結果を提供し、最先端手法に対するAMemNetモデルの有効性を実証した。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Rich Action-semantic Consistent Knowledge for Early Action Prediction [20.866206453146898]
早期行動予測(EAP)は、進行中のビデオにおける行動実行の一部から人間の行動を認識することを目的としている。
独自の部分的あるいは完全なビデオを分割して、任意の進行レベルで進化する新しい部分的ビデオのシリーズを形成する。
The Rich Action-semantic Consistent Knowledge Network (RACK) under the teacher-student framework is proposed for EAP。
論文 参考訳(メタデータ) (2022-01-23T03:39:31Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z) - Memory Enhanced Embedding Learning for Cross-Modal Video-Text Retrieval [155.32369959647437]
クロスモーダルなビデオテキスト検索は、視覚と言語分野において難しい課題である。
このタスクの既存のアプローチはすべて、ハードネガティブなランキング損失を通じてエンコーディングモデルを設計する方法に重点を置いている。
ビデオテキスト検索のための新しいメモリ強化埋め込み学習(MEEL)法を提案する。
論文 参考訳(メタデータ) (2021-03-29T15:15:09Z) - Video SemNet: Memory-Augmented Video Semantic Network [14.64546899992196]
本稿では,低レベルデータ表現と視覚媒体の意味的側面のギャップを埋めることで,映画の物語要素を捉える機械学習手法を提案する。
本稿では、意味記述子をエンコードし、ビデオの埋め込みを学ぶために、ビデオセマンティックネットワーク(Video SemNet)というメモリ拡張ビデオセマンティックネットワークを提案する。
重み付きF-1スコアは0.72, IMDB評価は0.63である。
論文 参考訳(メタデータ) (2020-11-22T01:36:37Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - SummaryNet: A Multi-Stage Deep Learning Model for Automatic Video
Summarisation [0.0]
本稿では,自動要約のための教師あり学習フレームワークとして,SupiseNetを紹介する。
2ストリームの畳み込みネットワークを使用して、空間(外観)と時間(動き)の表現を学習する。
論文 参考訳(メタデータ) (2020-02-19T18:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。