論文の概要: Knowledge Fusion Transformers for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2009.13782v2
- Date: Wed, 30 Sep 2020 03:53:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 06:39:06.862602
- Title: Knowledge Fusion Transformers for Video Action Recognition
- Title(参考訳): ビデオ動作認識のための知識融合トランスフォーマ
- Authors: Ganesh Samarth, Sheetal Ojha, Nikhil Pareek
- Abstract要約: 本稿では, 自己注意型特徴強調器を用いて, 分類を意図した映像クリップのコンテキストを3Dベースで表現し, 行動知識を融合する。
1つのストリームのみを使用して、あるいはほとんど、事前トレーニングがなければ、現在の最先端に近いパフォーマンスの道を開くことができる、と私たちは示しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Knowledge Fusion Transformers for video action classification.
We present a self-attention based feature enhancer to fuse action knowledge in
3D inception based spatio-temporal context of the video clip intended to be
classified. We show, how using only one stream networks and with little or, no
pretraining can pave the way for a performance close to the current
state-of-the-art. Additionally, we present how different self-attention
architectures used at different levels of the network can be blended-in to
enhance feature representation. Our architecture is trained and evaluated on
UCF-101 and Charades dataset, where it is competitive with the state of the
art. It also exceeds by a large gap from single stream networks with no to less
pretraining.
- Abstract(参考訳): ビデオアクション分類のための知識融合変換器を提案する。
分類対象のビデオクリップの3次元インセプションに基づく時空間的文脈における行動知識を融合する自己注意型特徴強調器を提案する。
ストリームネットワークを1つだけ使う方法と、事前トレーニングをほとんど行わずに、現在の最先端に近いパフォーマンスを実現する方法が示されています。
さらに,ネットワークの異なるレベルで使用するセルフアテンションアーキテクチャをブレンドして,機能表現を強化する方法について述べる。
私たちのアーキテクチャは、UCF-101とCharadesのデータセットでトレーニングされ、評価されています。
また、前もってトレーニングをしないシングルストリームネットワークとの大きなギャップも超えている。
関連論文リスト
- AU-vMAE: Knowledge-Guide Action Units Detection via Video Masked Autoencoder [38.04963261966939]
顔行動単位(FAU)検出のためのビデオレベルの事前学習方式を提案する。
我々の設計の中心は、ビデオマインドオートエンコーダに基づく事前訓練されたビデオ特徴抽出器である。
提案手法は,BP4DおよびdisFA FAUsデータセットで使用されている既存の最先端手法と比較して,性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-16T08:07:47Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Beyond the Field-of-View: Enhancing Scene Visibility and Perception with Clip-Recurrent Transformer [28.326852785609788]
FlowLensアーキテクチャは、光学フローを明示的に採用し、特徴伝達のための新しいクリップリカレントトランスフォーマーを暗黙的に組み込んでいる。
本稿では,自律走行車における視野拡大を目的としたオンライン映像インペインティングの概念を提案する。
オフラインおよびオンラインビデオのインペイントを含む実験とユーザスタディ、さらにはFo-Vの知覚タスクは、Flowsが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2022-11-21T09:34:07Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Event and Activity Recognition in Video Surveillance for Cyber-Physical
Systems [0.0]
長期動作パターンは、イベントを認識するタスクにおいて、それ自体が重要な役割を果たす。
本研究では,イベント認識作業において,長期動作パターンのみが重要な役割を担っていることを示す。
時間的特徴のみをハイブリッド畳み込みニューラルネットワーク(CNN)+リカレントニューラルネットワーク(RNN)アーキテクチャで活用する。
論文 参考訳(メタデータ) (2021-11-03T08:30:38Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - AssembleNet++: Assembling Modality Representations via Attention
Connections [83.50084190050093]
i)セマンティックオブジェクト情報と生の外観と動きの特徴の相互作用を学習し、(ii)ネットワークの各畳み込みブロックにおける特徴の重要性をよりよく学習するために注意を配置する。
ピアアテンションと呼ばれる新しいネットワークコンポーネントを導入し、別のブロックや入力モダリティを使って動的にアテンションウェイトを学習する。
論文 参考訳(メタデータ) (2020-08-18T17:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。