論文の概要: Knowledge Integration Networks for Action Recognition
- arxiv url: http://arxiv.org/abs/2002.07471v1
- Date: Tue, 18 Feb 2020 10:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 20:18:11.213058
- Title: Knowledge Integration Networks for Action Recognition
- Title(参考訳): 行動認識のための知識統合ネットワーク
- Authors: Shiwen Zhang and Sheng Guo and Limin Wang and Weilin Huang and Matthew
R. Scott
- Abstract要約: 我々は,アクション認識のためのメインブランチと,人間のパースとシーン認識のための2つの補助ブランチからなる3分岐アーキテクチャを設計する。
補助知識を中程度の畳み込み特徴に符号化するクロスブランチ統合(CBI)モジュールと、高レベルの文脈情報を効果的に融合するアクション知識グラフ(AKG)を含む2段階の知識符号化機構を提案する。
KINetは、大規模アクション認識ベンチマークKinetics-400の最先端性能を77.8%で達成している。
- 参考スコア(独自算出の注目度): 58.548331848942865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose Knowledge Integration Networks (referred as KINet)
for video action recognition. KINet is capable of aggregating meaningful
context features which are of great importance to identifying an action, such
as human information and scene context. We design a three-branch architecture
consisting of a main branch for action recognition, and two auxiliary branches
for human parsing and scene recognition which allow the model to encode the
knowledge of human and scene for action recognition. We explore two pre-trained
models as teacher networks to distill the knowledge of human and scene for
training the auxiliary tasks of KINet. Furthermore, we propose a two-level
knowledge encoding mechanism which contains a Cross Branch Integration (CBI)
module for encoding the auxiliary knowledge into medium-level convolutional
features, and an Action Knowledge Graph (AKG) for effectively fusing high-level
context information. This results in an end-to-end trainable framework where
the three tasks can be trained collaboratively, allowing the model to compute
strong context knowledge efficiently. The proposed KINet achieves the
state-of-the-art performance on a large-scale action recognition benchmark
Kinetics-400, with a top-1 accuracy of 77.8%. We further demonstrate that our
KINet has strong capability by transferring the Kinetics-trained model to
UCF-101, where it obtains 97.8% top-1 accuracy.
- Abstract(参考訳): 本研究では,映像行動認識のための知識統合ネットワーク(KINet)を提案する。
KINetは、人間の情報やシーンコンテキストなど、アクションを特定する上で非常に重要である意味のあるコンテキスト特徴を集約することができる。
アクション認識のためのメインブランチと、アクション認識のための人間とシーンの知識をエンコードできる人間の解析とシーン認識のための2つの補助ブランチからなる3つのブランチアーキテクチャを設計した。
本研究では,教師ネットワークとしての事前学習モデル2つを探索し,KINetの補助的タスクを訓練するための人間とシーンの知識を抽出する。
さらに、補助知識を中程度の畳み込み特徴に符号化するクロスブランチ統合(CBI)モジュールと、高レベルの文脈情報を効果的に融合するアクション知識グラフ(AKG)を含む2レベル知識符号化機構を提案する。
これにより、3つのタスクを協調的にトレーニングできるエンドツーエンドのトレーニング可能なフレームワークが実現され、モデルが強力なコンテキスト知識を効率的に計算できるようになる。
KINetは、大規模アクション認識ベンチマークKinetics-400の最先端性能を77.8%で達成している。
さらに,我々のkinetは,運動学訓練モデルからutf-101へ移行することで,97.8%のtop-1精度が得られることを実証した。
関連論文リスト
- Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - A Hierarchical Graph-based Approach for Recognition and Description
Generation of Bimanual Actions in Videos [3.7486111821201287]
本研究では,階層型階層型アテンション機構とグラフベースモデリングを統合した新しい手法について述べる。
このアプローチの複雑さは、複数の2Dデータセットと3Dデータセットを使って経験的にテストされています。
論文 参考訳(メタデータ) (2023-10-01T13:45:48Z) - Conditioning Covert Geo-Location (CGL) Detection on Semantic Class
Information [5.660207256468971]
サハらによってCCGL(Covert Geo-Location)検出と呼ばれる潜在的な隠蔽物を特定するタスクが提案された。
セマンティッククラス情報を利用する試みは行われなかった。
本稿では,2つの目標を達成するためのマルチタスク学習に基づくアプローチを提案する。i) 意味クラス情報を持つ特徴の抽出;i) 共通エンコーダの堅牢なトレーニング。
論文 参考訳(メタデータ) (2022-11-27T07:21:59Z) - Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation
for Scene Recognition [64.29650787243443]
本稿では, アクティベーションマップの2次元周波数変換を転送前に提案し, 解析する。
この戦略は、シーン認識などのタスクにおける知識伝達可能性を高める。
我々は、この論文で使われているトレーニングおよび評価フレームワークを、http://www.vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognitionで公開しています。
論文 参考訳(メタデータ) (2022-05-04T11:05:18Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Joint Learning On The Hierarchy Representation for Fine-Grained Human
Action Recognition [13.088129408377918]
微細な人間の行動認識はコンピュータビジョンにおける中核的な研究課題である。
本研究では,FinGym階層表現を利用して効果的な共同学習と予測を実現するマルチタスクネットワークを提案する。
FineGymデータセットに対する我々の結果は、91.80%のTop-1精度と88.46%の要素アクションの平均精度で、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-12T09:37:51Z) - Hierarchical Self-supervised Augmented Knowledge Distillation [1.9355744690301404]
本稿では,ネットワークを誘導し,本来の認識タスクと自己教師付き補助タスクの共分散を学習するための,新たな自己教師型拡張タスクを提案する。
正規分類能力を失うことなく、表現力を向上させるためのより豊かな知識として実証される。
CIFAR-100では平均2.56%,ImageNetでは0.77%向上した。
論文 参考訳(メタデータ) (2021-07-29T02:57:21Z) - All About Knowledge Graphs for Actions [82.39684757372075]
ゼロショットと少数ショットのアクション認識に使用できる知識グラフ(KG)の理解を深める。
KGsの3つの異なる構成機構について検討した。
異なる実験装置に対する異なるKGの影響を広範囲に解析する。
論文 参考訳(メタデータ) (2020-08-28T01:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。