論文の概要: Human-like Relational Models for Activity Recognition in Video
- arxiv url: http://arxiv.org/abs/2107.05319v1
- Date: Mon, 12 Jul 2021 11:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 20:24:21.362023
- Title: Human-like Relational Models for Activity Recognition in Video
- Title(参考訳): 映像における活動認識のための人間的関係モデル
- Authors: Joseph Chrol-Cannon, Andrew Gilbert, Ranko Lazic, Adithya
Madhusoodanan, Frank Guerin
- Abstract要約: ディープニューラルネットワークによるビデオアクティビティ認識は多くのクラスにとって印象的だ。
ディープニューラルネットワークは、重要な関係を効果的に学習するのに苦労する。
本稿では,映像を時系列的に解釈する,より人間的な行動認識手法を提案する。
我々は,この手法を何かのデータセットの挑戦的なサブセットに適用し,挑戦的なアクティビティに基づくニューラルネットワークのベースラインに対するより堅牢なパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 8.87742125296885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video activity recognition by deep neural networks is impressive for many
classes. However, it falls short of human performance, especially for
challenging to discriminate activities. Humans differentiate these complex
activities by recognising critical spatio-temporal relations among explicitly
recognised objects and parts, for example, an object entering the aperture of a
container. Deep neural networks can struggle to learn such critical
relationships effectively. Therefore we propose a more human-like approach to
activity recognition, which interprets a video in sequential temporal phases
and extracts specific relationships among objects and hands in those phases.
Random forest classifiers are learnt from these extracted relationships. We
apply the method to a challenging subset of the something-something dataset and
achieve a more robust performance against neural network baselines on
challenging activities.
- Abstract(参考訳): ディープニューラルネットワークによるビデオアクティビティ認識は多くのクラスで印象的です。
しかし、特に活動の判別に挑戦する場合、人間のパフォーマンスには及ばない。
人間は、コンテナの開口部に入る物体など、明確に認識された物体と部分の間で臨界時空間関係を認識することで、これらの複雑な活動を区別する。
ディープニューラルネットワークは、そのような重要な関係を効果的に学ぶのに苦労する。
そこで本研究では,映像を逐次時間相で解釈し,それらの相における物体と手の特定の関係を抽出する,より人間的な行動認識手法を提案する。
これらの関係からランダム森林分類器を学習する。
我々は,この手法を何かのデータセットの挑戦的なサブセットに適用し,挑戦的なアクティビティに基づくニューラルネットワークのベースラインに対するより堅牢なパフォーマンスを実現する。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - A Comprehensive Review of Few-shot Action Recognition [64.47305887411275]
アクション認識は、複雑で可変なビデオデータを手動でラベル付けすることのコストと非現実性に対処することを目的としている。
ビデオ中の人間のアクションを正確に分類するには、クラスごとにいくつかのラベル付き例だけを使用する必要がある。
論文 参考訳(メタデータ) (2024-07-20T03:53:32Z) - Compositional Learning in Transformer-Based Human-Object Interaction
Detection [6.630793383852106]
ラベル付きインスタンスの長期分布は、HOI検出の主要な課題である。
HOI三重奏の性質にインスパイアされた既存のアプローチでは、作曲学習という概念が採用されている。
我々は,構成HoI学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
論文 参考訳(メタデータ) (2023-08-11T06:41:20Z) - Distillation of Human-Object Interaction Contexts for Action Recognition [0.0]
局所的・グローバル的文脈の相互作用を利用して人間とオブジェクトの関係を学習する。
空間と時間を通して人間と物体の相互作用を学習するGLIDN(Global-Local Interaction Distillation Network)を提案する。
GLIDNは人やオブジェクトをグラフノードにエンコードし、グラフアテンションネットワークを介して局所的およびグローバルな関係を学習する。
論文 参考訳(メタデータ) (2021-12-17T11:39:44Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Towards Deep Clustering of Human Activities from Wearables [21.198881633580797]
本研究では,ウェアラブルからの人間行動認識の基本的な問題に対して,教師なしのエンドツーエンド学習戦略を開発する。
本研究では,センサデータの教師なし表現を協調的に学習し,異なる人間の活動に強い意味的対応を持つクラスタ代入を生成する手法の有効性を示す。
論文 参考訳(メタデータ) (2020-08-02T13:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。