論文の概要: Free-Form Composition Networks for Egocentric Action Recognition
- arxiv url: http://arxiv.org/abs/2307.06527v1
- Date: Thu, 13 Jul 2023 02:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 16:10:46.833163
- Title: Free-Form Composition Networks for Egocentric Action Recognition
- Title(参考訳): エゴセントリック行動認識のためのフリーフォーム合成ネットワーク
- Authors: Haoran Wang, Qinghua Cheng, Baosheng Yu, Yibing Zhan, Dapeng Tao,
Liang Ding, and Haibin Ling
- Abstract要約: 本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
- 参考スコア(独自算出の注目度): 92.02791047326589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric action recognition is gaining significant attention in the field
of human action recognition. In this paper, we address data scarcity issue in
egocentric action recognition from a compositional generalization perspective.
To tackle this problem, we propose a free-form composition network (FFCN) that
can simultaneously learn disentangled verb, preposition, and noun
representations, and then use them to compose new samples in the feature space
for rare classes of action videos. First, we use a graph to capture the
spatial-temporal relations among different hand/object instances in each action
video. We thus decompose each action into a set of verb and preposition
spatial-temporal representations using the edge features in the graph. The
temporal decomposition extracts verb and preposition representations from
different video frames, while the spatial decomposition adaptively learns verb
and preposition representations from action-related instances in each frame.
With these spatial-temporal representations of verbs and prepositions, we can
compose new samples for those rare classes in a free-form manner, which is not
restricted to a rigid form of a verb and a noun. The proposed FFCN can directly
generate new training data samples for rare classes, hence significantly
improve action recognition performance. We evaluated our method on three
popular egocentric action recognition datasets, Something-Something V2, H2O,
and EPIC-KITCHENS-100, and the experimental results demonstrate the
effectiveness of the proposed method for handling data scarcity problems,
including long-tailed and few-shot egocentric action recognition.
- Abstract(参考訳): エゴセントリックな行動認識は、人間の行動認識の分野で大きな注目を集めている。
本稿では,合成一般化の観点から,自己中心型行動認識におけるデータ不足問題に対処する。
この問題に対処するために,不整形動詞,前置詞,名詞表現を同時に学習する自由形合成ネットワーク (FFCN) を提案し,これを用いて特徴空間に新たなサンプルを合成する。
まず、各アクションビデオにおける手/オブジェクトインスタンス間の空間的-時間的関係をグラフで捉える。
そこで我々は,各アクションを動詞の集合に分解し,グラフのエッジ特徴を用いた時空間表現を前置する。
時間分解は異なる映像フレームから動詞と前置表現を抽出し、空間分解は各フレームの動作関連インスタンスから動詞と前置表現を適応的に学習する。
これらの動詞と前置詞の時空間表現により、動詞と名詞の厳密な形式に制限されない、これらの稀なクラスに対する新しいサンプルを自由形式で作成することができる。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
提案手法は,3つの一般的なエゴセントリックな行動認識データセットであるSomething V2, H2O, EPIC-KITCHENS-100を用いて評価し, 提案手法の有効性を実証した。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - Disentangled Action Recognition with Knowledge Bases [77.77482846456478]
本研究では,新規な動詞や新規な名詞に対する合成行動認識モデルの一般化能力の向上を目指す。
従来の作業では、知識グラフ内の動詞-名詞合成アクションノードを使用しており、スケールを非効率にしている。
本提案手法は, 行動の固有な構成性を活用する, 知識ベースを用いた不整合行動認識(DARK)である。
論文 参考訳(メタデータ) (2022-07-04T20:19:13Z) - Towards Tokenized Human Dynamics Representation [41.75534387530019]
我々は,ビデオの時間的パターンを自己監督的に分割し,クラスタ化する方法について検討した。
我々は、ケンドールのTauによるフレームワイド表現学習ステップと、正規化された相互情報と言語エントロピーによる語彙構築ステップを評価する。
AIST++とPKU-MMDデータセットでは、アクトンはいくつかのベースラインと比較して大幅にパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2021-11-22T18:59:58Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-03T18:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。