論文の概要: Language Knowledge-Assisted Representation Learning for Skeleton-Based
Action Recognition
- arxiv url: http://arxiv.org/abs/2305.12398v1
- Date: Sun, 21 May 2023 08:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 20:54:09.008880
- Title: Language Knowledge-Assisted Representation Learning for Skeleton-Based
Action Recognition
- Title(参考訳): スケルトンに基づく行動認識のための言語知識支援表現学習
- Authors: Haojun Xu, Yan Gao, Zheng Hui, Jie Li, and Xinbo Gao
- Abstract要約: 人間が他人の行動を理解して認識する方法は、複雑な神経科学の問題である。
LA-GCNは、大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。
- 参考スコア(独自算出の注目度): 71.35205097460124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How humans understand and recognize the actions of others is a complex
neuroscientific problem that involves a combination of cognitive mechanisms and
neural networks. Research has shown that humans have brain areas that recognize
actions that process top-down attentional information, such as the
temporoparietal association area. Also, humans have brain regions dedicated to
understanding the minds of others and analyzing their intentions, such as the
medial prefrontal cortex of the temporal lobe. Skeleton-based action
recognition creates mappings for the complex connections between the human
skeleton movement patterns and behaviors. Although existing studies encoded
meaningful node relationships and synthesized action representations for
classification with good results, few of them considered incorporating a priori
knowledge to aid potential representation learning for better performance.
LA-GCN proposes a graph convolution network using large-scale language models
(LLM) knowledge assistance. First, the LLM knowledge is mapped into a priori
global relationship (GPR) topology and a priori category relationship (CPR)
topology between nodes. The GPR guides the generation of new "bone"
representations, aiming to emphasize essential node information from the data
level. The CPR mapping simulates category prior knowledge in human brain
regions, encoded by the PC-AC module and used to add additional
supervision-forcing the model to learn class-distinguishable features. In
addition, to improve information transfer efficiency in topology modeling, we
propose multi-hop attention graph convolution. It aggregates each node's
k-order neighbor simultaneously to speed up model convergence. LA-GCN reaches
state-of-the-art on NTU RGB+D, NTU RGB+D 120, and NW-UCLA datasets.
- Abstract(参考訳): 人間が他人の行動を理解し、認識する方法は、認知メカニズムとニューラルネットワークの組み合わせを含む複雑な神経科学的問題である。
研究では、ヒトは頭頂部の注意情報を処理する行動を認識する脳領域を持つことが示されている。
また、ヒトには他者の心を理解し、側頭葉の内側前頭前皮質などの意図を分析するための脳領域がある。
スケルトンに基づく行動認識は、人間の骨格運動パターンと行動の間の複雑な結合のマッピングを作成する。
既存の研究は有意義なノード関係をエンコードし、良好な結果を持つ分類のための行動表現を合成したが、パフォーマンス向上のために潜在的な表現学習を支援するために事前知識を組み込むことを考慮した者はほとんどいなかった。
LA-GCNは大規模言語モデル(LLM)知識アシストを用いたグラフ畳み込みネットワークを提案する。
まず、LLMの知識を、ノード間の事前グローバルな関係(GPR)トポロジーと事前カテゴリ関係(CPR)トポロジーにマッピングする。
gprは、データレベルから本質的なノード情報を強調するために、新しい「ボーン」表現の生成を導く。
CPRマッピングは、PC-ACモジュールでエンコードされた人間の脳領域におけるカテゴリ事前の知識をシミュレートし、クラス区別可能な特徴を学習するためにモデルに追加の監督を強制するために使用される。
さらに、トポロジモデリングにおける情報伝達効率を向上させるために、マルチホップアテンショングラフ畳み込みを提案する。
各ノードのk次近傍を同時に集約し、モデル収束を高速化する。
LA-GCNはNTU RGB+D、NTU RGB+D 120、NW-UCLAデータセットで最先端に達する。
関連論文リスト
- Skeleton-Based Action Recognition with Spatial-Structural Graph Convolution [0.7373617024876725]
グラフ畳み込みネットワーク(GCN)における骨格データの表現とオーバースムース化の問題について検討する。
空間構造GCN(SpSt-GCN)と呼ばれる2ストリームグラフ畳み込み法を提案する。
提案手法は,NTU RGB+DとNTU RGB+D 120の2つの大規模データセットに対して評価を行った。
論文 参考訳(メタデータ) (2024-07-31T11:04:41Z) - Knowledge-Guided Prompt Learning for Lifespan Brain MR Image Segmentation [53.70131202548981]
本稿では,脳MRIにKGPL(Knowledge-Guided Prompt Learning)を用いた2段階のセグメンテーションフレームワークを提案する。
具体的には,大規模データセットと準最適ラベルを用いたトレーニング前セグメンテーションモデルについて述べる。
知識的プロンプトの導入は、解剖学的多様性と生物学的プロセスの間の意味的関係を捉えている。
論文 参考訳(メタデータ) (2024-07-31T04:32:43Z) - Unsupervised representation learning with Hebbian synaptic and structural plasticity in brain-like feedforward neural networks [0.0]
教師なし表現学習が可能な脳様ニューラルネットワークモデルを導入,評価する。
このモデルは、一般的な機械学習ベンチマークのさまざまなセットでテストされた。
論文 参考訳(メタデータ) (2024-06-07T08:32:30Z) - DBGDGM: Dynamic Brain Graph Deep Generative Model [63.23390833353625]
グラフは機能的磁気画像(fMRI)データから得られる脳活動の自然な表現である。
機能的接続ネットワーク(FCN)として知られる解剖学的脳領域のクラスターは、脳の機能や機能不全を理解するのに有用なバイオマーカーとなる時間的関係を符号化することが知られている。
しかし、以前の研究は脳の時間的ダイナミクスを無視し、静的グラフに焦点を当てていた。
本稿では,脳の領域を時間的に進化するコミュニティにクラスタリングし,非教師なしノードの動的埋め込みを学習する動的脳グラフ深部生成モデル(DBGDGM)を提案する。
論文 参考訳(メタデータ) (2023-01-26T20:45:30Z) - Functional2Structural: Cross-Modality Brain Networks Representation
Learning [55.24969686433101]
脳ネットワーク上のグラフマイニングは、臨床表現型および神経変性疾患のための新しいバイオマーカーの発見を促進する可能性がある。
本稿では,Deep Signed Brain Networks (DSBN) と呼ばれる新しいグラフ学習フレームワークを提案する。
臨床表現型および神経変性疾患予測の枠組みを,2つの独立した公開データセットを用いて検証した。
論文 参考訳(メタデータ) (2022-05-06T03:45:36Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Learning to Model the Relationship Between Brain Structural and
Functional Connectomes [16.096428756895918]
脳目的接続(SC)と機能接続(FC)の関係をモデル化するグラフ表現学習フレームワークを開発した。
トレーニング可能なグラフ畳み込みエンコーダは、実際の神経通信を模倣する脳の領域間の相互作用をキャプチャする。
実験では、学習した表現が、被験者の脳ネットワークの本質的な特性から貴重な情報を取得することを示した。
論文 参考訳(メタデータ) (2021-12-18T11:23:55Z) - Learning Dynamic Graph Representation of Brain Connectome with
Spatio-Temporal Attention [33.049423523704824]
本稿では,脳コネクトームの動的グラフ表現を時間的注意とともに学習するSTAGINを提案する。
HCP-RestとHCP-Taskデータセットの実験は,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-05-27T23:06:50Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Spatio-Temporal Graph Convolution for Resting-State fMRI Analysis [11.85489505372321]
BOLD時系列の短いサブシーケンスに基づいて、時空間グラフ畳み込みネットワーク(ST-GCN)を訓練し、機能接続の非定常特性をモデル化する。
St-GCNはBOLD信号に基づいて性別や年齢を予測する一般的な手法よりもはるかに正確である。
論文 参考訳(メタデータ) (2020-03-24T01:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。