論文の概要: CrossGLG: LLM Guides One-shot Skeleton-based 3D Action Recognition in a Cross-level Manner
- arxiv url: http://arxiv.org/abs/2403.10082v1
- Date: Fri, 15 Mar 2024 07:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 18:09:44.018342
- Title: CrossGLG: LLM Guides One-shot Skeleton-based 3D Action Recognition in a Cross-level Manner
- Title(参考訳): CrossGLG: LLM Guides One-shot Skeleton-based 3D Action Recognition in a Cross-level Manner
- Authors: Tingbing Yan, Wenzheng Zeng, Yang Xiao, Xingyu Tong, Bo Tan, Zhiwen Fang, Zhiguo Cao, Joey Tianyi Zhou,
- Abstract要約: 本稿では,大規模言語モデルから生成されたテキスト記述を利用して特徴学習を支援することを提案する。
まず、グローバルテキスト記述を用いて、情報的関節に焦点を当てたスケルトンエンコーダを導出する。
我々は,局所的なテキストと共同特徴の非局所的相互作用を構築し,最後のグローバル表現を形成する。
- 参考スコア(独自算出の注目度): 41.001366870464636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing one-shot skeleton-based action recognition focuses on raw low-level information (e.g., joint location), and may suffer from local information loss and low generalization ability. To alleviate these, we propose to leverage text description generated from large language models (LLM) that contain high-level human knowledge, to guide feature learning, in a global-local-global way. Particularly, during training, we design $2$ prompts to gain global and local text descriptions of each action from an LLM. We first utilize the global text description to guide the skeleton encoder focus on informative joints (i.e.,global-to-local). Then we build non-local interaction between local text and joint features, to form the final global representation (i.e., local-to-global). To mitigate the asymmetry issue between the training and inference phases, we further design a dual-branch architecture that allows the model to perform novel class inference without any text input, also making the additional inference cost neglectable compared with the base skeleton encoder. Extensive experiments on three different benchmarks show that CrossGLG consistently outperforms the existing SOTA methods with large margins, and the inference cost (model size) is only $2.8$\% than the previous SOTA. CrossGLG can also serve as a plug-and-play module that can substantially enhance the performance of different SOTA skeleton encoders with a neglectable cost during inference. The source code will be released soon.
- Abstract(参考訳): 既存のワンショットスケルトンに基づくアクション認識のほとんどは、生の低レベル情報(例えば、関節位置)に焦点を当てており、局所的な情報損失と一般化能力の低下に悩まされている。
これらの課題を解決するため,多言語モデル(LLM)から生成された高レベルの人間の知識を含むテキスト記述を活用し,グローバル・ローカル・グローバルな方法で特徴学習を導くことを提案する。
特に、トレーニング中に、LLMから各アクションのグローバルおよびローカルなテキスト記述を得るために、2ドルのプロンプトを設計します。
まず、グローバルテキスト記述を用いて、情報的関節(グロバル・トゥ・ローカル)に焦点を当てたスケルトンエンコーダを誘導する。
そして、局所的なテキストと共同特徴の間の非局所的な相互作用を構築し、最終的なグローバル表現(すなわち、地域からグローバル)を形成する。
トレーニングと推論フェーズ間の非対称性問題を緩和するため,テキスト入力を伴わずに新しいクラス推論を行うことができるデュアルブランチアーキテクチャを設計し,ベーススケルトンエンコーダと比較して追加の推論コストを無視できるようにする。
3つの異なるベンチマークでの大規模な実験により、CrossGLGは既存のSOTA法を常に大きなマージンで上回り、推論コスト(モデルサイズ)は以前のSOTAよりもわずか2.8$\%であることがわかった。
CrossGLGは、様々なSOTAスケルトンエンコーダの性能を大幅に向上するプラグイン・アンド・プレイモジュールとしても機能する。
ソースコードはまもなくリリースされる予定だ。
関連論文リスト
- Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - AGL-NET: Aerial-Ground Cross-Modal Global Localization with Varying Scales [45.315661330785275]
我々は,LiDAR点雲と衛星地図を用いたグローバルローカライゼーションのための新しい学習手法であるAGL-NETを提案する。
我々は,特徴マッチングのための画像と点間の表現ギャップを埋めること,グローバルビューとローカルビューのスケールの相違に対処すること,という2つの重要な課題に取り組む。
論文 参考訳(メタデータ) (2024-04-04T04:12:30Z) - Fusion of Global and Local Knowledge for Personalized Federated Learning [75.20751492913892]
本稿では,低ランクおよびスパース分解を伴うパーソナライズされたモデルについて検討する。
我々はtextbfSparse と textbfRank を混合した2段階学習アルゴリズム textbfFederated Learning を提案する。
適切な仮定の下では、FedSLRによって訓練されたGKRが、少なくとも準線形に正規化問題の定常点に収束できることが示される。
論文 参考訳(メタデータ) (2023-02-21T23:09:45Z) - RING++: Roto-translation Invariant Gram for Global Localization on a
Sparse Scan Map [20.276334172402763]
本稿では、位置認識のためのロト変換不変表現と、回転と翻訳の両方のグローバル収束を持つRing++を提案する。
理論的保証により、RING++はスパーススキャン付き軽量マップを使用して、大きな視点差に対処することができる。
これはスパーススキャンマップにおけるグローバルローカライゼーションのすべてのサブタスクに対処する初めての学習不要フレームワークである。
論文 参考訳(メタデータ) (2022-10-12T07:49:24Z) - 3DGTN: 3D Dual-Attention GLocal Transformer Network for Point Cloud
Classification and Segmentation [21.054928631088575]
本稿では,Global Local(GLocal) Transformer Network(3DGTN)と呼ばれる,新たなポイントクラウド表現学習ネットワークを提案する。
提案するフレームワークは,分類データセットとセグメンテーションデータセットの両方で評価される。
論文 参考訳(メタデータ) (2022-09-21T14:34:21Z) - Coalescing Global and Local Information for Procedural Text
Understanding [70.10291759879887]
完全な手続き的理解ソリューションは、入力のローカル・グローバル・ビューとアウトプットのグローバル・ビューの3つの中核的な側面を組み合わせるべきである。
本稿では,エンティティと時間表現を構築する新しいモデルであるCoalescing Global and Local InformationCGを提案する。
一般的な手続き的テキスト理解データセットの実験は、我々のモデルが最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2022-08-26T19:16:32Z) - Attention guided global enhancement and local refinement network for
semantic segmentation [5.881350024099048]
エンコーダ・デコーダアーキテクチャを用いて,軽量なセマンティックセマンティックセマンティクスネットワークを開発した。
高レベル特徴マップからグローバル情報を集約するグローバルエンハンスメント手法を提案する。
ローカルリファインメントモジュールは、デコーダ機能をセマンティックガイダンスとして利用することによって開発される。
この2つの手法はContext Fusion Blockに統合され、それに基づいてAttention Guided Global enhancement and Local refinement Network (AGLN) が精巧に設計されている。
論文 参考訳(メタデータ) (2022-04-09T02:32:24Z) - A Variational Hierarchical Model for Neural Cross-Lingual Summarization [85.44969140204026]
言語間の要約(英: cross-lingual summarization)とは、ある言語の文書を別の言語の要約に変換することである。
CLSに関する既存の研究は主にパイプライン手法の利用やエンドツーエンドモデルの共同トレーニングに重点を置いている。
条件付き変分自動エンコーダに基づくCLSタスクの階層モデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。