論文の概要: Syntactically Guided Generative Embeddings for Zero-Shot Skeleton Action
Recognition
- arxiv url: http://arxiv.org/abs/2101.11530v1
- Date: Wed, 27 Jan 2021 16:34:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 19:08:08.444033
- Title: Syntactically Guided Generative Embeddings for Zero-Shot Skeleton Action
Recognition
- Title(参考訳): Zero-Shot Skeleton アクション認識のためのシンタクティカルガイド付きジェネラティブ埋め込み
- Authors: Pranay Gupta, Divyanshu Sharma, Ravi Kiran Sarvadevabhatla
- Abstract要約: ゼロショット学習(ZSL)のための構文誘導型生成手法SynSEについて紹介する。
我々のエンドツーエンドアプローチは、関係するモダリティ(視覚、言語)の内外で制約された、段階的に洗練された生成的埋め込み空間を学習する。
以上の結果から,ZSLおよび一般化ゼロショット学習(GZSL)設定におけるSynSEの有効性が示された。
- 参考スコア(独自算出の注目度): 9.30315673109153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SynSE, a novel syntactically guided generative approach for
Zero-Shot Learning (ZSL). Our end-to-end approach learns progressively refined
generative embedding spaces constrained within and across the involved
modalities (visual, language). The inter-modal constraints are defined between
action sequence embedding and embeddings of Parts of Speech (PoS) tagged words
in the corresponding action description. We deploy SynSE for the task of
skeleton-based action sequence recognition. Our design choices enable SynSE to
generalize compositionally, i.e., recognize sequences whose action descriptions
contain words not encountered during training. We also extend our approach to
the more challenging Generalized Zero-Shot Learning (GZSL) problem via a
confidence-based gating mechanism. We are the first to present zero-shot
skeleton action recognition results on the large-scale NTU-60 and NTU-120
skeleton action datasets with multiple splits. Our results demonstrate SynSE's
state of the art performance in both ZSL and GZSL settings compared to strong
baselines on the NTU-60 and NTU-120 datasets.
- Abstract(参考訳): Zero-Shot Learning(ZSL)のための新しいシンタクティックガイド生成手法であるSynSEを紹介します。
エンドツーエンドのアプローチは、関連するモダリティ(視覚、言語)内外を制約した、漸進的に洗練された生成的埋め込み空間を学習します。
モーダル間制約は、アクションシーケンスの埋め込みと、対応するアクション記述にタグ付き単語(PoS)の埋め込みの間で定義される。
骨格に基づく行動系列認識のためのSynSEをデプロイする。
当社の設計選択により、SynSE は、トレーニング中に遭遇しない単語を含むアクション記述のシーケンスを、構成的に認識することができます。
我々はまた、信頼に基づくゲーティング機構を通じて、より挑戦的な一般化ゼロショット学習(GZSL)問題にもアプローチを拡張した。
大規模なNTU-60およびNTU-120スケルトン動作データセットに複数分割したゼロショットスケルトン動作認識結果を示すのはこれが初めてである。
この結果は、NTU-60およびNTU-120データセットの強力なベースラインと比較して、ZSLおよびGZSL設定におけるSynSEの最先端のパフォーマンスを示しています。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Fine-Grained Side Information Guided Dual-Prompts for Zero-Shot Skeleton Action Recognition [18.012159340628557]
そこで本研究では,スケルトンに基づくゼロショット動作認識(STAR)のための,サイド情報とデュアルプロンプト学習による新しい手法を提案する。
本手法は,データセット上でのZSLおよびGZSL設定における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-11T05:51:06Z) - LAC: Latent Action Composition for Skeleton-based Action Segmentation [21.797658771678066]
骨格に基づくアクションセグメンテーションでは、トリミングされていないビデオの中で構成可能なアクションを認識する必要がある。
現在のアプローチでは、まずスケルトン配列から局所的な視覚的特徴を抽出し、時間モデルでそれらを処理し、フレームワイズアクションを分類することでこの問題を分離している。
骨格をベースとしたアクションセグメンテーションのための合成構成可能な動作から学習することを目的とした,新しい自己教師型フレームワークであるLatent Action composition (LAC)を提案する。
論文 参考訳(メタデータ) (2023-08-28T11:20:48Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - ProCC: Progressive Cross-primitive Compatibility for Open-World
Compositional Zero-Shot Learning [29.591615811894265]
Open-World Composal Zero-shot Learning (OW-CZSL) は、コンポジション空間に先立って、画像中の状態とオブジェクトプリミティブの新規なコンポジションを認識することを目的としている。
本稿では,OW-CZSLタスクの学習過程を模倣する,Progressive Cross-primitive Compatibility (ProCC) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-19T10:09:46Z) - Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models [94.30953696090758]
音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
論文 参考訳(メタデータ) (2022-10-27T19:33:18Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Pose-Guided Sign Language Video GAN with Dynamic Lambda [0.41998444721319206]
我々は,gansを用いた手話ビデオの新しい手法を提案する。
我々は,ソフトゲートワープガンの人間意味合成を用いて,領域レベルの空間レイアウトを導いたフォトリアリスティックな映像を作成する。
論文 参考訳(メタデータ) (2021-05-06T15:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。