論文の概要: Skeletal Graph Self-Attention: Embedding a Skeleton Inductive Bias into
Sign Language Production
- arxiv url: http://arxiv.org/abs/2112.05277v1
- Date: Mon, 6 Dec 2021 10:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-19 12:27:02.172346
- Title: Skeletal Graph Self-Attention: Embedding a Skeleton Inductive Bias into
Sign Language Production
- Title(参考訳): 骨格グラフの自己愛:骨格誘導バイアスを手話生成に埋め込む
- Authors: Ben Saunders, Necati Cihan Camgoz, Richard Bowden
- Abstract要約: 近年の手話生成(SLP)では,手話言語ニューラル機械翻訳(NMT)アーキテクチャが採用されている。
本稿では,手話列を骨格グラフ構造として表現し,関節をノードとして,空間的および時間的接続をエッジとして表現する。
SLPモデルに骨格バイアスを埋め込んだ新しいグラフィカルアテンション層であるSGSAを提案する。
- 参考スコア(独自算出の注目度): 37.679114155300084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches to Sign Language Production (SLP) have adopted spoken
language Neural Machine Translation (NMT) architectures, applied without
sign-specific modifications. In addition, these works represent sign language
as a sequence of skeleton pose vectors, projected to an abstract representation
with no inherent skeletal structure. In this paper, we represent sign language
sequences as a skeletal graph structure, with joints as nodes and both spatial
and temporal connections as edges. To operate on this graphical structure, we
propose Skeletal Graph Self-Attention (SGSA), a novel graphical attention layer
that embeds a skeleton inductive bias into the SLP model. Retaining the
skeletal feature representation throughout, we directly apply a spatio-temporal
adjacency matrix into the self-attention formulation. This provides structure
and context to each skeletal joint that is not possible when using a
non-graphical abstract representation, enabling fluid and expressive sign
language production. We evaluate our Skeletal Graph Self-Attention architecture
on the challenging RWTH-PHOENIX-Weather-2014T(PHOENIX14T) dataset, achieving
state-of-the-art back translation performance with an 8% and 7% improvement
over competing methods for the dev and test sets.
- Abstract(参考訳): 近年の手話生成(SLP)では,手話言語ニューラル機械翻訳(NMT)アーキテクチャが採用されている。
さらに、これらの作品は手話を骨格のポーズベクトルの列として表現し、固有の骨格構造を持たない抽象表現に投影する。
本稿では,手話列を骨格グラフ構造として表現し,関節をノードとして,空間的および時間的接続をエッジとして表現する。
このグラフィカルな構造を操作するために,骨格グラフセルフアテンション (sgsa) を提案する。slpモデルにスケルトン誘導バイアスを組み込む新しいグラフィカルなアテンション層である。
骨格的特徴表現を至る所に保持し, 自覚的定式化に時空間的隣接行列を直接適用する。
これは、非図形抽象表現を使用する場合に不可能な各骨格関節の構造とコンテキストを提供し、流体および表現型手話の生成を可能にする。
rwth-phoenix-weather-2014t(phoenix14t)データセット上での骨格グラフの自己アテンションアーキテクチャを評価し,開発およびテストセットの競合方法に対して8%と7%の改善を加えて,最先端のバック変換性能を実現する。
関連論文リスト
- LAC: Latent Action Composition for Skeleton-based Action Segmentation [21.797658771678066]
骨格に基づくアクションセグメンテーションでは、トリミングされていないビデオの中で構成可能なアクションを認識する必要がある。
現在のアプローチでは、まずスケルトン配列から局所的な視覚的特徴を抽出し、時間モデルでそれらを処理し、フレームワイズアクションを分類することでこの問題を分離している。
骨格をベースとしたアクションセグメンテーションのための合成構成可能な動作から学習することを目的とした,新しい自己教師型フレームワークであるLatent Action composition (LAC)を提案する。
論文 参考訳(メタデータ) (2023-08-28T11:20:48Z) - SkeletonMAE: Graph-based Masked Autoencoder for Skeleton Sequence
Pre-training [110.55093254677638]
我々はSkeleton Sequence Learning(SSL)という,効率的なスケルトンシーケンス学習フレームワークを提案する。
本論文では,SkeletonMAEという非対称なグラフベースのエンコーダデコーダ事前学習アーキテクチャを構築する。
我々のSSLは、さまざまなデータセットにまたがってうまく一般化し、最先端の自己教師型スケルトンベースのアクション認識手法よりも優れています。
論文 参考訳(メタデータ) (2023-07-17T13:33:11Z) - TranSG: Transformer-Based Skeleton Graph Prototype Contrastive Learning
with Structure-Trajectory Prompted Reconstruction for Person
Re-Identification [63.903237777588316]
3Dスケルトンデータによる人物再識別(re-ID)は、顕著な優位性を持つ新興トピックである。
既存の方法は通常、生の関節を持つ骨格記述子を設計するか、あるいは骨格配列表現学習を行う。
本稿では,構造軌道を誘導する再構成によるコントラスト学習(TranSG)手法を提案する。
論文 参考訳(メタデータ) (2023-03-13T02:27:45Z) - Graph Contrastive Learning for Skeleton-based Action Recognition [85.86820157810213]
骨格に基づく行動認識のためのグラフコントラスト学習フレームワークを提案する。
SkeletonGCLは、グラフをクラス識別に強制することで、シーケンス間のグラフ学習を関連付ける。
SkeletonGCLは新しいトレーニングパラダイムを確立し、現在のグラフ畳み込みネットワークにシームレスに組み込むことができる。
論文 参考訳(メタデータ) (2023-01-26T02:09:16Z) - Skeleton Prototype Contrastive Learning with Multi-Level Graph Relation
Modeling for Unsupervised Person Re-Identification [63.903237777588316]
3Dスケルトンによる人物再識別(re-ID)は多くの利点を持つ重要な話題である。
既存の解は骨格構造や運動における価値ある身体-成分関係を探索することは滅多にない。
本稿では,マルチレベルグラフ関係学習を用いた汎用的教師なし型コントラスト学習パラダイムを提案する。
論文 参考訳(メタデータ) (2022-08-25T00:59:32Z) - SimMC: Simple Masked Contrastive Learning of Skeleton Representations
for Unsupervised Person Re-Identification [63.903237777588316]
SimMC(Simple Masked Contrastive Learning)フレームワークを提案する。
具体的には、各骨格配列内の骨格の特徴を完全に活用するために、まずマスク付きプロトタイプコントラスト学習(MPC)方式を考案する。
そこで我々は,サブシーケンス間のシーケンス内パターンの整合性を捉えるために,マスク付きシーケンス内コントラスト学習(MIC)を提案する。
論文 参考訳(メタデータ) (2022-04-21T00:19:38Z) - Sign Language Translation with Hierarchical Spatio-TemporalGraph Neural
Network [6.623802929157273]
手話翻訳(SLT)は、手話の視覚的内容から音声言語のテキストを生成する。
本稿では,これらの手話の特徴を階層時間グラフ表現として定式化する。
階層型階層時間グラフニューラルネットワーク(HSTG-NN)と呼ばれる新しいディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-14T07:02:28Z) - Skeleton-Contrastive 3D Action Representation Learning [35.06361753065124]
本稿では,骨格に基づく行動認識に適した特徴空間の自己教師型学習を目指す。
提案手法は,PKUデータセットとNTUデータセットのスケルトンデータからの自己教師付き学習における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-08T14:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。