論文の概要: SkelCap: Automated Generation of Descriptive Text from Skeleton Keypoint Sequences
- arxiv url: http://arxiv.org/abs/2405.02977v1
- Date: Sun, 5 May 2024 15:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 15:33:57.937139
- Title: SkelCap: Automated Generation of Descriptive Text from Skeleton Keypoint Sequences
- Title(参考訳): SkelCap:スケルトンキーポイントシーケンスから記述テキストの自動生成
- Authors: Ali Emre Keskin, Hacer Yalim Keles,
- Abstract要約: 我々はこのデータセットをトルコ手話データセットであるAUTSLを中心に構築した。
また,身体運動のテキスト記述を生成できるベースラインモデルであるSkelCapを開発した。
ROUGE-Lスコアは0.98、BLEU-4スコアは0.94である。
- 参考スコア(独自算出の注目度): 2.0257616108612373
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Numerous sign language datasets exist, yet they typically cover only a limited selection of the thousands of signs used globally. Moreover, creating diverse sign language datasets is an expensive and challenging task due to the costs associated with gathering a varied group of signers. Motivated by these challenges, we aimed to develop a solution that addresses these limitations. In this context, we focused on textually describing body movements from skeleton keypoint sequences, leading to the creation of a new dataset. We structured this dataset around AUTSL, a comprehensive isolated Turkish sign language dataset. We also developed a baseline model, SkelCap, which can generate textual descriptions of body movements. This model processes the skeleton keypoints data as a vector, applies a fully connected layer for embedding, and utilizes a transformer neural network for sequence-to-sequence modeling. We conducted extensive evaluations of our model, including signer-agnostic and sign-agnostic assessments. The model achieved promising results, with a ROUGE-L score of 0.98 and a BLEU-4 score of 0.94 in the signer-agnostic evaluation. The dataset we have prepared, namely the AUTSL-SkelCap, will be made publicly available soon.
- Abstract(参考訳): 多くの手話データセットが存在するが、通常は世界中で使用されている何千もの記号の限定的な選択しかカバーしていない。
さらに、多様な手話データセットを作成することは、さまざまな手話のグループを集めることに伴うコストのため、高価で困難な作業である。
これらの課題に動機づけられた私たちは、これらの制限に対処するソリューションの開発を目指していました。
この文脈では、スケルトンキーポイント配列からの身体の動きをテキストで記述することに集中し、新しいデータセットの作成に繋がった。
我々はこのデータセットをトルコ手話データセットであるAUTSLを中心に構築した。
また,身体運動のテキスト記述を生成できるベースラインモデルであるSkelCapを開発した。
このモデルは、スケルトンキーポイントデータをベクトルとして処理し、埋め込みに完全に接続された層を適用し、シークエンス・ツー・シーケンス・モデリングにトランスフォーマー・ニューラルネットワークを利用する。
我々はシグナ・アグナ・アグナ・アグナ・アグナ・アグナ・アセスメントを含む広範囲な評価を行った。
ROUGE-Lスコアは0.98、BLEU-4スコアは0.94である。
私たちが準備したデータセット、すなわちAUTSL-SkelCapは、まもなく公開されます。
関連論文リスト
- Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition [0.20075899678041528]
本稿では,骨格グラフ構造に基づく大規模孤立型ISLデータセットと新しいSL認識モデルを提案する。
このデータセットは、20名(男性10名、女性10名)の聴覚障害者が記録した聴覚障害者コミュニティで、毎日2,002語の共通語をカバーしている。
論文 参考訳(メタデータ) (2024-07-19T11:48:36Z) - Zero-Shot Text Classification via Self-Supervised Tuning [46.9902502503747]
ゼロショットテキスト分類タスクを解決するための自己教師付き学習に基づく新しいパラダイムを提案する。
自己教師付きチューニングという,ラベルのないデータで言語モデルをチューニングする。
我々のモデルは10タスク中7タスクで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-19T05:47:33Z) - SignBERT+: Hand-model-aware Self-supervised Pre-training for Sign
Language Understanding [132.78015553111234]
手の動きは手話の表現において重要な役割を担っている。
現在,手話理解(SLU)の深層学習手法は,手話データ資源の不足により過度に適合する傾向にある。
モデル認識ハンドを組み込んだ初の自己教師型事前学習型SignBERT+フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-08T17:16:38Z) - Isolated Sign Language Recognition based on Tree Structure Skeleton
Images [2.179313476241343]
そこで我々は,手話認識のための骨格型モデルの精度を向上させるために,Tree Dense Structure Image (TSSI) を代替入力として用いた。
このような入力を用いてSignNet-121をトレーニングし、他のスケルトンベースのディープラーニング手法と比較した。
我々のモデル(SL-TSSI-DenseNet)は、他の骨格モデルの現状を克服する。
論文 参考訳(メタデータ) (2023-04-10T01:58:50Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Skeletal Graph Self-Attention: Embedding a Skeleton Inductive Bias into
Sign Language Production [37.679114155300084]
近年の手話生成(SLP)では,手話言語ニューラル機械翻訳(NMT)アーキテクチャが採用されている。
本稿では,手話列を骨格グラフ構造として表現し,関節をノードとして,空間的および時間的接続をエッジとして表現する。
SLPモデルに骨格バイアスを埋め込んだ新しいグラフィカルアテンション層であるSGSAを提案する。
論文 参考訳(メタデータ) (2021-12-06T10:12:11Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - AUTSL: A Large Scale Multi-modal Turkish Sign Language Dataset and
Baseline Methods [6.320141734801679]
大規模マルチモーダルなトルコ手話データセット(AUTSL)をベンチマークで提案する。
我々のデータセットは、43の異なるシグナが実行した226のサインと、38,336の孤立したシグナのビデオサンプルで構成されています。
我々は、いくつかのディープラーニングベースのモデルをトレーニングし、ベンチマークを用いて経験的評価を行った。
論文 参考訳(メタデータ) (2020-08-03T15:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。