論文の概要: AUTSL: A Large Scale Multi-modal Turkish Sign Language Dataset and
Baseline Methods
- arxiv url: http://arxiv.org/abs/2008.00932v2
- Date: Mon, 19 Oct 2020 10:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:42:17.385883
- Title: AUTSL: A Large Scale Multi-modal Turkish Sign Language Dataset and
Baseline Methods
- Title(参考訳): autsl: 大規模なマルチモーダルトルコ手話データセットとベースラインメソッド
- Authors: Ozge Mercanoglu Sincan and Hacer Yalim Keles
- Abstract要約: 大規模マルチモーダルなトルコ手話データセット(AUTSL)をベンチマークで提案する。
我々のデータセットは、43の異なるシグナが実行した226のサインと、38,336の孤立したシグナのビデオサンプルで構成されています。
我々は、いくつかのディープラーニングベースのモデルをトレーニングし、ベンチマークを用いて経験的評価を行った。
- 参考スコア(独自算出の注目度): 6.320141734801679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign language recognition is a challenging problem where signs are identified
by simultaneous local and global articulations of multiple sources, i.e. hand
shape and orientation, hand movements, body posture, and facial expressions.
Solving this problem computationally for a large vocabulary of signs in real
life settings is still a challenge, even with the state-of-the-art models. In
this study, we present a new largescale multi-modal Turkish Sign Language
dataset (AUTSL) with a benchmark and provide baseline models for performance
evaluations. Our dataset consists of 226 signs performed by 43 different
signers and 38,336 isolated sign video samples in total. Samples contain a wide
variety of backgrounds recorded in indoor and outdoor environments. Moreover,
spatial positions and the postures of signers also vary in the recordings. Each
sample is recorded with Microsoft Kinect v2 and contains RGB, depth, and
skeleton modalities. We prepared benchmark training and test sets for user
independent assessments of the models. We trained several deep learning based
models and provide empirical evaluations using the benchmark; we used CNNs to
extract features, unidirectional and bidirectional LSTM models to characterize
temporal information. We also incorporated feature pooling modules and temporal
attention to our models to improve the performances. We evaluated our baseline
models on AUTSL and Montalbano datasets. Our models achieved competitive
results with the state-of-the-art methods on Montalbano dataset, i.e. 96.11%
accuracy. In AUTSL random train-test splits, our models performed up to 95.95%
accuracy. In the proposed user-independent benchmark dataset our best baseline
model achieved 62.02% accuracy. The gaps in the performances of the same
baseline models show the challenges inherent in our benchmark dataset. AUTSL
benchmark dataset is publicly available at https://cvml.ankara.edu.tr.
- Abstract(参考訳): 手話認識は、手形や方向、手の動き、体姿勢、表情など、複数のソースの同時局所的およびグローバルな調音によって、記号が識別される難易度の高い問題である。
現実の環境で記号の大きな語彙を計算的に解くことは、最先端のモデルでも依然として課題である。
本研究では,ベンチマークを用いた新しい大規模マルチモーダルトルコ手話データセット(autsl)と,パフォーマンス評価のためのベースラインモデルを提案する。
私たちのデータセットは、43の異なる署名者によって実行された226のサインと、合計で38,336の孤立したサインビデオから成り立っている。
サンプルには、屋内および屋外の環境で記録された様々な背景が含まれている。
また、記録によっては空間的位置やシグナーの姿勢も異なる。
各サンプルはMicrosoft Kinect v2で記録され、RGB、ディープ、スケルトンを含む。
モデルのユーザ独立評価のためのベンチマークトレーニングとテストセットを用意した。
我々は,複数のディープラーニングベースモデルを訓練し,ベンチマークを用いて経験的評価を行い,CNNを用いて特徴,一方向,双方向のLSTMモデルを抽出し,時間情報の特徴付けを行った。
また、機能プーリングモジュールと時間的注意をモデルに組み込んでパフォーマンスを改善しました。
AUTSLおよびMontalbanoデータセットに基づくベースラインモデルの評価を行った。
我々のモデルは、モンタルバノデータセットにおける最先端の手法、すなわち96.11%の精度で競合結果を得た。
autslのランダム列車試験では95.95%の精度で走行した。
提案したユーザ非依存のベンチマークデータセットでは,最高のベースラインモデルが62.02%の精度を達成した。
同じベースラインモデルのパフォーマンスのギャップは、ベンチマークデータセットに固有の課題を示しています。
AUTSLベンチマークデータセットはhttps://cvml.ankara.edu.tr.comで公開されている。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - SkelCap: Automated Generation of Descriptive Text from Skeleton Keypoint Sequences [2.0257616108612373]
我々はこのデータセットをトルコ手話データセットであるAUTSLを中心に構築した。
また,身体運動のテキスト記述を生成できるベースラインモデルであるSkelCapを開発した。
ROUGE-Lスコアは0.98、BLEU-4スコアは0.94である。
論文 参考訳(メタデータ) (2024-05-05T15:50:02Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - Fortunately, Discourse Markers Can Enhance Language Models for Sentiment
Analysis [13.149482582098429]
本稿では、感情伝達型談話マーカーを利用して、大規模に弱いラベル付きデータを生成することを提案する。
ファイナンスドメインを含むさまざまなベンチマークデータセットにアプローチの価値を示す。
論文 参考訳(メタデータ) (2022-01-06T12:33:47Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。