Fugu-MT 論文翻訳(概要): Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets

論文の概要: Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets

arxiv url: http://arxiv.org/abs/2403.14534v2
Date: Mon, 15 Apr 2024 15:30:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 22:26:44.318348
Title: Transfer Learning for Cross-dataset Isolated Sign Language Recognition in Under-Resourced Datasets
Title（参考訳）: アンダーソースデータセットにおけるクロスデータセット分離手話認識のための転送学習
Authors: Ahmet Alp Kindiroglu, Ozgur Kara, Ogulcan Ozdemir, Lale Akarun,
Abstract要約: 時間グラフ畳み込みに基づく手話認識手法を用いて5つの教師あり移動学習手法を評価する。特殊な教師付き転写学習法では,ファインタニングに基づく転写学習の改善が可能であることを示す。
参考スコア（独自算出の注目度）: 2.512406961007489
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Sign language recognition (SLR) has recently achieved a breakthrough in performance thanks to deep neural networks trained on large annotated sign datasets. Of the many different sign languages, these annotated datasets are only available for a select few. Since acquiring gloss-level labels on sign language videos is difficult, learning by transferring knowledge from existing annotated sources is useful for recognition in under-resourced sign languages. This study provides a publicly available cross-dataset transfer learning benchmark from two existing public Turkish SLR datasets. We use a temporal graph convolution-based sign language recognition approach to evaluate five supervised transfer learning approaches and experiment with closed-set and partial-set cross-dataset transfer learning. Experiments demonstrate that improvement over finetuning based transfer learning is possible with specialized supervised transfer learning methods.
Abstract（参考訳）: 署名言語認識(SLR)は、大規模な注釈付き手話データセットでトレーニングされたディープニューラルネットワークのおかげで、最近、パフォーマンスのブレークスルーを達成した。多くの異なる手話言語の中で、これらの注釈付きデータセットは、一部の人しか利用できない。手話ビデオのグロスレベルラベルの取得は困難であるため、既存の注釈付き情報源から知識を伝達することで学習は、低リソース手話における認識に有用である。この研究は、既存の2つのトルコのSLRデータセットから利用可能なクロスデータセット転送学習ベンチマークを提供する。我々は、時間グラフ畳み込みに基づく手話認識手法を用いて、5つの教師付きトランスファー学習手法を評価し、クローズドセットおよび部分セットのクロスデータセット・トランスファー学習の実験を行う。特殊な教師付き転写学習法では,ファインタニングに基づく転写学習の改善が可能であることを示す。

関連論文リスト

Logos as a Well-Tempered Pre-train for Sign Language Recognition [75.42794328290088]
本稿では,ロシア語 Sign Language (RSL) データセットであるLogosについて述べる。 Logosデータセットに事前トレーニングされたモデルが,他の言語SLRタスクのユニバーサルエンコーダとして使用できることを示す。視覚的に類似した標識を明示的にラベル付けすることで、下流タスクのためのビジュアルエンコーダとして訓練されたモデル品質が向上することを示す。
論文参考訳（メタデータ） (2025-05-15T16:31:49Z)
SSLR: A Semi-Supervised Learning Method for Isolated Sign Language Recognition [2.409285779772107]
手話認識システムは手話のジェスチャーを認識し、それを音声言語に翻訳することを目的としている。 SLRの主な課題の1つは、注釈付きデータセットの不足である。本研究では, 擬似ラベル法を用いたSLRの半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2025-04-23T11:59:52Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文参考訳（メタデータ） (2024-05-16T17:19:06Z)
Improving Continuous Sign Language Recognition with Cross-Lingual Signs [29.077175863743484]
本稿では,多言語手話コーパスを用いた連続手話認識の実現可能性について検討する。まず、2つのデータセットに現れる独立した記号を含む2つの手話辞書を構築します。次に、適切に最適化された手話認識モデルを用いて、2つの手話間の手話間の手話マッピングを同定する。
論文参考訳（メタデータ） (2023-08-21T15:58:47Z)
Learning from What is Already Out There: Few-shot Sign Language Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文参考訳（メタデータ） (2023-01-10T03:21:01Z)
LSA-T: The first continuous Argentinian Sign Language dataset for Sign Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文参考訳（メタデータ） (2022-11-14T14:46:44Z)
A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文参考訳（メタデータ） (2022-03-08T18:59:56Z)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。 IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文参考訳（メタデータ） (2022-01-27T18:53:22Z)
Application of Transfer Learning to Sign Language Recognition using an Inflated 3D Deep Convolutional Neural Network [0.0]
転送学習は、十分なデータを持たない対象タスクを解決するのに役立つ大量のデータを持つ関連タスクを活用する技術である。本稿では,手話認識における伝達学習の有効性について検討する。
論文参考訳（メタデータ） (2021-02-25T13:37:39Z)
A Comprehensive Study on Deep Learning-based Methods for Sign Language Recognition [14.714669469867871]
本研究の目的は,非セグメンテーションビデオストリームをグルースにマッピングすることに着目し,手話認識に関する洞察を提供することである。私たちの知る限りでは、ビデオキャプチャのために文と光沢レベルのアノテーションが提供される最初の手話データセットです。
論文参考訳（メタデータ） (2020-07-24T14:07:01Z)
Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文参考訳（メタデータ） (2020-04-29T14:27:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。