Fugu-MT 論文翻訳(概要): Building Korean Sign Language Augmentation (KoSLA) Corpus with Data Augmentation Technique

論文の概要: Building Korean Sign Language Augmentation (KoSLA) Corpus with Data Augmentation Technique

arxiv url: http://arxiv.org/abs/2207.05261v1
Date: Tue, 12 Jul 2022 02:12:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-13 13:05:10.225862
Title: Building Korean Sign Language Augmentation (KoSLA) Corpus with Data Augmentation Technique
Title（参考訳）: データ拡張技術を用いた韓国手話強調コーパスの構築
Authors: Changnam An, Eunkyung Han, Dongmyeong Noh, Ohkyoon Kwon, Sumi Lee, Hyunshim Han
Abstract要約: 我々は手話翻訳のためのコーパスの効率的なフレームワークを提案する。手話の言語的特徴を考慮することで,提案するフレームワークは,マルチモーダル手話拡張コーパスを構築するための最初の,ユニークな試みである。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an efficient framework of corpus for sign language translation. Aided with a simple but dramatic data augmentation technique, our method converts text into annotated forms with minimum information loss. Sign languages are composed of manual signals, non-manual signals, and iconic features. According to professional sign language interpreters, non-manual signals such as facial expressions and gestures play an important role in conveying exact meaning. By considering the linguistic features of sign language, our proposed framework is a first and unique attempt to build a multimodal sign language augmentation corpus (hereinafter referred to as the KoSLA corpus) containing both manual and non-manual modalities. The corpus we built demonstrates confident results in the hospital context, showing improved performance with augmented datasets. To overcome data scarcity, we resorted to data augmentation techniques such as synonym replacement to boost the efficiency of our translation model and available data, while maintaining grammatical and semantic structures of sign language. For the experimental support, we verify the effectiveness of data augmentation technique and usefulness of our corpus by performing a translation task between normal sentences and sign language annotations on two tokenizers. The result was convincing, proving that the BLEU scores with the KoSLA corpus were significant.
Abstract（参考訳）: 手話翻訳のためのコーパスの効率的な枠組みを提案する。本手法は,単純だが劇的なデータ拡張手法を用いて,テキストを最小情報損失のアノテート形式に変換する。手話は手動信号、非手動信号、象徴的特徴で構成されている。プロの手話通訳によれば、表情やジェスチャーのような非手動信号は、正確な意味を伝える上で重要な役割を果たす。手話の言語的特徴を考慮することにより,本提案手法は,手話と非人文的モダリティの両方を含むマルチモーダル手話拡張コーパス(以下,コスラコーパスと呼ぶ)を構築するための,最初の,かつユニークな試みである。私たちが構築したコーパスは、病院のコンテキストにおいて確実な結果を示し、拡張データセットによるパフォーマンスの向上を示します。データ不足を克服するため、手話の文法的・意味的構造を維持しつつ、同義語置換などのデータ拡張手法を用いて翻訳モデルと利用可能なデータの効率を向上した。実験的な支援のために,通常の文と2つのトークン化子に手話アノテーションを翻訳することで,データ拡張手法の有効性とコーパスの有用性を検証する。その結果、BLEUのスコアとKoSLAコーパスのスコアが重要であることが証明された。

関連論文リスト

Using Sign Language Production as Data Augmentation to enhance Sign Language Translation [31.770455887142095]
手話データセットは、しばしば話される言語データセットよりも桁違いに小さい。我々は手話生産の最近の進歩を活用して既存の手話データセットを強化することを提案する。提案手法は,既存のデータセットを効果的に拡張し,手話翻訳モデルの性能を最大19%向上させることができることを示す。
論文参考訳（メタデータ） (2025-06-11T11:56:51Z)
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。署名ビデオと追加のコンテキストキューを組み込む。文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-01-16T18:59:03Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文参考訳（メタデータ） (2024-07-17T14:16:35Z)
Reconsidering Sentence-Level Sign Language Translation [2.099922236065961]
サンプル中の33%の文に対して,流用なDeafシグナ・アノテータは談話レベルの文脈から,クリップのキー部分のみを理解できた。これらの結果は、機械学習を新しいドメインに適用する際の理解と健全性検査の重要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-06-16T19:19:54Z)
Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文参考訳（メタデータ） (2024-06-15T04:50:19Z)
SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文参考訳（メタデータ） (2024-06-11T03:00:41Z)
Is context all you need? Scaling Neural Sign Language Translation to Large Domains of Discourse [34.70927441846784]
手話翻訳(SLT)は手話ビデオから音声言語文を生成することを目的とした課題である。本稿では,翻訳タスクを人間と同じようにコンテキスト対応で処理する,新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。本稿では,文脈情報を用いた最先端翻訳性能の大幅な向上を報告し,ベースラインアプローチのBLEU-4スコアをほぼ倍増させた。
論文参考訳（メタデータ） (2023-08-18T15:27:22Z)
Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-18T16:34:18Z)
Multilingual Extraction and Categorization of Lexical Collocations with Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文参考訳（メタデータ） (2022-05-23T16:47:37Z)
Keypoint based Sign Language Translation without Glosses [7.240731862549344]
署名者の骨格点に基づく翻訳を行うための新しいキーポイント正規化法を提案する。身体部分に応じてカスタマイズされた正規化法により性能改善に寄与した。本手法は,グルースを使わずにデータセットに適用可能な方法で,様々なデータセットに適用することができる。
論文参考訳（メタデータ） (2022-04-22T05:37:56Z)
A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文参考訳（メタデータ） (2022-03-08T18:59:56Z)
Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。 RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文参考訳（メタデータ） (2020-03-30T21:35:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。