Fugu-MT 論文翻訳(概要): A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production

論文の概要: A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production

arxiv url: http://arxiv.org/abs/2407.02854v2
Date: Wed, 04 Dec 2024 13:41:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 02:08:29.265552
Title: A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production
Title（参考訳）: 手話翻訳・生産における伝統的なグロースに代わる時空間表現学習
Authors: Eui Jun Hwang, Sukmin Cho, Huije Lee, Youngwoo Yoon, Jong C. Park,
Abstract要約: 本稿では,手話翻訳(SLT)と手話生成言語(SLP)におけるグロスの使用に関する課題について述べる。テンポラリな手話をキャプチャするフレームワークUniGloR(UniGloR)を導入する。キーポイントに基づく設定実験により、UniGloRは従来のSLT法やSLP法よりも性能が優れているか、一致していることが示された。
参考スコア（独自算出の注目度）: 9.065171626657818
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work addresses the challenges associated with the use of glosses in both Sign Language Translation (SLT) and Sign Language Production (SLP). While glosses have long been used as a bridge between sign language and spoken language, they come with two major limitations that impede the advancement of sign language systems. First, annotating the glosses is a labor-intensive and time-consuming process, which limits the scalability of datasets. Second, the glosses oversimplify sign language by stripping away its spatio-temporal dynamics, reducing complex signs to basic labels and missing the subtle movements essential for precise interpretation. To address these limitations, we introduce Universal Gloss-level Representation (UniGloR), a framework designed to capture the spatio-temporal features inherent in sign language, providing a more dynamic and detailed alternative to the use of the glosses. The core idea of UniGloR is simple yet effective: We derive dense spatio-temporal representations from sign keypoint sequences using self-supervised learning and seamlessly integrate them into SLT and SLP tasks. Our experiments in a keypoint-based setting demonstrate that UniGloR either outperforms or matches the performance of previous SLT and SLP methods on two widely-used datasets: PHOENIX14T and How2Sign.
Abstract（参考訳）: 本研究は,手話翻訳 (SLT) と手話生成 (SLP) の両分野におけるグロスの使用に関する課題に対処する。グルースは長い間手話と音声言語の間の橋渡しとして用いられてきたが、手話システムの進歩を妨げる2つの大きな制限が伴っている。まず、グロスをアノテートすることは、労働集約的で時間を要するプロセスであり、データセットのスケーラビリティを制限する。第二に、グルースは時空間のダイナミクスを取り除くことで手話の単純化を単純化し、複雑な記号を基本ラベルに還元し、正確な解釈に必要な微妙な動きを欠いている。これらの制約に対処するために,手話に固有の時空間的特徴を捉えるためのフレームワークUniGloR(UniGloR)を導入する。 UniGloRのコアアイデアは単純だが有効である:我々は、自己教師付き学習を用いて手書きキーポイントシーケンスから高密度な時空間表現を導出し、それらをSLTおよびSLPタスクにシームレスに統合する。キーポイントをベースとした設定実験により、UniGloRはPHOENIX14TとHow2Signの2つの広く使われているデータセット上で、以前のSLTおよびSLPメソッドのパフォーマンスより優れているか、向上していることが示された。

関連論文リスト

GLOS: Sign Language Generation with Temporally Aligned Gloss-Level Conditioning [60.86278956347739]
GLOSは手話生成フレームワークであり、時間的に並んだ光沢レベル条件付けを備えている。本手法は,CSL-Daily と Phoenix-2014T の先行手法よりも高い精度で,正しい語彙順と高い意味精度の符号を生成する。
論文参考訳（メタデータ） (2025-06-09T06:09:03Z)
Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T12:19:55Z)
An Efficient Sign Language Translation Using Spatial Configuration and Motion Dynamics with LLMs [7.630967411418269]
グロスフリー手話翻訳(英: Gloss-free Sign Language Translation, SLT)は、手話の動画を直接言語文に変換する言語である。本稿では手話に固有の空間的構成や動きのダイナミクスを捉えることの重要性を強調する。本稿では,空間と運動に基づく手話翻訳(SpaMo)について紹介する。
論文参考訳（メタデータ） (2024-08-20T07:10:40Z)
C${^2}$RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval [37.12863427950066]
グロースフリーなSLRLのための革新的な事前学習パラダイムC$2$RLを導入する。 C$2$RLはBLEU-4のスコアをP14Tで+5.3、CSLで+10.6、OpenASLで+6.2、How2Signで+1.3改善する。また、P14Tでは+8.3、CSLでは+14.4、How2Signでは+5.9でR@1スコアが上昇した。
論文参考訳（メタデータ） (2024-08-19T12:42:10Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2024-05-07T10:00:38Z)
SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。従来の方法と比較して最先端の結果が得られます。
論文参考訳（メタデータ） (2024-01-22T11:04:55Z)
Gloss-free Sign Language Translation: Improving from Visual-Language Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。 i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文参考訳（メタデータ） (2023-07-27T10:59:18Z)
Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-14T14:07:55Z)
Gloss-Free End-to-End Sign Language Translation [59.28829048788345]
我々はGloFE(Gloss-Free End-to-end手話翻訳フレームワーク)を設計する。本手法は,信号の共通意味と対応する音声翻訳を利用して,光沢のない環境下でのSLTの性能を向上させる。 OpenASLやHow2Signなど,大規模データセットの最先端結果を得た。
論文参考訳（メタデータ） (2023-05-22T09:57:43Z)
Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-21T17:59:57Z)
Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。 PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文参考訳（メタデータ） (2022-11-15T01:13:39Z)
Changing the Representation: Examining Language Representation for Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。 BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文参考訳（メタデータ） (2022-09-16T12:45:29Z)
All You Need In Sign Language Production [50.3955314892191]
言語認識と生産のサインは、いくつかの重要な課題に対処する必要があります。本稿では,難聴文化,難聴センター,手話の心理的視点について紹介する。また、SLPのバックボーンアーキテクチャや手法を簡潔に紹介し、SLPの分類について提案する。
論文参考訳（メタデータ） (2022-01-05T13:45:09Z)
Data Augmentation for Sign Language Gloss Translation [115.13684506803529]
手話翻訳(SLT)は、しばしばビデオ-グロス認識とグロス-テキスト翻訳に分解される。ここでは低リソースのニューラルネットワーク翻訳(NMT)問題として扱うグロス・トゥ・テキスト翻訳に焦点を当てる。そこで得られた合成データの事前学習により、アメリカ手話(ASL)から英語、ドイツ語手話(DGS)からドイツ語への翻訳を、それぞれ3.14および2.20BLEUまで改善した。
論文参考訳（メタデータ） (2021-05-16T16:37:36Z)
Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文参考訳（メタデータ） (2021-05-11T17:37:55Z)
Adversarial Training for Multi-Channel Sign Language Production [43.45785951443149]
本稿では,手話生成に対する逆多重チャネルアプローチを提案する。我々は,変圧器ベースジェネレータと条件判別器との間のミニマックスゲームとして,符号生成を行う。逆微分器は、原文で条件付けられた符号生成の現実性を評価し、生成元を現実的で明瞭な出力にプッシュする。
論文参考訳（メタデータ） (2020-08-27T23:05:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。