論文の概要: Gloss Attention for Gloss-free Sign Language Translation
- arxiv url: http://arxiv.org/abs/2307.07361v1
- Date: Fri, 14 Jul 2023 14:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:40:57.188158
- Title: Gloss Attention for Gloss-free Sign Language Translation
- Title(参考訳): Gloss Attention for Gloss-free手話翻訳
- Authors: Aoxiong Yin, Tianyun Zhong, Li Tang, Weike Jin, Tao Jin, Zhou Zhao
- Abstract要約: グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
- 参考スコア(独自算出の注目度): 60.633146518820325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most sign language translation (SLT) methods to date require the use of gloss
annotations to provide additional supervision information, however, the
acquisition of gloss is not easy. To solve this problem, we first perform an
analysis of existing models to confirm how gloss annotations make SLT easier.
We find that it can provide two aspects of information for the model, 1) it can
help the model implicitly learn the location of semantic boundaries in
continuous sign language videos, 2) it can help the model understand the sign
language video globally. We then propose \emph{gloss attention}, which enables
the model to keep its attention within video segments that have the same
semantics locally, just as gloss helps existing models do. Furthermore, we
transfer the knowledge of sentence-to-sentence similarity from the natural
language model to our gloss attention SLT network (GASLT) to help it understand
sign language videos at the sentence level. Experimental results on multiple
large-scale sign language datasets show that our proposed GASLT model
significantly outperforms existing methods. Our code is provided in
\url{https://github.com/YinAoXiong/GASLT}.
- Abstract(参考訳): 多くの手話翻訳(SLT)手法は、追加の監視情報を提供するためにグロスアノテーションを使用する必要があるが、グロス獲得は容易ではない。
この問題を解決するために,我々はまず既存のモデルの解析を行い,光沢アノテーションがSLTをより容易にすることを示す。
モデルに対する情報の2つの側面を提供できることが分かりました。
1) 連続手話ビデオにおける意味境界の位置を暗黙的に学習するのに役立つ。
2) モデルが手話映像をグローバルに理解するのに役立つ。
次に,glossが既存のモデルに役立つように,同じセマンティクスをローカルに持つビデオセグメント内で,モデルの注意を維持できる「emph{gloss attention}」を提案する。
さらに,文章間の類似性に関する知識を自然言語モデルからgloss attention SLT Network(GASLT)に転送し,文レベルでの手話ビデオの理解を支援する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
コードは \url{https://github.com/yinaoxiong/gaslt} で提供される。
関連論文リスト
- Universal Gloss-level Representation for Gloss-free Sign Language Translation and Production [9.065171626657818]
Universal Gloss-level Representation (UniGloR)は手話翻訳と手話生成のための統一的で自己指導型のソリューションである。
本結果は,UniGloRの翻訳および生産における有効性を示すものである。
本研究は, 自己指導型学習を統一的に実現し, 革新的かつ実践的な応用の道を開くことを示唆する。
論文 参考訳(メタデータ) (2024-07-03T07:12:36Z) - Sign2GPT: Leveraging Large Language Models for Gloss-Free Sign Language Translation [30.008980708977095]
我々は手話翻訳の新しいフレームワークSign2GPTを紹介する。
本稿では,自動抽出した擬似グルースから符号表現を学習するようエンコーダに指示する,新しい事前学習戦略を提案する。
我々は2つの公開ベンチマーク手話翻訳データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-07T10:00:38Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Gloss-Free End-to-End Sign Language Translation [59.28829048788345]
我々はGloFE(Gloss-Free End-to-end手話翻訳フレームワーク)を設計する。
本手法は,信号の共通意味と対応する音声翻訳を利用して,光沢のない環境下でのSLTの性能を向上させる。
OpenASLやHow2Signなど,大規模データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-05-22T09:57:43Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z) - Predictive Representation Learning for Language Modeling [33.08232449211759]
副次的情報の相関がLSTM表現に現れるが、それらは暗黙的に監督された予測タスクの一部ではない。
予測表現学習(PRL)を提案し,LSTMを明示的に制約し,特定の予測を符号化する。
論文 参考訳(メタデータ) (2021-05-29T05:03:47Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。