論文の概要: Gloss-Free End-to-End Sign Language Translation
- arxiv url: http://arxiv.org/abs/2305.12876v2
- Date: Sat, 27 May 2023 16:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 23:50:40.966376
- Title: Gloss-Free End-to-End Sign Language Translation
- Title(参考訳): 光沢のないエンドツーエンド手話翻訳
- Authors: Kezhou Lin, Xiaohan Wang, Linchao Zhu, Ke Sun, Bang Zhang, Yi Yang
- Abstract要約: 我々はGloFE(Gloss-Free End-to-end手話翻訳フレームワーク)を設計する。
本手法は,信号の共通意味と対応する音声翻訳を利用して,光沢のない環境下でのSLTの性能を向上させる。
OpenASLやHow2Signなど,大規模データセットの最先端結果を得た。
- 参考スコア(独自算出の注目度): 59.28829048788345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle the problem of sign language translation (SLT)
without gloss annotations. Although intermediate representation like gloss has
been proven effective, gloss annotations are hard to acquire, especially in
large quantities. This limits the domain coverage of translation datasets, thus
handicapping real-world applications. To mitigate this problem, we design the
Gloss-Free End-to-end sign language translation framework (GloFE). Our method
improves the performance of SLT in the gloss-free setting by exploiting the
shared underlying semantics of signs and the corresponding spoken translation.
Common concepts are extracted from the text and used as a weak form of
intermediate representation. The global embedding of these concepts is used as
a query for cross-attention to find the corresponding information within the
learned visual features. In a contrastive manner, we encourage the similarity
of query results between samples containing such concepts and decrease those
that do not. We obtained state-of-the-art results on large-scale datasets,
including OpenASL and How2Sign. The code and model will be available at
https://github.com/HenryLittle/GloFE.
- Abstract(参考訳): 本稿では,グロスアノテーションを使わずに手話翻訳(SLT)の問題に取り組む。
glossのような中間表現は有効であることが証明されているが、glossアノテーションは、特に大量では取得が難しい。
これにより翻訳データセットのドメインカバレッジが制限され、現実世界のアプリケーションをハンディキャップできる。
この問題を軽減するため,GloFE (Gross-Free End-to-end手話翻訳フレームワーク) を設計した。
本手法は,符号の共通意味論と対応する音声翻訳を活用し,光沢のない設定におけるsltの性能を向上させる。
共通概念はテキストから抽出され、中間表現の弱い形式として使用される。
これらの概念のグローバル埋め込みは、学習した視覚機能の中で対応する情報を見つけるためのクロスアテンションのクエリとして使用される。
対照的に、そのような概念を含むサンプル間のクエリ結果の類似性を奨励し、そうでないものを減らす。
OpenASLやHow2Signなど,大規模データセットの最先端結果を得た。
コードとモデルはhttps://github.com/HenryLittle/GloFE.comから入手できる。
関連論文リスト
- Improving Gloss-free Sign Language Translation by Reducing Representation Density [38.24463842418624]
Gloss-free sign language translation (SLT) は、コストのかかるGlossアノテーションを必要とせずに、良好なパフォーマンスのSLTシステムを開発することを目的としている。
我々は、光沢のないSLTの性能を制限するボトルネックとなる表現密度問題を特定する。
比較学習戦略,すなわちSignCLを導入し,より差別的な特徴表現を学習するための光沢のないモデルを提案する。
論文 参考訳(メタデータ) (2024-05-23T08:32:58Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-14T14:07:55Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Considerations for meaningful sign language machine translation based on
glosses [6.422262171968398]
機械翻訳(MT)では、グルースに基づく手話翻訳が顕著なアプローチである。
一般的なグルースの制限や特定のデータセットの制限は、透過的な方法では議論されない。
我々は、光沢翻訳研究のための具体的な勧告を提出した。
論文 参考訳(メタデータ) (2022-11-28T15:51:58Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。