論文の概要: VK-G2T: Vision and Context Knowledge enhanced Gloss2Text
- arxiv url: http://arxiv.org/abs/2312.10210v1
- Date: Fri, 15 Dec 2023 21:09:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 18:03:03.683353
- Title: VK-G2T: Vision and Context Knowledge enhanced Gloss2Text
- Title(参考訳): VK-G2T:視覚とコンテキスト知識の強化Gross2Text
- Authors: Liqiang Jing, Xuemeng Song, Xinxing Zu, Na Zheng, Zhongzhou Zhao,
Liqiang Nie
- Abstract要約: 既存の手話翻訳法は、2段階のパイプラインに従っており、まず手話動画をグロスシーケンス(Sign2Gloss)に変換し、次に生成されたグロスシーケンスを音声言語文(Gross2Text)に変換する。
本稿では,目標文の性質を学習するために手話ビデオの視覚的内容を活用し,文脈知識を活用して単語の適応翻訳を容易にする,視覚的・文脈的知識強化型Gloss2Textモデル VK-G2Tを提案する。
- 参考スコア(独自算出の注目度): 60.57628465740138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing sign language translation methods follow a two-stage pipeline: first
converting the sign language video to a gloss sequence (i.e. Sign2Gloss) and
then translating the generated gloss sequence into a spoken language sentence
(i.e. Gloss2Text). While previous studies have focused on boosting the
performance of the Sign2Gloss stage, we emphasize the optimization of the
Gloss2Text stage. However, this task is non-trivial due to two distinct
features of Gloss2Text: (1) isolated gloss input and (2) low-capacity gloss
vocabulary. To address these issues, we propose a vision and context knowledge
enhanced Gloss2Text model, named VK-G2T, which leverages the visual content of
the sign language video to learn the properties of the target sentence and
exploit the context knowledge to facilitate the adaptive translation of gloss
words. Extensive experiments conducted on a Chinese benchmark validate the
superiority of our model.
- Abstract(参考訳): 既存の手話翻訳法は、2段階のパイプラインに従っており、まず手話動画をグロスシーケンス(Sign2Gloss)に変換し、次に生成されたグロスシーケンスを音声言語文(Gross2Text)に変換する。
これまではSign2Glossステージの性能向上に重点を置いてきたが,Gross2Textステージの最適化を強調した。
しかし,この課題はGross2Textの特徴として,(1)孤立したグロス入力と(2)低容量グロス語彙という2つの特徴がある。
これらの問題に対処するために,手話ビデオの視覚的内容を活用して目的の文の性質を学習し,文脈知識を活用してグロス単語の適応翻訳を容易にする,視覚的・文脈的知識強化型Gloss2Textモデルを提案する。
中国語ベンチマークを用いた広範な実験により,モデルの優越性が検証された。
関連論文リスト
- Gloss2Text: Sign Language Gloss translation using LLMs and Semantically Aware Label Smoothing [21.183453511034767]
本稿では,事前学習された大言語モデル(LLM),データ拡張,ラベルの平滑化損失関数を活用することで,いくつかの進歩を提案する。
提案手法は,Em Gloss2Text翻訳における最先端性能を上回る。
論文 参考訳(メタデータ) (2024-07-01T15:46:45Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-14T14:07:55Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - Visual Keyword Spotting with Attention [82.79015266453533]
本稿では,2つのストリームを取り込み,ビデオの視覚的エンコーディング,キーワードの音声的エンコーディングを行うトランスフォーマーモデルについて検討する。
本研究では,従来の視覚的キーワードスポッティングや唇読解法よりも優れていることを示す。
我々は,手話ビデオにおいて,孤立した口づけの極端な条件下での単語の発見能力を示す。
論文 参考訳(メタデータ) (2021-10-29T17:59:04Z) - Data Augmentation for Sign Language Gloss Translation [115.13684506803529]
手話翻訳(SLT)は、しばしばビデオ-グロス認識とグロス-テキスト翻訳に分解される。
ここでは低リソースのニューラルネットワーク翻訳(NMT)問題として扱うグロス・トゥ・テキスト翻訳に焦点を当てる。
そこで得られた合成データの事前学習により、アメリカ手話(ASL)から英語、ドイツ語手話(DGS)からドイツ語への翻訳を、それぞれ3.14および2.20BLEUまで改善した。
論文 参考訳(メタデータ) (2021-05-16T16:37:36Z) - Better Sign Language Translation with STMC-Transformer [9.835743237370218]
手話翻訳は、まず手話認識システムを使用して、ビデオから手話グルースを抽出する。
翻訳システムは、手話グルースから音声言語翻訳を生成する。
本稿では,STMC-Transformerを導入し,現状を5以上のBLEUと7つのBLEUで改善する。
論文 参考訳(メタデータ) (2020-04-01T17:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。