論文の概要: Leveraging Graph-based Cross-modal Information Fusion for Neural Sign
Language Translation
- arxiv url: http://arxiv.org/abs/2211.00526v1
- Date: Tue, 1 Nov 2022 15:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 12:58:41.092640
- Title: Leveraging Graph-based Cross-modal Information Fusion for Neural Sign
Language Translation
- Title(参考訳): 神経手話翻訳におけるグラフベースクロスモーダル情報融合の活用
- Authors: Jiangbin Zheng, Siyuan Li, Cheng Tan, Chong Wu, Yidong Chen, Stan Z.
Li
- Abstract要約: 手話 (SL) は聴覚障害者の母語であり、ほとんどの人が理解できない特別な視覚言語である。
動的グラフに基づくマルチモーダル特徴融合を用いたニューラルSLTモデルを提案する。
我々はまず,マルチモーダル情報を融合したグラフニューラルネットワークをニューラルネットワーク翻訳モデルに導入した。
- 参考スコア(独自算出の注目度): 46.825957917649795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign Language (SL), as the mother tongue of the deaf community, is a special
visual language that most hearing people cannot understand. In recent years,
neural Sign Language Translation (SLT), as a possible way for bridging
communication gap between the deaf and the hearing people, has attracted
widespread academic attention. We found that the current mainstream end-to-end
neural SLT models, which tries to learning language knowledge in a weakly
supervised manner, could not mine enough semantic information under the
condition of low data resources. Therefore, we propose to introduce additional
word-level semantic knowledge of sign language linguistics to assist in
improving current end-to-end neural SLT models. Concretely, we propose a novel
neural SLT model with multi-modal feature fusion based on the dynamic graph, in
which the cross-modal information, i.e. text and video, is first assembled as a
dynamic graph according to their correlation, and then the graph is processed
by a multi-modal graph encoder to generate the multi-modal embeddings for
further usage in the subsequent neural translation models. To the best of our
knowledge, we are the first to introduce graph neural networks, for fusing
multi-modal information, into neural sign language translation models.
Moreover, we conducted experiments on a publicly available popular SLT dataset
RWTH-PHOENIX-Weather-2014T. and the quantitative experiments show that our
method can improve the model.
- Abstract(参考訳): 手話(英: sign language、sl)は、聴覚障害者コミュニティの母語であり、ほとんどの人が理解できない特殊な視覚言語である。
近年,聴覚障害者と聴覚障害者のコミュニケーションギャップを橋渡しする手段として,神経手話翻訳(neural sign language translation:slt)が広く注目を集めている。
言語知識を弱教師付きで学習しようとする現在の主流のエンドツーエンドニューラルネットワークSLTモデルは、低データリソースの条件下で十分な意味情報をマイニングできないことがわかった。
そこで本研究では,手話言語学における単語レベルの意味知識を新たに導入し,現在のエンドツーエンドニューラルsltモデルの改善を支援する。
具体的には,動的グラフに基づくマルチモーダル特徴融合を用いた新しいニューラルsltモデルを提案する。このモデルでは,クロスモーダル情報,すなわちテキストとビデオは,その相関に基づいてまず動的グラフとして組み立てられ,その後,マルチモーダルグラフエンコーダによって処理され,その後のニューラル翻訳モデルでの利用のためにマルチモーダル埋め込みを生成する。
私たちの知識を最大限に活用するために、私たちは、複数のモーダル情報を神経手話翻訳モデルに融合するグラフニューラルネットワークを初めて導入しました。
さらに,公開されているSLTデータセットRWTH-PHOENIX-Weather-2014Tについて実験を行った。
定量的実験により モデルを改善することができることが分かりました
関連論文リスト
- A Lesion-aware Edge-based Graph Neural Network for Predicting Language Ability in Patients with Post-stroke Aphasia [12.129896943547912]
本稿では,脳卒中後失語症患者の安静時fMRI(r-fMRI)接続から言語能力を予測するために,病変認識型グラフニューラルネットワーク(LEGNet)を提案する。
本モデルでは,脳領域間の機能的接続を符号化するエッジベース学習モジュール,病変符号化モジュール,サブグラフ学習モジュールの3つのコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-03T21:28:48Z) - Neural Language of Thought Models [18.930227757853313]
我々は、LoTHにインスパイアされた表現と生成の教師なし学習のための新しいアプローチであるNeural Language of Thought Model (NLoTM)を紹介する。
NLoTMは,(1)オブジェクトとその特性に整合した階層的かつ構成可能な離散表現を学習するSemantic Vector-Quantized Variational Autoencoder,(2)意味概念トークンを合成的に生成する自動回帰変換器であるAutoregressive LoT Prior,の2つの重要なコンポーネントから構成される。
我々は、NLoTMを複数の2次元および3次元画像データセット上で評価し、下流タスクにおける優れた性能、分布外一般化、画像生成を示す。
論文 参考訳(メタデータ) (2024-02-02T08:13:18Z) - Neural Sign Actors: A diffusion model for 3D sign language production from text [51.81647203840081]
手話 (SL) は難聴者および難聴者コミュニティの主要なコミュニケーション手段である。
この研究は、現実的なニューラルサインアバターに向けて重要な一歩を踏み出し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
論文 参考訳(メタデータ) (2023-12-05T12:04:34Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Mitigating Data Scarcity for Large Language Models [7.259279261659759]
近年,事前学習型ニューラルネットワークモデル (PNLM) が嵐による自然言語処理の分野に進出している。
データ不足は、医学などの専門分野や、AI研究によって調査されていない低リソース言語でよく見られる。
この論文では、データ強化とニューラルアンサンブル学習技術を用いて、データの不足を軽減することに焦点を当てる。
論文 参考訳(メタデータ) (2023-02-03T15:17:53Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - On the Effectiveness of Neural Text Generation based Data Augmentation
for Recognition of Morphologically Rich Speech [0.0]
我々は、RNNLMからの知識をテキスト生成に基づくデータ拡張による単一パスBNLMに転送することで、会話音声書き起こしシステムのオンライン性能を大幅に改善した。
第1パスでRNN-BNLMを使用し、第2パスで、オフラインのASR結果をさらに改善できることが示される。
論文 参考訳(メタデータ) (2020-06-09T09:01:04Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。