論文の概要: Exploring Attention Mechanisms in Integration of Multi-Modal Information for Sign Language Recognition and Translation
- arxiv url: http://arxiv.org/abs/2309.01860v4
- Date: Sat, 05 Oct 2024 02:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:39.147043
- Title: Exploring Attention Mechanisms in Integration of Multi-Modal Information for Sign Language Recognition and Translation
- Title(参考訳): 手話認識・翻訳のための多モード情報の統合における注意機構の探索
- Authors: Zaber Ibn Abdul Hakim, Rasman Mubtasim Swargo, Muhammad Abdullah Adnan,
- Abstract要約: 本稿では,相互注意に基づくプラグインモジュールを提案する。
我々は手話認識のためのRWTH-PHOENIX-2014データセットと手話翻訳タスクのためのRWTH-PHOENIX-2014Tデータセットの性能評価を行った。
- 参考スコア(独自算出の注目度): 2.634214928675537
- License:
- Abstract: Understanding intricate and fast-paced movements of body parts is essential for the recognition and translation of sign language. The inclusion of additional information intended to identify and locate the moving body parts has been an interesting research topic recently. However, previous works on using multi-modal information raise concerns such as sub-optimal multi-modal feature merging method, or the model itself being too computationally heavy. In our work, we have addressed such issues and used a plugin module based on cross-attention to properly attend to each modality with another. Moreover, we utilized 2-stage training to remove the dependency of separate feature extractors for additional modalities in an end-to-end approach, which reduces the concern about computational complexity. Besides, our additional cross-attention plugin module is very lightweight which doesn't add significant computational overhead on top of the original baseline. We have evaluated the performance of our approaches on the RWTH-PHOENIX-2014 dataset for sign language recognition and the RWTH-PHOENIX-2014T dataset for the sign language translation task. Our approach reduced the WER by 0.9 on the recognition task and increased the BLEU-4 scores by 0.8 on the translation task.
- Abstract(参考訳): 手話の認識と翻訳には,身体部分の複雑で急激な運動を理解することが不可欠である。
移動体部分の特定と発見を目的とした追加情報の追加は、近年、興味深い研究トピックとなっている。
しかし、従来のマルチモーダル情報の利用は、サブ最適マルチモーダル特徴マージ法や、モデル自体が計算的に重すぎるといった懸念を引き起こしていた。
本研究では,このような問題に対処し,相互注意に基づくプラグインモジュールを用いて,各モダリティを相互に適切に対応させる。
さらに,2段階の学習を用いて,計算複雑性の懸念を緩和するエンド・ツー・エンドアプローチにおいて,異なる特徴抽出器の付加的なモーダル性への依存性を除去した。
さらに、追加のクロスアテンションプラグインモジュールは非常に軽量で、元のベースラインの上に大きな計算オーバーヘッドを生じさせません。
我々は手話認識のためのRWTH-PHOENIX-2014データセットと手話翻訳タスクのためのRWTH-PHOENIX-2014Tデータセットの性能評価を行った。
提案手法は,WERを認識タスクで0.9減らし,BLEU-4のスコアを翻訳タスクで0.8減らした。
関連論文リスト
- The Joint Entity-Relation Extraction Model Based on Span and Interactive Fusion Representation for Chinese Medical Texts with Complex Semantics [2.3873713384588378]
共同エンティティ関係抽出は、非構造化テキストや半構造化テキストを三重項に変換する上で重要なタスクである。
医療用テキストの複雑さを捉えるために設計された,中国の薬物・薬物相互作用データセットCH-DDIを紹介する。
複雑な文脈意味情報の抽出を容易にするSEAモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-13T12:03:36Z) - DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis [41.29318462528406]
本稿では,多目的表現学習フレームワークDentangled-Language-Focused (DLF)を提案する。
このモジュールは、モダリティ共有とモダリティ固有情報を分離するための機能障害モジュールを組み込んでいる。
相補的モダリティ固有情報を活用することで言語表現を強化するために,Language-Focused Attractor (LFA) がさらに開発された。
論文 参考訳(メタデータ) (2024-12-16T10:03:44Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - USTCCTSU at SemEval-2024 Task 1: Reducing Anisotropy for Cross-lingual Semantic Textual Relatedness Task [17.905282052666333]
言語間セマンティックテキスト関連性タスクは,言語間コミュニケーションやテキスト理解における課題に対処する重要な研究課題である。
これは、機械翻訳、多言語情報検索、言語間テキスト理解といった下流タスクに不可欠な、異なる言語間のセマンティックな接続を確立するのに役立つ。
当社のアプローチでは、スペインで2位、インドネシアで3位、そしてトップ10の複数のエントリーが、コンペティションのトラックCで行われます。
論文 参考訳(メタデータ) (2024-11-28T08:40:14Z) - Continuous Sign Language Recognition Using Intra-inter Gloss Attention [0.0]
本研究では,手話認識研究において,インター・グロス・アテンション・モジュール(inter-inter gloss attention module)と呼ばれる新しいモジュールを導入する。
グロス内注目モジュールでは、動画を等サイズのチャンクに分割し、各チャンク内に自己注意機構を適用する。
PHOENIX-2014ベンチマークデータセットの実験結果から,本手法が手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2024-06-26T13:21:08Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。