論文の概要: Attention-Driven Multi-Modal Fusion: Enhancing Sign Language Recognition
and Translation
- arxiv url: http://arxiv.org/abs/2309.01860v1
- Date: Mon, 4 Sep 2023 23:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:04:44.815832
- Title: Attention-Driven Multi-Modal Fusion: Enhancing Sign Language Recognition
and Translation
- Title(参考訳): 注意駆動型マルチモーダル融合:手話認識と翻訳の強化
- Authors: Zaber Ibn Abdul Hakim, Rasman Mubtasim Swargo, Muhammad Abdullah Adnan
- Abstract要約: RGB画像に光フロー情報を導入し,運動関連情報により特徴を充実させた。
本研究は, クロスモーダルエンコーダを用いたモダリティインクルージョンの実現可能性について検討する。
我々は,手話認識のためのRWTH-PHOENIX-2014Tデータセットと翻訳のためのRWTH-PHOENIX-2014Tデータセットの性能評価を行った。
- 参考スコア(独自算出の注目度): 2.960593592323609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we devise a mechanism for the addition of multi-modal
information with an existing pipeline for continuous sign language recognition
and translation. In our procedure, we have incorporated optical flow
information with RGB images to enrich the features with movement-related
information. This work studies the feasibility of such modality inclusion using
a cross-modal encoder. The plugin we have used is very lightweight and doesn't
need to include a separate feature extractor for the new modality in an
end-to-end manner. We have applied the changes in both sign language
recognition and translation, improving the result in each case. We have
evaluated the performance on the RWTH-PHOENIX-2014 dataset for sign language
recognition and the RWTH-PHOENIX-2014T dataset for translation. On the
recognition task, our approach reduced the WER by 0.9, and on the translation
task, our approach increased most of the BLEU scores by ~0.6 on the test set.
- Abstract(参考訳): 本稿では,連続手話認識と翻訳のための既存のパイプラインを用いたマルチモーダル情報付加機構を考案する。
本手法では,光学フロー情報をRGB画像に組み込んで,運動関連情報により特徴を充実させる。
本研究は, クロスモーダルエンコーダを用いたモダリティインクルージョンの実現可能性について検討する。
私たちが使ったプラグインは非常に軽量で、エンドツーエンドで新しいモダリティのための別個の機能抽出器を含める必要はありません。
我々は手話認識と翻訳の両方に変化を適用し,各症例の成績を改善した。
我々は,手話認識のためのRWTH-PHOENIX-2014Tデータセットと翻訳のためのRWTH-PHOENIX-2014Tデータセットの性能評価を行った。
認識タスクではWERを0.9に減らし,翻訳タスクではBLEUのスコアの大部分を0.6に増やした。
関連論文リスト
- The Joint Entity-Relation Extraction Model Based on Span and Interactive Fusion Representation for Chinese Medical Texts with Complex Semantics [2.3873713384588378]
共同エンティティ関係抽出は、非構造化テキストや半構造化テキストを三重項に変換する上で重要なタスクである。
医療用テキストの複雑さを捉えるために設計された,中国の薬物・薬物相互作用データセットCH-DDIを紹介する。
複雑な文脈意味情報の抽出を容易にするSEAモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-13T12:03:36Z) - DLF: Disentangled-Language-Focused Multimodal Sentiment Analysis [41.29318462528406]
本稿では,多目的表現学習フレームワークDentangled-Language-Focused (DLF)を提案する。
このモジュールは、モダリティ共有とモダリティ固有情報を分離するための機能障害モジュールを組み込んでいる。
相補的モダリティ固有情報を活用することで言語表現を強化するために,Language-Focused Attractor (LFA) がさらに開発された。
論文 参考訳(メタデータ) (2024-12-16T10:03:44Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - USTCCTSU at SemEval-2024 Task 1: Reducing Anisotropy for Cross-lingual Semantic Textual Relatedness Task [17.905282052666333]
言語間セマンティックテキスト関連性タスクは,言語間コミュニケーションやテキスト理解における課題に対処する重要な研究課題である。
これは、機械翻訳、多言語情報検索、言語間テキスト理解といった下流タスクに不可欠な、異なる言語間のセマンティックな接続を確立するのに役立つ。
当社のアプローチでは、スペインで2位、インドネシアで3位、そしてトップ10の複数のエントリーが、コンペティションのトラックCで行われます。
論文 参考訳(メタデータ) (2024-11-28T08:40:14Z) - Continuous Sign Language Recognition Using Intra-inter Gloss Attention [0.0]
本研究では,手話認識研究において,インター・グロス・アテンション・モジュール(inter-inter gloss attention module)と呼ばれる新しいモジュールを導入する。
グロス内注目モジュールでは、動画を等サイズのチャンクに分割し、各チャンク内に自己注意機構を適用する。
PHOENIX-2014ベンチマークデータセットの実験結果から,本手法が手話の特徴をエンドツーエンドで効果的に抽出できることが示されている。
論文 参考訳(メタデータ) (2024-06-26T13:21:08Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。