論文の概要: SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval
- arxiv url: http://arxiv.org/abs/2407.16394v1
- Date: Tue, 23 Jul 2024 11:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 17:26:03.805443
- Title: SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval
- Title(参考訳): SEDS: 手話検索のための意味的に拡張されたデュアルストリームエンコーダ
- Authors: Longtao Jiang, Min Wang, Zecheng Li, Yao Fang, Wengang Zhou, Houqiang Li,
- Abstract要約: 以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
- 参考スコア(独自算出の注目度): 82.51117533271517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different from traditional video retrieval, sign language retrieval is more biased towards understanding the semantic information of human actions contained in video clips. Previous works typically only encode RGB videos to obtain high-level semantic features, resulting in local action details drowned in a large amount of visual information redundancy. Furthermore, existing RGB-based sign retrieval works suffer from the huge memory cost of dense visual data embedding in end-to-end training, and adopt offline RGB encoder instead, leading to suboptimal feature representation. To address these issues, we propose a novel sign language representation framework called Semantically Enhanced Dual-Stream Encoder (SEDS), which integrates Pose and RGB modalities to represent the local and global information of sign language videos. Specifically, the Pose encoder embeds the coordinates of keypoints corresponding to human joints, effectively capturing detailed action features. For better context-aware fusion of two video modalities, we propose a Cross Gloss Attention Fusion (CGAF) module to aggregate the adjacent clip features with similar semantic information from intra-modality and inter-modality. Moreover, a Pose-RGB Fine-grained Matching Objective is developed to enhance the aggregated fusion feature by contextual matching of fine-grained dual-stream features. Besides the offline RGB encoder, the whole framework only contains learnable lightweight networks, which can be trained end-to-end. Extensive experiments demonstrate that our framework significantly outperforms state-of-the-art methods on various datasets.
- Abstract(参考訳): 従来のビデオ検索とは異なり、手話検索はビデオクリップに含まれる人間の行動の意味情報を理解するためにより偏りがある。
従来の作品では、RGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られ、その結果、局所的なアクションの詳細が大量の視覚情報冗長性に溺れてしまう。
さらに、既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに組み込まれ、代わりにオフラインのRGBエンコーダを採用するという、高密度なビジュアルデータのメモリコストに悩まされている。
これらの問題に対処するために,手話ビデオのローカルおよびグローバルな情報を表現するために,PoseとRGBのモダリティを統合したSemantically Enhanced Dual-Stream Encoder (SEDS) と呼ばれる手話表現フレームワークを提案する。
具体的には、Poseエンコーダは、人間の関節に対応するキーポイントの座標を埋め込んで、詳細なアクション特徴を効果的にキャプチャする。
2つのビデオモダリティの文脈認識の融合を改善するため,Cross Gloss Attention Fusion (CGAF)モジュールを提案する。
さらに、細粒度デュアルストリーム特徴のコンテキストマッチングにより、集約された融合機能を強化するために、Pose-RGBファインニングマッチングオブジェクトを開発した。
オフラインのRGBエンコーダに加えて、フレームワーク全体には学習可能な軽量ネットワークのみが含まれており、エンドツーエンドでトレーニングすることができる。
大規模な実験により、我々のフレームワークは様々なデータセット上で最先端の手法を大幅に上回っていることが示された。
関連論文リスト
- ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large
Vision-Language Models [15.231177830711077]
セマンティックラベル,RGBフレーム,イベントストリームを統合した新しいパターン認識フレームワークを提案する。
セマンティックなラベルを扱うために,素早い工学を通して言語記述に変換する。
マルチモーダルトランスフォーマーネットワークを用いたRGB/Event機能とセマンティック機能を統合する。
論文 参考訳(メタデータ) (2023-11-30T14:35:51Z) - Two-Stream Network for Sign Language Recognition and Translation [38.43767031555092]
本稿では、生ビデオとキーポイントシーケンスの両方をモデル化するために、2つの別々のストリームを含むデュアルビジュアルエンコーダを提案する。
結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識に適している。
TwoStream-SLTは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換モデルであるTwoStream-SLTに拡張される。
論文 参考訳(メタデータ) (2022-11-02T17:59:58Z) - Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:46:37Z) - Attention-based Dual Supervised Decoder for RGBD Semantic Segmentation [16.721758280029302]
RGBDセマンティックセグメンテーションのための新しいアテンションベースデュアル教師付きデコーダを提案する。
エンコーダでは、マルチレベルペア補完情報を抽出し、融合するための、シンプルで効果的な注意に基づくマルチモーダル融合モジュールを設計する。
本手法は最先端の手法に対して優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-01-05T03:12:27Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Adaptive Intermediate Representations for Video Understanding [50.64187463941215]
映像理解の中間表現としてセマンティックセグメンテーションを活用する新しい方法を紹介します。
本稿では,中間表現(光学フローとセマンティックセグメンテーション)を最終映像理解タスクと共同で学習する汎用フレームワークを提案する。
我々は、最先端技術よりもパフォーマンスの向上につながるビデオのより強力な視覚表現を得る。
論文 参考訳(メタデータ) (2021-04-14T21:37:23Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。