論文の概要: SegSLR: Promptable Video Segmentation for Isolated Sign Language Recognition
- arxiv url: http://arxiv.org/abs/2509.10710v1
- Date: Fri, 12 Sep 2025 22:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.746642
- Title: SegSLR: Promptable Video Segmentation for Isolated Sign Language Recognition
- Title(参考訳): SegSLR: 独立した手話認識のためのプロンプト可能なビデオセグメンテーション
- Authors: Sven Schreiber, Noha Sarhan, Simone Frintrop, Christian Wilms,
- Abstract要約: 孤立手話認識(I SLR)アプローチは主にRGBデータやシグナーのポーズ情報に依存する。
本稿では,RGBを組み合わせ,ゼロショット映像セグメント化による情報提供を行うI SLRシステムSeg SLRを提案する。
複雑なChaLearn249 IsoGDデータセットに対する評価は、Seg SLRが最先端の手法より優れていることを示している。
- 参考スコア(独自算出の注目度): 3.861523667432406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Isolated Sign Language Recognition (ISLR) approaches primarily rely on RGB data or signer pose information. However, combining these modalities often results in the loss of crucial details, such as hand shape and orientation, due to imprecise representations like bounding boxes. Therefore, we propose the ISLR system SegSLR, which combines RGB and pose information through promptable zero-shot video segmentation. Given the rough localization of the hands and the signer's body from pose information, we segment the respective parts through the video to maintain all relevant shape information. Subsequently, the segmentations focus the processing of the RGB data on the most relevant body parts for ISLR. This effectively combines RGB and pose information. Our evaluation on the complex ChaLearn249 IsoGD dataset shows that SegSLR outperforms state-of-the-art methods. Furthermore, ablation studies indicate that SegSLR strongly benefits from focusing on the signer's body and hands, justifying our design choices.
- Abstract(参考訳): 孤立手話認識(ISLR)アプローチは主にRGBデータやシグナーのポーズ情報に依存する。
しかし、これらのモダリティを組み合わせることで、境界ボックスのような不正確な表現のために手の形や方向などの重要な詳細が失われることがしばしばある。
そこで本研究では,RGBと情報を組み合わせたISLRシステムSegSLRを提案する。
ポーズ情報から手とシグナーの身体の粗い位置を推定すると、各部位をビデオを通して分割し、関連する形状情報を全て保持する。
その後、このセグメンテーションは、ISLRの最も関連性の高いボディ部品にRGBデータの処理に焦点を当てる。
これにより、RGBと情報を効果的に組み合わせることができる。
複雑なChaLearn249 IsoGDデータセットに対する評価は、SegSLRが最先端の手法より優れていることを示している。
さらにアブレーション研究は、SegSLRが署名者の身体と手に焦点を当てることで、設計上の選択を正当化できることを示唆している。
関連論文リスト
- RGB-D Video Object Segmentation via Enhanced Multi-store Feature Memory [34.406308400305385]
RGB-D (RGB-D) Video Object (VOS) は、RGBのきめ細かいテクスチャ情報を奥行きの幾何学的手がかりと統合することを目的としている。
本稿では,ロバストセグメンテーションのためのマルチストア機能メモリを用いた新しいRGB-D VOSを提案する。
本稿では,最新のRGB-D VOSベンチマークにおいて,提案手法の最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-23T07:31:37Z) - Cross-Modal Consistency Learning for Sign Language Recognition [92.44927164283641]
既存の事前学習方法は、コンパクトなポーズデータのみに焦点を当てている。
クロスモーダル一貫性学習フレームワーク(CCL-SLR)を提案する。
CCL-SLRはRGBから学習し、自己教師付き事前学習に基づいてモダリティをポーズする。
論文 参考訳(メタデータ) (2025-03-16T12:34:07Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - SAD: Segment Any RGBD [54.24917975958583]
Segment Anything Model (SAM)は、2D RGB画像の任意の部分のセグメント化の有効性を実証している。
本稿では,画像から直接幾何学情報を抽出するSegment Any RGBD (SAD) モデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:26:56Z) - Object discovery and representation networks [78.16003886427885]
本研究では,事前に符号化された構造を自ら発見する自己教師型学習パラダイムを提案する。
Odinはオブジェクト発見と表現ネットワークを結合して意味のある画像のセグメンテーションを発見する。
論文 参考訳(メタデータ) (2022-03-16T17:42:55Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。