論文の概要: SignVerse-2M: A Two-Million-Clip Pose-Native Universe of 25+ Sign Languages
- arxiv url: http://arxiv.org/abs/2605.01720v1
- Date: Sun, 03 May 2026 05:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.903311
- Title: SignVerse-2M: A Two-Million-Clip Pose-Native Universe of 25+ Sign Languages
- Title(参考訳): SignVerse-2M:25以上の手話の2ミリクリックポッド負の宇宙
- Authors: Sen Fang, Hongbin Zhong, Yanxin Zhang, Dimitris N. Metaxas,
- Abstract要約: 我々は手話ポーズモデリングと評価のための大規模多言語ポーズネイティブデータセットSignVerse-2Mを提案する。
これはDWPoseを統合前処理パイプラインに適用し、生のビデオを2次元のポーズシーケンスに変換し、モデリングに直接使用することができる。
多くの実験室のデータセットとは異なり、このリソースは実世界のビデオの記録条件と話者の多様性を保存する。
- 参考スコア(独自算出の注目度): 28.65355856480869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing large-scale sign language resources typically provide supervision only at the level of raw video-text alignment and are often produced in laboratory settings. While such resources are important for semantic understanding, they do not directly provide a unified interface for open-world recognition and translation, or for modern pose-driven sign language video generation frameworks: 1. RGB-based pretrained recognition models depend heavily on fixed backgrounds or clothing conditions during recording, and are less robust in open-world settings than style-agnostic pose-processing models. 2. Recent pose-guided image/video generation models mostly use a unified keypoint representation such as DWPose as their control interface. At present, the sign language field still lacks a data resource that can directly interface with this modern pose-native paradigm while also targeting real-world open scenarios. We present SignVerse-2M, a large-scale multilingual pose-native dataset for sign language pose modeling and evaluation. Built from publicly available multilingual sign language video resources, it applies DWPose in a unified preprocessing pipeline to convert raw videos into 2D pose sequences that can be used directly for modeling, resulting in a consolidated corpus of about two million clips covering more than 25 sign languages. Unlike many laboratory datasets, this resource preserves the recording conditions and speaker diversity of real-world videos while reducing appearance variation through a unified pose representation. Toward this goal, we further provide the data construction pipeline, task definitions, and a simple SignDW Transformer baseline, demonstrating the feasibility of this resource for multilingual pose-space modeling and its compatibility with modern pose-driven pipelines, while discussing the evaluation claims it can support as well as its current limitations.
- Abstract(参考訳): 既存の大規模な手話資源は、通常、生のビデオテキストアライメントのレベルにのみ監督を提供し、しばしば実験室で作られる。
このようなリソースはセマンティックな理解には重要ですが、オープンワールドの認識と翻訳、あるいはモダンなポーズ駆動手話ビデオ生成フレームワークに対して、直接的に統一されたインターフェースを提供していません。
1.RGBベースの事前訓練型認識モデルは、記録中の固定背景や衣服の状態に大きく依存しており、スタイルに依存しないポーズ処理モデルよりもオープンワールド環境では堅牢ではない。
2)最近のポーズ誘導画像/ビデオ生成モデルでは,DWPoseなどのキーポイントの統一表現を制御インタフェースとして利用している。
現在、手話フィールドには、このモダンなポーズネイティブパラダイムと直接インターフェースできるデータリソースがなく、実際のオープンシナリオもターゲットとしています。
我々は手話ポーズモデリングと評価のための大規模多言語ポーズネイティブデータセットSignVerse-2Mを提案する。
公開されている多言語手話ビデオリソースから構築されたDWPoseは、DWPoseを統一された前処理パイプラインに適用し、生のビデオを2Dポーズシーケンスに変換し、モデリングに直接使用することができる。
多くの実験室のデータセットとは異なり、このリソースは実世界のビデオの記録条件と話者の多様性を保存し、統一されたポーズ表現によって外観の変化を減少させる。
この目標に向けて、我々はさらにデータ構築パイプライン、タスク定義、単純なSignDW Transformerベースラインを提供し、多言語ポーズ空間モデリングのためのこのリソースの実現可能性と、現代のポーズ駆動パイプラインとの互換性を実証するとともに、サポート可能な評価条件と現在の制限について論じる。
関連論文リスト
- SignX: The Foundation Model for Sign Recognition [28.651340554377906]
本稿では,手話認識のための基礎モデルフレームワークSignXを提案する。
これは簡潔だが強力なフレームワークであり、複数の人間の活動認識シナリオに適用できる。
実験結果から,SignXは手話ビデオからサインを認識でき,予測された光沢表現を従来よりも高精度に生成できることがわかった。
論文 参考訳(メタデータ) (2025-04-22T23:23:39Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Learning from What is Already Out There: Few-shot Sign Language
Recognition with Online Dictionaries [0.0]
UWB-SL-Wildマイクロショットデータセットをオープンソースとして公開しました。
我々は,手話認識モデルを数ショットのシナリオで訓練するための新しいアプローチを導入し,その結果,最先端の結果を得た。
論文 参考訳(メタデータ) (2023-01-10T03:21:01Z) - Ham2Pose: Animating Sign Language Notation into Pose Sequences [11.293923409769517]
音声言語を手話に翻訳することは、聴覚障害者コミュニティと聴覚障害者コミュニティとの間のオープンなコミュニケーションに必要である。
本稿では,Lexical Sign言語表記法であるHamNoSysで書かれたテキストを,署名されたポーズ列にアニメーションする最初の方法を提案する。
論文 参考訳(メタデータ) (2022-11-24T13:59:32Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。