論文の概要: FlashSign: Pose-Free Guidance for Efficient Sign Language Video Generation
- arxiv url: http://arxiv.org/abs/2603.27915v1
- Date: Mon, 30 Mar 2026 00:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.177018
- Title: FlashSign: Pose-Free Guidance for Efficient Sign Language Video Generation
- Title(参考訳): FlashSign: 効率的な手話ビデオ生成のための Pose-free Guidance
- Authors: Liuzhou Zhang, Zeyu Zhang, Biao Wu, Luyao Tang, Zirui Song, Hongyang He, Renda Han, Guangzhen Yao, Huacan Wang, Ronghao Chen, Xiuying Chen, Guan Huang, Zheng Zhu,
- Abstract要約: リアルタイム手話ビデオ生成のためのポーズレスフレームワークを提案する。
本手法は,自然言語テキストを直接手話にマッピングすることで,中間ポーズ表現の必要性を解消する。
我々のコントリビューションは、リアルタイム、高品質、ポーズなし手話合成のための新しい道を開く。
- 参考スコア(独自算出の注目度): 39.618003889108685
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sign language plays a crucial role in bridging communication gaps between the deaf and hard-of-hearing communities. However, existing sign language video generation models often rely on complex intermediate representations, which limits their flexibility and efficiency. In this work, we propose a novel pose-free framework for real-time sign language video generation. Our method eliminates the need for intermediate pose representations by directly mapping natural language text to sign language videos using a diffusion-based approach. We introduce two key innovations: (1) a pose-free generative model based on the a state-of-the-art diffusion backbone, which learns implicit text-to-gesture alignments without pose estimation, and (2) a Trainable Sliding Tile Attention (T-STA) mechanism that accelerates inference by exploiting spatio-temporal locality patterns. Unlike previous training-free sparsity approaches, T-STA integrates trainable sparsity into both training and inference, ensuring consistency and eliminating the train-test gap. This approach significantly reduces computational overhead while maintaining high generation quality, making real-time deployment feasible. Our method increases video generation speed by 3.07x without compromising video quality. Our contributions open new avenues for real-time, high-quality, pose-free sign language synthesis, with potential applications in inclusive communication tools for diverse communities. Code: https://github.com/AIGeeksGroup/FlashSign.
- Abstract(参考訳): 手話は、聴覚障害と難聴者コミュニティの間のコミュニケーションギャップを埋める上で重要な役割を担っている。
しかし、既存の手話ビデオ生成モデルは、しばしば複雑な中間表現に依存し、柔軟性と効率を制限している。
本研究では,リアルタイム手話ビデオ生成のための新しいポーズレスフレームワークを提案する。
本手法は,拡散に基づくアプローチを用いて,自然言語テキストを直接手話ビデオにマッピングすることで,中間ポーズ表現の必要性を解消する。
本研究では,(1)ポーズ推定なしで暗黙のテキスト・ツー・ジェスチャアライメントを学習する最先端拡散バックボーンに基づくポーズフリー生成モデル,(2)時空間的局所性パターンを利用して推論を加速するトレーニング可能なスライディング・タイル・アテンション(T-STA)機構を提案する。
従来のトレーニングフリーのスパーシリティアプローチとは異なり、T-STAはトレーニングと推論の両方にトレーニング可能なスパーシリティを統合し、一貫性を確保し、テストのギャップをなくす。
このアプローチは、ハイジェネレーション品質を維持しながら計算オーバーヘッドを大幅に削減し、リアルタイムデプロイメントの実現を可能にする。
ビデオ品質を損なうことなく,ビデオ生成速度を3.07倍に向上させる。
我々の貢献により、リアルタイム、高品質、ポーズなし手話合成のための新しい道が開かれ、多様なコミュニティのための包括的コミュニケーションツールに潜在的な応用が期待できる。
コード:https://github.com/AIGeeksGroup/FlashSign
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - Text2Sign Diffusion: A Generative Approach for Gloss-Free Sign Language Production [32.99299619724994]
手話生成は、手話文を手話のポーズフレームの列に変換することを目的としている。
既存の方法は、手話の単語やフレーズの象徴的な表現であるグロスに依存している。
グロースフリーSLPのための新しい拡散法であるText2Sign Diffusion(Text2SignDiff)を提案する。
論文 参考訳(メタデータ) (2025-09-13T15:05:19Z) - Beyond Gloss: A Hand-Centric Framework for Gloss-Free Sign Language Translation [18.544615425772903]
手話翻訳(SLT)は、視覚情報と言語情報の間のモダリティギャップを埋めることを必要とする課題である。
我々は,ビデオLLMの時間認識推論機能を活用する新しいGloss-free SLTフレームワークであるtextbfBeyondGlossを紹介する。
BeyondtextはPhoenixT14とCSL-Dailyベンチマークで最先端のパフォーマンスを実現し、提案したフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2025-07-31T14:06:07Z) - SignAligner: Harmonizing Complementary Pose Modalities for Coherent Sign Language Generation [41.240893601941536]
我々は、広く使われているRWTH-ENIXPHO-Weather 2014Tデータセットの拡張版であるENIX14T+を紹介し、Pose、Hamer、Smplerxの3つの新しいサイン表現を特徴とする。
また,テキスト駆動のポーズ・モダリティ・コジェネレーション,マルチモーダルのオンライン協調補正,現実的な手話合成の3段階からなる手話生成のための手話生成手法であるSignAlignerを提案する。
論文 参考訳(メタデータ) (2025-06-13T09:44:42Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - EC^2: Emergent Communication for Embodied Control [72.99894347257268]
エージェントはマルチモーダル・プレトレーニングを活用して、新しい環境でどのように振る舞うかを素早く学ぶ必要がある。
本稿では,数発のエンボディドコントロールのためのビデオ言語表現を事前学習するための新しいスキームであるEmergent Communication for Embodied Control (EC2)を提案する。
EC2は、タスク入力としてビデオとテキストの両方の従来のコントラスト学習手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-04-19T06:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。