論文の概要: Neural Sign Actors: A diffusion model for 3D sign language production
from text
- arxiv url: http://arxiv.org/abs/2312.02702v1
- Date: Tue, 5 Dec 2023 12:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:40:33.205258
- Title: Neural Sign Actors: A diffusion model for 3D sign language production
from text
- Title(参考訳): neural sign actors: テキストからの3次元手話生成のための拡散モデル
- Authors: Vasileios Baltatzis, Rolandos Alexandros Potamias, Evangelos Ververas,
Guanxiong Sun, Jiankang Deng, Stefanos Zafeiriou
- Abstract要約: 手話は難聴者や難聴者のコミュニティにとって主要なコミュニケーション手段である。
深層学習はSL認識と翻訳の多くの手法を支援しており、顕著な成果を上げている。
この研究は、現実的なニューラルサインアバターに向けて重要かつ必要なステップを示し、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋める。
- 参考スコア(独自算出の注目度): 54.048218171283885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sign Languages (SL) serve as the predominant mode of communication for the
Deaf and Hard of Hearing communities. The advent of deep learning has aided
numerous methods in SL recognition and translation, achieving remarkable
results. However, Sign Language Production (SLP) poses a challenge for the
computer vision community as the motions generated must be realistic and have
precise semantic meanings. Most SLP methods rely on 2D data, thus impeding
their ability to attain a necessary level of realism. In this work, we propose
a diffusion-based SLP model trained on a curated large-scale dataset of 4D
signing avatars and their corresponding text transcripts. The proposed method
can generate dynamic sequences of 3D avatars from an unconstrained domain of
discourse using a diffusion process formed on a novel and anatomically informed
graph neural network defined on the SMPL-X body skeleton. Through a series of
quantitative and qualitative experiments, we show that the proposed method
considerably outperforms previous methods of SLP. We believe that this work
presents an important and necessary step towards realistic neural sign avatars,
bridging the communication gap between Deaf and hearing communities. The code,
method and generated data will be made publicly available.
- Abstract(参考訳): 手話 (SL) は、聴覚の難聴と難聴のコミュニティにおける主要なコミュニケーション手段である。
深層学習の出現は、SL認識と翻訳の多くの手法を助長し、顕著な成果を上げている。
しかし、手話生成(SLP)は、生成した動きが現実的で正確な意味を持つ必要があるため、コンピュータビジョンコミュニティにとって課題となる。
ほとんどのSLP法は2Dデータに頼っているため、必要なレベルのリアリズムを達成できない。
本研究では,4d署名アバターとそのテキスト転写物からなる大規模データセットで学習した拡散に基づくslpモデルを提案する。
提案手法は,SMPL-X体骨格上に定義された新規および解剖学的に誘導されたグラフニューラルネットワークを用いて,非拘束領域の談話から3Dアバターの動的配列を生成することができる。
定量的・定性的な実験により,提案手法が従来のslp法を大幅に上回ることを示した。
この研究は、現実的なニューラルサインアバターへの重要なステップであり、聴覚と聴覚のコミュニティ間のコミュニケーションギャップを埋めるものだと考えています。
コード、メソッド、生成されたデータは公開される予定だ。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - SignAvatars: A Large-scale 3D Sign Language Holistic Motion Dataset and Benchmark [20.11364909443987]
SignAvatarsは、難聴者や難聴者のコミュニケーションギャップを埋めるために設計された、最初の大規模でマルチプロンプトな3D手話言語(SL)モーションデータセットである。
データセットは153のシグナから7万本のビデオで構成され、合計8.34万フレームが分離されたサインと、連続的かつ協調的なサインの両方をカバーしている。
論文 参考訳(メタデータ) (2023-10-31T13:15:49Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Leveraging Graph-based Cross-modal Information Fusion for Neural Sign
Language Translation [46.825957917649795]
手話 (SL) は聴覚障害者の母語であり、ほとんどの人が理解できない特別な視覚言語である。
動的グラフに基づくマルチモーダル特徴融合を用いたニューラルSLTモデルを提案する。
我々はまず,マルチモーダル情報を融合したグラフニューラルネットワークをニューラルネットワーク翻訳モデルに導入した。
論文 参考訳(メタデータ) (2022-11-01T15:26:22Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - Word-level Sign Language Recognition with Multi-stream Neural Networks Focusing on Local Regions and Skeletal Information [7.667316027377616]
単語レベル手話認識(WSLR)は,言語障害のある人と聞き取れる人のコミュニケーション障壁を克服することが期待されているため,注目されている。
動作認識のために設計された手法は最先端の精度を実現した。
本稿では,WSLR問題に特に有用な情報を考慮した新しいWSLR手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:30:06Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。