論文の概要: Diverse Signer Avatars with Manual and Non-Manual Feature Modelling for Sign Language Production
- arxiv url: http://arxiv.org/abs/2508.15988v1
- Date: Thu, 21 Aug 2025 22:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.201889
- Title: Diverse Signer Avatars with Manual and Non-Manual Feature Modelling for Sign Language Production
- Title(参考訳): 手動・非手動特徴モデリングによる手話生成用多言語シグナーアバター
- Authors: Mohamed Ilyes Lakhal, Richard Bowden,
- Abstract要約: 提案モジュールは,異なる民族背景を持つ参照イメージをシームレスに使用し,多様性を確保するとともに,言語内容の保存を確実にすることを示す。
YouTube-SL-25手話データセットの実験は、我々のパイプラインが最先端の手法よりも優れた視覚的品質を達成することを示している。
- 参考スコア(独自算出の注目度): 20.773821519253534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diversity of sign representation is essential for Sign Language Production (SLP) as it captures variations in appearance, facial expressions, and hand movements. However, existing SLP models are often unable to capture diversity while preserving visual quality and modelling non-manual attributes such as emotions. To address this problem, we propose a novel approach that leverages Latent Diffusion Model (LDM) to synthesise photorealistic digital avatars from a generated reference image. We propose a novel sign feature aggregation module that explicitly models the non-manual features (\textit{e.g.}, the face) and the manual features (\textit{e.g.}, the hands). We show that our proposed module ensures the preservation of linguistic content while seamlessly using reference images with different ethnic backgrounds to ensure diversity. Experiments on the YouTube-SL-25 sign language dataset show that our pipeline achieves superior visual quality compared to state-of-the-art methods, with significant improvements on perceptual metrics.
- Abstract(参考訳): 記号表現の多様性は手話生成(SLP)において欠かせないものであり、外見、表情、手の動きの変化を捉えている。
しかし、既存のSLPモデルは、視覚的品質を維持し、感情のような非手動属性をモデル化しながら、多様性を捉えることができないことが多い。
この問題に対処するために,Latent Diffusion Model (LDM) を用いて,生成した参照画像からフォトリアリスティックデジタルアバターを合成する手法を提案する。
非手動的特徴 (\textit{e g }, face) と手動特徴 (\textit{e g }, hand) を明示的にモデル化した新しい手動特徴集合モジュールを提案する。
提案モジュールは,異なる民族背景を持つ参照イメージをシームレスに使用し,多様性を確保するとともに,言語内容の保存を確実にすることを示す。
YouTube-SL-25手話データセットの実験では、私たちのパイプラインは最先端の手法よりも優れた視覚的品質を達成でき、知覚的メトリクスは大幅に改善されている。
関連論文リスト
- DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文 参考訳(メタデータ) (2024-12-02T01:19:21Z) - DiffSLT: Enhancing Diversity in Sign Language Translation via Diffusion Model [9.452839238264286]
そこで我々は,Gloss-free手話翻訳フレームワークであるDiffSLTを提案する。
DiffSLTは、入力ビデオの視覚的特徴に基づいてランダムノイズをターゲット潜在表現に変換する。
DiffSLT-Pは擬似グルースによる視覚的特徴の条件を定め、重要なテキストガイダンスを提供し、モダリティのギャップを減らし、DiffSLT-Pを導入している。
論文 参考訳(メタデータ) (2024-11-26T09:26:36Z) - GRADE: Quantifying Sample Diversity in Text-to-Image Models [66.12068246962762]
GRADEはテキスト・画像モデルにおけるサンプルの多様性を定量化する手法である。
GRADEを用いて、合計720K画像上の12種類のモデルの多様性を測定する。
論文 参考訳(メタデータ) (2024-10-29T23:10:28Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Kaleido Diffusion: Improving Conditional Diffusion Models with Autoregressive Latent Modeling [49.41822427811098]
本稿では, 自己回帰性潜伏前駆体を組み込むことにより, サンプルの多様性を高める新しいアプローチであるKaleidoを紹介する。
Kaleidoは、オリジナルのキャプションをエンコードして潜伏変数を生成する自動回帰言語モデルを統合する。
そこで我々は,Kaleidoが生成した潜在変数のガイダンスに忠実に従属していることを示し,画像生成過程を効果的に制御し,指示する能力を示す。
論文 参考訳(メタデータ) (2024-05-31T17:41:11Z) - Diversity-Aware Sign Language Production through a Pose Encoding Variational Autoencoder [33.20529988919208]
変動推論パラダイムを拡張して、属性のポーズや条件付けに関する情報を含める。
ジェネレータフレームワークは、入力ポーズの空間保存を確保するためにUNetアーキテクチャとして提示される。
SMILE IIデータセットの実験では、提案モデルが最先端のベースラインよりも定量的に優れていることが示された。
論文 参考訳(メタデータ) (2024-05-16T20:04:35Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。