論文の概要: DiffSign: AI-Assisted Generation of Customizable Sign Language Videos With Enhanced Realism
- arxiv url: http://arxiv.org/abs/2412.03878v1
- Date: Thu, 05 Dec 2024 05:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:53.123692
- Title: DiffSign: AI-Assisted Generation of Customizable Sign Language Videos With Enhanced Realism
- Title(参考訳): AIによる手話ビデオのカスタマイズを支援するDiffSign
- Authors: Sudha Krishnamurthy, Vimal Bhat, Abhinav Jain,
- Abstract要約: 私たちは、リアルで表現力のある合成シグナーで手話ビデオを作成します。
提案手法はパラメトリックモデリングと生成モデリングを組み合わせて,現実的な合成シグナを生成する。
提案手法を用いて生成した手話ビデオは,テキストプロンプトにのみ条件付き拡散モデルで生成したビデオよりも時間的一貫性とリアリズムに優れていた。
- 参考スコア(独自算出の注目度): 1.6536018920603175
- License:
- Abstract: The proliferation of several streaming services in recent years has now made it possible for a diverse audience across the world to view the same media content, such as movies or TV shows. While translation and dubbing services are being added to make content accessible to the local audience, the support for making content accessible to people with different abilities, such as the Deaf and Hard of Hearing (DHH) community, is still lagging. Our goal is to make media content more accessible to the DHH community by generating sign language videos with synthetic signers that are realistic and expressive. Using the same signer for a given media content that is viewed globally may have limited appeal. Hence, our approach combines parametric modeling and generative modeling to generate realistic-looking synthetic signers and customize their appearance based on user preferences. We first retarget human sign language poses to 3D sign language avatars by optimizing a parametric model. The high-fidelity poses from the rendered avatars are then used to condition the poses of synthetic signers generated using a diffusion-based generative model. The appearance of the synthetic signer is controlled by an image prompt supplied through a visual adapter. Our results show that the sign language videos generated using our approach have better temporal consistency and realism than signing videos generated by a diffusion model conditioned only on text prompts. We also support multimodal prompts to allow users to further customize the appearance of the signer to accommodate diversity (e.g. skin tone, gender). Our approach is also useful for signer anonymization.
- Abstract(参考訳): 近年のいくつかのストリーミングサービスの普及により、世界中の多様な視聴者が映画やテレビ番組などと同じメディアコンテンツを視聴できるようになった。
翻訳とダビングサービスは、地域の視聴者にコンテンツをアクセスできるようにするために追加されているが、DeafやHard of Hearing(DHH)など、さまざまな能力を持つ人たちにコンテンツをアクセスできるようにするためのサポートは、まだ遅れている。
我々のゴールは、現実的で表現力のある合成シグナーで手話ビデオを生成することで、メディアコンテンツをDHHコミュニティによりアクセスしやすくすることである。
全世界で視聴されるメディアコンテンツに対して同じシグナーを使用すると、魅力は限られる可能性がある。
そこで本研究では,パラメトリックモデリングと生成モデルを組み合わせて,現実的な合成シグナを生成し,ユーザの好みに基づいて外観をカスタマイズする。
パラメトリックモデルの最適化により,まず人間の手話ポーズを3次元手話アバターに再ターゲティングする。
次に、レンダリングされたアバターからの高忠実なポーズを使用して、拡散ベース生成モデルを用いて生成された合成シグナーのポーズを条件付ける。
合成シグナの外観は、視覚アダプタを介して供給される画像プロンプトによって制御される。
提案手法を用いて生成した手話ビデオは,テキストプロンプトにのみ条件付き拡散モデルで生成したビデオよりも時間的一貫性とリアリズムに優れていた。
また,マルチモーダルプロンプトもサポートして,シグナーの外観をよりカスタマイズし,多様性(例えば肌の色,性別)を調整できるようにしています。
また,シグナーの匿名化にも有用である。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - DiffSLVA: Harnessing Diffusion Models for Sign Language Video
Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。
我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。
この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:26:19Z) - ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - Text-image guided Diffusion Model for generating Deepfake celebrity
interactions [50.37578424163951]
拡散モデルは近年、非常にリアルなビジュアルコンテンツ生成を実証している。
本稿では,その点において新しい手法を考案し,検討する。
提案手法により, 現実感を脅かすことなく, 偽の視覚コンテンツを作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-26T08:24:37Z) - Signing at Scale: Learning to Co-Articulate Signs for Large-Scale
Photo-Realistic Sign Language Production [43.45785951443149]
手話は視覚言語であり、語彙は話し言葉と同じくらい豊かである。
現在の深層学習に基づく手話生成(SLP)モデルでは、アンダーアーティキュレートされたスケルトンポーズシーケンスが生成される。
我々は,辞書記号間の協調処理を学習することで,大規模SLPに取り組む。
また,ポーズ条件付き人間の合成モデルであるSignGANを提案する。
論文 参考訳(メタデータ) (2022-03-29T08:51:38Z) - AnonySIGN: Novel Human Appearance Synthesis for Sign Language Video
Anonymisation [37.679114155300084]
本稿では,手話ビデオの視覚的外観を匿名化するための自動手法として,手話ビデオ匿名化(SLVA)の課題を紹介する。
SLVAに取り組むために,手話データの視覚的匿名化のための新しいアプローチであるAnonySignを提案する。
論文 参考訳(メタデータ) (2021-07-22T13:42:18Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。