論文の概要: DiffSign: AI-Assisted Generation of Customizable Sign Language Videos With Enhanced Realism
- arxiv url: http://arxiv.org/abs/2412.03878v1
- Date: Thu, 05 Dec 2024 05:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 20:43:01.895411
- Title: DiffSign: AI-Assisted Generation of Customizable Sign Language Videos With Enhanced Realism
- Title(参考訳): AIによる手話ビデオのカスタマイズを支援するDiffSign
- Authors: Sudha Krishnamurthy, Vimal Bhat, Abhinav Jain,
- Abstract要約: 私たちは、リアルで表現力のある合成シグナーで手話ビデオを作成します。
提案手法はパラメトリックモデリングと生成モデリングを組み合わせて,現実的な合成シグナを生成する。
提案手法を用いて生成した手話ビデオは,テキストプロンプトにのみ条件付き拡散モデルで生成したビデオよりも時間的一貫性とリアリズムに優れていた。
- 参考スコア(独自算出の注目度): 1.6536018920603175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The proliferation of several streaming services in recent years has now made it possible for a diverse audience across the world to view the same media content, such as movies or TV shows. While translation and dubbing services are being added to make content accessible to the local audience, the support for making content accessible to people with different abilities, such as the Deaf and Hard of Hearing (DHH) community, is still lagging. Our goal is to make media content more accessible to the DHH community by generating sign language videos with synthetic signers that are realistic and expressive. Using the same signer for a given media content that is viewed globally may have limited appeal. Hence, our approach combines parametric modeling and generative modeling to generate realistic-looking synthetic signers and customize their appearance based on user preferences. We first retarget human sign language poses to 3D sign language avatars by optimizing a parametric model. The high-fidelity poses from the rendered avatars are then used to condition the poses of synthetic signers generated using a diffusion-based generative model. The appearance of the synthetic signer is controlled by an image prompt supplied through a visual adapter. Our results show that the sign language videos generated using our approach have better temporal consistency and realism than signing videos generated by a diffusion model conditioned only on text prompts. We also support multimodal prompts to allow users to further customize the appearance of the signer to accommodate diversity (e.g. skin tone, gender). Our approach is also useful for signer anonymization.
- Abstract(参考訳): 近年のいくつかのストリーミングサービスの普及により、世界中の多様な視聴者が映画やテレビ番組などと同じメディアコンテンツを視聴できるようになった。
翻訳とダビングサービスは、地域の視聴者にコンテンツをアクセスできるようにするために追加されているが、DeafやHard of Hearing(DHH)など、さまざまな能力を持つ人たちにコンテンツをアクセスできるようにするためのサポートは、まだ遅れている。
我々のゴールは、現実的で表現力のある合成シグナーで手話ビデオを生成することで、メディアコンテンツをDHHコミュニティによりアクセスしやすくすることである。
全世界で視聴されるメディアコンテンツに対して同じシグナーを使用すると、魅力は限られる可能性がある。
そこで本研究では,パラメトリックモデリングと生成モデルを組み合わせて,現実的な合成シグナを生成し,ユーザの好みに基づいて外観をカスタマイズする。
パラメトリックモデルの最適化により,まず人間の手話ポーズを3次元手話アバターに再ターゲティングする。
次に、レンダリングされたアバターからの高忠実なポーズを使用して、拡散ベース生成モデルを用いて生成された合成シグナーのポーズを条件付ける。
合成シグナの外観は、視覚アダプタを介して供給される画像プロンプトによって制御される。
提案手法を用いて生成した手話ビデオは,テキストプロンプトにのみ条件付き拡散モデルで生成したビデオよりも時間的一貫性とリアリズムに優れていた。
また,マルチモーダルプロンプトもサポートして,シグナーの外観をよりカスタマイズし,多様性(例えば肌の色,性別)を調整できるようにしています。
また,シグナーの匿名化にも有用である。
関連論文リスト
- SignX: The Foundation Model for Sign Recognition [28.651340554377906]
本稿では,手話認識のための基礎モデルフレームワークSignXを提案する。
これは簡潔だが強力なフレームワークであり、複数の人間の活動認識シナリオに適用できる。
実験結果から,SignXは手話ビデオからサインを認識でき,予測された光沢表現を従来よりも高精度に生成できることがわかった。
論文 参考訳(メタデータ) (2025-04-22T23:23:39Z) - Shushing! Let's Imagine an Authentic Speech from the Silent Video [15.426152742881365]
視覚誘導音声生成は、聴覚信号に頼ることなく、顔の外観や唇の動きから真の音声を生成することを目的としている。
近年の進歩にもかかわらず、既存の手法は視覚的手がかりから意味論、音色、感情的な韻律を横断的に統一するのに苦労している。
ImaginTalkは、視覚入力のみを用いて忠実な音声を生成する新しいクロスモーダル拡散フレームワークである。
論文 参考訳(メタデータ) (2025-03-19T06:28:17Z) - DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models [72.24305287508474]
自動回帰方式で言語モデルでビデオを生成する新しいアプローチであるDiCoDeを紹介する。
ビデオを時間的シーケンスとして扱うことで、DiCoDeは自動回帰生成のための言語モデルの能力を完全に活用する。
我々は,DiCoDeを定量的かつ質的に評価し,既存の手法と品質の両立性を実証した。
論文 参考訳(メタデータ) (2024-12-05T18:57:06Z) - Signs as Tokens: An Autoregressive Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
我々は,手話とLMを整合させるために,連続する記号を様々な身体部分を表すトークン列に識別する切り離されたトークン化器を開発した。
これらのサイントークンは、LMの生のテキスト語彙に統合され、手話データセットの教師付き微調整を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - DiffSLVA: Harnessing Diffusion Models for Sign Language Video
Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。
我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。
この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:26:19Z) - ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - Text-image guided Diffusion Model for generating Deepfake celebrity
interactions [50.37578424163951]
拡散モデルは近年、非常にリアルなビジュアルコンテンツ生成を実証している。
本稿では,その点において新しい手法を考案し,検討する。
提案手法により, 現実感を脅かすことなく, 偽の視覚コンテンツを作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-26T08:24:37Z) - Avatar Fingerprinting for Authorized Use of Synthetic Talking-Head Videos [16.717930760451996]
これをアバターフィンガープリントと呼ぶ。
まず、ビデオ通話で対話する人々の実・合成ビデオの大規模なデータセットを紹介する。
顔の表情に依存しない動きのシグネチャを学習することにより、合成ビデオで表現を駆動するアイデンティティを検証する。
論文 参考訳(メタデータ) (2023-05-05T17:54:34Z) - DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder [55.58582254514431]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-30T17:18:31Z) - Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting [28.012212656892746]
本稿では,ある人物の表情,頭部ポーズ,身体の動きを,対象映像の他者へ伝達するニューラルレンダリングパイプラインを提案する。
本手法は手話匿名化,手話生成(合成モジュール),および他の全身活動の再現に利用できる。
論文 参考訳(メタデータ) (2022-09-03T18:04:50Z) - Everybody Sign Now: Translating Spoken Language to Photo Realistic Sign
Language Video [43.45785951443149]
難聴者コミュニティが真に理解できるように、手話自動生成システムは、写真リアリスティックなシグナーを生成する必要がある。
我々は、音声言語から直接写真リアリスティックな連続手話ビデオを生成する最初のSLPモデルSignGANを提案する。
次に、ポーズ条件付き人間の合成モデルを導入し、骨格ポーズシーケンスから写真リアルな手話ビデオを生成する。
論文 参考訳(メタデータ) (2020-11-19T14:31:06Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。