論文の概要: Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis
- arxiv url: http://arxiv.org/abs/2404.01438v1
- Date: Mon, 1 Apr 2024 19:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 20:37:09.868193
- Title: Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis
- Title(参考訳): 手話ディープフェイクの生成と検出 -言語学的および視覚的分析-
- Authors: Shahzeb Naeem, Muhammad Riyyan Khan, Usman Tariq, Abhinav Dhall, Carlos Ivan Colon, Hasan Al-Nashash,
- Abstract要約: 本研究は,Deaf and Hard of Hearing (DHoH) コミュニティのための手話を実行しながら, 上半身生成におけるディープフェイク技術の有効性を示すものである。
本研究の目的は、信頼性の高いディープフェイクデータセットの構築、コンピュータビジョンと自然言語処理モデルによる技術的および視覚的信頼性の評価、生成されたコンテンツの妥当性の評価を含む。
- 参考スコア(独自算出の注目度): 6.189190729240752
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A question in the realm of deepfakes is slowly emerging pertaining to whether we can go beyond facial deepfakes and whether it would be beneficial to society. Therefore, this research presents a positive application of deepfake technology in upper body generation, while performing sign-language for the Deaf and Hard of Hearing (DHoH) community. The resulting videos are later vetted with a sign language expert. This is particularly helpful, given the intricate nature of sign language, a scarcity of sign language experts, and potential benefits for health and education. The objectives of this work encompass constructing a reliable deepfake dataset, evaluating its technical and visual credibility through computer vision and natural language processing models, and assessing the plausibility of the generated content. With over 1200 videos, featuring both previously seen and unseen individuals for the generation model, using the help of a sign language expert, we establish a deepfake dataset in sign language that can further be utilized to detect fake videos that may target certain people of determination.
- Abstract(参考訳): ディープフェイクの領域における疑問は、顔のディープフェイクを超えて、それが社会にとって有益かどうかに関して徐々に現れつつある。
そこで本研究では,Deaf and Hard of Hearing (DHoH) コミュニティのための手話を実行しながら,上半身生成におけるディープフェイク技術の正の応用について述べる。
得られたビデオは後に手話の専門家によって審査される。
これは手話の複雑な性質、手話の専門家の不足、健康と教育の潜在的な利益を考えると特に有用である。
本研究の目的は、信頼性の高いディープフェイクデータセットの構築、コンピュータビジョンと自然言語処理モデルによる技術的および視覚的信頼性の評価、生成されたコンテンツの妥当性の評価を含む。
我々は手話の専門家の助けを借りて1200本以上の動画を生成モデルに使用し、手話の専門家の助けを借りてディープフェイクデータセットを構築し、特定の人物をターゲットとした偽ビデオの検出にさらに活用する。
関連論文リスト
- Signs as Tokens: An Autoregressive Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
我々は,手話とLMを整合させるために,連続する記号を様々な身体部分を表すトークン列に識別する切り離されたトークン化器を開発した。
これらのサイントークンは、LMの生のテキスト語彙に統合され、手話データセットの教師付き微調整を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Hindi audio-video-Deepfake (HAV-DF): A Hindi language-based Audio-video Deepfake Dataset [11.164272928464879]
ヒンディー語でのフェイクビデオやスピーチは、農村部や半都市部に多大な影響を及ぼす可能性がある。
本論文は,Hindi Audio-video-Deepfake'(HAV-DF)という,ヒンディー語による新しいディープフェイクデータセットを作成することを目的とする。
論文 参考訳(メタデータ) (2024-11-23T05:18:43Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。
我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文 参考訳(メタデータ) (2023-11-29T14:18:04Z) - DiffSLVA: Harnessing Diffusion Models for Sign Language Video
Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。
我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。
この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:26:19Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting [28.012212656892746]
本稿では,ある人物の表情,頭部ポーズ,身体の動きを,対象映像の他者へ伝達するニューラルレンダリングパイプラインを提案する。
本手法は手話匿名化,手話生成(合成モジュール),および他の全身活動の再現に利用できる。
論文 参考訳(メタデータ) (2022-09-03T18:04:50Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - A Comprehensive Study on Deep Learning-based Methods for Sign Language
Recognition [14.714669469867871]
本研究の目的は,非セグメンテーションビデオストリームをグルースにマッピングすることに着目し,手話認識に関する洞察を提供することである。
私たちの知る限りでは、ビデオキャプチャのために文と光沢レベルのアノテーションが提供される最初の手話データセットです。
論文 参考訳(メタデータ) (2020-07-24T14:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。