論文の概要: Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis
- arxiv url: http://arxiv.org/abs/2404.01438v2
- Date: Mon, 17 Feb 2025 18:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:05.170175
- Title: Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis
- Title(参考訳): 手話ディープフェイクの生成と検出 -言語学的および視覚的分析-
- Authors: Shahzeb Naeem, Muhammad Riyyan Khan, Usman Tariq, Abhinav Dhall, Carlos Ivan Colon, Hasan Al-Nashash,
- Abstract要約: 本研究は,Deaf and Hard of Hearing (DHoH) コミュニティにおいて,上半身生成のためのディープフェイク技術の肯定的な応用について検討する。
我々は、コンピュータビジョンと自然言語処理モデルを用いて、信頼性の高いディープフェイクデータセットを構築し、その技術的および視覚的信頼性を評価する。
このデータセットは、目に見えない個人と見えない個人の両方を対象とする1200以上のビデオで構成されており、脆弱な個人をターゲットにしたディープフェイクビデオの検出にも使用されている。
- 参考スコア(独自算出の注目度): 6.189190729240752
- License:
- Abstract: This research explores the positive application of deepfake technology for upper body generation, specifically sign language for the Deaf and Hard of Hearing (DHoH) community. Given the complexity of sign language and the scarcity of experts, the generated videos are vetted by a sign language expert for accuracy. We construct a reliable deepfake dataset, evaluating its technical and visual credibility using computer vision and natural language processing models. The dataset, consisting of over 1200 videos featuring both seen and unseen individuals, is also used to detect deepfake videos targeting vulnerable individuals. Expert annotations confirm that the generated videos are comparable to real sign language content. Linguistic analysis, using textual similarity scores and interpreter evaluations, shows that the interpretation of generated videos is at least 90% similar to authentic sign language. Visual analysis demonstrates that convincingly realistic deepfakes can be produced, even for new subjects. Using a pose/style transfer model, we pay close attention to detail, ensuring hand movements are accurate and align with the driving video. We also apply machine learning algorithms to establish a baseline for deepfake detection on this dataset, contributing to the detection of fraudulent sign language videos.
- Abstract(参考訳): 本研究は,Deaf and Hard of Hearing (DHoH) コミュニティにおける上半身生成のためのディープフェイク技術の肯定的な応用について検討する。
手話の複雑さと専門家の不足を考えると、生成されたビデオは手話の専門家によって正確に検査される。
我々は、コンピュータビジョンと自然言語処理モデルを用いて、信頼性の高いディープフェイクデータセットを構築し、その技術的および視覚的信頼性を評価する。
このデータセットは、目に見えない個人と見えない個人の両方を対象とする1200以上のビデオで構成されており、脆弱な個人をターゲットにしたディープフェイクビデオの検出にも使用されている。
専門家のアノテーションは、生成されたビデオが実際の手話の内容に匹敵することを確認した。
テキスト類似度スコアとインタプリタ評価を用いた言語分析では、生成したビデオの解釈は、少なくとも90%は、真の手話に類似していることが示されている。
ビジュアル分析は、新しい被験者であっても、説得力のあるほどリアルなディープフェイクを作成できることを示している。
ポーズ/スタイルの移動モデルを用いて、細部に注意を払い、手の動きが正確で、運転映像と一致していることを確認する。
また、このデータセットに基づいてディープラーニング検出のベースラインを確立するために機械学習アルゴリズムを適用し、不正な手話ビデオの検出に寄与する。
関連論文リスト
- Understanding Audiovisual Deepfake Detection: Techniques, Challenges, Human Factors and Perceptual Insights [49.81915942821647]
ディープラーニングは様々な分野に適用され、ディープフェイク検出への影響は例外ではない。
ディープフェイク(英: Deepfakes)は、政治的偽造、フィッシング、スランダリング、偽情報の拡散に偽装的に使用できる、偽物だが現実的な合成コンテンツである。
本稿では,ディープフェイク検出戦略の有効性を改善し,サイバーセキュリティとメディアの整合性に関する今後の研究を導くことを目的とする。
論文 参考訳(メタデータ) (2024-11-12T09:02:11Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。
表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文 参考訳(メタデータ) (2024-07-02T13:02:51Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - Testing MediaPipe Holistic for Linguistic Analysis of Nonmanual Markers in Sign Languages [0.6691151987390147]
我々はMediaPipe Holistic(MPH)と古いソリューション(OpenFace, OF)を比較する。
MPHは眼球運動の言語学的解析には不十分である。
我々は、これらの制限を克服するために追加の修正モデルをトレーニングする以前の提案を再検討する。
論文 参考訳(メタデータ) (2024-03-15T14:59:21Z) - Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z) - DiffSLVA: Harnessing Diffusion Models for Sign Language Video
Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。
我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。
この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:26:19Z) - Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting [28.012212656892746]
本稿では,ある人物の表情,頭部ポーズ,身体の動きを,対象映像の他者へ伝達するニューラルレンダリングパイプラインを提案する。
本手法は手話匿名化,手話生成(合成モジュール),および他の全身活動の再現に利用できる。
論文 参考訳(メタデータ) (2022-09-03T18:04:50Z) - Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded
Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。
本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文 参考訳(メタデータ) (2021-12-27T16:12:30Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。