論文の概要: Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis
- arxiv url: http://arxiv.org/abs/2404.01438v2
- Date: Mon, 17 Feb 2025 18:22:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:06:05.170175
- Title: Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis
- Title(参考訳): 手話ディープフェイクの生成と検出 -言語学的および視覚的分析-
- Authors: Shahzeb Naeem, Muhammad Riyyan Khan, Usman Tariq, Abhinav Dhall, Carlos Ivan Colon, Hasan Al-Nashash,
- Abstract要約: 本研究は,Deaf and Hard of Hearing (DHoH) コミュニティにおいて,上半身生成のためのディープフェイク技術の肯定的な応用について検討する。
我々は、コンピュータビジョンと自然言語処理モデルを用いて、信頼性の高いディープフェイクデータセットを構築し、その技術的および視覚的信頼性を評価する。
このデータセットは、目に見えない個人と見えない個人の両方を対象とする1200以上のビデオで構成されており、脆弱な個人をターゲットにしたディープフェイクビデオの検出にも使用されている。
- 参考スコア(独自算出の注目度): 6.189190729240752
- License:
- Abstract: This research explores the positive application of deepfake technology for upper body generation, specifically sign language for the Deaf and Hard of Hearing (DHoH) community. Given the complexity of sign language and the scarcity of experts, the generated videos are vetted by a sign language expert for accuracy. We construct a reliable deepfake dataset, evaluating its technical and visual credibility using computer vision and natural language processing models. The dataset, consisting of over 1200 videos featuring both seen and unseen individuals, is also used to detect deepfake videos targeting vulnerable individuals. Expert annotations confirm that the generated videos are comparable to real sign language content. Linguistic analysis, using textual similarity scores and interpreter evaluations, shows that the interpretation of generated videos is at least 90% similar to authentic sign language. Visual analysis demonstrates that convincingly realistic deepfakes can be produced, even for new subjects. Using a pose/style transfer model, we pay close attention to detail, ensuring hand movements are accurate and align with the driving video. We also apply machine learning algorithms to establish a baseline for deepfake detection on this dataset, contributing to the detection of fraudulent sign language videos.
- Abstract(参考訳): 本研究は,Deaf and Hard of Hearing (DHoH) コミュニティにおける上半身生成のためのディープフェイク技術の肯定的な応用について検討する。
手話の複雑さと専門家の不足を考えると、生成されたビデオは手話の専門家によって正確に検査される。
我々は、コンピュータビジョンと自然言語処理モデルを用いて、信頼性の高いディープフェイクデータセットを構築し、その技術的および視覚的信頼性を評価する。
このデータセットは、目に見えない個人と見えない個人の両方を対象とする1200以上のビデオで構成されており、脆弱な個人をターゲットにしたディープフェイクビデオの検出にも使用されている。
専門家のアノテーションは、生成されたビデオが実際の手話の内容に匹敵することを確認した。
テキスト類似度スコアとインタプリタ評価を用いた言語分析では、生成したビデオの解釈は、少なくとも90%は、真の手話に類似していることが示されている。
ビジュアル分析は、新しい被験者であっても、説得力のあるほどリアルなディープフェイクを作成できることを示している。
ポーズ/スタイルの移動モデルを用いて、細部に注意を払い、手の動きが正確で、運転映像と一致していることを確認する。
また、このデータセットに基づいてディープラーニング検出のベースラインを確立するために機械学習アルゴリズムを適用し、不正な手話ビデオの検出に寄与する。
関連論文リスト
- Signs as Tokens: An Autoregressive Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
我々は,手話とLMを整合させるために,連続する記号を様々な身体部分を表すトークン列に識別する切り離されたトークン化器を開発した。
これらのサイントークンは、LMの生のテキスト語彙に統合され、手話データセットの教師付き微調整を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Hindi audio-video-Deepfake (HAV-DF): A Hindi language-based Audio-video Deepfake Dataset [11.164272928464879]
ヒンディー語でのフェイクビデオやスピーチは、農村部や半都市部に多大な影響を及ぼす可能性がある。
本論文は,Hindi Audio-video-Deepfake'(HAV-DF)という,ヒンディー語による新しいディープフェイクデータセットを作成することを目的とする。
論文 参考訳(メタデータ) (2024-11-23T05:18:43Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。
我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文 参考訳(メタデータ) (2023-11-29T14:18:04Z) - DiffSLVA: Harnessing Diffusion Models for Sign Language Video
Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。
我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。
この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:26:19Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting [28.012212656892746]
本稿では,ある人物の表情,頭部ポーズ,身体の動きを,対象映像の他者へ伝達するニューラルレンダリングパイプラインを提案する。
本手法は手話匿名化,手話生成(合成モジュール),および他の全身活動の再現に利用できる。
論文 参考訳(メタデータ) (2022-09-03T18:04:50Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - A Comprehensive Study on Deep Learning-based Methods for Sign Language
Recognition [14.714669469867871]
本研究の目的は,非セグメンテーションビデオストリームをグルースにマッピングすることに着目し,手話認識に関する洞察を提供することである。
私たちの知る限りでは、ビデオキャプチャのために文と光沢レベルのアノテーションが提供される最初の手話データセットです。
論文 参考訳(メタデータ) (2020-07-24T14:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。