Fugu-MT 論文翻訳(概要): Generation and Detection of Sign Language Deepfakes

論文の概要: Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis

arxiv url: http://arxiv.org/abs/2404.01438v2
Date: Mon, 17 Feb 2025 18:22:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.177464
Title: Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis
Title（参考訳）: 手話ディープフェイクの生成と検出 -言語学的および視覚的分析-
Authors: Shahzeb Naeem, Muhammad Riyyan Khan, Usman Tariq, Abhinav Dhall, Carlos Ivan Colon, Hasan Al-Nashash,
Abstract要約: 本研究は,Deaf and Hard of Hearing (DHoH) コミュニティにおいて,上半身生成のためのディープフェイク技術の肯定的な応用について検討する。我々は、コンピュータビジョンと自然言語処理モデルを用いて、信頼性の高いディープフェイクデータセットを構築し、その技術的および視覚的信頼性を評価する。このデータセットは、目に見えない個人と見えない個人の両方を対象とする1200以上のビデオで構成されており、脆弱な個人をターゲットにしたディープフェイクビデオの検出にも使用されている。
参考スコア（独自算出の注目度）: 6.189190729240752
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This research explores the positive application of deepfake technology for upper body generation, specifically sign language for the Deaf and Hard of Hearing (DHoH) community. Given the complexity of sign language and the scarcity of experts, the generated videos are vetted by a sign language expert for accuracy. We construct a reliable deepfake dataset, evaluating its technical and visual credibility using computer vision and natural language processing models. The dataset, consisting of over 1200 videos featuring both seen and unseen individuals, is also used to detect deepfake videos targeting vulnerable individuals. Expert annotations confirm that the generated videos are comparable to real sign language content. Linguistic analysis, using textual similarity scores and interpreter evaluations, shows that the interpretation of generated videos is at least 90% similar to authentic sign language. Visual analysis demonstrates that convincingly realistic deepfakes can be produced, even for new subjects. Using a pose/style transfer model, we pay close attention to detail, ensuring hand movements are accurate and align with the driving video. We also apply machine learning algorithms to establish a baseline for deepfake detection on this dataset, contributing to the detection of fraudulent sign language videos.
Abstract（参考訳）: 本研究は,Deaf and Hard of Hearing (DHoH) コミュニティにおける上半身生成のためのディープフェイク技術の肯定的な応用について検討する。手話の複雑さと専門家の不足を考えると、生成されたビデオは手話の専門家によって正確に検査される。我々は、コンピュータビジョンと自然言語処理モデルを用いて、信頼性の高いディープフェイクデータセットを構築し、その技術的および視覚的信頼性を評価する。このデータセットは、目に見えない個人と見えない個人の両方を対象とする1200以上のビデオで構成されており、脆弱な個人をターゲットにしたディープフェイクビデオの検出にも使用されている。専門家のアノテーションは、生成されたビデオが実際の手話の内容に匹敵することを確認した。テキスト類似度スコアとインタプリタ評価を用いた言語分析では、生成したビデオの解釈は、少なくとも90%は、真の手話に類似していることが示されている。ビジュアル分析は、新しい被験者であっても、説得力のあるほどリアルなディープフェイクを作成できることを示している。ポーズ/スタイルの移動モデルを用いて、細部に注意を払い、手の動きが正確で、運転映像と一致していることを確認する。また、このデータセットに基づいてディープラーニング検出のベースラインを確立するために機械学習アルゴリズムを適用し、不正な手話ビデオの検出に寄与する。

関連論文リスト

Detecting Deepfake Talking Heads from Facial Biometric Anomalies [12.369423169349673]
ディープフェイクビデオの偽装は、しばしば詐欺、詐欺、政治的偽情報に使用される。顔バイオメトリックスにおける不自然なパターンを利用したディープフェイク映像の偽造検出のための新しい機械学習手法を提案する。我々は、この手法を、ディープフェイク技術と偽造の膨大なデータセットにわたって評価するとともに、ビデオ洗浄に対する信頼性と、以前に見つからなかったディープフェイクジェネレータへの一般化を評価する。
論文参考訳（メタデータ） (2025-07-11T16:29:25Z)
Tell me Habibi, is it Real or Fake? [15.344187517040508]
コードスイッチング(英語版)、特にアラビア語と英語の間では、アラブ世界では一般的であり、デジタル通信で広く使われている。 textbfArEnAVは、音声中のコードスイッチング、方言のバリエーション、モノリンガルのアラビアコンテンツを含む、アラビア語と英語の音声・視覚の大規模ディープフェイクデータセットである。本データセットは4つのText-To-Speechモデルと2つのリップ同期モデルを統合し,多言語マルチモーダルディープフェイク検出の包括的解析を可能にする。
論文参考訳（メタデータ） (2025-05-28T16:54:36Z)
ExDDV: A New Dataset for Explainable Deepfake Detection in Video [23.169975307069066]
我々はExplainable Deepfake Detection in Videoの最初のデータセットとベンチマークであるExDDVを紹介した。我々は、ExDDV上で様々な視覚言語モデルを評価し、様々な微調整および文脈内学習戦略を用いて実験を行う。以上の結果から,ディープフェイクビデオのための堅牢な説明可能なモデルを開発するためには,テキストとクリックの監督が必要であることが示唆された。
論文参考訳（メタデータ） (2025-03-18T16:55:07Z)
Understanding Audiovisual Deepfake Detection: Techniques, Challenges, Human Factors and Perceptual Insights [49.81915942821647]
ディープラーニングは様々な分野に適用され、ディープフェイク検出への影響は例外ではない。ディープフェイク(英: Deepfakes)は、政治的偽造、フィッシング、スランダリング、偽情報の拡散に偽装的に使用できる、偽物だが現実的な合成コンテンツである。本稿では,ディープフェイク検出戦略の有効性を改善し,サイバーセキュリティとメディアの整合性に関する今後の研究を導くことを目的とする。
論文参考訳（メタデータ） (2024-11-12T09:02:11Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文参考訳（メタデータ） (2024-07-02T13:02:51Z)
Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文参考訳（メタデータ） (2024-05-07T07:57:15Z)
Testing MediaPipe Holistic for Linguistic Analysis of Nonmanual Markers in Sign Languages [0.6691151987390147]
我々はMediaPipe Holistic(MPH)と古いソリューション(OpenFace, OF)を比較する。 MPHは眼球運動の言語学的解析には不十分である。我々は、これらの制限を克服するために追加の修正モデルをトレーニングする以前の提案を再検討する。
論文参考訳（メタデータ） (2024-03-15T14:59:21Z)
Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文参考訳（メタデータ） (2024-02-27T02:05:29Z)
Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文参考訳（メタデータ） (2023-11-29T14:18:04Z)
DiffSLVA: Harnessing Diffusion Models for Sign Language Video Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文参考訳（メタデータ） (2023-11-27T18:26:19Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)
Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting [28.012212656892746]
本稿では,ある人物の表情,頭部ポーズ,身体の動きを,対象映像の他者へ伝達するニューラルレンダリングパイプラインを提案する。本手法は手話匿名化,手話生成(合成モジュール),および他の全身活動の再現に利用できる。
論文参考訳（メタデータ） (2022-09-03T18:04:50Z)
Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文参考訳（メタデータ） (2022-04-06T20:51:40Z)
Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文参考訳（メタデータ） (2021-12-27T16:12:30Z)
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2021-07-06T15:41:32Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
A Comprehensive Study on Deep Learning-based Methods for Sign Language Recognition [14.714669469867871]
本研究の目的は,非セグメンテーションビデオストリームをグルースにマッピングすることに着目し,手話認識に関する洞察を提供することである。私たちの知る限りでは、ビデオキャプチャのために文と光沢レベルのアノテーションが提供される最初の手話データセットです。
論文参考訳（メタデータ） (2020-07-24T14:07:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。