Fugu-MT 論文翻訳(概要): Generation and Detection of Sign Language Deepfakes

論文の概要: Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis

arxiv url: http://arxiv.org/abs/2404.01438v1
Date: Mon, 1 Apr 2024 19:22:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 20:37:09.868193
Title: Generation and Detection of Sign Language Deepfakes - A Linguistic and Visual Analysis
Title（参考訳）: 手話ディープフェイクの生成と検出 -言語学的および視覚的分析-
Authors: Shahzeb Naeem, Muhammad Riyyan Khan, Usman Tariq, Abhinav Dhall, Carlos Ivan Colon, Hasan Al-Nashash,
Abstract要約: 本研究は,Deaf and Hard of Hearing (DHoH) コミュニティのための手話を実行しながら, 上半身生成におけるディープフェイク技術の有効性を示すものである。本研究の目的は、信頼性の高いディープフェイクデータセットの構築、コンピュータビジョンと自然言語処理モデルによる技術的および視覚的信頼性の評価、生成されたコンテンツの妥当性の評価を含む。
参考スコア（独自算出の注目度）: 6.189190729240752
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: A question in the realm of deepfakes is slowly emerging pertaining to whether we can go beyond facial deepfakes and whether it would be beneficial to society. Therefore, this research presents a positive application of deepfake technology in upper body generation, while performing sign-language for the Deaf and Hard of Hearing (DHoH) community. The resulting videos are later vetted with a sign language expert. This is particularly helpful, given the intricate nature of sign language, a scarcity of sign language experts, and potential benefits for health and education. The objectives of this work encompass constructing a reliable deepfake dataset, evaluating its technical and visual credibility through computer vision and natural language processing models, and assessing the plausibility of the generated content. With over 1200 videos, featuring both previously seen and unseen individuals for the generation model, using the help of a sign language expert, we establish a deepfake dataset in sign language that can further be utilized to detect fake videos that may target certain people of determination.
Abstract（参考訳）: ディープフェイクの領域における疑問は、顔のディープフェイクを超えて、それが社会にとって有益かどうかに関して徐々に現れつつある。そこで本研究では,Deaf and Hard of Hearing (DHoH) コミュニティのための手話を実行しながら,上半身生成におけるディープフェイク技術の正の応用について述べる。得られたビデオは後に手話の専門家によって審査される。これは手話の複雑な性質、手話の専門家の不足、健康と教育の潜在的な利益を考えると特に有用である。本研究の目的は、信頼性の高いディープフェイクデータセットの構築、コンピュータビジョンと自然言語処理モデルによる技術的および視覚的信頼性の評価、生成されたコンテンツの妥当性の評価を含む。我々は手話の専門家の助けを借りて1200本以上の動画を生成モデルに使用し、手話の専門家の助けを借りてディープフェイクデータセットを構築し、特定の人物をターゲットとした偽ビデオの検出にさらに活用する。

関連論文リスト

Detecting Deepfake Talking Heads from Facial Biometric Anomalies [12.369423169349673]
ディープフェイクビデオの偽装は、しばしば詐欺、詐欺、政治的偽情報に使用される。顔バイオメトリックスにおける不自然なパターンを利用したディープフェイク映像の偽造検出のための新しい機械学習手法を提案する。我々は、この手法を、ディープフェイク技術と偽造の膨大なデータセットにわたって評価するとともに、ビデオ洗浄に対する信頼性と、以前に見つからなかったディープフェイクジェネレータへの一般化を評価する。
論文参考訳（メタデータ） (2025-07-11T16:29:25Z)
Tell me Habibi, is it Real or Fake? [15.344187517040508]
コードスイッチング(英語版)、特にアラビア語と英語の間では、アラブ世界では一般的であり、デジタル通信で広く使われている。 textbfArEnAVは、音声中のコードスイッチング、方言のバリエーション、モノリンガルのアラビアコンテンツを含む、アラビア語と英語の音声・視覚の大規模ディープフェイクデータセットである。本データセットは4つのText-To-Speechモデルと2つのリップ同期モデルを統合し,多言語マルチモーダルディープフェイク検出の包括的解析を可能にする。
論文参考訳（メタデータ） (2025-05-28T16:54:36Z)
ExDDV: A New Dataset for Explainable Deepfake Detection in Video [23.169975307069066]
我々はExplainable Deepfake Detection in Videoの最初のデータセットとベンチマークであるExDDVを紹介した。我々は、ExDDV上で様々な視覚言語モデルを評価し、様々な微調整および文脈内学習戦略を用いて実験を行う。以上の結果から,ディープフェイクビデオのための堅牢な説明可能なモデルを開発するためには,テキストとクリックの監督が必要であることが示唆された。
論文参考訳（メタデータ） (2025-03-18T16:55:07Z)
Understanding Audiovisual Deepfake Detection: Techniques, Challenges, Human Factors and Perceptual Insights [49.81915942821647]
ディープラーニングは様々な分野に適用され、ディープフェイク検出への影響は例外ではない。ディープフェイク(英: Deepfakes)は、政治的偽造、フィッシング、スランダリング、偽情報の拡散に偽装的に使用できる、偽物だが現実的な合成コンテンツである。本稿では,ディープフェイク検出戦略の有効性を改善し,サイバーセキュリティとメディアの整合性に関する今後の研究を導くことを目的とする。
論文参考訳（メタデータ） (2024-11-12T09:02:11Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文参考訳（メタデータ） (2024-07-02T13:02:51Z)
Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文参考訳（メタデータ） (2024-05-07T07:57:15Z)
Testing MediaPipe Holistic for Linguistic Analysis of Nonmanual Markers in Sign Languages [0.6691151987390147]
我々はMediaPipe Holistic(MPH)と古いソリューション(OpenFace, OF)を比較する。 MPHは眼球運動の言語学的解析には不十分である。我々は、これらの制限を克服するために追加の修正モデルをトレーニングする以前の提案を再検討する。
論文参考訳（メタデータ） (2024-03-15T14:59:21Z)
Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文参考訳（メタデータ） (2024-02-27T02:05:29Z)
Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文参考訳（メタデータ） (2023-11-29T14:18:04Z)
DiffSLVA: Harnessing Diffusion Models for Sign Language Video Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文参考訳（メタデータ） (2023-11-27T18:26:19Z)
A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文参考訳（メタデータ） (2023-05-16T19:13:11Z)
Neural Sign Reenactor: Deep Photorealistic Sign Language Retargeting [28.012212656892746]
本稿では,ある人物の表情,頭部ポーズ,身体の動きを,対象映像の他者へ伝達するニューラルレンダリングパイプラインを提案する。本手法は手話匿名化,手話生成(合成モジュール),および他の全身活動の再現に利用できる。
論文参考訳（メタデータ） (2022-09-03T18:04:50Z)
Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文参考訳（メタデータ） (2022-04-06T20:51:40Z)
Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded Language from Percepts and Raw Speech [26.076534338576234]
自然言語と知覚を結びつける基底言語を理解することは、重要な研究分野である。本研究は,2つの視覚的知覚と生音声入力に基づいて,基底言語習得の実現可能性を示す。
論文参考訳（メタデータ） (2021-12-27T16:12:30Z)
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文参考訳（メタデータ） (2021-07-06T15:41:32Z)
Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文参考訳（メタデータ） (2021-03-16T03:38:17Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
A Comprehensive Study on Deep Learning-based Methods for Sign Language Recognition [14.714669469867871]
本研究の目的は,非セグメンテーションビデオストリームをグルースにマッピングすることに着目し,手話認識に関する洞察を提供することである。私たちの知る限りでは、ビデオキャプチャのために文と光沢レベルのアノテーションが提供される最初の手話データセットです。
論文参考訳（メタデータ） (2020-07-24T14:07:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。