論文の概要: Tell me Habibi, is it Real or Fake?
- arxiv url: http://arxiv.org/abs/2505.22581v1
- Date: Wed, 28 May 2025 16:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.74633
- Title: Tell me Habibi, is it Real or Fake?
- Title(参考訳): ハビビって、リアルかフェイクか?
- Authors: Kartik Kuckreja, Parul Gupta, Injy Hamed, Thamar Solorio, Muhammad Haris Khan, Abhinav Dhall,
- Abstract要約: コードスイッチング(英語版)、特にアラビア語と英語の間では、アラブ世界では一般的であり、デジタル通信で広く使われている。
textbfArEnAVは、音声中のコードスイッチング、方言のバリエーション、モノリンガルのアラビアコンテンツを含む、アラビア語と英語の音声・視覚の大規模ディープフェイクデータセットである。
本データセットは4つのText-To-Speechモデルと2つのリップ同期モデルを統合し,多言語マルチモーダルディープフェイク検出の包括的解析を可能にする。
- 参考スコア(独自算出の注目度): 15.344187517040508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfake generation methods are evolving fast, making fake media harder to detect and raising serious societal concerns. Most deepfake detection and dataset creation research focuses on monolingual content, often overlooking the challenges of multilingual and code-switched speech, where multiple languages are mixed within the same discourse. Code-switching, especially between Arabic and English, is common in the Arab world and is widely used in digital communication. This linguistic mixing poses extra challenges for deepfake detection, as it can confuse models trained mostly on monolingual data. To address this, we introduce \textbf{ArEnAV}, the first large-scale Arabic-English audio-visual deepfake dataset featuring intra-utterance code-switching, dialectal variation, and monolingual Arabic content. It \textbf{contains 387k videos and over 765 hours of real and fake videos}. Our dataset is generated using a novel pipeline integrating four Text-To-Speech and two lip-sync models, enabling comprehensive analysis of multilingual multimodal deepfake detection. We benchmark our dataset against existing monolingual and multilingual datasets, state-of-the-art deepfake detection models, and a human evaluation, highlighting its potential to advance deepfake research. The dataset can be accessed \href{https://huggingface.co/datasets/kartik060702/ArEnAV-Full}{here}.
- Abstract(参考訳): ディープフェイク生成手法は急速に進化しており、偽メディアの検出が難しくなり、深刻な社会的懸念が高まる。
多くのディープフェイク検出とデータセット生成の研究はモノリンガルコンテンツに焦点を当てており、同じ言説の中で複数の言語が混在する多言語およびコードスイッチされた音声の課題を見越すことが多い。
コードスイッチング(英語版)、特にアラビア語と英語の間では、アラブ世界では一般的であり、デジタル通信で広く使われている。
この言語混合は、主にモノリンガルデータに基づいて訓練されたモデルを混乱させるため、ディープフェイク検出にさらなる課題をもたらす。
この問題に対処するために, 音声・音声・視覚の大規模ディープフェイクデータセットである \textbf{ArEnAV} を紹介した。
387Kビデオと765時間以上の実物と偽物のビデオを含む。
本データセットは4つのText-To-Speechモデルと2つのリップ同期モデルを統合し,多言語マルチモーダルディープフェイク検出の包括的解析を可能にする。
我々は、既存のモノリンガルおよび多言語データセット、最先端のディープフェイク検出モデル、および人間の評価とデータセットをベンチマークし、ディープフェイク研究の進展の可能性を強調した。
データセットは \href{https://huggingface.co/datasets/kartik060702/ArEnAV-Full}{here} にアクセスできる。
関連論文リスト
- MAVOS-DD: Multilingual Audio-Video Open-Set Deepfake Detection Benchmark [108.46287432944392]
マルチリンガル・オーディオ・ビデオ・ディープフェイク検出のための大規模オープンセット・ベンチマークを初めて提示する。
私たちのデータセットは8つの言語で250時間以上の実ビデオと偽ビデオで構成されています。
各言語について、偽ビデオは7つの異なるディープフェイク生成モデルで生成される。
論文 参考訳(メタデータ) (2025-05-16T10:42:30Z) - Hindi audio-video-Deepfake (HAV-DF): A Hindi language-based Audio-video Deepfake Dataset [11.164272928464879]
ヒンディー語でのフェイクビデオやスピーチは、農村部や半都市部に多大な影響を及ぼす可能性がある。
本論文は,Hindi Audio-video-Deepfake'(HAV-DF)という,ヒンディー語による新しいディープフェイクデータセットを作成することを目的とする。
論文 参考訳(メタデータ) (2024-11-23T05:18:43Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - TEXTRON: Weakly Supervised Multilingual Text Detection through Data
Programming [21.88026116276415]
テキスト検出はコンピュータビジョン(CV)分野における課題である
テキスト検出には単語レベルのラベル付きデータが不足しており、特に多言語設定やインドのスクリプトではそうである。
データプログラミングベースのアプローチであるTEXTRONを提案し、ユーザは様々なテキスト検出方法を弱い監督ベースの学習フレームワークにプラグインできる。
論文 参考訳(メタデータ) (2024-02-15T09:18:18Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Transferring Knowledge Distillation for Multilingual Social Event
Detection [42.663309895263666]
最近発表されたグラフニューラルネットワーク(GNN)は、ソーシャルイベント検出タスクにおける有望なパフォーマンスを示している。
本稿では,多言語データストリーム中の事象を検出するために,言語間単語埋め込みを組み込んだGNNを提案する。
合成データセットと実世界のデータセットの両方の実験では、多言語データとトレーニングサンプルが不足している言語の両方において、検出に非常に効果的なフレームワークが示されている。
論文 参考訳(メタデータ) (2021-08-06T12:38:42Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。