論文の概要: Deep Learning and Synthetic Media
- arxiv url: http://arxiv.org/abs/2205.05764v1
- Date: Wed, 11 May 2022 20:28:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 03:26:42.475825
- Title: Deep Learning and Synthetic Media
- Title(参考訳): 深層学習と合成メディア
- Authors: Rapha\"el Milli\`ere
- Abstract要約: このようなパイプラインで生成された"ディープフェイク"と関連する合成メディアは、単に従来の方法よりも漸進的な改善を提供するだけではない、と私は主張する。
このようなパイプラインで生成された「ディープフェイク」と関連する合成メディアは、真に新しい種類のオーディオヴィジュアルメディアの道を開いたと私は主張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning algorithms are rapidly changing the way in which audiovisual
media can be produced. Synthetic audiovisual media generated with deep learning
- often subsumed colloquially under the label "deepfakes" - have a number of
impressive characteristics; they are increasingly trivial to produce, and can
be indistinguishable from real sounds and images recorded with a sensor. Much
attention has been dedicated to ethical concerns raised by this technological
development. Here, I focus instead on a set of issues related to the notion of
synthetic audiovisual media, its place within a broader taxonomy of audiovisual
media, and how deep learning techniques differ from more traditional approaches
to media synthesis. After reviewing important etiological features of deep
learning pipelines for media manipulation and generation, I argue that
"deepfakes" and related synthetic media produced with such pipelines do not
merely offer incremental improvements over previous methods, but challenge
traditional taxonomical distinctions, and pave the way for genuinely novel
kinds of audiovisual media.
- Abstract(参考訳): ディープラーニングアルゴリズムは、オーディオビジュアルメディアの作り方を急速に変化させている。
ディープ・ラーニング(deep learning)で生成された合成オーディオ・ビジュアル・メディアは、しばしば「ディープフェイクス(deepfakes)」というラベルで口頭で表現され、多くの印象的な特徴を持っている。
この技術開発によって引き起こされた倫理的懸念に多くの注意が向けられている。
ここでは、合成オーディオヴィジュアルメディアの概念に関する一連の問題、オーディオヴィジュアルメディアのより広い分類分野における位置づけ、そして、より伝統的なメディア合成手法とどのように異なるかに焦点を当てる。
メディア操作と生成のための深層学習パイプラインの重要な特徴をレビューした後、このようなパイプラインで生成された「ディープフェイク」と関連する合成メディアは、従来の方法よりも漸進的な改善を提供するだけでなく、従来の分類学的区別に挑戦し、真に新しい種類のオーディオビジュアルメディアへの道を拓いていると論じる。
関連論文リスト
- Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Audio is all in one: speech-driven gesture synthetics using WavLM
pre-trained model [2.995608370922779]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Audio representations for deep learning in sound synthesis: A review [0.0]
本稿では,ディープラーニングを用いた音声合成に応用した音声表現の概要について述べる。
また、深層学習モデルを用いた音声合成アーキテクチャの開発と評価のための最も重要な手法も提示する。
論文 参考訳(メタデータ) (2022-01-07T15:08:47Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Review of end-to-end speech synthesis technology based on deep learning [10.748200013505882]
研究の焦点はディープラーニングに基づくエンドツーエンド音声合成技術である。
主にテキストフロントエンド、音響モデル、ボコーダの3つのモジュールで構成されている。
本稿では、音声合成タスクに使用できる英語、中国語、その他の言語のオープンソース音声コーパスを要約する。
論文 参考訳(メタデータ) (2021-04-20T14:24:05Z) - Are GAN generated images easy to detect? A critical analysis of the
state-of-the-art [22.836654317217324]
フォトリアリズムのレベルが高まるにつれて、合成媒体は実物とほとんど区別できないようになっている。
合成媒体を安定かつタイムリーに検出する自動ツールを開発することが重要である。
論文 参考訳(メタデータ) (2021-04-06T15:54:26Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。