論文の概要: THInImg: Cross-modal Steganography for Presenting Talking Heads in
Images
- arxiv url: http://arxiv.org/abs/2311.17177v1
- Date: Tue, 28 Nov 2023 19:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 23:27:11.220505
- Title: THInImg: Cross-modal Steganography for Presenting Talking Heads in
Images
- Title(参考訳): thinimg:画像中の話し頭提示のためのクロスモーダルステガノグラフィ
- Authors: Lin Zhao, Hongxuan Li, Xuefei Ning, Xinru Jiang
- Abstract要約: クロスモーダル・ステガノグラフィー(Cross-modal Steganography)は、公的に利用可能なカバー信号に秘密の信号を隠蔽する手法である。
人間の顔の特徴を活用して、識別画像内に長大な音声データを隠蔽するTHInImgを提案する。
THInImgは、最大80秒間の高品質なトーキーヘッドビデオ(音声を含む)を160x160解像度のアイデンティティ画像に表示することができる。
- 参考スコア(独自算出の注目度): 14.09277898001307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal Steganography is the practice of concealing secret signals in
publicly available cover signals (distinct from the modality of the secret
signals) unobtrusively. While previous approaches primarily concentrated on
concealing a relatively small amount of information, we propose THInImg, which
manages to hide lengthy audio data (and subsequently decode talking head video)
inside an identity image by leveraging the properties of human face, which can
be effectively utilized for covert communication, transmission and copyright
protection. THInImg consists of two parts: the encoder and decoder. Inside the
encoder-decoder pipeline, we introduce a novel architecture that substantially
increase the capacity of hiding audio in images. Moreover, our framework can be
extended to iteratively hide multiple audio clips into an identity image,
offering multiple levels of control over permissions. We conduct extensive
experiments to prove the effectiveness of our method, demonstrating that
THInImg can present up to 80 seconds of high quality talking-head video
(including audio) in an identity image with 160x160 resolution.
- Abstract(参考訳): クロスモーダル・ステガノグラフィ(Cross-modal Steganography)は、秘密信号(秘密信号のモダリティとは別物)に秘密信号を隠蔽する手法である。
従来のアプローチでは,比較的少ない情報の隠蔽に主眼を置きつつ,人物の顔の特性を活かし,長大な音声データ(後に音声ヘッドビデオのデコード)を身元確認画像内に隠蔽するthinimgを提案する。
thinimgはエンコーダとデコーダの2つの部分からなる。
エンコーダ・デコーダパイプライン内で,画像に音声を隠蔽する能力を大幅に向上させる新しいアーキテクチャを導入する。
さらに、我々のフレームワークは、複数のオーディオクリップをIDイメージに反復的に隠すように拡張することができ、パーミッションに対する複数のレベルの制御を提供する。
提案手法の有効性を実証するために広範な実験を行い,160x160解像度のアイデンティティ画像において,sinimgが最大80秒の高品質音声(オーディオを含む)を提示できることを実証した。
関連論文リスト
- SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - Large-capacity and Flexible Video Steganography via Invertible Neural
Network [60.34588692333379]
大容量フレキシブルビデオステレオグラフィーネットワーク(LF-VSN)を提案する。
大容量のために、単一の可逆ニューラルネットワーク(INN)を介して複数のビデオの隠蔽と回復を行う可逆パイプラインを提案する。
フレキシビリティのために、異なる受信機が特定の秘密映像を同じカバービデオから特定のキーを介して復元できるキー制御可能なスキームを提案する。
論文 参考訳(メタデータ) (2023-04-24T17:51:35Z) - Hiding Images in Deep Probabilistic Models [58.23127414572098]
我々は、画像の深い確率モデルに隠蔽するための異なる計算フレームワークについて述べる。
具体的には、DNNを用いて、カバー画像の確率密度をモデル化し、学習した分布の特定の場所に秘密画像を隠す。
我々は,抽出精度とモデルセキュリティの観点から,SinGANアプローチの実現可能性を示す。
論文 参考訳(メタデータ) (2022-10-05T13:33:25Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Multitask Identity-Aware Image Steganography via Minimax Optimization [9.062839197237807]
我々は,秘密画像の復元なしにコンテナイメージの直接認識を実現するための,Multitask Identity-Aware Image Steganography (MIAIS) というフレームワークを提案する。
直接認識の鍵となる問題は、秘密画像のアイデンティティ情報をコンテナイメージに保存し、コンテナイメージを同時にカバーイメージに類似させることである。
秘密画像復元に柔軟性を持たせるために,オプションの復元ネットワークを本手法に組み込んだ。
論文 参考訳(メタデータ) (2021-07-13T02:53:38Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Deep Neural Networks based Invisible Steganography for Audio-into-Image
Algorithm [0.0]
画像と音声の整合性は良好に保たれ、隠れた音声の最大長は大幅に改善されている。
第1のネットワークは秘密の音声を画像に隠蔽し、第2のネットワークは画像を復号して元の音声を得る責務を負う。
論文 参考訳(メタデータ) (2021-02-18T06:13:05Z) - Multi-Stage Residual Hiding for Image-into-Audio Steganography [40.669605041776954]
本稿では,音声キャリアに画像コンテンツを隠蔽するクロスモーダルステガノグラフィー手法を提案する。
提案するフレームワークはペイロード容量の制御をより柔軟にする。
実験によると、キャリアの変更は人間のリスナーには気づかない。
論文 参考訳(メタデータ) (2021-01-06T05:01:45Z) - InfoScrub: Towards Attribute Privacy by Targeted Obfuscation [77.49428268918703]
視覚データに流出した個人情報を個人が制限できる技術について検討する。
我々はこの問題を新しい画像難読化フレームワークで解決する。
提案手法では,元の入力画像に忠実な難読化画像を生成するとともに,非難読化画像に対して6.2$times$(または0.85bits)の不確実性を増大させる。
論文 参考訳(メタデータ) (2020-05-20T19:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。