Fugu-MT 論文翻訳(概要): Steganography Beyond Space-Time With Chain of Multimodal AI Agents

論文の概要: Steganography Beyond Space-Time With Chain of Multimodal AI Agents

arxiv url: http://arxiv.org/abs/2502.18547v1
Date: Tue, 25 Feb 2025 15:56:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 15:24:46.273252
Title: Steganography Beyond Space-Time With Chain of Multimodal AI Agents
Title（参考訳）: マルチモーダルAIエージェントのチェーンによる時空を越えたステガノグラフィ
Authors: Ching-Chun Chang, Isao Echizen,
Abstract要約: ステガノグラフィー(英: Steganography)は、隠蔽文学の芸術と科学である。人工知能が進化を続けるにつれて、現実的なコンテンツを合成する能力は、サイバー犯罪の脅威として現れます。本研究は,空間的・時間的領域を超えてメッセージが隠蔽される聴覚メディアのためのステガノグラフィーのパラダイムを提案する。
参考スコア（独自算出の注目度）: 8.095373104009868
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Steganography is the art and science of covert writing, with a broad range of applications interwoven within the realm of cybersecurity. As artificial intelligence continues to evolve, its ability to synthesise realistic content emerges as a threat in the hands of cybercriminals who seek to manipulate and misrepresent the truth. Such synthetic content introduces a non-trivial risk of overwriting the subtle changes made for the purpose of steganography. When the signals in both the spatial and temporal domains are vulnerable to unforeseen overwriting, it calls for reflection on what can remain invariant after all. This study proposes a paradigm in steganography for audiovisual media, where messages are concealed beyond both spatial and temporal domains. A chain of multimodal agents is developed to deconstruct audiovisual content into a cover text, embed a message within the linguistic domain, and then reconstruct the audiovisual content through synchronising both aural and visual modalities with the resultant stego text. The message is encoded by biasing the word sampling process of a language generation model and decoded by analysing the probability distribution of word choices. The accuracy of message transmission is evaluated under both zero-bit and multi-bit capacity settings. Fidelity is assessed through both biometric and semantic similarities, capturing the identities of the recorded face and voice, as well as the core ideas conveyed through the media. Secrecy is examined through statistical comparisons between cover and stego texts. Robustness is tested across various scenarios, including audiovisual compression, face-swapping, voice-cloning and their combinations.
Abstract（参考訳）: ステガノグラフィー(英: Steganography)は、サイバーセキュリティの領域に幅広い応用が織り込まれている隠蔽書の技法と科学である。人工知能が進化を続けるにつれ、現実的なコンテンツを合成する能力は、真実を操り、誤表現しようとするサイバー犯罪者の手による脅威として現れます。このような合成コンテンツは、ステガノグラフィーのために行われた微妙な変化を上書きする非自明なリスクをもたらす。空間的領域と時間的領域の両方の信号が予期せぬ上書きに弱い場合、それは結局不変であるものに対する反射を要求する。本研究は,空間的・時間的領域を超えてメッセージが隠蔽される聴覚メディアのためのステガノグラフィーのパラダイムを提案する。マルチモーダルエージェントの連鎖は、オーディオ視覚コンテンツをカバーテキストに分解し、言語領域内にメッセージを埋め込み、音声と視覚の両方のモーダルを結果のステゴテキストと同期させることにより、オーディオ視覚コンテンツを再構成する。メッセージは、言語生成モデルの単語サンプリングプロセスにバイアスをかけて符号化され、単語選択の確率分布を分析して復号される。メッセージ送信の精度は、ゼロビットとマルチビットのキャパシティ設定の両方で評価される。忠実度は、生体と意味の類似性の両方を通じて評価され、記録された顔と声の同一性、およびメディアを通して伝えられる中核的な考えをキャプチャする。シークレットは表紙とステゴテキストの統計的比較によって検証される。ロバストネスは、オーディオ視覚圧縮、フェイススワッピング、音声クローズニング、それらの組み合わせなど、さまざまなシナリオでテストされている。

関連論文リスト

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
Disentangling Textual and Acoustic Features of Neural Speech Representations [23.486891834252535]
我々は,複雑な音声表現のためのアンタングル化フレームワークを提案するために,インフォメーション・ボトルネックの原理に基づいて構築する。我々は、感情認識と話者識別のための枠組みを下流のタスクに適用する。
論文参考訳（メタデータ） (2024-10-03T22:48:04Z)
Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文参考訳（メタデータ） (2024-06-13T04:33:20Z)
An Empirical Study of Speech Language Models for Prompt-Conditioned Speech Synthesis [45.558316325252335]
音声言語モデル(LM)は、文脈内学習を通じて高品質な音声合成を実現することを約束している。合成音声がどのようにプロンプトとコンテンツによって制御されるかを検討する。
論文参考訳（メタデータ） (2024-03-19T03:22:28Z)
On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.068637971987224]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文参考訳（メタデータ） (2024-02-19T16:22:21Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
Generative Semantic Communication: Diffusion Models Beyond Bit Recovery [19.088596386865106]
セマンティックコミュニケーションのための新しい生成拡散誘導フレームワークを提案する。我々は,高度に圧縮された意味情報のみを送信することで帯域幅を削減した。以上の結果から,非常にノイズの多い条件下でも,物体,位置,深さが認識可能であることが明らかとなった。
論文参考訳（メタデータ） (2023-06-07T10:36:36Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
A unified one-shot prosody and speaker conversion system with self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文参考訳（メタデータ） (2022-11-12T00:54:09Z)
Combining Automatic Speaker Verification and Prosody Analysis for Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文参考訳（メタデータ） (2022-10-31T11:03:03Z)
Latent Topology Induction for Understanding Contextualized Representations [84.7918739062235]
本研究では,文脈的埋め込みの表現空間について検討し,大規模言語モデルの隠れトポロジについて考察する。文脈化表現の言語特性を要約した潜在状態のネットワークが存在することを示す。
論文参考訳（メタデータ） (2022-06-03T11:22:48Z)
Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文参考訳（メタデータ） (2022-05-21T16:52:57Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Textless Speech Emotion Conversion using Decomposed and Discrete Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文参考訳（メタデータ） (2021-11-14T18:16:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。