Fugu-MT 論文翻訳(概要): An Improved Phase Coding Audio Steganography Algorithm

論文の概要: An Improved Phase Coding Audio Steganography Algorithm

arxiv url: http://arxiv.org/abs/2408.13277v2
Date: Tue, 27 Aug 2024 06:58:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 18:11:54.242172
Title: An Improved Phase Coding Audio Steganography Algorithm
Title（参考訳）: 位相符号化オーディオステレオグラフィーアルゴリズムの改良
Authors: Guang Yang,
Abstract要約: AI技術は音声のクローン化をますます利用しやすくし、AI生成オーディオ偽造の不正行為の増加につながっている。本研究では,中間位相成分にデータを埋め込んで動的に音声信号を分割する位相符号化型オーディオステガノグラフィーアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 4.524282351757178
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advances in AI technology have made voice cloning increasingly accessible, leading to a rise in fraud involving AI-generated audio forgeries. This highlights the need to covertly embed information and verify the authenticity and integrity of audio. Digital Audio Watermarking plays a crucial role in this context. This study presents an improved Phase Coding audio steganography algorithm that segments the audio signal dynamically, embedding data into the mid-frequency phase components. This approach enhances resistance to steganalysis, simplifies computation, and ensures secure audio integrity.
Abstract（参考訳）: AI技術の進歩により、音声のクローンはますますアクセスしやすくなり、AI生成オーディオ偽造による不正行為の増加につながった。これは、情報を隠蔽的に埋め込み、オーディオの信頼性と完全性を検証する必要性を強調している。デジタルオーディオ透かしはこの文脈において重要な役割を果たす。本研究では,中間位相成分にデータを埋め込んで動的に音声信号を分割する位相符号化型オーディオステガノグラフィーアルゴリズムを提案する。このアプローチはステガナリシスに対する耐性を高め、計算を単純化し、セキュアなオーディオ完全性を保証する。

関連論文リスト

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis [62.09761127079914]
Latent-Markはセマンティック圧縮に耐えられるように設計された最初のゼロビットオーディオ透かしフレームワークである。私たちの重要な洞察は、エンコード-デコードプロセスに対する堅牢性は、不変の潜在空間に透かしを埋め込む必要があるということです。我々の研究は、ますます複雑で多様な生成歪みをまたいで整合性を維持することができる普遍的な透かしフレームワークに、将来の研究をインスピレーションを与えます。
論文参考訳（メタデータ） (2026-03-05T15:51:09Z)
Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning [39.264735719707154]
現在の取り組みは、ワンタイムエンコーディングを通じて音声コンテンツを文脈化することで、テキストベースの推論を再現している。本稿では,このボトルネックを突破するための音声インターリーブ推論を提案する。本稿では,要求時に音声に動的に再登録できるLALMのEchoについて述べる。
論文参考訳（メタデータ） (2026-02-12T13:06:34Z)
Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文参考訳（メタデータ） (2025-06-10T16:37:39Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Hybrid Audio Detection Using Fine-Tuned Audio Spectrogram Transformers: A Dataset-Driven Evaluation of Mixed AI-Human Speech [3.195044561824979]
我々は、人間、AI生成、クローン化、混合オーディオサンプルを組み込んだ、新しいハイブリッドオーディオデータセットを構築した。本手法は, 混合音響検出において既存のベースラインを著しく上回り, 97%の分類精度を達成している。本研究は,音声認識システムの堅牢性向上におけるハイブリッドデータセットと調整モデルの重要性を強調した。
論文参考訳（メタデータ） (2025-05-21T05:43:41Z)
XAttnMark: Learning Robust Audio Watermarking with Cross-Attention [15.216472445154064]
クロスアテンションロバスト音響透かし(XAttnMark) 本稿では,ジェネレータと検出器間の部分パラメータ共有を利用してギャップを埋めるクロスアテンションロバスト音響透かし(XAttnMark)を提案する。本研究では, 聴覚マスキング効果の微粒化を捉え, 透かしの受容性を向上する心理音響整列型時間周波数マスキング障害を提案する。
論文参考訳（メタデータ） (2025-02-06T17:15:08Z)
Audios Don't Lie: Multi-Frequency Channel Attention Mechanism for Audio Deepfake Detection [0.0]
マルチ周波数チャネルアテンション機構(MFCA)と2次元離散コサイン変換(DCT)に基づくオーディオディープフェイク検出手法を提案する。音声信号をメルスペクトログラムに処理し、MobileNet V2を用いて深い特徴を抽出することにより、音声信号の微細な周波数領域の特徴を効果的に捉えることができる。実験の結果,従来の手法と比較して,精度,精度,リコール,F1スコア,その他の指標において有意な優位性を示した。
論文参考訳（メタデータ） (2024-12-12T17:15:49Z)
Efficient Streaming Voice Steganalysis in Challenging Detection Scenarios [13.049308869863248]
本稿ではDVSF(Dual-View VoIP Steganalysis Framework)を紹介する。このフレームワークは、VoIPストリームセグメント内のネイティブステガノグラフ記述子の一部をランダムに難読化する。次に、VoIPのグローバル機能に基づいて、ステガノグラフィーに関連するきめ細かい局所的特徴をキャプチャする。
論文参考訳（メタデータ） (2024-11-20T02:22:58Z)
Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning [0.0]
生成支援型マルチモーダルクエリは入力音声のテキスト記述を生成し、マルチモーダルクエリを可能にする。我々は,AudioCaps,Clotho,Auto-ACDの実験を行い,現状の成果が得られたことを実証した。
論文参考訳（メタデータ） (2024-10-14T04:57:32Z)
Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。 PMCANet(Progressive Confident Masking Attention Network)を紹介する。注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文参考訳（メタデータ） (2024-06-04T14:21:41Z)
Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文参考訳（メタデータ） (2023-09-06T19:42:52Z)
Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文参考訳（メタデータ） (2023-06-21T20:54:52Z)
Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文参考訳（メタデータ） (2023-05-29T10:41:28Z)
Anomalous Sound Detection using Audio Representation with Machine ID based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-04-07T11:08:31Z)
Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文参考訳（メタデータ） (2023-04-06T07:58:27Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
Automatic Audio Captioning using Attention weighted Event based Embeddings [25.258177951665594]
本稿では,AACのための軽量(学習可能なパラメータが少ない)Bi-LSTM再帰層を有するエンコーダデコーダアーキテクチャを提案する。 AEDを用いた効率的な埋込み抽出器と時間的注意と拡張技術を組み合わせることで,既存の文献を超越できることを示す。
論文参考訳（メタデータ） (2022-01-28T05:54:19Z)
Artificially Synthesising Data for Audio Classification and Segmentation to Improve Speech and Music Detection in Radio Broadcast [0.0]
無線信号に類似したデータを人工的に合成する新しい手順を提案する。この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。
論文参考訳（メタデータ） (2021-02-19T14:47:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。