論文の概要: Provable Speech Attributes Conversion via Latent Independence
- arxiv url: http://arxiv.org/abs/2510.05191v2
- Date: Thu, 09 Oct 2025 08:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.742208
- Title: Provable Speech Attributes Conversion via Latent Independence
- Title(参考訳): Provable Speech Attributs by Conversion via Latent Independence (特集:情報ネットワーク)
- Authors: Jonathan Svirsky, Ofir Lindenbaum, Uri Shaham,
- Abstract要約: 本稿では,理論的解析と妥当な仮定の下での保証を伴って,音声属性変換のための一般的な枠組みを提案する。
本フレームワークは,予測潜在変数と対象可制御変数との独立性制約を持つ非確率的オートエンコーダアーキテクチャ上に構築する。
この設計は、観測されたスタイル変数に条件付きで一貫した信号変換を保証し、元のコンテンツを保持し、所望の属性を変更する。
- 参考スコア(独自算出の注目度): 22.02196595272211
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While signal conversion and disentangled representation learning have shown promise for manipulating data attributes across domains such as audio, image, and multimodal generation, existing approaches, especially for speech style conversion, are largely empirical and lack rigorous theoretical foundations to guarantee reliable and interpretable control. In this work, we propose a general framework for speech attribute conversion, accompanied by theoretical analysis and guarantees under reasonable assumptions. Our framework builds on a non-probabilistic autoencoder architecture with an independence constraint between the predicted latent variable and the target controllable variable. This design ensures a consistent signal transformation, conditioned on an observed style variable, while preserving the original content and modifying the desired attribute. We further demonstrate the versatility of our method by evaluating it on speech styles, including speaker identity and emotion. Quantitative evaluations confirm the effectiveness and generality of the proposed approach.
- Abstract(参考訳): 信号変換と不整合表現学習は、音声、画像、マルチモーダル生成などの領域でデータ属性を操作することを約束しているが、既存のアプローチ、特に音声スタイル変換は、主に経験的であり、信頼性と解釈可能な制御を保証するための厳密な理論的基盤が欠如している。
本研究では,理論的解析と妥当な仮定の下での保証を伴って,音声属性変換のための一般的な枠組みを提案する。
本フレームワークは,予測潜在変数と対象可制御変数との独立性制約を持つ非確率的オートエンコーダアーキテクチャ上に構築する。
この設計は、観測されたスタイル変数に条件付きで一貫した信号変換を保証し、元のコンテンツを保持し、所望の属性を変更する。
さらに、話者のアイデンティティや感情を含む音声スタイルで評価することで、提案手法の汎用性を実証する。
定量的評価により,提案手法の有効性と汎用性が確認された。
関連論文リスト
- Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - AGENT-X: Adaptive Guideline-based Expert Network for Threshold-free AI-generated teXt detection [44.66668435489055]
Agent-Xは、AI生成テキスト検出のためのゼロショットマルチエージェントフレームワークである。
我々は,検出ガイドラインを意味的,スタイリスティック,構造的次元に整理し,それぞれが専門的な言語エージェントによって独立に評価される。
メタエージェントは、信頼を意識したアグリゲーションを通じてこれらのアセスメントを統合し、しきい値のない解釈可能な分類を可能にする。
多様なデータセットの実験により、Agent-Xは精度、解釈可能性、一般化において最先端の教師付きおよびゼロショットアプローチを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-21T08:39:18Z) - Independence Constrained Disentangled Representation Learning from Epistemological Perspective [13.51102815877287]
Disentangled Representation Learningは、データ生成プロセスにおいて意味論的に意味のある潜伏変数を識別するデータエンコーダをトレーニングすることで、ディープラーニングメソッドの説明可能性を向上させることを目的としている。
不整合表現学習の目的については合意が得られない。
本稿では,相互情報制約と独立性制約を統合した非絡み合い表現学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:00:59Z) - STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Disentangling Generative Factors in Natural Language with Discrete
Variational Autoencoders [0.0]
連続変数は、テキスト中のほとんどの生成因子が離散的であるという事実から、テキストデータの特徴をモデル化するのに理想的ではないかもしれない。
本稿では,言語特徴を離散変数としてモデル化し,不整合表現を学習するための変数間の独立性を促進する変分自動符号化手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T09:10:05Z) - Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations [51.9516685516144]
補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。
部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T14:53:09Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Unsupervised Representation Disentanglement using Cross Domain Features
and Adversarial Learning in Variational Autoencoder based Voice Conversion [28.085498706505774]
音声変換(VC)の効果的なアプローチは、音声信号の他のコンポーネントから言語内容を切り離すことである。
本稿では,逆学習の概念を取り入れ,CDVAE-VCフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-01-22T02:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。