論文の概要: AudioGenX: Explainability on Text-to-Audio Generative Models
- arxiv url: http://arxiv.org/abs/2502.00459v2
- Date: Tue, 04 Feb 2025 04:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:26.536056
- Title: AudioGenX: Explainability on Text-to-Audio Generative Models
- Title(参考訳): AudioGenX: テキストからオーディオへの生成モデルの説明可能性
- Authors: Hyunju Kang, Geonhee Han, Yoonjae Jeong, Hogun Park,
- Abstract要約: 我々は、入力トークンの重要性を強調することで、テキストからオーディオ生成モデルの説明を提供する、説明可能なAI(XAI)であるAudioGenXを紹介する。
本手法は,テキスト入力と音声出力の関係を詳細に,包括的に理解する。
- 参考スコア(独自算出の注目度): 2.9873893715462185
- License:
- Abstract: Text-to-audio generation models (TAG) have achieved significant advances in generating audio conditioned on text descriptions. However, a critical challenge lies in the lack of transparency regarding how each textual input impacts the generated audio. To address this issue, we introduce AudioGenX, an Explainable AI (XAI) method that provides explanations for text-to-audio generation models by highlighting the importance of input tokens. AudioGenX optimizes an Explainer by leveraging factual and counterfactual objective functions to provide faithful explanations at the audio token level. This method offers a detailed and comprehensive understanding of the relationship between text inputs and audio outputs, enhancing both the explainability and trustworthiness of TAG models. Extensive experiments demonstrate the effectiveness of AudioGenX in producing faithful explanations, benchmarked against existing methods using novel evaluation metrics specifically designed for audio generation tasks.
- Abstract(参考訳): テキスト・ツー・オーディオ生成モデル(TAG)は、テキスト記述に基づく音声条件の生成において大きな進歩を遂げている。
しかし、重要な課題は、各テキスト入力が生成されたオーディオにどのように影響するかに関する透明性の欠如である。
この問題に対処するために、入力トークンの重要性を強調することで、テキストから音声生成モデルの説明を提供する、説明可能なAI(XAI)手法であるAudioGenXを紹介する。
AudioGenXは、現実的および反現実的目的関数を活用してExplainerを最適化し、オーディオトークンレベルで忠実な説明を提供する。
本手法は,テキスト入力と音声出力の関係を詳細に網羅的に理解し,TAGモデルの説明可能性と信頼性を両立させる。
音声生成タスクに特化して設計された新しい評価指標を用いて既存の手法と比較し, 忠実な説明を生み出す上でのAudioGenXの有効性を実証した。
関連論文リスト
- Synthetic Audio Helps for Cognitive State Tasks [5.372301053935417]
テキスト音声合成モデルでは,自然な音声を生成するために,認知状態の側面の追跡を学習する。
我々は、認知状態モデリングに関連する7つのタスクがマルチモーダルトレーニングの恩恵を受けることを示すフレームワークであるSynthetic Audio Data Fine-tuning(SAD)を提案する。
論文 参考訳(メタデータ) (2025-02-10T17:16:24Z) - ADIFF: Explaining audio difference using natural language [31.963783032080993]
本稿では,音声の違いを説明するタスクを包括的に研究し,そのタスクのベースラインであるベンチマークを提案する。
本稿では,AudioCaps と Clotho の音声キャプションデータセットから得られた音声差分説明のための2つの新しいデータセットを提案する。
提案するADIFFは, クロスプロジェクションモジュール, 位置キャプション, 3段階のトレーニングプロセスを導入し, 詳細な説明を行う能力を向上させる。
論文 参考訳(メタデータ) (2025-02-06T20:00:43Z) - Improving Text-To-Audio Models with Synthetic Captions [51.19111942748637]
本研究では,テクスタイディオ言語モデルを用いて,高精度で多様な音声キャプションを大規模に合成する音声キャプションパイプラインを提案する。
このパイプラインを利用してAudioSetと命名されたAudioSetの合成キャプションのデータセットを作成し、これらの合成キャプション上でのテキスト音声モデルの事前学習の利点を評価する。
論文 参考訳(メタデータ) (2024-06-18T00:02:15Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Voice Attribute Editing with Text Prompt [48.48628304530097]
本稿では,テキストプロンプトを用いた音声属性編集という新しい課題を紹介する。
目標は、テキストプロンプトに記述された動作に応じて、音声属性を相対的に修正することである。
この課題を解決するために,エンドツーエンド生成モデルであるVoxEditorを提案する。
論文 参考訳(メタデータ) (2024-04-13T00:07:40Z) - On The Open Prompt Challenge In Conditional Audio Generation [25.178010153697976]
テキスト・トゥ・オーディオ・ジェネレーション(TTA)は、テキスト記述から音声を生成し、ペアのオーディオサンプルと手書きのテキストから学習する。
我々は、TTAモデルをブラックボックスとして扱い、2つの重要な洞察でユーザのプロンプト課題に対処する。
音声改善のために,テキスト・オーディオアライメントをマージンランキング学習によるフィードバック信号として活用することを提案する。
論文 参考訳(メタデータ) (2023-11-01T23:33:25Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Enhance audio generation controllability through representation
similarity regularization [23.320569279485472]
本稿では,モデル学習における音声表現とテキスト表現のアライメントを強調することによって,音声生成の制御を強化する革新的なアプローチを提案する。
提案手法は、音声と音楽の両方の客観的な指標の改善と、音声生成における人間の知覚の向上につながる。
論文 参考訳(メタデータ) (2023-09-15T21:32:20Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。