論文の概要: Expressive Range Characterization of Open Text-to-Audio Models
- arxiv url: http://arxiv.org/abs/2510.27102v1
- Date: Fri, 31 Oct 2025 01:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.952454
- Title: Expressive Range Characterization of Open Text-to-Audio Models
- Title(参考訳): オープンテキスト・ツー・オーディオモデルの表現範囲特性
- Authors: Jonathan Morse, Azadeh Naderi, Swen Gaudl, Mark Cartwright, Amy K. Hoover, Mark J. Nelson,
- Abstract要約: 本稿では,テキスト音声モデルにERAを適応させ,特定のプロンプトに対する出力の表現範囲を把握し,解析を抽出できるようにする。
得られた音声は、鍵音響次元(例えば、ピッチ、ラウドネス、音色)に沿って分析される
- 参考スコア(独自算出の注目度): 9.034200036904663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-audio models are a type of generative model that produces audio output in response to a given textual prompt. Although level generators and the properties of the functional content that they create (e.g., playability) dominate most discourse in procedurally generated content (PCG), games that emotionally resonate with players tend to weave together a range of creative and multimodal content (e.g., music, sounds, visuals, narrative tone), and multimodal models have begun seeing at least experimental use for this purpose. However, it remains unclear what exactly such models generate, and with what degree of variability and fidelity: audio is an extremely broad class of output for a generative system to target. Within the PCG community, expressive range analysis (ERA) has been used as a quantitative way to characterize generators' output space, especially for level generators. This paper adapts ERA to text-to-audio models, making the analysis tractable by looking at the expressive range of outputs for specific, fixed prompts. Experiments are conducted by prompting the models with several standardized prompts derived from the Environmental Sound Classification (ESC-50) dataset. The resulting audio is analyzed along key acoustic dimensions (e.g., pitch, loudness, and timbre). More broadly, this paper offers a framework for ERA-based exploratory evaluation of generative audio models.
- Abstract(参考訳): テキスト・トゥ・オーディオ・モデル(Text-to-audio model)は、与えられたテキストのプロンプトに応じて音声出力を生成する生成モデルの一種である。
レベルジェネレータと、それらが生成する機能的コンテンツの性質(例えば、プレイ容易性)は、プロシージャ的に生成されたコンテンツ(PCG)において、ほとんどの言論を支配しているが、プレイヤーと感情的に共鳴するゲームは、クリエイティブでマルチモーダルなコンテンツ(例えば、音楽、サウンド、ヴィジュアル、物語のトーン)とマルチモーダルなモデルが、この目的のために少なくとも実験的に使用され始めている。
しかし、そのようなモデルが何を正確に生成するか、どの程度のばらつきと忠実さがあるのかははっきりしない: 音声は生成系がターゲットとする非常に幅広い出力のクラスである。
PCGコミュニティ内では、特にレベルジェネレータの出力空間を定量的に特徴づける手段として、表現的範囲解析(ERA)が使われている。
本稿では,テキスト音声モデルにERAを適応させ,特定のプロンプトに対する出力の表現範囲を把握し,解析を抽出できるようにする。
実験は、環境音分類(ESC-50)データセットから得られたいくつかの標準化されたプロンプトを用いて、モデルにプロンプトを施すことによって行われる。
得られた音声は、キー音響次元(例えば、ピッチ、ラウドネス、音色)に沿って分析される。
より広範に、生成音響モデルのERAに基づく探索的評価のためのフレームワークを提供する。
関連論文リスト
- DreamAudio: Customized Text-to-Audio Generation with Diffusion Models [38.963121219471354]
我々はDreamAudio for customd text-to-audio generation (CTTA)を提案する。
本稿では,ユーザが提供する音声生成のための参照概念から,モデルが聴覚情報を識別できるようにするための新しいフレームワークを提案する。
パーソナライズされた音声イベントを含む参照音声サンプルがいくつかあるので,本システムはこれらのイベントを含む新しいオーディオサンプルを生成することができる。
論文 参考訳(メタデータ) (2025-09-07T12:06:21Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - AudioGenX: Explainability on Text-to-Audio Generative Models [2.9873893715462185]
我々は、入力トークンの重要性を強調することで、テキストからオーディオ生成モデルの説明を提供する、説明可能なAI(XAI)であるAudioGenXを紹介する。
本手法は,テキスト入力と音声出力の関係を詳細に,包括的に理解する。
論文 参考訳(メタデータ) (2025-02-01T15:37:42Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Unconditional Audio Generation with Generative Adversarial Networks and
Cycle Regularization [48.55126268721948]
本稿では,歌声のメル-スペクトログラムの無条件生成のためのGANモデルを提案する。
我々は、時間次元のいくつかの構造を誘導するために、ジェネレータに階層的アーキテクチャーを用いる。
歌声生成だけでなく,歌声生成のための新モデルの性能評価を行った。
論文 参考訳(メタデータ) (2020-05-18T08:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。