論文の概要: RiTTA: Modeling Event Relations in Text-to-Audio Generation
- arxiv url: http://arxiv.org/abs/2412.15922v2
- Date: Thu, 02 Jan 2025 14:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 15:05:44.266445
- Title: RiTTA: Modeling Event Relations in Text-to-Audio Generation
- Title(参考訳): RiTTA: テキスト・ツー・オーディオ生成におけるイベント関係のモデル化
- Authors: Yuhang He, Yash Jain, Xubo Liu, Andrew Markham, Vibhav Vineet,
- Abstract要約: テキスト・ツー・オーディオ生成モデルにおける音声イベント関係モデリングを体系的に研究する。
本稿では,既存のTTAモデルの音声イベント関係をモデル化する機能を強化するための微調整フレームワークを提案する。
- 参考スコア(独自算出の注目度): 41.35519983057366
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite significant advancements in Text-to-Audio (TTA) generation models achieving high-fidelity audio with fine-grained context understanding, they struggle to model the relations between audio events described in the input text. However, previous TTA methods have not systematically explored audio event relation modeling, nor have they proposed frameworks to enhance this capability. In this work, we systematically study audio event relation modeling in TTA generation models. We first establish a benchmark for this task by: 1. proposing a comprehensive relation corpus covering all potential relations in real-world scenarios; 2. introducing a new audio event corpus encompassing commonly heard audios; and 3. proposing new evaluation metrics to assess audio event relation modeling from various perspectives. Furthermore, we propose a finetuning framework to enhance existing TTA models ability to model audio events relation. Code is available at: https://github.com/yuhanghe01/RiTTA
- Abstract(参考訳): テキスト・ツー・オーディオ(TTA)生成モデルでは,文脈理解のきめ細かい高忠実度音声を実現しているが,入力テキストに記述された音声イベントの関係のモデル化に苦慮している。
しかし,従来のTTA手法では,音声イベント関係モデリングの体系的な検討は行われていない。
本研究では,TTA生成モデルにおける音声イベント関係モデリングを体系的に研究する。
私たちはまず、このタスクのベンチマークを作成します。
1. 現実シナリオにおけるすべての潜在的な関係を包括する包括的関係コーパスの提案。
2 一般に聴取される音声を含む新しい音声イベントコーパスの導入、及び
3. 様々な視点から音声イベント関係モデリングを評価するための新しい評価指標を提案する。
さらに,既存のTTAモデルの音声イベント関係をモデル化する機能を強化するための微調整フレームワークを提案する。
コードは、https://github.com/yuhanghe01/RiTTAで入手できる。
関連論文リスト
- Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens [62.56027815951259]
現在のオーディオ言語モデルは、主にテキストファーストであり、事前訓練されたテキストLLMバックボーンを拡張するか、意味のみのオーディオトークンに依存する。
本稿では,大規模音声に次トーケン予測を適用したネイティブオーディオ基礎モデルの系統的研究を行った。
論文 参考訳(メタデータ) (2026-02-18T18:32:46Z) - ALIVE: Animate Your World with Lifelike Audio-Video Generation [50.693986608051716]
ALIVEは、Soraスタイルのオーディオビデオ生成とアニメーションに事前訓練されたテキスト・トゥ・ビデオ(T2V)モデルを適用する世代モデルである。
音声-視覚同期と参照アニメーションをサポートするため,共用音声-ビデオブランチによるMMDiTアーキテクチャの強化を行った。
ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルを上回り、最先端の商用ソリューションにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-02-09T14:06:03Z) - UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training [19.396162898865864]
Text-to-Talk (TtT) は、自動回帰(AR)テキスト生成と非自己回帰(NAR)音声拡散を統合した統合オーディオテキストフレームワークである。
このハイブリッド生成パラダイムをサポートするために,テキストの因果復号を強制するモダリティ対応アテンション機構を設計する。
推論中、TtTは可変長出力を柔軟に処理しながら、ブロックワイド拡散を用いてオーディオを並列に合成する。
論文 参考訳(メタデータ) (2025-09-24T12:44:26Z) - DreamAudio: Customized Text-to-Audio Generation with Diffusion Models [38.963121219471354]
我々はDreamAudio for customd text-to-audio generation (CTTA)を提案する。
本稿では,ユーザが提供する音声生成のための参照概念から,モデルが聴覚情報を識別できるようにするための新しいフレームワークを提案する。
パーソナライズされた音声イベントを含む参照音声サンプルがいくつかあるので,本システムはこれらのイベントを含む新しいオーディオサンプルを生成することができる。
論文 参考訳(メタデータ) (2025-09-07T12:06:21Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。
まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか?
第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか?
第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
提案手法では,事前学習したTTA拡散ネットワークを音声生成エージェントとして利用し,GPT-4でタンデムで動作させる。
VTA(Video-to-audio)タスクでは、既存のほとんどのメソッドは、生成されたオーディオとビデオイベントを同期させるタイムスタンプ検出器のトレーニングを必要とする。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Auffusion: Leveraging the Power of Diffusion and Large Language Models
for Text-to-Audio Generation [13.626626326590086]
本稿では,T2Iモデルフレームワークをテキスト・トゥ・オーディオ(TTA)タスクに適用したテキスト・トゥ・イメージ(T2I)システムであるAuffusionを紹介する。
評価の結果,Auffusionは限られたデータと計算資源を用いて,従来のTTAアプローチを超越していることがわかった。
以上の結果から,Auffusionはテキスト記述と正確に一致した音声を生成する能力に優れていたことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-02T05:42:14Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioLDM: Text-to-Audio Generation with Latent Diffusion Models [35.703877904270726]
テキスト音声合成システムTTA(Text-to-audio)が最近注目されている。
本研究では,音声空間上に構築されたTTAシステムであるAudioLDMを提案する。
単一のGPUでAudioCapsでトレーニングされたAudioLDMは、客観的メトリクスと主観的メトリクスの両方で測定された最先端のTTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-29T17:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。