論文の概要: ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing
- arxiv url: http://arxiv.org/abs/2506.21448v2
- Date: Sat, 28 Jun 2025 04:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 13:01:42.738574
- Title: ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing
- Title(参考訳): ThinkSound: 音声生成と編集のためのマルチモーダル大言語モデルの連鎖推論
- Authors: Huadai Liu, Jialei Wang, Kaicheng Luo, Wen Wang, Qian Chen, Zhou Zhao, Wei Xue,
- Abstract要約: ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 52.33281620699459
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While end-to-end video-to-audio generation has greatly improved, producing high-fidelity audio that authentically captures the nuances of visual content remains challenging. Like professionals in the creative industries, such generation requires sophisticated reasoning about items such as visual dynamics, acoustic environments, and temporal relationships. We present ThinkSound, a novel framework that leverages Chain-of-Thought (CoT) reasoning to enable stepwise, interactive audio generation and editing for videos. Our approach decomposes the process into three complementary stages: foundational foley generation that creates semantically coherent soundscapes, interactive object-centric refinement through precise user interactions, and targeted editing guided by natural language instructions. At each stage, a multimodal large language model generates contextually aligned CoT reasoning that guides a unified audio foundation model. Furthermore, we introduce AudioCoT, a comprehensive dataset with structured reasoning annotations that establishes connections between visual content, textual descriptions, and sound synthesis. Experiments demonstrate that ThinkSound achieves state-of-the-art performance in video-to-audio generation across both audio metrics and CoT metrics and excels in out-of-distribution Movie Gen Audio benchmark. The demo page is available at https://ThinkSound-Project.github.io.
- Abstract(参考訳): エンド・ツー・エンドのビデオ・トゥ・オーディオ生成は大幅に改善されているが、視覚的コンテンツのニュアンスを忠実に捉えた高忠実なオーディオを生成することは依然として困難である。
クリエイティブ産業のプロフェッショナルのように、このような世代は視覚力学、音響環境、時間的関係といった項目に関する洗練された推論を必要とする。
我々は、Chain-of-Thought(CoT)推論を活用する新しいフレームワークThinkSoundを紹介し、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする。
提案手法は, セマンティック・コヒーレントなサウンドスケープを生成する基礎的なフォリー生成, 正確なユーザインタラクションによるインタラクティブなオブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集の3段階に分解する。
各段階において、マルチモーダルな大言語モデルは、統合されたオーディオ基盤モデルを導くコンテキスト整合なCoT推論を生成する。
さらに,視覚コンテンツ,テキスト記述,音声合成の接続を確立する構造的推論アノテーションを備えた包括的データセットであるAudioCoTを紹介する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方でビデオからオーディオ生成の最先端のパフォーマンスを達成し、配信外のMovie Gen Audioベンチマークで優れていることが示された。
デモページはhttps://ThinkSound-Project.github.ioで公開されている。
関連論文リスト
- Learning to Highlight Audio by Watching Movies [37.9846964966927]
本稿では,映像が案内する適切なハイライト効果を実現するために音声を変換することを目的とした,視覚誘導型音声強調機能を提案する。
私たちのモデルをトレーニングするために、映画に見られる巧妙なオーディオとビデオ制作を活用する、泥だらけのミックスデータセットも導入しました。
定量的評価と主観的評価の両面で,我々のアプローチは一貫していくつかのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-17T22:03:57Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。