論文の概要: From Generation to Attribution: Music AI Agent Architectures for the Post-Streaming Era
- arxiv url: http://arxiv.org/abs/2510.20276v1
- Date: Thu, 23 Oct 2025 07:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.46383
- Title: From Generation to Attribution: Music AI Agent Architectures for the Post-Streaming Era
- Title(参考訳): 世代から属性へ:ポストストリーミング時代の音楽AIエージェントアーキテクチャ
- Authors: Wonil Kim, Hyeongseok Wi, Seungsoon Park, Taejun Kim, Sangeun Keum, Keunhyoung Kim, Taewan Kim, Jongmin Jung, Taehyoung Kim, Gaetan Guerrero, Mael Le Goff, Julie Po, Dongjoo Moon, Juhan Nam, Jongpil Lee,
- Abstract要約: 生成的AIは音楽の創造を形作っているが、その成長は帰属、権利管理、経済モデルにおける構造的ギャップを露呈している。
本稿では,創作ワークフローに直接属性を埋め込むコンテンツベースの音楽AIエージェントアーキテクチャを提案する。
このフレームワークは、AIを生成ツールからフェアAIメディアプラットフォームのためのインフラストラクチャに再構成する。
- 参考スコア(独自算出の注目度): 17.718365586353325
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative AI is reshaping music creation, but its rapid growth exposes structural gaps in attribution, rights management, and economic models. Unlike past media shifts, from live performance to recordings, downloads, and streaming, AI transforms the entire lifecycle of music, collapsing boundaries between creation, distribution, and monetization. However, existing streaming systems, with opaque and concentrated royalty flows, are ill-equipped to handle the scale and complexity of AI-driven production. We propose a content-based Music AI Agent architecture that embeds attribution directly into the creative workflow through block-level retrieval and agentic orchestration. Designed for iterative, session-based interaction, the system organizes music into granular components (Blocks) stored in BlockDB; each use triggers an Attribution Layer event for transparent provenance and real-time settlement. This framework reframes AI from a generative tool into infrastructure for a Fair AI Media Platform. By enabling fine-grained attribution, equitable compensation, and participatory engagement, it points toward a post-streaming paradigm where music functions not as a static catalog but as a collaborative and adaptive ecosystem.
- Abstract(参考訳): 生成的AIは音楽の創造を形作っているが、その急速な成長は、帰属、権利管理、経済モデルにおける構造的ギャップを露呈している。
ライブパフォーマンスからレコード、ダウンロード、ストリーミングに至るまで、過去のメディアシフトとは異なり、AIは音楽のライフサイクル全体を変換し、生成、配布、収益化の境界を崩壊させる。
しかし、不透明で集中的なロイヤリティフローを持つ既存のストリーミングシステムは、AI駆動生産の規模と複雑さを扱うには不十分である。
本稿では、ブロックレベルの検索とエージェントオーケストレーションを通じて、帰属を直接創造的なワークフローに組み込むコンテンツベースの音楽AIエージェントアーキテクチャを提案する。
繰り返しセッションベースのインタラクション用に設計され、BlockDBに格納された粒度の細かいコンポーネント(Block)に楽曲を整理する。
このフレームワークは、AIを生成ツールからフェアAIメディアプラットフォームのためのインフラストラクチャに再構成する。
微粒な属性、公平な補償、参加参加を可能にすることで、静的カタログではなく、協調的で適応的なエコシステムとして機能するポストストリーミングパラダイムを指している。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - Musical Agent Systems: MACAT and MACataRT [6.349140286855134]
我々は,人間ミュージシャンとAIの対話的音楽制作を促進するために,MACATとMACataRTという2つの異なる音楽エージェントシステムを紹介した。
MaCATはエージェント主導のパフォーマンスに最適化されており、リアルタイム合成と自己リスニングを利用して出力を自律的に形作る。
MacataRTは、音声モザイクとシーケンスベースの学習を通じて協調的な即興性を実現するフレキシブルな環境を提供する。
論文 参考訳(メタデータ) (2025-01-19T22:04:09Z) - Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。
本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。
提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation [18.979064278674276]
JEN-1 Composerは、マルチトラック音楽上での限界分布、条件分布、共同分布を効率的にモデル化するように設計されている。
本研究では、段階的なカリキュラム学習戦略を導入し、段階的に訓練作業の難しさを増大させる。
提案手法は,制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。