論文の概要: From Generation to Attribution: Music AI Agent Architectures for the Post-Streaming Era
- arxiv url: http://arxiv.org/abs/2510.20276v2
- Date: Sat, 08 Nov 2025 11:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:56:00.346686
- Title: From Generation to Attribution: Music AI Agent Architectures for the Post-Streaming Era
- Title(参考訳): 世代から属性へ:ポストストリーミング時代の音楽AIエージェントアーキテクチャ
- Authors: Wonil Kim, Hyeongseok Wi, Seungsoon Park, Taejun Kim, Sangeun Keum, Keunhyoung Kim, Taewan Kim, Jongmin Jung, Taehyoung Kim, Gaetan Guerrero, Mael Le Goff, Julie Po, Dongjoo Moon, Juhan Nam, Jongpil Lee,
- Abstract要約: 生成的AIは音楽の創造を形作っているが、その成長は帰属、権利管理、経済モデルにおける構造的ギャップを露呈している。
本稿では,創作ワークフローに直接属性を埋め込むコンテンツベースの音楽AIエージェントアーキテクチャを提案する。
このフレームワークは、AIを生成ツールからフェアAIメディアプラットフォームのためのインフラストラクチャに再構成する。
- 参考スコア(独自算出の注目度): 17.718365586353325
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative AI is reshaping music creation, but its rapid growth exposes structural gaps in attribution, rights management, and economic models. Unlike past media shifts, from live performance to recordings, downloads, and streaming, AI transforms the entire lifecycle of music, collapsing boundaries between creation, distribution, and monetization. However, existing streaming systems, with opaque and concentrated royalty flows, are ill-equipped to handle the scale and complexity of AI-driven production. We propose a content-based Music AI Agent architecture that embeds attribution directly into the creative workflow through block-level retrieval and agentic orchestration. Designed for iterative, session-based interaction, the system organizes music into granular components (Blocks) stored in BlockDB; each use triggers an Attribution Layer event for transparent provenance and real-time settlement. This framework reframes AI from a generative tool into infrastructure for a Fair AI Media Platform. By enabling fine-grained attribution, equitable compensation, and participatory engagement, it points toward a post-streaming paradigm where music functions not as a static catalog but as a collaborative and adaptive ecosystem.
- Abstract(参考訳): 生成的AIは音楽の創造を形作っているが、その急速な成長は、帰属、権利管理、経済モデルにおける構造的ギャップを露呈している。
ライブパフォーマンスからレコード、ダウンロード、ストリーミングに至るまで、過去のメディアシフトとは異なり、AIは音楽のライフサイクル全体を変換し、生成、配布、収益化の境界を崩壊させる。
しかし、不透明で集中的なロイヤリティフローを持つ既存のストリーミングシステムは、AI駆動生産の規模と複雑さを扱うには不十分である。
本稿では、ブロックレベルの検索とエージェントオーケストレーションを通じて、帰属を直接創造的なワークフローに組み込むコンテンツベースの音楽AIエージェントアーキテクチャを提案する。
繰り返しセッションベースのインタラクション用に設計され、BlockDBに格納された粒度の細かいコンポーネント(Block)に楽曲を整理する。
このフレームワークは、AIを生成ツールからフェアAIメディアプラットフォームのためのインフラストラクチャに再構成する。
微粒な属性、公平な補償、参加参加を可能にすることで、静的カタログではなく、協調的で適応的なエコシステムとして機能するポストストリーミングパラダイムを指している。
関連論文リスト
- MOVA: Towards Scalable and Synchronized Video-Audio Generation [91.56945636522345]
高品質で同期した映像コンテンツを生成できるオープンソースモデルMOVA(MOSS Video and Audio)を紹介する。
モデルウェイトとコードをリリースすることによって、研究を進め、クリエーターの活気あるコミュニティを育むことを目指しています。
論文 参考訳(メタデータ) (2026-02-09T15:31:54Z) - Video-based Music Generation [1.5229257192293202]
この論文は、高速で自由で自動的なソリューションであるEMSYNCを提示し、入力ビデオに合わせた音楽を生成する。
私たちのモデルは感情的にもリズム的にもビデオと同期する音楽を生成します。
我々は,Ekman-6とMovieNetの最先端結果を得ることにより,本手法の一般化能力を示す。
論文 参考訳(メタデータ) (2026-02-05T13:42:36Z) - MusicAIR: A Multimodal AI Music Generation Framework Powered by an Algorithm-Driven Core [0.0]
MusicAIRは、新しいアルゴリズム駆動のシンボリックミュージックコアをベースとした、革新的なAI音楽生成フレームワークである。
このフレームワークは歌詞のみから完全なメロディックスコアを生成する。
GenAIMは、歌詞・歌詞・テキスト・音楽生成・画像・音楽生成にMusicAIRを使用するウェブツールである。
論文 参考訳(メタデータ) (2025-11-21T15:43:27Z) - The Ghost in the Keys: A Disklavier Demo for Human-AI Musical Co-Creativity [59.78509280246215]
Aria-Duetは、人間のピアニストと最先端のジェネレーティブモデルであるAriaのリアルタイム音楽デュエットを容易にするインタラクティブシステムである。
音楽学的な観点からシステムのアウトプットを分析し,そのモデルがスタイリスティックなセマンティクスを維持でき,コヒーレントなフレーズのアイデアを発達させることができることを発見した。
論文 参考訳(メタデータ) (2025-11-03T15:26:01Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - Musical Agent Systems: MACAT and MACataRT [6.349140286855134]
我々は,人間ミュージシャンとAIの対話的音楽制作を促進するために,MACATとMACataRTという2つの異なる音楽エージェントシステムを紹介した。
MaCATはエージェント主導のパフォーマンスに最適化されており、リアルタイム合成と自己リスニングを利用して出力を自律的に形作る。
MacataRTは、音声モザイクとシーケンスベースの学習を通じて協調的な即興性を実現するフレキシブルな環境を提供する。
論文 参考訳(メタデータ) (2025-01-19T22:04:09Z) - Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。
本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。
提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation [18.979064278674276]
JEN-1 Composerは、マルチトラック音楽上での限界分布、条件分布、共同分布を効率的にモデル化するように設計されている。
本研究では、段階的なカリキュラム学習戦略を導入し、段階的に訓練作業の難しさを増大させる。
提案手法は,制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。