論文の概要: Expressive Communication: A Common Framework for Evaluating Developments
in Generative Models and Steering Interfaces
- arxiv url: http://arxiv.org/abs/2111.14951v1
- Date: Mon, 29 Nov 2021 20:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 07:55:45.881242
- Title: Expressive Communication: A Common Framework for Evaluating Developments
in Generative Models and Steering Interfaces
- Title(参考訳): Expressive Communication: 生成モデルとステアリングインターフェースにおける開発評価のための共通フレームワーク
- Authors: Ryan Louie, Jesse Engel, Anna Huang
- Abstract要約: 本研究では,モデルとユーザインタフェースの両面における開発が,共同創造の促進にいかに重要であるかを検討する。
作曲者26人が100曲以上を作曲し、聴取者が1000曲以上を頭と頭で比較した結果、より表現力のあるモデルとよりステアブルなインターフェースが重要であることが判明した。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is an increasing interest from ML and HCI communities in empowering
creators with better generative models and more intuitive interfaces with which
to control them. In music, ML researchers have focused on training models
capable of generating pieces with increasing long-range structure and musical
coherence, while HCI researchers have separately focused on designing steering
interfaces that support user control and ownership. In this study, we
investigate through a common framework how developments in both models and user
interfaces are important for empowering co-creation where the goal is to create
music that communicates particular imagery or ideas (e.g., as is common for
other purposeful tasks in music creation like establishing mood or creating
accompanying music for another media). Our study is distinguished in that it
measures communication through both composer's self-reported experiences, and
how listeners evaluate this communication through the music. In an evaluation
study with 26 composers creating 100+ pieces of music and listeners providing
1000+ head-to-head comparisons, we find that more expressive models and more
steerable interfaces are important and complementary ways to make a difference
in composers communicating through music and supporting their creative
empowerment.
- Abstract(参考訳): MLとHCIコミュニティは、より優れた生成モデルとそれらを制御するためのより直感的なインターフェースをクリエーターに提供することに、ますます関心を集めている。
音楽の分野では、ml研究者は長距離構造と音楽の一貫性を高める要素を生成できるトレーニングモデルにフォーカスし、hciの研究者はユーザー制御とオーナシップをサポートするステアリングインターフェースの設計に別々に集中している。
本研究では,モデルとユーザインターフェースの両方の開発が,特定のイメージやアイデアを伝達する音楽(例えば,ムードの確立や,他のメディアのための伴奏音楽の作成など,音楽制作における他の目的に共通するタスク)の創造を目標とする共同創造の促進にどのように重要であるか,という共通の枠組みを通して検討する。
本研究は,作曲家の自己報告経験によるコミュニケーションと,リスナーが音楽を通してコミュニケーションを評価する方法とを区別する。
100曲以上の楽曲を作曲した26人の作曲家による評価研究で、より表現力のあるモデルとより操りやすいインターフェースは、音楽を通じてコミュニケーションし、創造的なエンパワーメントをサポートする作曲家に違いをもたらすための、重要かつ補完的な方法であることが判明した。
関連論文リスト
- A Survey of Foundation Models for Music Understanding [60.83532699497597]
この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。
音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
論文 参考訳(メタデータ) (2024-09-15T03:34:14Z) - Creativity and Visual Communication from Machine to Musician: Sharing a Score through a Robotic Camera [4.9485163144728235]
本稿では,「誘導ハーモニー」音楽ゲーム内にロボットカメラを実装することで,視覚コミュニケーションと音楽インタラクションの統合について検討する。
ロボットシステムは、ミュージシャンの非言語的手がかりを解釈し、応答し、協調的で適応的な音楽体験を作り出す。
論文 参考訳(メタデータ) (2024-09-09T16:34:36Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - ComposerX: Multi-Agent Symbolic Music Composition with LLMs [51.68908082829048]
音楽の構成は、長い依存と調和の制約で情報を理解し、生成する能力を必要とする複雑なタスクである。
現在のLLMは、このタスクで簡単に失敗し、In-Context-LearningやChain-of-Thoughtsといったモダンな技術が組み込まれても、不適切な曲を生成する。
エージェントベースのシンボリック音楽生成フレームワークであるComposerXを提案する。
論文 参考訳(メタデータ) (2024-04-28T06:17:42Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Interactive Melody Generation System for Enhancing the Creativity of
Musicians [0.0]
本研究では,人間同士の協調構成の過程を列挙するシステムを提案する。
複数のリカレントニューラルネットワーク(RNN)モデルを統合することにより、このシステムは、複数の作曲家とのコラボレーションに似たエクスペリエンスを提供する。
論文 参考訳(メタデータ) (2024-03-06T01:33:48Z) - ByteComposer: a Human-like Melody Composition Method based on Language
Model Agent [11.792129708566598]
大規模言語モデル(LLM)は、マルチモーダル理解と生成タスクの進歩を奨励している。
我々は,人間の創造的パイプラインを4つのステップでエミュレートするエージェントフレームワークByteComposerを提案する。
我々は、GPT4およびオープンソースの大規模言語モデルに関する広範な実験を行い、フレームワークの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-24T04:35:07Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - Music Harmony Generation, through Deep Learning and Using a
Multi-Objective Evolutionary Algorithm [0.0]
本稿では,ポリフォニック音楽生成のための遺伝的多目的進化最適化アルゴリズムを提案する。
ゴールの1つは音楽の規則と規則であり、他の2つのゴール、例えば音楽の専門家や普通のリスナーのスコアとともに、最も最適な反応を得るために進化のサイクルに適合する。
その結果,提案手法は,聞き手を引き寄せながら文法に従う調和音とともに,所望のスタイルや長さの難易度と快適さを生み出すことができることがわかった。
論文 参考訳(メタデータ) (2021-02-16T05:05:54Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。