Fugu-MT 論文翻訳(概要): Exploring XAI for the Arts: Explaining Latent Space in Generative Music

論文の概要: Exploring XAI for the Arts: Explaining Latent Space in Generative Music

arxiv url: http://arxiv.org/abs/2308.05496v1
Date: Thu, 10 Aug 2023 10:59:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-11 12:50:07.030911
Title: Exploring XAI for the Arts: Explaining Latent Space in Generative Music
Title（参考訳）: xai for the arts: 生成音楽における潜在空間の説明
Authors: Nick Bryan-Kinns, Berker Banar, Corey Ford, Courtney N. Reed, Yixiao Zhang, Simon Colton, Jack Armitage
Abstract要約: 音楽生成のための潜在変数モデルをより説明しやすいものにする方法を示す。潜在空間正則化を用いて、潜在空間の特定の次元を有意義な音楽属性にマッピングする。また、潜時空間における音楽的属性の可視化を行い、潜時空間次元の変化の影響を理解し予測する。
参考スコア（独自算出の注目度）: 5.91328657300926
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Explainable AI has the potential to support more interactive and fluid co-creative AI systems which can creatively collaborate with people. To do this, creative AI models need to be amenable to debugging by offering eXplainable AI (XAI) features which are inspectable, understandable, and modifiable. However, currently there is very little XAI for the arts. In this work, we demonstrate how a latent variable model for music generation can be made more explainable; specifically we extend MeasureVAE which generates measures of music. We increase the explainability of the model by: i) using latent space regularisation to force some specific dimensions of the latent space to map to meaningful musical attributes, ii) providing a user interface feedback loop to allow people to adjust dimensions of the latent space and observe the results of these changes in real-time, iii) providing a visualisation of the musical attributes in the latent space to help people understand and predict the effect of changes to latent space dimensions. We suggest that in doing so we bridge the gap between the latent space and the generated musical outcomes in a meaningful way which makes the model and its outputs more explainable and more debuggable.
Abstract（参考訳）: 説明可能なAIは、よりインタラクティブで流動的な共創造的なAIシステムをサポートする可能性がある。これを実現するには、検査可能、理解可能、変更可能なeXplainable AI(XAI)機能を提供することで、クリエイティブなAIモデルをデバッグ可能にする必要がある。しかし、現在では芸術のXAIはごくわずかである。本研究では,音楽生成のための潜伏変数モデルについて,より説明しやすくする方法を実証する。我々は、モデルの説明可能性を高める。一潜時空間規則化を用いて、潜時空間の特定次元を有意義な音楽属性にマッピングさせる。二潜在空間の寸法を調整し、これらの変化の結果をリアルタイムで観察することができるユーザインタフェースフィードバックループを提供すること。三潜在空間における音楽的属性の可視化を提供することにより、潜在空間寸法の変化が与える影響の理解及び予測を助けること。そこで我々は、潜在空間と生成された音楽結果とのギャップを意味のある方法で橋渡しし、モデルとその出力をより説明しやすくデバッグしやすくすることを提案する。

関連論文リスト

DeformTune: A Deformable XAI Music Prototype for Non-Musicians [8.306938034148516]
本稿では,変形可能なインターフェースと測定値モデルを組み合わせたプロトタイプシステムであるDeformTuneを紹介し,より直感的で具体的で説明可能なAIインタラクションを探索する。形式的音楽訓練を受けない成人11名を対象に,AIを用いた音楽制作経験について予備的検討を行った。テーマ分析の結果,不明瞭な制御マッピング,表現範囲の限定,使用中における指導の必要性など,繰り返し発生する課題が明らかになった。
論文参考訳（メタデータ） (2025-07-31T20:57:59Z)
ReaLJam: Real-Time Human-AI Music Jamming with Reinforcement Learning-Tuned Transformers [53.63950017886757]
ReaLJamは、人間とトランスフォーマーをベースとしたAIエージェントが強化学習でトレーニングしたライブ音楽ジャミングセッションのためのインタフェースとプロトコルである。エージェントが継続的にパフォーマンスを予測し,ユーザに対してその計画を視覚的に伝達する,予測という概念を用いてリアルタイムインタラクションを可能にする。
論文参考訳（メタデータ） (2025-02-28T17:42:58Z)
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。 EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文参考訳（メタデータ） (2025-01-03T17:00:33Z)
AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。 4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文参考訳（メタデータ） (2024-10-09T17:58:56Z)
A Survey of Foundation Models for Music Understanding [60.83532699497597]
この研究は、AI技術と音楽理解の交差に関する初期のレビューの1つである。音楽理解能力に関して,近年の大規模音楽基盤モデルについて検討,分析,検証を行った。
論文参考訳（メタデータ） (2024-09-15T03:34:14Z)
Play Me Something Icy: Practical Challenges, Explainability and the Semantic Gap in Generative AI Music [0.0]
この写真は、説明可能なAIの文脈において、テキスト音声およびテキスト音声生成ツールの性質を批判的に考察することを目的としている。
論文参考訳（メタデータ） (2024-08-13T22:42:05Z)
MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation [18.181382408551574]
本稿では,口語記述から歌声生成への新たな課題を提案する。生成されたコンテンツと口語的人間の表現の整合性に焦点を当てている。この課題は、AIモデル内の言語理解と聴覚表現のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2024-07-03T15:12:36Z)
Exploring Variational Auto-Encoder Architectures, Configurations, and Datasets for Generative Music Explainable AI [7.391173255888337]
音楽と芸術のための生成AIモデルは、ますます複雑で理解しづらい。生成AIモデルをより理解しやすいものにするためのアプローチの1つは、生成AIモデルに少数の意味的に意味のある属性を課すことである。本稿では,変分自動エンコーダモデル(MeasureVAEとAdversarialVAE)の異なる組み合わせが音楽生成性能に与える影響について,系統的な検討を行った。
論文参考訳（メタデータ） (2023-11-14T17:27:30Z)
Beyond Reality: The Pivotal Role of Generative AI in the Metaverse [98.1561456565877]
本稿では、生成型AI技術がMetaverseをどう形成しているかを包括的に調査する。我々は、AI生成文字による会話インタフェースを強化しているChatGPTやGPT-3といったテキスト生成モデルの応用を探求する。また、現実的な仮想オブジェクトを作成する上で、Point-EやLumimithmicのような3Dモデル生成技術の可能性についても検討する。
論文参考訳（メタデータ） (2023-07-28T05:44:20Z)
Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。 VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文参考訳（メタデータ） (2023-05-28T17:53:09Z)
ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文参考訳（メタデータ） (2023-05-01T17:57:01Z)
Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文参考訳（メタデータ） (2023-01-20T07:36:29Z)
Flat latent manifolds for music improvisation between human and machine [9.571383193449648]
相互即興化が新たな体験につながるような環境では,音楽生成アルゴリズムを人間の音楽家に対抗するものとみなす。学習モデルでは、潜在空間の定量化により新しい音楽系列を生成する。そこで我々は,音楽実験を通じて提案手法の実証的証拠を提供し,プロのドラマーと対話的なジャムセッションのためのモデルを展開した。
論文参考訳（メタデータ） (2022-02-23T09:00:17Z)
Learning Style-Aware Symbolic Music Representations by Adversarial Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。第1回音楽Adversarial Autoencoder(MusAE)について紹介する。我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文参考訳（メタデータ） (2020-01-15T18:07:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。