論文の概要: Mixer Metaphors: audio interfaces for non-musical applications
- arxiv url: http://arxiv.org/abs/2504.13944v1
- Date: Wed, 16 Apr 2025 02:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 08:32:02.855577
- Title: Mixer Metaphors: audio interfaces for non-musical applications
- Title(参考訳): Mixer Metaphors:非音楽用音声インタフェース
- Authors: Tace McNamara, Jon McCormack, Maria Teresa Llano,
- Abstract要約: アナログ合成器から借用したインタフェースメタファと音声の混合を利用して,大規模言語モデルを物理的に制御する新しいデバイスを開発した。
以上の結果から,LLMの直接的,具体的制御はオーディオライクな制御が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 4.369550829556578
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The NIME conference traditionally focuses on interfaces for music and musical expression. In this paper we reverse this tradition to ask, can interfaces developed for music be successfully appropriated to non-musical applications? To help answer this question we designed and developed a new device, which uses interface metaphors borrowed from analogue synthesisers and audio mixing to physically control the intangible aspects of a Large Language Model. We compared two versions of the device, with and without the audio-inspired augmentations, with a group of artists who used each version over a one week period. Our results show that the use of audio-like controls afforded more immediate, direct and embodied control over the LLM, allowing users to creatively experiment and play with the device over its non-mixer counterpart. Our project demonstrates how cross-sensory metaphors can support creative thinking and embodied practice when designing new technological interfaces.
- Abstract(参考訳): NIMEカンファレンスは伝統的に音楽と音楽の表現のインターフェイスに焦点を当てている。
本稿では、この伝統を逆転して、音楽のために開発されたインタフェースは、音楽以外の用途にうまく適合するのか?
この問いに答えるために、我々はアナログ合成器から借用されたインタフェースメタファーと音声混合を用いて、大規模言語モデルの無形側面を物理的に制御する新しいデバイスを設計・開発した。
オーディオにインスパイアされた拡張版を使わずに2つのバージョンを比較し、各バージョンを1週間以上使用したアーティストのグループを比較した。
以上の結果から、オーディオライクなコントロールを使用することで、LCMの直接的かつ具体的制御がより容易になり、ユーザーはこのデバイスを非ミキサーよりも創造的に実験し、操作することができることがわかった。
本プロジェクトは,新しい技術インターフェースを設計する際の,創造的思考と実践の具体化を支援する上で,クロスセンスなメタファがいかに役立つかを実証する。
関連論文リスト
- Apollo: An Interactive Environment for Generating Symbolic Musical Phrases using Corpus-based Style Imitation [5.649205001069577]
本研究では,従来の西洋音楽の記号句を生成する対話型音楽アプリケーションApolloを紹介する。
このシステムにより、音楽アーティストや研究者は、提案したコーパスのスタイルで新しい音楽フレーズを作成できる。
MIDIフォーマットでエンコードされた生成されたシンボリック・ミュージック・マテリアルは、様々な目的でエクスポートまたはストリーミングすることができる。
論文 参考訳(メタデータ) (2025-04-18T19:53:51Z) - MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - FM Tone Transfer with Envelope Learning [8.771755521263811]
トーントランスファー(トーントランスファー)は、音源をシンセサイザーで対向させ、音楽の形式を保ちながら音の音色を変換する新しい技法である。
音の多様性の低さや、過渡的および動的レンダリングの制限に関連するいくつかの欠点があり、リアルタイムなパフォーマンスの文脈における調音やフレーズ化の可能性を妨げていると我々は信じている。
論文 参考訳(メタデータ) (2023-10-07T14:03:25Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - IteraTTA: An interface for exploring both text prompts and audio priors
in generating music with text-to-audio models [40.798454815430034]
IteraTTAは、ユーザーがテキストプロンプトを書き換えたり、生成されたオーディオから好ましいオーディオを選択できるように設計されている。
本実装と議論は,テキスト・トゥ・オーディオ・モデルに特に必要とされる設計上の考察を強調した。
論文 参考訳(メタデータ) (2023-07-24T11:00:01Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Expressive Communication: A Common Framework for Evaluating Developments
in Generative Models and Steering Interfaces [1.2891210250935146]
本研究では,モデルとユーザインタフェースの両面における開発が,共同創造の促進にいかに重要であるかを検討する。
作曲者26人が100曲以上を作曲し、聴取者が1000曲以上を頭と頭で比較した結果、より表現力のあるモデルとよりステアブルなインターフェースが重要であることが判明した。
論文 参考訳(メタデータ) (2021-11-29T20:57:55Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。