論文の概要: BREATH: A Bio-Radar Embodied Agent for Tonal and Human-Aware Diffusion Music Generation
- arxiv url: http://arxiv.org/abs/2510.15895v1
- Date: Tue, 09 Sep 2025 12:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.083027
- Title: BREATH: A Bio-Radar Embodied Agent for Tonal and Human-Aware Diffusion Music Generation
- Title(参考訳): BREATH:Tonal and Human-Aware Diffusion Music Generationのためのバイオレーダー・エボダイドエージェント
- Authors: Yunzhe Wang, Xinyu Tang, Zhixun Huang, Xiaolong Yue, Yuxin Zeng,
- Abstract要約: 生理的センシング, LLMに基づく推論, 制御可能な音声合成を統合した, パーソナライズされた音楽生成のためのマルチモーダルシステムを提案する。
ミリ波レーダセンサは、非侵襲的に心拍数と呼吸速度をキャプチャする。
これらの生理的信号は、テンポ、ムード強度、伝統的な中国の五音音モードといった象徴的な音楽記述子を推論する推論エージェントによって解釈される。
- 参考スコア(独自算出の注目度): 3.2646887494398205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a multimodal system for personalized music generation that integrates physiological sensing, LLM-based reasoning, and controllable audio synthesis. A millimeter-wave radar sensor non-invasively captures heart rate and respiration rate. These physiological signals, combined with environmental state, are interpreted by a reasoning agent to infer symbolic musical descriptors, such as tempo, mood intensity, and traditional Chinese pentatonic modes, which are then expressed as structured prompts to guide a diffusion-based audio model in synthesizing expressive melodies. The system emphasizes cultural grounding through tonal embeddings and enables adaptive, embodied music interaction. To evaluate the system, we adopt a research-creation methodology combining case studies, expert feedback, and targeted control experiments. Results show that physiological variations can modulate musical features in meaningful ways, and tonal conditioning enhances alignment with intended modal characteristics. Expert users reported that the system affords intuitive, culturally resonant musical responses and highlighted its potential for therapeutic and interactive applications. This work demonstrates a novel bio-musical feedback loop linking radar-based sensing, prompt reasoning, and generative audio modeling.
- Abstract(参考訳): 生理的センシング, LLMに基づく推論, 制御可能な音声合成を統合した, パーソナライズされた音楽生成のためのマルチモーダルシステムを提案する。
ミリ波レーダセンサは、非侵襲的に心拍数と呼吸速度をキャプチャする。
これらの生理学的信号は、環境状態と組み合わせて、テンポ、ムードインテンシティ、伝統的な中国のペンタトニックモードなどの象徴的な音楽記述子を推論する推論剤によって解釈され、その後、構造化プロンプトとして表現され、表現的な旋律を合成する際に拡散に基づくオーディオモデルを導く。
このシステムは、音素埋め込みによる文化的接地を強調し、適応的で具体化された音楽の相互作用を可能にする。
本システムの評価には,ケーススタディ,専門家のフィードバック,目標とする制御実験を組み合わせた研究開発手法を採用する。
その結果, 生理的変動は音楽的特徴を意味のある方法で調節し, 音調条件付けは意図したモーダル特性との整合性を高めることが示唆された。
専門家のユーザーは、このシステムには直感的で文化的に共鳴する音楽応答があり、治療とインタラクティブな応用の可能性を強調していると報告した。
この研究は、レーダに基づくセンシング、プロンプト推論、生成音声モデリングをリンクする新しい生体音楽フィードバックループを示す。
関連論文リスト
- The Ghost in the Keys: A Disklavier Demo for Human-AI Musical Co-Creativity [59.78509280246215]
Aria-Duetは、人間のピアニストと最先端のジェネレーティブモデルであるAriaのリアルタイム音楽デュエットを容易にするインタラクティブシステムである。
音楽学的な観点からシステムのアウトプットを分析し,そのモデルがスタイリスティックなセマンティクスを維持でき,コヒーレントなフレーズのアイデアを発達させることができることを発見した。
論文 参考訳(メタデータ) (2025-11-03T15:26:01Z) - Toward a Realistic Encoding Model of Auditory Affective Understanding in the Brain [5.168772989709122]
感情神経科学と感情認識AIでは、複雑な聴覚刺激が感情の覚醒力学をいかに駆動するかを理解することは未解決のままである。
本研究では,脳の自然な聴覚入力を動的行動・神経応答にモデル化するための計算枠組みを提案する。
感情コンピューティングと神経科学を統合することで、この研究は聴覚-感情エンコーディングの階層的なメカニズムを明らかにする。
論文 参考訳(メタデータ) (2025-09-23T14:52:11Z) - Exploring How Audio Effects Alter Emotion with Foundation Models [8.932607465669195]
音声効果(FX)は、音楽聴取中に感情的な反応を形作る上で重要な役割を担っている。
本研究は、基礎モデルを用いてこれらの効果を分析する方法について検討する。
本研究の目的は,音楽の認知,演奏,情緒的コンピューティングに影響を及ぼす音楽制作実践の知覚的影響の理解を深めることである。
論文 参考訳(メタデータ) (2025-09-18T16:57:08Z) - SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [54.390403684665834]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換を確率的かつ生物学的に解釈可能な方法でシミュレートする生成フレームワークであるSynBrainを提案する。
実験結果から,SynBrainは被写体特異的視覚-fMRI符号化性能において最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - R&B -- Rhythm and Brain: Cross-subject Decoding of Music from Human Brain Activity [0.12289361708127873]
音楽は、文化全体にわたる人間の経験に大きな影響を及ぼす普遍的な現象である。
本研究では,音楽の知覚における機能的MRI(FMRI)を用いた人間の脳活動から,音楽の復号化が可能であるかを検討した。
論文 参考訳(メタデータ) (2024-06-21T17:11:45Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Enhancing Affective Representations of Music-Induced EEG through
Multimodal Supervision and latent Domain Adaptation [34.726185927120355]
脳波の重み付けとして音楽信号を用い,その意味的対応を共通の表現空間に投影することを目的としている。
我々は、LSTMに基づくアテンションモデルと、音楽タギングのための事前訓練されたモデルを組み合わせたバイモーダル・フレームワークと、その2つのモードの分布を整列するリバース・ドメイン・ディミネータを併用して、バイモーダル・フレームワークを利用する。
脳波入力クエリに関連音楽サンプルを提供することにより、モダリティのいずれからも、間接的に、教師付き予測を行うことで、感情認識に利用することができる。
論文 参考訳(メタデータ) (2022-02-20T07:32:12Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。