論文の概要: A Real-Time Gesture-Based Control Framework
- arxiv url: http://arxiv.org/abs/2504.19460v1
- Date: Mon, 28 Apr 2025 03:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.308323
- Title: A Real-Time Gesture-Based Control Framework
- Title(参考訳): リアルタイムジェスチャーベース制御フレームワーク
- Authors: Mahya Khazaei, Ali Bahrani, George Tzanetakis,
- Abstract要約: そこで我々は,リアルタイム・ヒューマン・イン・ザ・ループ・ジェスチャ・コントロール・フレームワークを提案する。
人間の動きに基づいて、オーディオと音楽を動的に適応させることができる。
システムはライブパフォーマンス、インタラクティブなインストール、個人利用のために設計されている。
- 参考スコア(独自算出の注目度): 2.432598153985671
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a real-time, human-in-the-loop gesture control framework that can dynamically adapt audio and music based on human movement by analyzing live video input. By creating a responsive connection between visual and auditory stimuli, this system enables dancers and performers to not only respond to music but also influence it through their movements. Designed for live performances, interactive installations, and personal use, it offers an immersive experience where users can shape the music in real time. The framework integrates computer vision and machine learning techniques to track and interpret motion, allowing users to manipulate audio elements such as tempo, pitch, effects, and playback sequence. With ongoing training, it achieves user-independent functionality, requiring as few as 50 to 80 samples to label simple gestures. This framework combines gesture training, cue mapping, and audio manipulation to create a dynamic, interactive experience. Gestures are interpreted as input signals, mapped to sound control commands, and used to naturally adjust music elements, showcasing the seamless interplay between human interaction and machine response.
- Abstract(参考訳): 本研究では,ライブビデオの入力を解析することにより,人間の動きに基づく音声や音楽の動的適応を可能にするリアルタイム・ヒューマン・イン・ザ・ループ・ジェスチャ・コントロール・フレームワークを提案する。
このシステムは、視覚刺激と聴覚刺激の反応的な接続を作ることにより、ダンサーやパフォーマーが音楽に反応するだけでなく、その動きに影響を及ぼすことを可能にする。
ライブパフォーマンス、インタラクティブなインスタレーション、個人利用用にデザインされ、ユーザが音楽をリアルタイムで形作る没入的な体験を提供する。
このフレームワークはコンピュータビジョンと機械学習技術を統合して動きを追跡し解釈し、ユーザーはテンポ、ピッチ、エフェクト、再生シーケンスなどのオーディオ要素を操作できる。
進行中のトレーニングでは、単純なジェスチャーをラベル付けするために50から80のサンプルを必要とする、ユーザに依存しない機能を実現している。
このフレームワークは、ジェスチャートレーニング、キューマッピング、オーディオ操作を組み合わせて、動的でインタラクティブな体験を作り出す。
ジェスチャーは入力信号として解釈され、サウンドコントロールコマンドにマッピングされ、音楽要素を自然に調整するために使用され、人間のインタラクションと機械反応のシームレスな相互作用を示す。
関連論文リスト
- X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - Creativity and Visual Communication from Machine to Musician: Sharing a Score through a Robotic Camera [4.9485163144728235]
本稿では,「誘導ハーモニー」音楽ゲーム内にロボットカメラを実装することで,視覚コミュニケーションと音楽インタラクションの統合について検討する。
ロボットシステムは、ミュージシャンの非言語的手がかりを解釈し、応答し、協調的で適応的な音楽体験を作り出す。
論文 参考訳(メタデータ) (2024-09-09T16:34:36Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation [9.741109135330262]
話者とリスナーの動的変換の相関をモデル化することにより,非言語対応型リスナーヘッドを合成することを目的とする。
ユーザフレンドリーなフレームワークであるCustomListenerを提案する。
論文 参考訳(メタデータ) (2024-03-01T04:31:56Z) - Synthesizing Physical Character-Scene Interactions [64.26035523518846]
仮想キャラクタとその周辺環境間のこのような相互作用を合成する必要がある。
本稿では,逆模倣学習と強化学習を用いて物理シミュレーション文字を学習するシステムを提案する。
我々のアプローチは、物理学に基づくキャラクターモーション生成を広い適用性に一歩近づいた。
論文 参考訳(メタデータ) (2023-02-02T05:21:32Z) - Flat latent manifolds for music improvisation between human and machine [9.571383193449648]
相互即興化が新たな体験につながるような環境では,音楽生成アルゴリズムを人間の音楽家に対抗するものとみなす。
学習モデルでは、潜在空間の定量化により新しい音楽系列を生成する。
そこで我々は,音楽実験を通じて提案手法の実証的証拠を提供し,プロのドラマーと対話的なジャムセッションのためのモデルを展開した。
論文 参考訳(メタデータ) (2022-02-23T09:00:17Z) - A Human-Computer Duet System for Music Performance [7.777761975348974]
我々は、人間のピアニストとコラボレーションして室内楽を自動的に演奏できる仮想ヴァイオリニストを、介入なしに作成する。
このシステムは、リアルタイム音楽追跡、ポーズ推定、体の動き生成など、様々な分野のテクニックを取り入れている。
提案システムは公開コンサートで検証されている。
論文 参考訳(メタデータ) (2020-09-16T17:19:23Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。