論文の概要: Semantics-Aware Human Motion Generation from Audio Instructions
- arxiv url: http://arxiv.org/abs/2505.23465v1
- Date: Thu, 29 May 2025 14:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.893648
- Title: Semantics-Aware Human Motion Generation from Audio Instructions
- Title(参考訳): 音声インストラクションによる人体動作生成のセマンティックス
- Authors: Zi-An Wang, Shihao Zou, Shiyao Yu, Mingyuan Zhang, Chao Dong,
- Abstract要約: 本稿では,音声のセマンティクスに適合した動作を生成するための条件付け入力として音声信号を使用する新しいタスクについて検討する。
本稿では,メモリ検索型アテンションモジュールによって強化されたマスク付き生成変換器を用いて,スパースおよび長大な音声入力を処理するエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.565742045932236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in interactive technologies have highlighted the prominence of audio signals for semantic encoding. This paper explores a new task, where audio signals are used as conditioning inputs to generate motions that align with the semantics of the audio. Unlike text-based interactions, audio provides a more natural and intuitive communication method. However, existing methods typically focus on matching motions with music or speech rhythms, which often results in a weak connection between the semantics of the audio and generated motions. We propose an end-to-end framework using a masked generative transformer, enhanced by a memory-retrieval attention module to handle sparse and lengthy audio inputs. Additionally, we enrich existing datasets by converting descriptions into conversational style and generating corresponding audio with varied speaker identities. Experiments demonstrate the effectiveness and efficiency of the proposed framework, demonstrating that audio instructions can convey semantics similar to text while providing more practical and user-friendly interactions.
- Abstract(参考訳): 近年のインタラクティブ技術の発展により、セマンティックエンコーディングのための音声信号の優位性が強調されている。
本稿では,音声のセマンティクスに適合した動作を生成するための条件付け入力として音声信号を使用する新しいタスクについて検討する。
テキストベースのインタラクションとは異なり、オーディオはより自然で直感的なコミュニケーション方法を提供する。
しかし、既存の手法は通常、音楽や音声のリズムと一致する動きに焦点を合わせ、しばしば音声の意味論と生成された動きとの間に弱いつながりが生じる。
本稿では,メモリ検索型アテンションモジュールによって強化されたマスク付き生成変換器を用いて,スパースおよび長大な音声入力を処理するエンドツーエンドフレームワークを提案する。
さらに、既存のデータセットを、記述を会話スタイルに変換し、様々な話者アイデンティティで対応する音声を生成することで強化する。
実験では,提案フレームワークの有効性と効率を実証し,より実用的でユーザフレンドリなインタラクションを提供しながら,音声による指示がテキストに似た意味を伝達できることを実証した。
関連論文リスト
- Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio Semantics [26.399212357764576]
本稿では,動的導出・除去(DDESeg: Dynamic Derivation and Elimination)を提案する。
DDESegは、特徴混乱を軽減するため、混合音声信号の意味内容を再構成する。
マッチングの難しさを軽減するために,識別的特徴学習モジュールを導入する。
論文 参考訳(メタデータ) (2025-03-17T05:38:05Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。