論文の概要: SalsaAgent: A multimodal embodied language model for interactive dance generation
- arxiv url: http://arxiv.org/abs/2605.29219v2
- Date: Wed, 03 Jun 2026 18:14:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.588911
- Title: SalsaAgent: A multimodal embodied language model for interactive dance generation
- Title(参考訳): SalsaAgent:対話型ダンス生成のためのマルチモーダルエンボディ言語モデル
- Authors: Payam Jome Yazdian, Zoe Stanley, Angelica Lim,
- Abstract要約: 本稿では、人間のリーダーに反応して、表現力のあるフルボディサルサダンスの動きを生成する言語モデルであるSalsaAgentを紹介する。
我々は、対話を非言語的な動きトークンパスとして定式化し、大きな言語モデルの語彙を拡張した。
コントリビューションには、フルボディおよびモーションリレーションのための新しいトークン、LLMファインチューニング、および2段階のトークン・ツー・ディフュージョンパイプラインが含まれる。
- 参考スコア(独自算出の注目度): 0.7952582509792973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interaction between humanoids involves bidirectional and nonverbal reactivity, coordination and synchrony. Toward socially aware robots and interactive virtual agents, we present SalsaAgent, a language model that generates expressive, full-body salsa dance motions in reaction to a human leader and against a contextual music backdrop. We formulate interaction as nonverbal motion token passing, extending the vocabulary of a large language model (LLM) to process discrete motion tokens, pairwise relation tokens, and audio. Our contributions include new tokens for full-body and motion relations, LLM fine-tuning using automatically derived text descriptions of skeleton dynamics for token grounding, and a two-stage token-to-diffusion pipeline. Subjective and objective evaluations demonstrate the effectiveness of our approach in terms of motion quality, music and partner coordination, and consistent two-person spatial behavior, with significant improvements over baselines.
- Abstract(参考訳): ヒューマノイド間の相互作用は双方向および非言語的反応性、調整、同期を含む。
社会的に認識されたロボットと対話型仮想エージェントに向けて,人間のリーダーとコンテキスト音楽の背景に反応して,表現力のある全身サルサダンスの動きを生成する言語モデルであるSalsaAgentを提示する。
我々は,対話を非言語的動作トークンパッシングとして定式化し,大きな言語モデル(LLM)の語彙を拡張して,離散的な動作トークン,ペア関係トークン,オーディオを処理する。
コントリビューションには、フルボディおよびモーションリレーションのための新しいトークン、トークン接地のためのスケルトンダイナミクスの自動テキスト記述を用いたLCM微調整、および2段階のトークン・ツー・ディフュージョンパイプラインが含まれる。
主観的および客観的評価は, 動作品質, 音楽, パートナーコーディネート, 対人的空間行動の整合性の観点から, ベースラインよりも大幅に改善されたアプローチの有効性を示す。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - Social Agent: Mastering Dyadic Nonverbal Behavior Generation via Conversational LLM Agents [13.902411927285328]
ソーシャルエージェント(Social Agent)は、現実的で文脈的に適切な非言語行為をダイアディック会話で合成するための新しいフレームワークである。
本研究では,Large Language Model (LLM) によって駆動されるエージェントシステムを構築し,会話の流れを指示し,双方の参加者に対して適切な対話行動を決定する。
本稿では,音声信号から協調した動きを合成する自己回帰拡散モデルに基づく,新しい対人ジェスチャ生成モデルを提案する。
論文 参考訳(メタデータ) (2025-10-06T09:41:37Z) - Salsa as a Nonverbal Embodied Language -- The CoMPAS3D Dataset and Benchmarks [0.5937476291232802]
即興サルサダンスにおける最大かつ最も多様なモーションキャプチャーデータセットであるCoMPAS3Dを提案する。
データセットには、初心者、中間、プロのスキルレベルにまたがる18人のダンサーによる3時間のリーダーフォロワーサルサダンスが含まれている。
我々は,音声言語と対話処理における重要な問題を並列処理する合成人間の2つのベンチマークタスクについて,CoMPAS3Dを評価する。
論文 参考訳(メタデータ) (2025-07-25T21:33:48Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - A Unified Framework for Motion Reasoning and Generation in Human Interaction [28.736843383405603]
本稿では,言語と運動の両モードを統合したVersatile Interactive Motion-Languageモデルを提案する。
VIMは、動きとテキストのモダリティの両方を同時に理解し、生成することができる。
我々は,動画像のテキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト)、反応生成,動作編集,および動作系列の推論を含む複数の対話的動作関連タスク
論文 参考訳(メタデータ) (2024-10-08T02:23:53Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。