論文の概要: Salsa as a Nonverbal Embodied Language -- The CoMPAS3D Dataset and Benchmarks
- arxiv url: http://arxiv.org/abs/2507.19684v1
- Date: Fri, 25 Jul 2025 21:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.962439
- Title: Salsa as a Nonverbal Embodied Language -- The CoMPAS3D Dataset and Benchmarks
- Title(参考訳): 非言語Embodied LanguageとしてのSalsa -- CoMPAS3Dデータセットとベンチマーク
- Authors: Bermet Burkanova, Payam Jome Yazdian, Chuxuan Zhang, Trinity Evans, Paige Tuttösí, Angelica Lim,
- Abstract要約: 即興サルサダンスにおける最大かつ最も多様なモーションキャプチャーデータセットであるCoMPAS3Dを提案する。
データセットには、初心者、中間、プロのスキルレベルにまたがる18人のダンサーによる3時間のリーダーフォロワーサルサダンスが含まれている。
我々は,音声言語と対話処理における重要な問題を並列処理する合成人間の2つのベンチマークタスクについて,CoMPAS3Dを評価する。
- 参考スコア(独自算出の注目度): 0.5937476291232802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imagine a humanoid that can safely and creatively dance with a human, adapting to its partner's proficiency, using haptic signaling as a primary form of communication. While today's AI systems excel at text or voice-based interaction with large language models, human communication extends far beyond text-it includes embodied movement, timing, and physical coordination. Modeling coupled interaction between two agents poses a formidable challenge: it is continuous, bidirectionally reactive, and shaped by individual variation. We present CoMPAS3D, the largest and most diverse motion capture dataset of improvised salsa dancing, designed as a challenging testbed for interactive, expressive humanoid AI. The dataset includes 3 hours of leader-follower salsa dances performed by 18 dancers spanning beginner, intermediate, and professional skill levels. For the first time, we provide fine-grained salsa expert annotations, covering over 2,800 move segments, including move types, combinations, execution errors and stylistic elements. We draw analogies between partner dance communication and natural language, evaluating CoMPAS3D on two benchmark tasks for synthetic humans that parallel key problems in spoken language and dialogue processing: leader or follower generation with proficiency levels (speaker or listener synthesis), and duet (conversation) generation. Towards a long-term goal of partner dance with humans, we release the dataset, annotations, and code, along with a multitask SalsaAgent model capable of performing all benchmark tasks, alongside additional baselines to encourage research in socially interactive embodied AI and creative, expressive humanoid motion generation.
- Abstract(参考訳): 人間と安全に創造的に踊り、パートナーの能力に適応できるヒューマノイドを想像してみてほしい。
今日のAIシステムは、大きな言語モデルとのテキストまたは音声ベースのインタラクションに優れていますが、人間のコミュニケーションは、実施された動き、タイミング、物理的調整を含む、テキストを超えて拡張されます。
2つのエージェント間の相互作用のモデリングは、連続的で双方向に反応し、個々のバリエーションによって形づくられるという、非常に難しい課題を提起する。
我々は、インタラクティブで表現力のあるヒューマノイドAIのための挑戦的なテストベッドとして設計された即興サルサダンスの最大かつ最も多様なモーションキャプチャーデータセットであるCoMPAS3Dを提案する。
データセットには、初心者、中間、プロのスキルレベルにまたがる18人のダンサーによる3時間のリーダーフォロワーサルサダンスが含まれている。
移行タイプや組み合わせ,実行エラー,スタイリスティックな要素など,2800以上の移動セグメントをカバーしています。
我々は、パートナーダンスコミュニケーションと自然言語の類似性を引き合いに出し、音声言語と対話処理において鍵となる問題を並列化する合成人間の2つのベンチマークタスクについて、CoMPAS3Dの評価を行い、熟練度(話者やリスナーの合成)とデュエット(会話)を生成する。
人とのコラボレーションという長期的な目標に向けて、データセット、アノテーション、コードをリリースし、すべてのベンチマークタスクを実行するマルチタスクのSalsaAgentモデルと、ソーシャルにインタラクティブなエンボディAIと、創造的で表現力のあるヒューマノイドモーション生成の研究を促進するためのベースラインを追加します。
関連論文リスト
- Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues [19.675409379345172]
テキストとともに非言語的手がかりを理解・生成するためのマルチモーダル言語モデルであるMARSを紹介する。
私たちの重要な革新はVENUSです。VENUSは、タイムアラインなテキスト、表情、ボディランゲージを備えた注釈付きビデオからなる大規模なデータセットです。
論文 参考訳(メタデータ) (2025-06-01T11:07:25Z) - The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion [46.01825432018138]
本稿では,多モーダル言語モデルを用いて,言語と非言語を統一する新しいフレームワークを提案する。
提案手法は,音声合成における最先端性能を実現する。
我々は、現実世界の応用には、人間の動きの言語と非言語を統一することが不可欠であると信じている。
論文 参考訳(メタデータ) (2024-12-13T19:33:48Z) - Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - Nonverbal Interaction Detection [83.40522919429337]
この研究は、社会的文脈における人間の非言語的相互作用を理解するという新たな課題に対処する。
我々はNVIと呼ばれる新しい大規模データセットを寄贈し、人間とそれに対応する社会グループのための境界ボックスを含むように細心の注意を払ってアノテートする。
第2に,非言語的インタラクション検出のための新たなタスクNVI-DETを構築し,画像から三つ子を識別する。
第3に,非言語相互作用検出ハイパーグラフ (NVI-DEHR) を提案する。
論文 参考訳(メタデータ) (2024-07-11T02:14:06Z) - in2IN: Leveraging individual Information to Generate Human INteractions [29.495166514135295]
In2IN(in2IN)は、人間と人間の動作生成を個別に記述した新しい拡散モデルである。
In2INで生成された動きと、HumanML3Dで事前訓練された1人の動きによって生成された動きとを組み合わせたモデル合成手法であるDualMDMを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:04Z) - Contact-aware Human Motion Generation from Textual Descriptions [57.871692507044344]
本稿では,テキストから3次元対話型人間の動作を生成する問題に対処する。
私たちは「Contact-Aware Texts」を表すRICH-CATという新しいデータセットを作成します。
そこで本研究では,テキストによる対話型人間の動作合成のためのCATMOという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T04:08:39Z) - DisCo: Disentangled Control for Realistic Human Dance Generation [125.85046815185866]
ダンス合成の合成性を改善するために,不整合制御をもつ新しいモデルアーキテクチャであるdisCOを導入する。
DisCcは、さまざまな外観と柔軟な動きを持つ高品質な人間のダンス画像やビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-30T17:37:48Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。