論文の概要: The GENEA Challenge 2023: A large scale evaluation of gesture generation
models in monadic and dyadic settings
- arxiv url: http://arxiv.org/abs/2308.12646v1
- Date: Thu, 24 Aug 2023 08:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 14:47:12.636347
- Title: The GENEA Challenge 2023: A large scale evaluation of gesture generation
models in monadic and dyadic settings
- Title(参考訳): GENEA Challenge 2023: モナディックおよびディヤディック設定におけるジェスチャー生成モデルの大規模評価
- Authors: Taras Kucherenko, Rajmund Nagy, Youngwoo Yoon, Jieyeon Woo, Teodor
Nikolov, Mihail Tsakov, Gustav Eje Henter
- Abstract要約: 本稿では、参加チームが音声によるジェスチャー生成システムを構築したGENEA Challenge 2023について報告する。
大規模ユーザ研究において,12件の提出と2件のベースラインと,保持型モーションキャプチャーデータを併用して評価した。
課題の提出者間の人間的な関係は広範囲に及んでおり、人間のモキャップに近いシステムもいくつかありました。
- 参考スコア(独自算出の注目度): 8.527975206444742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports on the GENEA Challenge 2023, in which participating teams
built speech-driven gesture-generation systems using the same speech and motion
dataset, followed by a joint evaluation. This year's challenge provided data on
both sides of a dyadic interaction, allowing teams to generate full-body motion
for an agent given its speech (text and audio) and the speech and motion of the
interlocutor. We evaluated 12 submissions and 2 baselines together with
held-out motion-capture data in several large-scale user studies. The studies
focused on three aspects: 1) the human-likeness of the motion, 2) the
appropriateness of the motion for the agent's own speech whilst controlling for
the human-likeness of the motion, and 3) the appropriateness of the motion for
the behaviour of the interlocutor in the interaction, using a setup that
controls for both the human-likeness of the motion and the agent's own speech.
We found a large span in human-likeness between challenge submissions, with a
few systems rated close to human mocap. Appropriateness seems far from being
solved, with most submissions performing in a narrow range slightly above
chance, far behind natural motion. The effect of the interlocutor is even more
subtle, with submitted systems at best performing barely above chance.
Interestingly, a dyadic system being highly appropriate for agent speech does
not necessarily imply high appropriateness for the interlocutor. Additional
material is available via the project website at
https://svito-zar.github.io/GENEAchallenge2023/ .
- Abstract(参考訳): 本稿では、参加チームが同じ音声と動きのデータセットを用いて音声駆動ジェスチャ生成システムを構築し、続いて共同評価を行うGENEA Challenge 2023について報告する。
今年のチャレンジでは、ディヤド相互作用の両側のデータを提供し、その音声(テキストと音声)と対話者の音声と動作を与えられたエージェントに対して、チームが全身動作を生成できるようにした。
大規模ユーザ研究において,12の投稿と2つのベースラインと保持されたモーションキャプチャデータを評価した。
研究は3つの側面に焦点を当てた。
1)運動の人間的類似性
2)動作の人間的類似性を制御しながら,エージェント自身の発話に対する動作の適切性,及び
3) 対話における対話者の行動に対する動作の適切性は, 動作の人間的様相とエージェント自身の発話の両方を制御する設定を用いて決定される。
課題の提出者間では、人間の類似性が大きく、人間のモキャップに近いシステムもいくつかありました。
適当性は解決されるには程遠いようで、ほとんどの提出物は、自然の動きよりも少し高い確率で実行されます。
インターロケータの効果はさらに微妙で、提出されたシステムはせいぜいわずかに上回っている。
興味深いことに, dyadicシステムはエージェント音声に非常に適しており, 必ずしも対話者に対して適切であるとは限らない。
追加資料はプロジェクトのWebサイト(https://svito-zar.github.io/GENEAchallenge2023/)から入手できる。
関連論文リスト
- Enabling Synergistic Full-Body Control in Prompt-Based Co-Speech Motion Generation [32.70952356211433]
共同音声による動作生成手法は、通常、音声内容のみによる上半身のジェスチャーに焦点をあてる。
既存の音声と動きのデータセットは、非常に限定されたフルボディの動きのみを含む。
市販のテキスト・トゥ・モーション・データセットを補助として利用するSynTalkerを提案する。
論文 参考訳(メタデータ) (2024-10-01T07:46:05Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Evaluating gesture generation in a large-scale open challenge: The GENEA Challenge 2022 [8.822263327342071]
本稿では、データ駆動型自動音声ジェスチャー生成のベンチマークのための第2回GENEA Challengeについて報告する。
10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。
本研究では、ジェスチャー動作の人間的類似性と、特定の音声信号に対するその適切性について評価する。
論文 参考訳(メタデータ) (2023-03-15T16:21:50Z) - The GENEA Challenge 2022: A large evaluation of data-driven co-speech
gesture generation [9.661373458482291]
本稿では、データ駆動型自動音声ジェスチャー生成のベンチマークのための第2回GENEA Challengeについて報告する。
10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。
いくつかの合成条件は、人間のモーションキャプチャーよりも人間に近いと評価されている。
論文 参考訳(メタデータ) (2022-08-22T16:55:02Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。