論文の概要: The GENEA Challenge 2023: A large scale evaluation of gesture generation
models in monadic and dyadic settings
- arxiv url: http://arxiv.org/abs/2308.12646v1
- Date: Thu, 24 Aug 2023 08:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 14:47:12.636347
- Title: The GENEA Challenge 2023: A large scale evaluation of gesture generation
models in monadic and dyadic settings
- Title(参考訳): GENEA Challenge 2023: モナディックおよびディヤディック設定におけるジェスチャー生成モデルの大規模評価
- Authors: Taras Kucherenko, Rajmund Nagy, Youngwoo Yoon, Jieyeon Woo, Teodor
Nikolov, Mihail Tsakov, Gustav Eje Henter
- Abstract要約: 本稿では、参加チームが音声によるジェスチャー生成システムを構築したGENEA Challenge 2023について報告する。
大規模ユーザ研究において,12件の提出と2件のベースラインと,保持型モーションキャプチャーデータを併用して評価した。
課題の提出者間の人間的な関係は広範囲に及んでおり、人間のモキャップに近いシステムもいくつかありました。
- 参考スコア(独自算出の注目度): 8.527975206444742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports on the GENEA Challenge 2023, in which participating teams
built speech-driven gesture-generation systems using the same speech and motion
dataset, followed by a joint evaluation. This year's challenge provided data on
both sides of a dyadic interaction, allowing teams to generate full-body motion
for an agent given its speech (text and audio) and the speech and motion of the
interlocutor. We evaluated 12 submissions and 2 baselines together with
held-out motion-capture data in several large-scale user studies. The studies
focused on three aspects: 1) the human-likeness of the motion, 2) the
appropriateness of the motion for the agent's own speech whilst controlling for
the human-likeness of the motion, and 3) the appropriateness of the motion for
the behaviour of the interlocutor in the interaction, using a setup that
controls for both the human-likeness of the motion and the agent's own speech.
We found a large span in human-likeness between challenge submissions, with a
few systems rated close to human mocap. Appropriateness seems far from being
solved, with most submissions performing in a narrow range slightly above
chance, far behind natural motion. The effect of the interlocutor is even more
subtle, with submitted systems at best performing barely above chance.
Interestingly, a dyadic system being highly appropriate for agent speech does
not necessarily imply high appropriateness for the interlocutor. Additional
material is available via the project website at
https://svito-zar.github.io/GENEAchallenge2023/ .
- Abstract(参考訳): 本稿では、参加チームが同じ音声と動きのデータセットを用いて音声駆動ジェスチャ生成システムを構築し、続いて共同評価を行うGENEA Challenge 2023について報告する。
今年のチャレンジでは、ディヤド相互作用の両側のデータを提供し、その音声(テキストと音声)と対話者の音声と動作を与えられたエージェントに対して、チームが全身動作を生成できるようにした。
大規模ユーザ研究において,12の投稿と2つのベースラインと保持されたモーションキャプチャデータを評価した。
研究は3つの側面に焦点を当てた。
1)運動の人間的類似性
2)動作の人間的類似性を制御しながら,エージェント自身の発話に対する動作の適切性,及び
3) 対話における対話者の行動に対する動作の適切性は, 動作の人間的様相とエージェント自身の発話の両方を制御する設定を用いて決定される。
課題の提出者間では、人間の類似性が大きく、人間のモキャップに近いシステムもいくつかありました。
適当性は解決されるには程遠いようで、ほとんどの提出物は、自然の動きよりも少し高い確率で実行されます。
インターロケータの効果はさらに微妙で、提出されたシステムはせいぜいわずかに上回っている。
興味深いことに, dyadicシステムはエージェント音声に非常に適しており, 必ずしも対話者に対して適切であるとは限らない。
追加資料はプロジェクトのWebサイト(https://svito-zar.github.io/GENEAchallenge2023/)から入手できる。
関連論文リスト
- Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - ReMoS: Reactive 3D Motion Synthesis for Two-Person Interactions [71.74348331841057]
本稿では,反応運動合成のための拡散型確率モデルReMoSを紹介する。
本稿では,ペアダンス,忍術,キックボクシング,アクロバティックスなど,多岐にわたる難解な2人シナリオ下でのReMoSの性能を示す。
この結果はインタラクティブなアプリケーションでも利用でき、アニメーターに十分な量の制御を提供する。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex
Interactions [52.67456181120208]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Evaluating gesture-generation in a large-scale open challenge: The GENEA
Challenge 2022 [9.661373458482291]
10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。
本研究では、ジェスチャー動作の人間的類似性と、特定の音声信号に対するその適切性について評価する。
いくつかの合成条件は、人間のモーションキャプチャーよりも人間に近いと評価されている。
論文 参考訳(メタデータ) (2023-03-15T16:21:50Z) - The GENEA Challenge 2022: A large evaluation of data-driven co-speech
gesture generation [9.661373458482291]
本稿では、データ駆動型自動音声ジェスチャー生成のベンチマークのための第2回GENEA Challengeについて報告する。
10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。
いくつかの合成条件は、人間のモーションキャプチャーよりも人間に近いと評価されている。
論文 参考訳(メタデータ) (2022-08-22T16:55:02Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation
of Facial Gestures in Dyadic Settings [11.741529272872219]
より自然な対面インタラクションを可能にするために、会話エージェントは、彼らの振る舞いをインターロケータに適応させる必要がある。
既存のジェスチャ生成システムの多くは、非言語的振る舞いを合成する際に、インターロカタからのマルチモーダルキューを使用しない。
本稿では,対話における顔のジェスチャーを対話的に合成する確率的手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T14:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。