論文の概要: Evaluating gesture generation in a large-scale open challenge: The GENEA Challenge 2022
- arxiv url: http://arxiv.org/abs/2303.08737v2
- Date: Thu, 28 Mar 2024 16:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 22:22:33.267080
- Title: Evaluating gesture generation in a large-scale open challenge: The GENEA Challenge 2022
- Title(参考訳): 大規模オープンチャレンジにおけるジェスチャー生成の評価: GENEA Challenge 2022
- Authors: Taras Kucherenko, Pieter Wolfert, Youngwoo Yoon, Carla Viegas, Teodor Nikolov, Mihail Tsakov, Gustav Eje Henter,
- Abstract要約: 本稿では、データ駆動型自動音声ジェスチャー生成のベンチマークのための第2回GENEA Challengeについて報告する。
10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。
本研究では、ジェスチャー動作の人間的類似性と、特定の音声信号に対するその適切性について評価する。
- 参考スコア(独自算出の注目度): 8.822263327342071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports on the second GENEA Challenge to benchmark data-driven automatic co-speech gesture generation. Participating teams used the same speech and motion dataset to build gesture-generation systems. Motion generated by all these systems was rendered to video using a standardised visualisation pipeline and evaluated in several large, crowdsourced user studies. Unlike when comparing different research papers, differences in results are here only due to differences between methods, enabling direct comparison between systems. The dataset was based on 18 hours of full-body motion capture, including fingers, of different persons engaging in a dyadic conversation. Ten teams participated in the challenge across two tiers: full-body and upper-body gesticulation. For each tier, we evaluated both the human-likeness of the gesture motion and its appropriateness for the specific speech signal. Our evaluations decouple human-likeness from gesture appropriateness, which has been a difficult problem in the field. The evaluation results show some synthetic gesture conditions being rated as significantly more human-like than 3D human motion capture. To the best of our knowledge, this has not been demonstrated before. On the other hand, all synthetic motion is found to be vastly less appropriate for the speech than the original motion-capture recordings. We also find that conventional objective metrics do not correlate well with subjective human-likeness ratings in this large evaluation. The one exception is the Fr\'echet gesture distance (FGD), which achieves a Kendall's tau rank correlation of around $-0.5$. Based on the challenge results we formulate numerous recommendations for system building and evaluation.
- Abstract(参考訳): 本稿では,データ駆動型自動音声ジェスチャー生成のための第2回GENEAチャレンジについて報告する。
参加チームは、ジェスチャー生成システムを構築するために、同じスピーチとモーションデータセットを使用した。
これらのシステムによって生成された動きは、標準化されたヴィジュアライゼーションパイプラインを使用してビデオにレンダリングされ、クラウドソーシングされた大規模ユーザ研究で評価された。
異なる研究論文を比較する場合とは異なり、結果の違いは、方法の違いによってのみ発生し、システム間の直接比較を可能にする。
データセットは、ディヤドの会話に参加している異なる人の指を含む18時間のフルボディモーションキャプチャに基づいていた。
10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。
各階層において、ジェスチャー動作の人間的類似度と、特定の音声信号に対する適切性の両方を評価した。
本評価では, ジェスチャーの適切性から人的類似性を分離し, この分野では困難な問題となっている。
以上の結果から, 合成ジェスチャー条件は3次元モーションキャプチャよりも, はるかに人間らしく評価されていることがわかった。
私たちの知る限りでは、これは以前にも実証されていない。
一方、すべての合成動作は、元のモーションキャプチャー記録よりも音声に非常に適していないことが判明した。
また、従来の客観的指標は、この大評価において主観的人間性評価とよく相関しないことがわかった。
例外はFr'echet ジェスチャー距離 (FGD) であり、Kendall の Tau ランクの相関はおよそ 0.5$ である。
課題の結果に基づいて,システム構築と評価のための多数の推奨事項を定式化する。
関連論文リスト
- Massively Multi-Person 3D Human Motion Forecasting with Scene Context [13.197408989895102]
本研究では、長期(10秒)の人間の動きを予測するために、シーン認識型ソーシャルトランスフォーマーモデル(SAST)を提案する。
我々は、時間的畳み込みエンコーダ・デコーダアーキテクチャとTransformerベースのボトルネックを組み合わせることで、動きとシーン情報を効率的に組み合わせることができる。
我々のモデルは、さまざまなメトリクスやユーザスタディにおいて、リアリズムや多様性の観点から、他のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-09-18T17:58:51Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - The GENEA Challenge 2023: A large scale evaluation of gesture generation
models in monadic and dyadic settings [8.527975206444742]
本稿では、参加チームが音声によるジェスチャー生成システムを構築したGENEA Challenge 2023について報告する。
大規模ユーザ研究において,12件の提出と2件のベースラインと,保持型モーションキャプチャーデータを併用して評価した。
課題の提出者間の人間的な関係は広範囲に及んでおり、人間のモキャップに近いシステムもいくつかありました。
論文 参考訳(メタデータ) (2023-08-24T08:42:06Z) - Co-Speech Gesture Synthesis using Discrete Gesture Token Learning [1.1694169299062596]
リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
論文 参考訳(メタデータ) (2023-03-04T01:42:09Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - The GENEA Challenge 2022: A large evaluation of data-driven co-speech
gesture generation [9.661373458482291]
本稿では、データ駆動型自動音声ジェスチャー生成のベンチマークのための第2回GENEA Challengeについて報告する。
10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。
いくつかの合成条件は、人間のモーションキャプチャーよりも人間に近いと評価されている。
論文 参考訳(メタデータ) (2022-08-22T16:55:02Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning [52.73083137245969]
そこで本稿では, 感情表現を適切に表現し, 3次元ポーズを合成する生成的対人ネットワークを提案する。
本ネットワークは,入力音声とシードポーズから符号化された特徴の組込み空間からジェスチャを合成するジェネレータと,合成されたポーズシーケンスと実3Dポーズシーケンスを識別する識別器とから構成される。
論文 参考訳(メタデータ) (2021-07-31T15:13:39Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Socially and Contextually Aware Human Motion and Pose Forecasting [48.083060946226]
本研究では,人間の動作(あるいは骨格ポーズ)と体骨格のポーズ予測の両課題に対処するための新しい枠組みを提案する。
我々は,この予測課題における重要な手がかりとして,シーンと社会的文脈の両方を取り入れることを検討する。
提案手法は,2つのソーシャルデータセットのベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-07-14T06:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。