Fugu-MT 論文翻訳(概要): The GENEA Challenge 2023: A large scale evaluation of gesture generation models in monadic and dyadic settings

論文の概要: The GENEA Challenge 2023: A large scale evaluation of gesture generation models in monadic and dyadic settings

arxiv url: http://arxiv.org/abs/2308.12646v1
Date: Thu, 24 Aug 2023 08:42:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 14:47:12.636347
Title: The GENEA Challenge 2023: A large scale evaluation of gesture generation models in monadic and dyadic settings
Title（参考訳）: GENEA Challenge 2023: モナディックおよびディヤディック設定におけるジェスチャー生成モデルの大規模評価
Authors: Taras Kucherenko, Rajmund Nagy, Youngwoo Yoon, Jieyeon Woo, Teodor Nikolov, Mihail Tsakov, Gustav Eje Henter
Abstract要約: 本稿では、参加チームが音声によるジェスチャー生成システムを構築したGENEA Challenge 2023について報告する。大規模ユーザ研究において,12件の提出と2件のベースラインと,保持型モーションキャプチャーデータを併用して評価した。課題の提出者間の人間的な関係は広範囲に及んでおり、人間のモキャップに近いシステムもいくつかありました。
参考スコア（独自算出の注目度）: 8.527975206444742
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper reports on the GENEA Challenge 2023, in which participating teams built speech-driven gesture-generation systems using the same speech and motion dataset, followed by a joint evaluation. This year's challenge provided data on both sides of a dyadic interaction, allowing teams to generate full-body motion for an agent given its speech (text and audio) and the speech and motion of the interlocutor. We evaluated 12 submissions and 2 baselines together with held-out motion-capture data in several large-scale user studies. The studies focused on three aspects: 1) the human-likeness of the motion, 2) the appropriateness of the motion for the agent's own speech whilst controlling for the human-likeness of the motion, and 3) the appropriateness of the motion for the behaviour of the interlocutor in the interaction, using a setup that controls for both the human-likeness of the motion and the agent's own speech. We found a large span in human-likeness between challenge submissions, with a few systems rated close to human mocap. Appropriateness seems far from being solved, with most submissions performing in a narrow range slightly above chance, far behind natural motion. The effect of the interlocutor is even more subtle, with submitted systems at best performing barely above chance. Interestingly, a dyadic system being highly appropriate for agent speech does not necessarily imply high appropriateness for the interlocutor. Additional material is available via the project website at https://svito-zar.github.io/GENEAchallenge2023/ .
Abstract（参考訳）: 本稿では、参加チームが同じ音声と動きのデータセットを用いて音声駆動ジェスチャ生成システムを構築し、続いて共同評価を行うGENEA Challenge 2023について報告する。今年のチャレンジでは、ディヤド相互作用の両側のデータを提供し、その音声(テキストと音声)と対話者の音声と動作を与えられたエージェントに対して、チームが全身動作を生成できるようにした。大規模ユーザ研究において,12の投稿と2つのベースラインと保持されたモーションキャプチャデータを評価した。研究は3つの側面に焦点を当てた。 1)運動の人間的類似性 2)動作の人間的類似性を制御しながら,エージェント自身の発話に対する動作の適切性,及び 3) 対話における対話者の行動に対する動作の適切性は, 動作の人間的様相とエージェント自身の発話の両方を制御する設定を用いて決定される。課題の提出者間では、人間の類似性が大きく、人間のモキャップに近いシステムもいくつかありました。適当性は解決されるには程遠いようで、ほとんどの提出物は、自然の動きよりも少し高い確率で実行されます。インターロケータの効果はさらに微妙で、提出されたシステムはせいぜいわずかに上回っている。興味深いことに, dyadicシステムはエージェント音声に非常に適しており, 必ずしも対話者に対して適切であるとは限らない。追加資料はプロジェクトのWebサイト(https://svito-zar.github.io/GENEAchallenge2023/)から入手できる。

関連論文リスト

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文参考訳（メタデータ） (2025-05-26T17:55:06Z)
InterDance:Reactive 3D Dance Generation with Realistic Duet Interactions [67.37790144477503]
動きの質、データスケール、さまざまなダンスジャンルを大幅に向上させる大規模なデュエットダンスデータセットであるInterDanceを提案する。本稿では,対話のリアリズムを段階的に最適化するためのインタラクション改善指導戦略を備えた拡散型フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-22T11:53:51Z)
It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model [34.94330722832987]
会話中の2文字の動的動きを合成するための音声駆動自動回帰システムを提案する。我々の知る限りでは、オンライン方式で2文字の対話型フルボディモーションを生成できる最初のシステムである。
論文参考訳（メタデータ） (2024-12-03T12:31:44Z)
Enabling Synergistic Full-Body Control in Prompt-Based Co-Speech Motion Generation [32.70952356211433]
共同音声による動作生成手法は、通常、音声内容のみによる上半身のジェスチャーに焦点をあてる。既存の音声と動きのデータセットは、非常に限定されたフルボディの動きのみを含む。市販のテキスト・トゥ・モーション・データセットを補助として利用するSynTalkerを提案する。
論文参考訳（メタデータ） (2024-10-01T07:46:05Z)
Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文参考訳（メタデータ） (2024-04-02T11:40:34Z)
ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文参考訳（メタデータ） (2024-03-26T17:59:52Z)
ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文参考訳（メタデータ） (2023-11-28T18:59:52Z)
InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文参考訳（メタデータ） (2023-04-12T08:12:29Z)
Task-Oriented Human-Object Interactions Generation with Implicit Neural Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成本手法は時間座標のみでパラメータ化される連続運動を生成する。この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文参考訳（メタデータ） (2023-03-23T09:31:56Z)
Evaluating gesture generation in a large-scale open challenge: The GENEA Challenge 2022 [8.822263327342071]
本稿では、データ駆動型自動音声ジェスチャー生成のベンチマークのための第2回GENEA Challengeについて報告する。 10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。本研究では、ジェスチャー動作の人間的類似性と、特定の音声信号に対するその適切性について評価する。
論文参考訳（メタデータ） (2023-03-15T16:21:50Z)
The GENEA Challenge 2022: A large evaluation of data-driven co-speech gesture generation [9.661373458482291]
本稿では、データ駆動型自動音声ジェスチャー生成のベンチマークのための第2回GENEA Challengeについて報告する。 10チームがフルボディとアッパーボディの2段階にわたる挑戦に参加した。いくつかの合成条件は、人間のモーションキャプチャーよりも人間に近いと評価されている。
論文参考訳（メタデータ） (2022-08-22T16:55:02Z)
GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。私たちのデータ収集は特定のシーンに縛られません。視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-04-20T13:17:39Z)
Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。 2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-04T13:03:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。