論文の概要: Towards a GENEA Leaderboard -- an Extended, Living Benchmark for Evaluating and Advancing Conversational Motion Synthesis
- arxiv url: http://arxiv.org/abs/2410.06327v1
- Date: Tue, 8 Oct 2024 20:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 06:29:16.946358
- Title: Towards a GENEA Leaderboard -- an Extended, Living Benchmark for Evaluating and Advancing Conversational Motion Synthesis
- Title(参考訳): GENEA Leaderboard -- 会話運動合成の評価と改善のための拡張型リビングベンチマーク
- Authors: Rajmund Nagy, Hendric Voss, Youngwoo Yoon, Taras Kucherenko, Teodor Nikolov, Thanh Hoang-Minh, Rachel McDonnell, Stefan Kopp, Michael Neff, Gustav Eje Henter,
- Abstract要約: 本稿では,既存のジェスチャジェネレーション評価の問題点をレビューし,詳述する。
対話型モーション合成の進歩をベンチマークする,次世代のライビングリーダーボードをアナウンスする。
従来のジェスチャー生成の課題とは異なり、リーダーボードは、新しいジェスチャー生成システムの大規模なユーザスタディで更新される。
- 参考スコア(独自算出の注目度): 8.647997556787557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluation practices in speech-driven gesture generation lack standardisation and focus on aspects that are easy to measure over aspects that actually matter. This leads to a situation where it is impossible to know what is the state of the art, or to know which method works better for which purpose when comparing two publications. In this position paper, we review and give details on issues with existing gesture-generation evaluation, and present a novel proposal for remedying them. Specifically, we announce an upcoming living leaderboard to benchmark progress in conversational motion synthesis. Unlike earlier gesture-generation challenges, the leaderboard will be updated with large-scale user studies of new gesture-generation systems multiple times per year, and systems on the leaderboard can be submitted to any publication venue that their authors prefer. By evolving the leaderboard evaluation data and tasks over time, the effort can keep driving progress towards the most important end goals identified by the community. We actively seek community involvement across the entire evaluation pipeline: from data and tasks for the evaluation, via tooling, to the systems evaluated. In other words, our proposal will not only make it easier for researchers to perform good evaluations, but their collective input and contributions will also help drive the future of gesture-generation research.
- Abstract(参考訳): 音声駆動ジェスチャ生成における現在の評価手法は、標準化が欠如しており、実際に重要な側面に対して測定が容易な側面に焦点を当てている。
これは、最先端技術が何であるかを知ることが不可能な状況や、2つの出版物を比較する際に、どの方法がどの目的に有効かを知ることにつながる。
本稿では,既存のジェスチャジェネレーション評価の問題点を概説し,その解決に向けた新しい提案を提案する。
具体的には,対話型モーション合成の進歩をベンチマークするライビングリーダーボードについて発表する。
従来のジェスチャ生成の課題とは異なり、リーダーボードは毎年複数回新しいジェスチャ生成システムの大規模なユーザスタディを伴って更新され、リーダーボード上のシステムは著者が好むすべての出版場所に提出される。
リーダボードの評価データとタスクを時間とともに進化させることで、コミュニティが認識した最も重要な目標に向かって前進し続けることができます。
評価パイプライン全体にわたるコミュニティの関与を積極的に求めています。データやタスクからツーリングを通じて評価対象のシステムまで。
言い換えれば、我々の提案は、研究者が優れた評価を行うのを容易にするだけでなく、それらの総合的なインプットとコントリビューションは、ジェスチャー生成研究の将来を後押しする。
関連論文リスト
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。
この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。
このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。
我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文 参考訳(メタデータ) (2022-04-05T19:39:13Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on
Recent Papers [0.685316573653194]
創造的な自然言語生成に関する論文の中で,人間の評価について調査する。
最も典型的な人間の評価法は、通常5点の尺度で、スケールされたサーベイである。
最もよく評価されるパラメータは、意味、統語的正しさ、新規性、関連性、感情的価値である。
論文 参考訳(メタデータ) (2021-07-31T18:54:30Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z) - What comprises a good talking-head video generation?: A Survey and
Benchmark [40.26689818789428]
本稿では,標準化されたデータセット前処理戦略を用いた対話型ビデオ生成の評価ベンチマークを提案する。
提案手法は,対話型ビデオに望ましい特性とみなす結果を評価するために,新しい指標を提案するか,最も適した指標を選択する。
論文 参考訳(メタデータ) (2020-05-07T01:58:05Z) - Recognizing Families In the Wild: White Paper for the 4th Edition Data
Challenge [91.55319616114943]
本稿では,Recognizing Families In the Wild(RFIW)評価における支援課題(親族検証,三対象検証,行方不明児の検索・検索)を要約する。
本研究の目的は、2020年のRFIWチャレンジと、将来的な方向性の予測について述べることである。
論文 参考訳(メタデータ) (2020-02-15T02:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。