論文の概要: Comparing PCG metrics with Human Evaluation in Minecraft Settlement
Generation
- arxiv url: http://arxiv.org/abs/2107.02457v1
- Date: Tue, 6 Jul 2021 08:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 13:49:26.508264
- Title: Comparing PCG metrics with Human Evaluation in Minecraft Settlement
Generation
- Title(参考訳): Minecraft集落におけるPCG指標と人的評価の比較
- Authors: Jean-Baptiste Herv\'e, Christoph Salge
- Abstract要約: 我々は、既存のPCGメトリクスを、生成したMinecraftの居留地に適用し、PCG文献にインスパイアされたいくつかの新しいメトリクスを開発し、その結果を既存の人間の評価と比較する。
目的は、これらのメトリクスがどのように異なるカテゴリの人間の評価スコアをキャプチャするか、メトリクスが別のゲームドメインにどのように一般化するか、そしてメトリクスがより複雑なアーティファクトにどう対処するかを分析することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are a range of metrics that can be applied to the artifacts produced by
procedural content generation, and several of them come with qualitative
claims. In this paper, we adapt a range of existing PCG metrics to generated
Minecraft settlements, develop a few new metrics inspired by PCG literature,
and compare the resulting measurements to existing human evaluations. The aim
is to analyze how those metrics capture human evaluation scores in different
categories, how the metrics generalize to another game domain, and how metrics
deal with more complex artifacts. We provide an exploratory look at a variety
of metrics and provide an information gain and several correlation analyses. We
found some relationships between human scores and metrics counting specific
elements, measuring the diversity of blocks and measuring the presence of
crafting materials for the present complex blocks.
- Abstract(参考訳): 手続き的コンテンツ生成によって生成されたアーティファクトに適用可能な、さまざまなメトリクスがあり、その中には質的なクレームがある。
そこで本研究では,既存のPCG指標を生成済みMinecraft集落に適用し,PCG文献に触発された新たな指標を開発し,その結果を既存の人間評価と比較する。
目的は、これらのメトリクスがどのように異なるカテゴリの人間の評価スコアをキャプチャするか、メトリクスが別のゲームドメインにどのように一般化するか、メトリクスがより複雑なアーティファクトを扱うかを分析することである。
我々は,様々な指標を探索的に観察し,情報ゲインといくつかの相関分析を提供する。
具体的な要素を計測し,ブロックの多様性を測定し,現在の複合ブロックの加工材料の存在を測定することで,人間のスコアと測定値の関係を見出した。
関連論文リスト
- Every Component Counts: Rethinking the Measure of Success for Medical Semantic Segmentation in Multi-Instance Segmentation Tasks [60.80828925396154]
本稿では,新しいセマンティックセグメンテーション評価プロトコルであるConnected-Component (CC)-Metricsを提案する。
本研究は,全体PET/CTにおけるセマンティックセグメンテーションの一般的な医療シナリオにおいて,この設定を動機付けている。
既存のセマンティックセグメンテーションのメトリクスが、より大きな接続コンポーネントに対するバイアスにどのように悩まされているかを示す。
論文 参考訳(メタデータ) (2024-10-24T12:26:05Z) - Automated Metrics for Medical Multi-Document Summarization Disagree with
Human Evaluations [22.563596069176047]
自動要約評価指標が生成した要約の語彙的特徴とどのように相関するかを分析する。
自動測定を行うだけでなく、人間によって評価された品質の側面を捉えることができず、多くの場合、これらの測定によって生成されるシステムランキングは、人間のアノテーションによるランキングと反相関している。
論文 参考訳(メタデータ) (2023-05-23T05:00:59Z) - Measuring Data [79.89948814583805]
我々は、機械学習データとデータセットの構成を定量的に特徴付けるために、データを測定するタスクを特定する。
データ測定は、比較をサポートする共通の次元に沿って、データの異なる属性を定量化する。
我々は、今後の研究の多くの方法、データ測定の限界、そしてこれらの測定手法を研究・実践に活用する方法について議論した。
論文 参考訳(メタデータ) (2022-12-09T22:10:46Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文 参考訳(メタデータ) (2021-05-19T04:45:07Z) - LCEval: Learned Composite Metric for Caption Evaluation [37.2313913156926]
ニューラルネットワークに基づく学習指標を提案し,キャプションレベルのキャプション評価を改善する。
本稿では,異なる言語特徴と学習指標のキャプションレベルの相関関係について検討する。
提案手法は,キャプションレベルの相関で既存の指標を上回るだけでなく,人間評価に対するシステムレベルの相関性も示している。
論文 参考訳(メタデータ) (2020-12-24T06:38:24Z) - Mark-Evaluate: Assessing Language Generation using Population Estimation
Methods [6.307450687141434]
本研究では,生態学で広く使用されている個体群推定法から得られた言語生成を評価するための指標群を提案する。
人工的な実験では、私たちの方法のファミリーは品質と多様性の低下に敏感です。
本手法は,いくつかの課題において,既存の指標よりも人的評価に高い相関性を示す。
論文 参考訳(メタデータ) (2020-10-09T14:31:53Z) - SacreROUGE: An Open-Source Library for Using and Developing
Summarization Evaluation Metrics [74.28810048824519]
SacreROUGEは、要約評価メトリクスの使用と開発のためのオープンソースライブラリである。
このライブラリは、既存の評価メトリクスの公式実装に関するPythonラッパーを提供する。
ライブラリに実装されたメトリックが、人間による注釈付き判断とどの程度の相関があるかを評価する機能を提供する。
論文 参考訳(メタデータ) (2020-07-10T13:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。