論文の概要: Exploring and Analyzing Machine Commonsense Benchmarks
- arxiv url: http://arxiv.org/abs/2012.11634v1
- Date: Mon, 21 Dec 2020 19:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:36:40.182587
- Title: Exploring and Analyzing Machine Commonsense Benchmarks
- Title(参考訳): マシンコモンセンスベンチマークの探索と解析
- Authors: Henrique Santos, Minor Gordon, Zhicheng Liang, Gretchen Forbush,
Deborah L. McGuinness
- Abstract要約: 我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。
ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
- 参考スコア(独自算出の注目度): 0.13999481573773073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commonsense question-answering (QA) tasks, in the form of benchmarks, are
constantly being introduced for challenging and comparing commonsense QA
systems. The benchmarks provide question sets that systems' developers can use
to train and test new models before submitting their implementations to
official leaderboards. Although these tasks are created to evaluate systems in
identified dimensions (e.g. topic, reasoning type), this metadata is limited
and largely presented in an unstructured format or completely not present.
Because machine common sense is a fast-paced field, the problem of fully
assessing current benchmarks and systems with regards to these evaluation
dimensions is aggravated. We argue that the lack of a common vocabulary for
aligning these approaches' metadata limits researchers in their efforts to
understand systems' deficiencies and in making effective choices for future
tasks. In this paper, we first discuss this MCS ecosystem in terms of its
elements and their metadata. Then, we present how we are supporting the
assessment of approaches by initially focusing on commonsense benchmarks. We
describe our initial MCS Benchmark Ontology, an extensible common vocabulary
that formalizes benchmark metadata, and showcase how it is supporting the
development of a Benchmark tool that enables benchmark exploration and
analysis.
- Abstract(参考訳): コモンセンスQA(Commonsense Question-Awering)タスクは、ベンチマークの形で、コモンセンスQAシステムに挑戦し比較するために常に導入されている。
ベンチマークは、システム開発者が公式のリーダーボードに実装を提出する前に、新しいモデルのトレーニングとテストに使用できる質問セットを提供する。
これらのタスクは、特定次元のシステムを評価するために作成される(例)。
トピック、推論タイプ) このメタデータは制限され、ほとんど構造化されていないフォーマットで表示されます。
機械常識は速いペースの場であるため、これらの評価次元に関して現在のベンチマークやシステムを完全に評価する問題は悪化する。
これらのアプローチのメタデータを統一するための共通の語彙の欠如は、システムの欠陥を理解し、将来のタスクに効果的な選択をする研究者の努力を制限していると論じている。
本稿では,このMCSエコシステムについて,その要素とそのメタデータの観点から論じる。
次に,まずはcommonsenseベンチマークに注目して,アプローチの評価を支援する方法を提案する。
ベンチマークメタデータを形式化する拡張可能な共通語彙である最初のmcsベンチマークオントロジーについて説明し、ベンチマーク探索と分析を可能にするベンチマークツールの開発をどのようにサポートするかを示す。
関連論文リスト
- "Is This It?": Towards Ecologically Valid Benchmarks for Situated Collaboration [16.25921668308458]
そこで我々は,大規模なマルチモーダルモデルによる協調作業を行う能力を評価するためのベンチマークを開発した。
既存のベンチマークとは対照的に,既存のデータセットや合成データセットに対して,テンプレートや人間のアノテータ,あるいは大規模言語モデルを用いて質問応答ペアを生成する場合,インタラクティブなシステム駆動アプローチを提案し,検討する。
既存のEQA(Embodied Question answering)ベンチマークでよく見られる質問の形式や内容がどう違うのかを説明し、新たな現実的な課題を議論する。
論文 参考訳(メタデータ) (2024-08-30T12:41:23Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z) - A Theoretically Grounded Benchmark for Evaluating Machine Commonsense [6.725087407394836]
理論的に答えるコモンセンス推論(TG-CSR)は差別的な質問応答に基づいているが、コモンセンスの多様な側面を評価するために設計された。
TG-CSRは、ゴードンとホッブズによるコモンセンスの実行可能な理論として最初に提案されたコモンセンス圏のサブセットに基づいている。
予備的な結果は、このベンチマークが差別的なCSR質問応答タスクのために設計された高度な言語表現モデルに対してさえ挑戦的であることを示唆している。
論文 参考訳(メタデータ) (2022-03-23T04:06:01Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - What Will it Take to Fix Benchmarking in Natural Language Understanding? [30.888416756627155]
我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。
健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
論文 参考訳(メタデータ) (2021-04-05T20:36:11Z) - CBench: Towards Better Evaluation of Question Answering Over Knowledge
Graphs [3.631024220680066]
CBenchは,ベンチマークを分析し,質問応答システムを評価するための情報ベンチマークスイートである。
CBenchは、いくつかのきめ細かい言語的、構文的、および質問やクエリの構造的特性に関して、既存のベンチマークを分析するのに使うことができる。
論文 参考訳(メタデータ) (2021-04-05T15:41:14Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - A Framework for Evaluation of Machine Reading Comprehension Gold
Standards [7.6250852763032375]
本稿では,現在の言語的特徴,必要な推論,背景知識,事実的正当性を調査するための統一的な枠組みを提案する。
語彙的曖昧さに寄与する特徴の欠如、期待される回答の様々な事実的正しさ、および語彙的手がかりの存在は、いずれも、評価データの読解の複雑さと品質を低下させる可能性がある。
論文 参考訳(メタデータ) (2020-03-10T11:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。