論文の概要: Generation Challenges: Results of the Accuracy Evaluation Shared Task
- arxiv url: http://arxiv.org/abs/2108.05644v1
- Date: Thu, 12 Aug 2021 10:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:40:10.076899
- Title: Generation Challenges: Results of the Accuracy Evaluation Shared Task
- Title(参考訳): 生成課題:精度評価共有課題の結果
- Authors: Craig Thomson and Ehud Reiter
- Abstract要約: 4つのチームがこのタスクの評価手法を提出しました。
最高のパフォーマンスの応募は、この難しいタスクで励まされた。
すべての自動提出は、意味的にまたは実用的に複雑である事実的エラーを検出するのに苦労した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Shared Task on Evaluating Accuracy focused on techniques (both manual and
automatic) for evaluating the factual accuracy of texts produced by neural NLG
systems, in a sports-reporting domain. Four teams submitted evaluation
techniques for this task, using very different approaches and techniques. The
best-performing submissions did encouragingly well at this difficult task.
However, all automatic submissions struggled to detect factual errors which are
semantically or pragmatically complex (for example, based on incorrect
computation or inference).
- Abstract(参考訳): スポーツレポートドメインにおいて,ニューラルなNLGシステムによって作成されたテキストの事実的正確性を評価する技術(手動と自動の両方)に焦点を当てた評価タスク。
4つのチームが、まったく異なるアプローチとテクニックを使用して、このタスクの評価手法を提出しました。
最高のパフォーマンスの応募は、この難しいタスクで励まされた。
しかし、すべての自動提出は、意味的または実用的複雑である事実的誤り(例えば、不正な計算や推論に基づく)を検出するのに苦労した。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Prompted Zero-Shot Multi-label Classification of Factual Incorrectness
in Machine-Generated Summaries [2.0934752540614006]
本稿では,誤りを誤表現,不正確な量または測定,偽帰属,偽帰属の4つのタイプに分類するプロンプトベース分類システムを提案する。
その結果,本手法は,分類システムの改善の余地はあるものの,要約中の誤りの種類をある程度検出できることが示唆された。
論文 参考訳(メタデータ) (2023-12-02T09:37:47Z) - nnOOD: A Framework for Benchmarking Self-supervised Anomaly Localisation
Methods [4.31513157813239]
nnOOD は nnU-Net に適応し、自己教師付き異常局所化法の比較を可能にする。
我々は現在の最先端タスクを実装し、それを挑戦的なX線データセットで評価する。
論文 参考訳(メタデータ) (2022-09-02T15:34:02Z) - Shared Task on Evaluating Accuracy in Natural Language Generation [0.190365714903665]
参加者は、バスケットボールボックススコアデータからNLGシステムによって作成されるバスケットボールゲームサマリーの精度を測定する。
生成したテキストの精度を評価するための方法論とアルゴリズムの共有タスクを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:30:35Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。