Fugu-MT 論文翻訳(概要): Generation Challenges: Results of the Accuracy Evaluation Shared Task

論文の概要: Generation Challenges: Results of the Accuracy Evaluation Shared Task

arxiv url: http://arxiv.org/abs/2108.05644v1
Date: Thu, 12 Aug 2021 10:24:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-13 14:40:10.076899
Title: Generation Challenges: Results of the Accuracy Evaluation Shared Task
Title（参考訳）: 生成課題:精度評価共有課題の結果
Authors: Craig Thomson and Ehud Reiter
Abstract要約: 4つのチームがこのタスクの評価手法を提出しました。最高のパフォーマンスの応募は、この難しいタスクで励まされた。すべての自動提出は、意味的にまたは実用的に複雑である事実的エラーを検出するのに苦労した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Shared Task on Evaluating Accuracy focused on techniques (both manual and automatic) for evaluating the factual accuracy of texts produced by neural NLG systems, in a sports-reporting domain. Four teams submitted evaluation techniques for this task, using very different approaches and techniques. The best-performing submissions did encouragingly well at this difficult task. However, all automatic submissions struggled to detect factual errors which are semantically or pragmatically complex (for example, based on incorrect computation or inference).
Abstract（参考訳）: スポーツレポートドメインにおいて,ニューラルなNLGシステムによって作成されたテキストの事実的正確性を評価する技術(手動と自動の両方)に焦点を当てた評価タスク。 4つのチームが、まったく異なるアプローチとテクニックを使用して、このタスクの評価手法を提出しました。最高のパフォーマンスの応募は、この難しいタスクで励まされた。しかし、すべての自動提出は、意味的または実用的複雑である事実的誤り(例えば、不正な計算や推論に基づく)を検出するのに苦労した。

関連論文リスト

Ratas framework: A comprehensive genai-based approach to rubric-based marking of real-world textual exams [3.4132239125074206]
RATAS(Rubric Automated Tree-based Answer Scoring)は、テキスト応答のルーリックベースのグレーディングに最先端の生成AIモデルを活用する新しいフレームワークである。 RATASは、幅広いグレーディングルーリックをサポートし、主観的評価を可能にし、割り当てられたスコアに対して構造化された説明可能な論理を生成するように設計されている。
論文参考訳（メタデータ） (2025-05-27T22:17:27Z)
Explainable Procedural Mistake Detection [27.40806437649092]
手続き的誤り検出は、人間が手元のタスクをうまく実行したかどうかを分類する難題である。我々は PMD を質問や回答の解説的な自己ダイアログにリキャストし、決定の証拠として機能する。これらの結果から,オープンソースVLMは,この課題に対処する一方で,精度,コヒーレンス,ダイアログの効率を大幅に向上できることがわかった。
論文参考訳（メタデータ） (2024-12-16T16:13:55Z)
Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文参考訳（メタデータ） (2024-11-07T22:51:47Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Prompted Zero-Shot Multi-label Classification of Factual Incorrectness in Machine-Generated Summaries [2.0934752540614006]
本稿では,誤りを誤表現,不正確な量または測定,偽帰属,偽帰属の4つのタイプに分類するプロンプトベース分類システムを提案する。その結果,本手法は,分類システムの改善の余地はあるものの,要約中の誤りの種類をある程度検出できることが示唆された。
論文参考訳（メタデータ） (2023-12-02T09:37:47Z)
nnOOD: A Framework for Benchmarking Self-supervised Anomaly Localisation Methods [4.31513157813239]
nnOOD は nnU-Net に適応し、自己教師付き異常局所化法の比較を可能にする。我々は現在の最先端タスクを実装し、それを挑戦的なX線データセットで評価する。
論文参考訳（メタデータ） (2022-09-02T15:34:02Z)
Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。 TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文参考訳（メタデータ） (2021-05-28T20:27:02Z)
Shared Task on Evaluating Accuracy in Natural Language Generation [0.190365714903665]
参加者は、バスケットボールボックススコアデータからNLGシステムによって作成されるバスケットボールゲームサマリーの精度を測定する。生成したテキストの精度を評価するための方法論とアルゴリズムの共有タスクを提案する。
論文参考訳（メタデータ） (2020-06-22T13:30:35Z)
Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文参考訳（メタデータ） (2020-06-07T09:24:33Z)
Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2020-04-13T05:23:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。