論文の概要: Generation Challenges: Results of the Accuracy Evaluation Shared Task
- arxiv url: http://arxiv.org/abs/2108.05644v1
- Date: Thu, 12 Aug 2021 10:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:40:10.076899
- Title: Generation Challenges: Results of the Accuracy Evaluation Shared Task
- Title(参考訳): 生成課題:精度評価共有課題の結果
- Authors: Craig Thomson and Ehud Reiter
- Abstract要約: 4つのチームがこのタスクの評価手法を提出しました。
最高のパフォーマンスの応募は、この難しいタスクで励まされた。
すべての自動提出は、意味的にまたは実用的に複雑である事実的エラーを検出するのに苦労した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Shared Task on Evaluating Accuracy focused on techniques (both manual and
automatic) for evaluating the factual accuracy of texts produced by neural NLG
systems, in a sports-reporting domain. Four teams submitted evaluation
techniques for this task, using very different approaches and techniques. The
best-performing submissions did encouragingly well at this difficult task.
However, all automatic submissions struggled to detect factual errors which are
semantically or pragmatically complex (for example, based on incorrect
computation or inference).
- Abstract(参考訳): スポーツレポートドメインにおいて,ニューラルなNLGシステムによって作成されたテキストの事実的正確性を評価する技術(手動と自動の両方)に焦点を当てた評価タスク。
4つのチームが、まったく異なるアプローチとテクニックを使用して、このタスクの評価手法を提出しました。
最高のパフォーマンスの応募は、この難しいタスクで励まされた。
しかし、すべての自動提出は、意味的または実用的複雑である事実的誤り(例えば、不正な計算や推論に基づく)を検出するのに苦労した。
関連論文リスト
- Explainable Procedural Mistake Detection [27.40806437649092]
手続き的誤り検出は、人間が手元のタスクをうまく実行したかどうかを分類する難題である。
我々は PMD を質問や回答の解説的な自己ダイアログにリキャストし、決定の証拠として機能する。
これらの結果から,オープンソースVLMは,この課題に対処する一方で,精度,コヒーレンス,ダイアログの効率を大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2024-12-16T16:13:55Z) - Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Prompted Zero-Shot Multi-label Classification of Factual Incorrectness
in Machine-Generated Summaries [2.0934752540614006]
本稿では,誤りを誤表現,不正確な量または測定,偽帰属,偽帰属の4つのタイプに分類するプロンプトベース分類システムを提案する。
その結果,本手法は,分類システムの改善の余地はあるものの,要約中の誤りの種類をある程度検出できることが示唆された。
論文 参考訳(メタデータ) (2023-12-02T09:37:47Z) - Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。
TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。
副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文 参考訳(メタデータ) (2021-05-28T20:27:02Z) - Shared Task on Evaluating Accuracy in Natural Language Generation [0.190365714903665]
参加者は、バスケットボールボックススコアデータからNLGシステムによって作成されるバスケットボールゲームサマリーの精度を測定する。
生成したテキストの精度を評価するための方法論とアルゴリズムの共有タスクを提案する。
論文 参考訳(メタデータ) (2020-06-22T13:30:35Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z) - Generating Fact Checking Explanations [52.879658637466605]
まだ欠けているパズルの重要なピースは、プロセスの最も精巧な部分を自動化する方法を理解することです。
本稿では、これらの説明を利用可能なクレームコンテキストに基づいて自動生成する方法について、最初の研究を行う。
この結果から,個別に学習するのではなく,両目標を同時に最適化することで,事実確認システムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2020-04-13T05:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。