論文の概要: gec-metrics: A Unified Library for Grammatical Error Correction Evaluation
- arxiv url: http://arxiv.org/abs/2505.19388v1
- Date: Mon, 26 May 2025 01:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.088221
- Title: gec-metrics: A Unified Library for Grammatical Error Correction Evaluation
- Title(参考訳): gec-metrics:文法的誤り訂正評価のための統一ライブラリ
- Authors: Takumi Goto, Yusuke Sakai, Taro Watanabe,
- Abstract要約: gec-metricsは、文法的誤り訂正(GEC)評価メトリクスの使用と開発のためのライブラリである。
本ライブラリは,全ての人が一貫した実装を用いて評価を行うことによって,公平なシステム比較を可能にする。
私たちのコードはMITライセンスでリリースされており、インストール可能なパッケージとしても配布されています。
- 参考スコア(独自算出の注目度): 13.02513034520894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce gec-metrics, a library for using and developing grammatical error correction (GEC) evaluation metrics through a unified interface. Our library enables fair system comparisons by ensuring that everyone conducts evaluations using a consistent implementation. Moreover, it is designed with a strong focus on API usage, making it highly extensible. It also includes meta-evaluation functionalities and provides analysis and visualization scripts, contributing to developing GEC evaluation metrics. Our code is released under the MIT license and is also distributed as an installable package. The video is available on YouTube.
- Abstract(参考訳): 本稿では,文法的誤り訂正(GEC)評価指標を統一インターフェースで使用・開発するためのライブラリである gec-metrics を紹介する。
本ライブラリは,全ての人が一貫した実装を用いて評価を行うことによって,公平なシステム比較を可能にする。
さらに、APIの利用に強く焦点をあてて設計されており、非常に拡張性が高い。
また、メタ評価機能が含まれ、分析および視覚化スクリプトを提供し、GEC評価メトリクスの開発に貢献している。
私たちのコードはMITライセンスでリリースされており、インストール可能なパッケージとしても配布されています。
ビデオはYouTubeで公開されている。
関連論文リスト
- Rethinking Evaluation Metrics for Grammatical Error Correction: Why Use a Different Evaluation Process than Human? [13.02513034520894]
本稿では,人的評価手法と整合してギャップを埋める自動評価指標の集約手法を提案する。
編集ベースのメトリクス、$n$-gramベースのメトリクス、文レベルのメトリクスなど、さまざまなメトリクスを用いて実験を行い、SEEDAベンチマークのほとんどのメトリクスに対して、ギャップの解消が結果を改善することを示す。
論文 参考訳(メタデータ) (2025-02-13T15:39:07Z) - Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。
以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - MISeval: a Metric Library for Medical Image Segmentation Evaluation [1.4680035572775534]
Pythonには標準化され再現可能な評価のための普遍的なメートル法ライブラリがない。
医用画像評価のためのメトリクスライブラリMISevalを提案する。
論文 参考訳(メタデータ) (2022-01-23T23:06:47Z) - SacreROUGE: An Open-Source Library for Using and Developing
Summarization Evaluation Metrics [74.28810048824519]
SacreROUGEは、要約評価メトリクスの使用と開発のためのオープンソースライブラリである。
このライブラリは、既存の評価メトリクスの公式実装に関するPythonラッパーを提供する。
ライブラリに実装されたメトリックが、人間による注釈付き判断とどの程度の相関があるかを評価する機能を提供する。
論文 参考訳(メタデータ) (2020-07-10T13:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。