論文の概要: EXCGEC: A Benchmark of Edit-wise Explainable Chinese Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2407.00924v1
- Date: Mon, 1 Jul 2024 03:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:55:54.642138
- Title: EXCGEC: A Benchmark of Edit-wise Explainable Chinese Grammatical Error Correction
- Title(参考訳): ExCGEC:中国語の文法的誤り訂正を編集するベンチマーク
- Authors: Jingheng Ye, Shang Qin, Yinghui Li, Xuxin Cheng, Libo Qin, Hai-Tao Zheng, Peng Xing, Zishan Xu, Guo Cheng, Zhao Wei,
- Abstract要約: 本稿では,修正作業と説明作業の一体的な役割に着目したExplainable GEC(EXGEC)の課題を紹介する。
提案するEXCGECは,8,216個の説明増補サンプルからなる中国語EXGECの適合ベンチマークである。
- 参考スコア(独自算出の注目度): 21.869368698234247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing studies explore the explainability of Grammatical Error Correction (GEC) in a limited scenario, where they ignore the interaction between corrections and explanations. To bridge the gap, this paper introduces the task of EXplainable GEC (EXGEC), which focuses on the integral role of both correction and explanation tasks. To facilitate the task, we propose EXCGEC, a tailored benchmark for Chinese EXGEC consisting of 8,216 explanation-augmented samples featuring the design of hybrid edit-wise explanations. We benchmark several series of LLMs in multiple settings, covering post-explaining and pre-explaining. To promote the development of the task, we introduce a comprehensive suite of automatic metrics and conduct human evaluation experiments to demonstrate the human consistency of the automatic metrics for free-text explanations. All the codes and data will be released after the review.
- Abstract(参考訳): 既存の研究では、文法的誤り訂正(GEC)の限られたシナリオにおける説明可能性について検討しており、修正と説明の間の相互作用を無視している。
本稿では,このギャップを埋めるために,修正タスクと説明タスクの両立に焦点をあてたEXGEC(Explainable GEC)の課題を紹介する。
そこで本研究では,8,216個の説明拡張サンプルからなる中国語EXGECの最適化されたベンチマークであるEXCGECを提案する。
複数の LLM を複数の設定でベンチマークし、説明後および説明前を網羅する。
タスクの開発を促進するために,自動メトリクスの包括的スイートを導入し,人間の評価実験を行い,自由文説明のための自動メトリクスの人間の一貫性を実証する。
すべてのコードとデータは、レビュー後にリリースされる。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Improving Explainability of Sentence-level Metrics via Edit-level Attribution for Grammatical Error Correction [11.512856112792093]
本稿では,個々の編集に文レベルスコアを寄与させ,特定の修正が全体のパフォーマンスにどのように貢献するかを考察する。
既存の文レベルのメトリクスを用いた実験は、異なる編集粒度間で高い一貫性を示し、人間の評価と約70%の一致を示す。
さらに、帰属結果に基づいてメトリクスのバイアスを分析し、正書法編集を無視する傾向などの傾向を明らかにする。
論文 参考訳(メタデータ) (2024-12-17T17:31:17Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Retrieved In-Context Principles from Previous Mistakes [55.109234526031884]
In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。
近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。
本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
論文 参考訳(メタデータ) (2024-07-08T07:32:26Z) - Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Guideline Learning for In-context Information Extraction [29.062173997909028]
インコンテキスト情報抽出(IE)は近年,研究コミュニティで注目を集めている。
この欠点の主な理由として,未特定なタスク記述を挙げる。
In-context IEのためのガイドライン学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-08T08:25:16Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。