論文の概要: EXCGEC: A Benchmark for Edit-Wise Explainable Chinese Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2407.00924v2
- Date: Mon, 17 Feb 2025 02:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:05:27.921021
- Title: EXCGEC: A Benchmark for Edit-Wise Explainable Chinese Grammatical Error Correction
- Title(参考訳): ExCGEC: 説明可能な中国語文法の誤り訂正のためのベンチマーク
- Authors: Jingheng Ye, Shang Qin, Yinghui Li, Xuxin Cheng, Libo Qin, Hai-Tao Zheng, Ying Shen, Peng Xing, Zishan Xu, Guo Cheng, Wenhao Jiang,
- Abstract要約: 本稿では,修正作業と説明作業の統合的な役割に着目したExplainable GEC(EXGEC)の課題を紹介する。
この作業を容易にするために,8,216個の説明付きサンプルからなる中国語EXGECの調整されたベンチマークであるEXCGECを提案する。
次に、マルチタスク学習環境において、後説明や事前説明を含む複数のLLMをベンチマークする。
- 参考スコア(独自算出の注目度): 32.40235258594858
- License:
- Abstract: Existing studies explore the explainability of Grammatical Error Correction (GEC) in a limited scenario, where they ignore the interaction between corrections and explanations and have not established a corresponding comprehensive benchmark. To bridge the gap, this paper first introduces the task of EXplainable GEC (EXGEC), which focuses on the integral role of correction and explanation tasks. To facilitate the task, we propose EXCGEC, a tailored benchmark for Chinese EXGEC consisting of 8,216 explanation-augmented samples featuring the design of hybrid edit-wise explanations. We then benchmark several series of LLMs in multi-task learning settings, including post-explaining and pre-explaining. To promote the development of the task, we also build a comprehensive evaluation suite by leveraging existing automatic metrics and conducting human evaluation experiments to demonstrate the human consistency of the automatic metrics for free-text explanations. Our experiments reveal the effectiveness of evaluating free-text explanations using traditional metrics like METEOR and ROUGE, and the inferior performance of multi-task models compared to the pipeline solution, indicating its challenges to establish positive effects in learning both tasks.
- Abstract(参考訳): 既存の研究では、文法的誤り訂正(GEC)の限られたシナリオにおける説明可能性について検討しており、修正と説明の相互作用を無視し、対応する包括的なベンチマークを確立していない。
このギャップを埋めるために,本稿ではまず,修正タスクと説明タスクの統合的な役割に着目したEXGEC(Explainable GEC)タスクを紹介する。
そこで本研究では,8,216個の説明拡張サンプルからなる中国語EXGECの最適化されたベンチマークであるEXCGECを提案する。
次に、マルチタスク学習環境において、後説明や事前説明を含む複数のLLMをベンチマークする。
タスクの開発を促進するために,既存の自動メトリクスを活用し,人間の評価実験を行い,自由テキスト説明のための自動メトリクスの人間的一貫性を実証し,総合的な評価スイートを構築する。
実験の結果,METEORやROUGEといった従来の指標を用いた自由文説明の有効性と,パイプラインソリューションと比較してマルチタスクモデルの性能が劣ることが明らかとなった。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Improving Explainability of Sentence-level Metrics via Edit-level Attribution for Grammatical Error Correction [11.512856112792093]
本稿では,個々の編集に文レベルスコアを寄与させ,特定の修正が全体のパフォーマンスにどのように貢献するかを考察する。
既存の文レベルのメトリクスを用いた実験は、異なる編集粒度間で高い一貫性を示し、人間の評価と約70%の一致を示す。
さらに、帰属結果に基づいてメトリクスのバイアスを分析し、正書法編集を無視する傾向などの傾向を明らかにする。
論文 参考訳(メタデータ) (2024-12-17T17:31:17Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Retrieved In-Context Principles from Previous Mistakes [55.109234526031884]
In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。
近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。
本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
論文 参考訳(メタデータ) (2024-07-08T07:32:26Z) - Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Guideline Learning for In-context Information Extraction [29.062173997909028]
インコンテキスト情報抽出(IE)は近年,研究コミュニティで注目を集めている。
この欠点の主な理由として,未特定なタスク記述を挙げる。
In-context IEのためのガイドライン学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-08T08:25:16Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。