論文の概要: Proficiency Matters Quality Estimation in Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2201.06199v1
- Date: Mon, 17 Jan 2022 03:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 08:22:08.527236
- Title: Proficiency Matters Quality Estimation in Grammatical Error Correction
- Title(参考訳): 文法的誤り訂正における品質評価の精度
- Authors: Yujin Takahashi, Masahiro Kaneko, Masato Mita, Mamoru Komachi
- Abstract要約: 本研究では, 文法的誤り訂正(GEC)の教師付き品質推定(QE)モデルが, 学習者の習熟度に与える影響について検討した。
- 参考スコア(独自算出の注目度): 30.31557952622774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates how supervised quality estimation (QE) models of
grammatical error correction (GEC) are affected by the learners' proficiency
with the data. QE models for GEC evaluations in prior work have obtained a high
correlation with manual evaluations. However, when functioning in a real-world
context, the data used for the reported results have limitations because prior
works were biased toward data by learners with relatively high proficiency
levels. To address this issue, we created a QE dataset that includes multiple
proficiency levels and explored the necessity of performing proficiency-wise
evaluation for QE of GEC. Our experiments demonstrated that differences in
evaluation dataset proficiency affect the performance of QE models, and
proficiency-wise evaluation helps create more robust models.
- Abstract(参考訳): 本研究では, 文法的誤り訂正(GEC)の教師付き品質推定(QE)モデルが, 学習者の習熟度に与える影響について検討した。
GEC評価のQEモデルは,手作業による評価と高い相関関係が得られた。
しかし,実世界の文脈で機能する場合,従来の研究は比較的熟練度の高い学習者によってデータに偏りがあったため,報告結果に使用されるデータには限界がある。
この問題に対処するために、複数の熟練度レベルを含むQEデータセットを作成し、ECのQEの熟練度評価を行う必要性について検討した。
実験により,評価データセットの習熟度の違いがQEモデルの性能に影響を及ぼし,習熟度評価がより堅牢なモデル作成に役立つことが示された。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Image Quality Assessment: Integrating Model-Centric and Data-Centric
Approaches [20.931709027443706]
画像品質評価(IQA)は過去10年間で著しく進歩している。
ほぼ全員が、モデルとデータという2つの重要なコンポーネントを独立して考えています。
論文 参考訳(メタデータ) (2022-07-29T16:23:57Z) - Construction of a Quality Estimation Dataset for Automatic Evaluation of
Japanese Grammatical Error Correction [21.668187919351496]
文法的誤り訂正(GEC)において,自動評価はGECシステムの研究・開発において重要な要素である。
本研究では,日本語GECの自動評価モデルを構築するために,手作業による評価を伴う品質評価データセットを作成した。
論文 参考訳(メタデータ) (2022-01-20T08:07:42Z) - Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation [25.325624543852086]
本稿では,機械翻訳(MT)システムにおける品質推定の逆検定法を提案する。
近年のSOTAによる人的判断と高い相関があるにもかかわらず、ある種の意味エラーはQEが検出する上で問題である。
第二に、平均的に、あるモデルが意味保存と意味調整の摂動を区別する能力は、その全体的な性能を予測できることが示される。
論文 参考訳(メタデータ) (2021-09-22T17:32:18Z) - Classification-based Quality Estimation: Small and Efficient Models for
Real-world Applications [29.380675447523817]
機械翻訳の文レベル品質評価(QE)は、伝統的に回帰タスクとして定式化されている。
近年のQEモデルでは, 人的判断と既往の相関が達成されている。
我々はQEのモデル圧縮技術を評価し、他のNLPタスクで人気があるにもかかわらず、この回帰環境では性能が劣っていることを発見した。
論文 参考訳(メタデータ) (2021-09-17T16:14:52Z) - Neural Quality Estimation with Multiple Hypotheses for Grammatical Error
Correction [98.31440090585376]
文法的誤り訂正(GEC)は、誤りの訂正と言語学習者の書き方の改善を支援することを目的としている。
既存のGECモデルは、激しい修正や多くのエラーの検出に失敗する傾向があります。
本稿では,複数の仮説を用いたGEC品質評価のためのニューラル検証ネットワーク(VERNet)を提案する。
論文 参考訳(メタデータ) (2021-05-10T15:04:25Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。