Fugu-MT 論文翻訳(概要): Proficiency Matters Quality Estimation in Grammatical Error Correction

論文の概要: Proficiency Matters Quality Estimation in Grammatical Error Correction

arxiv url: http://arxiv.org/abs/2201.06199v1
Date: Mon, 17 Jan 2022 03:47:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-21 08:22:08.527236
Title: Proficiency Matters Quality Estimation in Grammatical Error Correction
Title（参考訳）: 文法的誤り訂正における品質評価の精度
Authors: Yujin Takahashi, Masahiro Kaneko, Masato Mita, Mamoru Komachi
Abstract要約: 本研究では, 文法的誤り訂正(GEC)の教師付き品質推定(QE)モデルが, 学習者の習熟度に与える影響について検討した。
参考スコア（独自算出の注目度）: 30.31557952622774
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study investigates how supervised quality estimation (QE) models of grammatical error correction (GEC) are affected by the learners' proficiency with the data. QE models for GEC evaluations in prior work have obtained a high correlation with manual evaluations. However, when functioning in a real-world context, the data used for the reported results have limitations because prior works were biased toward data by learners with relatively high proficiency levels. To address this issue, we created a QE dataset that includes multiple proficiency levels and explored the necessity of performing proficiency-wise evaluation for QE of GEC. Our experiments demonstrated that differences in evaluation dataset proficiency affect the performance of QE models, and proficiency-wise evaluation helps create more robust models.
Abstract（参考訳）: 本研究では, 文法的誤り訂正(GEC)の教師付き品質推定(QE)モデルが, 学習者の習熟度に与える影響について検討した。 GEC評価のQEモデルは,手作業による評価と高い相関関係が得られた。しかし,実世界の文脈で機能する場合,従来の研究は比較的熟練度の高い学習者によってデータに偏りがあったため,報告結果に使用されるデータには限界がある。この問題に対処するために、複数の熟練度レベルを含むQEデータセットを作成し、ECのQEの熟練度評価を行う必要性について検討した。実験により,評価データセットの習熟度の違いがQEモデルの性能に影響を及ぼし,習熟度評価がより堅牢なモデル作成に役立つことが示された。

関連論文リスト

CritiQ: Mining Data Quality Criteria from Human Preferences [70.35346554179036]
人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。 CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。コード,数学,論理領域において,本手法の有効性を実証する。
論文参考訳（メタデータ） (2025-02-26T16:33:41Z)
DSGram: Dynamic Weighting Sub-Metrics for Grammatical Error Correction in the Era of Large Language Models [39.493913608472404]
大規模言語モデル(LLM)に基づく文法的誤り訂正(GEC)モデルは、提供された金の参照から分岐する修正を生成することが多い。この不一致は、従来の基準ベースの評価指標の信頼性を損なう。本稿では,GECモデル,DSGram,Semantic Coherence,Edit Level,Fluencyを統合し,動的重み付け機構を活用する新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-17T11:54:16Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文参考訳（メタデータ） (2024-01-23T16:07:43Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Image Quality Assessment: Integrating Model-Centric and Data-Centric Approaches [20.931709027443706]
画像品質評価(IQA)は過去10年間で著しく進歩している。ほぼ全員が、モデルとデータという2つの重要なコンポーネントを独立して考えています。
論文参考訳（メタデータ） (2022-07-29T16:23:57Z)
Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction [21.668187919351496]
文法的誤り訂正(GEC)において,自動評価はGECシステムの研究・開発において重要な要素である。本研究では,日本語GECの自動評価モデルを構築するために,手作業による評価を伴う品質評価データセットを作成した。
論文参考訳（メタデータ） (2022-01-20T08:07:42Z)
Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation [25.325624543852086]
本稿では,機械翻訳(MT)システムにおける品質推定の逆検定法を提案する。近年のSOTAによる人的判断と高い相関があるにもかかわらず、ある種の意味エラーはQEが検出する上で問題である。第二に、平均的に、あるモデルが意味保存と意味調整の摂動を区別する能力は、その全体的な性能を予測できることが示される。
論文参考訳（メタデータ） (2021-09-22T17:32:18Z)
Classification-based Quality Estimation: Small and Efficient Models for Real-world Applications [29.380675447523817]
機械翻訳の文レベル品質評価(QE)は、伝統的に回帰タスクとして定式化されている。近年のQEモデルでは, 人的判断と既往の相関が達成されている。我々はQEのモデル圧縮技術を評価し、他のNLPタスクで人気があるにもかかわらず、この回帰環境では性能が劣っていることを発見した。
論文参考訳（メタデータ） (2021-09-17T16:14:52Z)
Neural Quality Estimation with Multiple Hypotheses for Grammatical Error Correction [98.31440090585376]
文法的誤り訂正(GEC)は、誤りの訂正と言語学習者の書き方の改善を支援することを目的としている。既存のGECモデルは、激しい修正や多くのエラーの検出に失敗する傾向があります。本稿では,複数の仮説を用いたGEC品質評価のためのニューラル検証ネットワーク(VERNet)を提案する。
論文参考訳（メタデータ） (2021-05-10T15:04:25Z)
A Self-Refinement Strategy for Noise Reduction in Grammatical Error Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文参考訳（メタデータ） (2020-10-07T04:45:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。