論文の概要: Construction of a Quality Estimation Dataset for Automatic Evaluation of
Japanese Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2201.08038v1
- Date: Thu, 20 Jan 2022 08:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 23:13:03.593007
- Title: Construction of a Quality Estimation Dataset for Automatic Evaluation of
Japanese Grammatical Error Correction
- Title(参考訳): 日本語文法誤り訂正の自動評価のための品質推定データセットの構築
- Authors: Daisuke Suzuki, Yujin Takahashi, Ikumi Yamashita, Taichi Aida, Tosho
Hirasawa, Michitaka Nakatsuji, Masato Mita, Mamoru Komachi
- Abstract要約: 文法的誤り訂正(GEC)において,自動評価はGECシステムの研究・開発において重要な要素である。
本研究では,日本語GECの自動評価モデルを構築するために,手作業による評価を伴う品質評価データセットを作成した。
- 参考スコア(独自算出の注目度): 21.668187919351496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In grammatical error correction (GEC), automatic evaluation is an important
factor for research and development of GEC systems. Previous studies on
automatic evaluation have demonstrated that quality estimation models built
from datasets with manual evaluation can achieve high performance in automatic
evaluation of English GEC without using reference sentences.. However, quality
estimation models have not yet been studied in Japanese, because there are no
datasets for constructing quality estimation models. Therefore, in this study,
we created a quality estimation dataset with manual evaluation to build an
automatic evaluation model for Japanese GEC. Moreover, we conducted a
meta-evaluation to verify the dataset's usefulness in building the Japanese
quality estimation model.
- Abstract(参考訳): 文法的誤り訂正(GEC)において,自動評価はGECシステムの研究開発において重要な要素である。
従来,手動評価によるデータセットから構築した品質評価モデルは,参照文を使わずに英語GECの自動評価において高い性能が得られることが実証されてきた。
.
しかし、品質推定モデルを構築するためのデータセットがないため、日本語での品質推定モデルはまだ研究されていない。
そこで本研究では,手作業による評価を用いた品質評価データセットを作成し,日本語GECの自動評価モデルを構築した。
さらに,日本語品質評価モデルの構築におけるデータセットの有用性を検証するメタ評価を行った。
関連論文リスト
- Quality Estimation with $k$-nearest Neighbors and Automatic Evaluation for Model-specific Quality Estimation [14.405862891194344]
我々は, MTモデルのトレーニングデータから, $k$-nearest 隣人を用いて情報を抽出する,$k$NN-QE と呼ばれるモデル固有で教師なしQE手法を提案する。
モデル固有のQEのパフォーマンスの測定は、MT出力の品質スコアを提供するため、簡単ではない。
そこで本研究では,人為的な基準値ではなく,基準基準値からの品質スコアをゴールドスタンダードとして活用する自動評価手法を提案する。
論文 参考訳(メタデータ) (2024-04-27T23:52:51Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - On the Evaluation and Refinement of Vision-Language Instruction Tuning
Datasets [71.54954966652286]
VLIT(Vision-Language Instruction-Tuning)データセットの評価を試みる。
各データセットから高いSQのサンプルを収集し,新しいデータセットREVO-LIONを構築した。
注目すべきは、完全なデータの半分でなくても、REVO-LIONでトレーニングされたモデルは、単にすべてのVLITデータセットを追加するのに匹敵するパフォーマンスを達成することができることだ。
論文 参考訳(メタデータ) (2023-10-10T13:01:38Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Proficiency Matters Quality Estimation in Grammatical Error Correction [30.31557952622774]
本研究では, 文法的誤り訂正(GEC)の教師付き品質推定(QE)モデルが, 学習者の習熟度に与える影響について検討した。
論文 参考訳(メタデータ) (2022-01-17T03:47:19Z) - Quality Estimation without Human-labeled Data [25.25993509174361]
品質評価は、参照翻訳にアクセスすることなく、翻訳されたコンテンツの質を測定することを目的としている。
本稿では,人間アノテーションの例に頼らず,合成学習データを用いた手法を提案する。
合成データの品質評価を教師するオフ・ザ・シェルフアーキテクチャをトレーニングし、結果として得られたモデルが、人間の注釈付きデータに基づいてトレーニングされたモデルに匹敵する性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-02-08T06:25:46Z) - Data Quality Evaluation using Probability Models [0.0]
以上の結果から, 単純な善/悪の学習例に基づいて, データの質を予測する能力は正確であることが示唆された。
論文 参考訳(メタデータ) (2020-09-14T18:12:19Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。