論文の概要: UKTA: Unified Korean Text Analyzer
- arxiv url: http://arxiv.org/abs/2502.09648v1
- Date: Tue, 11 Feb 2025 13:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:58.084279
- Title: UKTA: Unified Korean Text Analyzer
- Title(参考訳): UKTA: Unified Korean Text Analyzer
- Authors: Seokho Ahn, Junhyung Park, Ganghee Go, Chulhui Kim, Jiho Jung, Myung Sun Shin, Do-Guk Kim, Young-Duk Seo,
- Abstract要約: UKTA (Unified Korean Text Analyzer) は、韓国の総合的なテキスト分析・筆記評価システムである。
UKTAは、正確な低レベルの形態素解析、中レベルの説明可能性のための重要な語彙特徴、透明な高レベルのルーリックベースの筆記スコアを提供する。
- 参考スコア(独自算出の注目度): 7.342330109393445
- License:
- Abstract: Evaluating writing quality is complex and time-consuming often delaying feedback to learners. While automated writing evaluation tools are effective for English, Korean automated writing evaluation tools face challenges due to their inability to address multi-view analysis, error propagation, and evaluation explainability. To overcome these challenges, we introduce UKTA (Unified Korean Text Analyzer), a comprehensive Korea text analysis and writing evaluation system. UKTA provides accurate low-level morpheme analysis, key lexical features for mid-level explainability, and transparent high-level rubric-based writing scores. Our approach enhances accuracy and quadratic weighted kappa over existing baseline, positioning UKTA as a leading multi-perspective tool for Korean text analysis and writing evaluation.
- Abstract(参考訳): 文章の品質を評価するのは複雑で、学習者へのフィードバックを遅らせるのに時間がかかります。
自動筆記評価ツールは英語に有効であるが,多視点解析,エラー伝搬,評価説明性に対処できないため,韓国の自動筆記評価ツールは課題に直面している。
これらの課題を克服するために,大韓民国における総合的なテキスト分析・筆記評価システムであるUKTA(Unified Korean Text Analyzer)を導入する。
UKTAは、正確な低レベルの形態素解析、中レベルの説明可能性のための重要な語彙特徴、透明な高レベルのルーリックベースの筆記スコアを提供する。
提案手法は,既存のベースライン上での精度と2次重み付けカッパを向上し,韓国のテキスト分析と筆記評価において,UKTAを先導する多視点ツールとして位置づける。
関連論文リスト
- signwriting-evaluation: Effective Sign Language Evaluation via SignWriting [3.484261625026626]
本稿では,SignWritingに特化して設計された評価指標を総合的に紹介する。
シングルサインの評価と継続的署名の課題に対処する。
以上の結果から,各指標の長所と短所が明らかとなり,今後の進歩に有意義な洞察が得られた。
論文 参考訳(メタデータ) (2024-10-17T15:28:45Z) - LLM-as-a-Judge & Reward Model: What They Can and Cannot Do [2.2469442203227863]
自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。
英語の評価能力は言語固有の評価能力に大きく影響し,英語で訓練された評価者が他の言語に容易にスキルを伝達できることがわかった。
我々は、現在最先端の評価者が、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。
論文 参考訳(メタデータ) (2024-09-17T14:40:02Z) - Can Language Models Evaluate Human Written Text? Case Study on Korean Student Writing for Education [1.6340559025561785]
大規模言語モデル(LLM)に基づく評価パイプラインは、機械生成テキストを堅牢に評価する能力を示した。
LLMが教育目的のために人文テキストを効果的に評価できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-07-24T06:02:57Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Neural Automated Writing Evaluation with Corrective Feedback [4.0230668961961085]
本稿では,修正フィードバックを用いた自動筆記評価システムを提案する。
このシステムにより、言語学習者はエッセイの執筆テストをシミュレートできる。
また、無数のエッセイを手作業で修正することの負担を軽減する。
論文 参考訳(メタデータ) (2024-02-27T15:42:33Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - LXPER Index: a curriculum-specific text readability assessment model for
EFL students in Korea [0.5076419064097734]
LXPER Index(LXPER Index)は、韓国のELTカリキュラムにおける非ネイティブ英語読者の可読性評価モデルである。
韓国のELTカリキュラムにおけるテキストの自動可読性評価の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-08-01T11:55:03Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。