論文の概要: UKTA: Unified Korean Text Analyzer
- arxiv url: http://arxiv.org/abs/2502.09648v1
- Date: Tue, 11 Feb 2025 13:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 19:47:35.477894
- Title: UKTA: Unified Korean Text Analyzer
- Title(参考訳): UKTA: Unified Korean Text Analyzer
- Authors: Seokho Ahn, Junhyung Park, Ganghee Go, Chulhui Kim, Jiho Jung, Myung Sun Shin, Do-Guk Kim, Young-Duk Seo,
- Abstract要約: UKTA (Unified Korean Text Analyzer) は、韓国の総合的なテキスト分析・筆記評価システムである。
UKTAは、正確な低レベルの形態素解析、中レベルの説明可能性のための重要な語彙特徴、透明な高レベルのルーリックベースの筆記スコアを提供する。
- 参考スコア(独自算出の注目度): 7.342330109393445
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating writing quality is complex and time-consuming often delaying feedback to learners. While automated writing evaluation tools are effective for English, Korean automated writing evaluation tools face challenges due to their inability to address multi-view analysis, error propagation, and evaluation explainability. To overcome these challenges, we introduce UKTA (Unified Korean Text Analyzer), a comprehensive Korea text analysis and writing evaluation system. UKTA provides accurate low-level morpheme analysis, key lexical features for mid-level explainability, and transparent high-level rubric-based writing scores. Our approach enhances accuracy and quadratic weighted kappa over existing baseline, positioning UKTA as a leading multi-perspective tool for Korean text analysis and writing evaluation.
- Abstract(参考訳): 文章の品質を評価するのは複雑で、学習者へのフィードバックを遅らせるのに時間がかかります。
自動筆記評価ツールは英語に有効であるが,多視点解析,エラー伝搬,評価説明性に対処できないため,韓国の自動筆記評価ツールは課題に直面している。
これらの課題を克服するために,大韓民国における総合的なテキスト分析・筆記評価システムであるUKTA(Unified Korean Text Analyzer)を導入する。
UKTAは、正確な低レベルの形態素解析、中レベルの説明可能性のための重要な語彙特徴、透明な高レベルのルーリックベースの筆記スコアを提供する。
提案手法は,既存のベースライン上での精度と2次重み付けカッパを向上し,韓国のテキスト分析と筆記評価において,UKTAを先導する多視点ツールとして位置づける。
関連論文リスト
- Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models [44.159383734605456]
異文化間コミュニケーションにおけるメニュー翻訳の重要な役割を強調する特化評価フレームワークを提案する。
MOTBenchは、それぞれの料理を正確に認識し翻訳するLVLMと、その価格とメニュー上のユニットアイテム、そして正確な人間のアノテーションを必要とする。
我々のベンチマークは中国語と英語のメニューのコレクションで構成されており、複雑なレイアウト、さまざまなフォント、さまざまな言語にまたがる文化的に特定の要素、そして正確な人間のアノテーションが特徴である。
論文 参考訳(メタデータ) (2025-04-16T03:08:57Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - LLM-as-a-Judge & Reward Model: What They Can and Cannot Do [2.2469442203227863]
自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。
英語の評価能力は言語固有の評価能力に大きく影響し,英語で訓練された評価者が他の言語に容易にスキルを伝達できることがわかった。
我々は、現在最先端の評価者が、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。
論文 参考訳(メタデータ) (2024-09-17T14:40:02Z) - Can Language Models Evaluate Human Written Text? Case Study on Korean Student Writing for Education [1.6340559025561785]
大規模言語モデル(LLM)に基づく評価パイプラインは、機械生成テキストを堅牢に評価する能力を示した。
LLMが教育目的のために人文テキストを効果的に評価できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-07-24T06:02:57Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Neural Automated Writing Evaluation with Corrective Feedback [4.0230668961961085]
本稿では,修正フィードバックを用いた自動筆記評価システムを提案する。
このシステムにより、言語学習者はエッセイの執筆テストをシミュレートできる。
また、無数のエッセイを手作業で修正することの負担を軽減する。
論文 参考訳(メタデータ) (2024-02-27T15:42:33Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - LXPER Index: a curriculum-specific text readability assessment model for
EFL students in Korea [0.5076419064097734]
LXPER Index(LXPER Index)は、韓国のELTカリキュラムにおける非ネイティブ英語読者の可読性評価モデルである。
韓国のELTカリキュラムにおけるテキストの自動可読性評価の精度を大幅に向上させる。
論文 参考訳(メタデータ) (2020-08-01T11:55:03Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。