論文の概要: MTQ-Eval: Multilingual Text Quality Evaluation for Language Models
- arxiv url: http://arxiv.org/abs/2511.09374v1
- Date: Thu, 13 Nov 2025 01:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.540152
- Title: MTQ-Eval: Multilingual Text Quality Evaluation for Language Models
- Title(参考訳): MTQ-Eval:言語モデルの多言語テキスト品質評価
- Authors: Rhitabrat Pokharel, Ameeta Agrawal,
- Abstract要約: MTQ-Evalは多言語テキスト品質評価のための新しいフレームワークである。
高品質テキストと低品質テキストの両方の例から学び、内部表現を調整する。
115言語にわたる包括的評価は,提案モデルの性能向上を示す。
- 参考スコア(独自算出の注目度): 4.239775815863115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of large language models (LLMs) for evaluating outputs is becoming an increasingly effective and scalable approach. However, it remains uncertain whether this capability extends beyond task-specific evaluations to more general assessments of text quality, particularly in multilingual contexts. In this study, we introduce, MTQ-Eval, a novel framework for multilingual text quality evaluation that learns from examples of both high- and low-quality texts, adjusting its internal representations. To develop MTQ-Eval, we first automatically generate text quality preference data and then use it to train open-source base LLMs to align with ratings of high- and low-quality text. Our comprehensive evaluation across 115 languages demonstrates the improved performance of the proposed model. Upon further analysis, we find that this enhanced evaluation capability also leads to notable improvements in downstream tasks.
- Abstract(参考訳): アウトプット評価における大規模言語モデル(LLM)の利用は、ますます効果的でスケーラブルなアプローチになりつつある。
しかし、この能力がタスク固有の評価を超えて、特に多言語文脈におけるテキスト品質のより一般的な評価にまで及んでいるかどうかは不明だ。
本研究では,多言語テキスト品質評価のための新しいフレームワークMTQ-Evalについて紹介する。
MTQ-Evalを開発するために、まずテキスト品質選好データを自動的に生成し、それをオープンソースベースLLMのトレーニングに使用し、高品質テキストと低品質テキストのレーティングに適合させる。
115言語にわたる包括的評価は,提案モデルの性能向上を示す。
さらなる分析の結果,この評価能力の強化は下流タスクの顕著な改善につながることが判明した。
関連論文リスト
- PerQ: Efficient Evaluation of Multilingual Text Personalization Quality [3.0156689030741]
個人化の品質など、テキストの特定の側面を評価するためのメトリクスは存在しないため、研究者はしばしばそのようなテキストをメタ評価するために、大きな言語モデルにのみ依存する。
本稿では、与えられたテキスト(言語モデルによって生成される)のパーソナライズ品質を評価するための計算効率の良い手法、PerQを紹介した。
論文 参考訳(メタデータ) (2025-09-30T07:48:14Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Translation Quality Assessment: A Brief Survey on Manual and Automatic
Methods [9.210509295803243]
手動判定基準と自動評価指標の両方を含む、翻訳品質評価(TQA)手法のハイレベルで簡潔な調査を紹介します。
翻訳モデル研究者と品質評価研究者の両方にとって、この研究が資産になることを願っています。
論文 参考訳(メタデータ) (2021-05-05T18:28:10Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。