論文の概要: DETECT: Determining Ease and Textual Clarity of German Text Simplifications
- arxiv url: http://arxiv.org/abs/2510.22212v1
- Date: Sat, 25 Oct 2025 08:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.917338
- Title: DETECT: Determining Ease and Textual Clarity of German Text Simplifications
- Title(参考訳): DETECT:ドイツ語テキストの簡易化における意味とテキストの明瞭度の決定
- Authors: Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao,
- Abstract要約: DETECTは、3次元の単純さ、すなわち保存性、および流布性でATSの品質を均等に評価する最初のドイツ固有の計量である。
テキストの簡易化のために,ドイツ最大の人体評価データセットを構築し,我々の測定値を直接検証する。
- 参考スコア(独自算出の注目度): 4.005744004522348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluation of German automatic text simplification (ATS) relies on general-purpose metrics such as SARI, BLEU, and BERTScore, which insufficiently capture simplification quality in terms of simplicity, meaning preservation, and fluency. While specialized metrics like LENS have been developed for English, corresponding efforts for German have lagged behind due to the absence of human-annotated corpora. To close this gap, we introduce DETECT, the first German-specific metric that holistically evaluates ATS quality across all three dimensions of simplicity, meaning preservation, and fluency, and is trained entirely on synthetic large language model (LLM) responses. Our approach adapts the LENS framework to German and extends it with (i) a pipeline for generating synthetic quality scores via LLMs, enabling dataset creation without human annotation, and (ii) an LLM-based refinement step for aligning grading criteria with simplification requirements. To the best of our knowledge, we also construct the largest German human evaluation dataset for text simplification to validate our metric directly. Experimental results show that DETECT achieves substantially higher correlations with human judgments than widely used ATS metrics, with particularly strong gains in meaning preservation and fluency. Beyond ATS, our findings highlight both the potential and the limitations of LLMs for automatic evaluation and provide transferable guidelines for general language accessibility tasks.
- Abstract(参考訳): 現在のATSの評価は、SARI、BLEU、BERTScoreといった汎用的なメトリクスに依存しており、単純さ、保存性、流布度の観点からは、単純化の質を十分に把握していない。
LENSのような専門的なメトリクスは英語で開発されているが、人間に注釈付けされたコーパスがないため、ドイツ語の取り組みは遅れている。
このギャップを埋めるために、DETECTは、単純さ、保存性、流速の3つの次元にまたがってATSの品質を水平に評価し、合成大言語モデル(LLM)の応答で完全に訓練する最初のドイツ固有のメトリクスである。
我々のアプローチはLENSフレームワークをドイツ語に適応させ、拡張します。
i) LLMを通して合成品質スコアを生成するパイプラインであって、人間のアノテーションを使わずにデータセットの作成を可能にするもので、
(II) グレーティング基準と簡易化要件を整合させるLLMベースの精錬工程。
我々の知識を最大限に活用するために、我々のメートル法を直接検証するために、テキストの単純化のためのドイツ最大の人体評価データセットを構築した。
実験結果から,DeTECTは広く使用されているATS測定値よりも人的判断との相関が有意に高く,特に保存率や流布率が高いことが示唆された。
ATS以外にも、自動評価のためのLSMの可能性と限界、および汎用言語アクセシビリティータスクのための転送可能なガイドラインが注目されている。
関連論文リスト
- Inclusive Easy-to-Read Generation for Individuals with Cognitive Impairments [2.1481398044731574]
ETR-fr は欧州の ETR ガイドラインに準拠した ETR テキスト生成のための最初のデータセットである。
本研究では, PLM と LLM をパラメータ効率よく微調整することで, 生成ベースラインの確立を図る。
その結果、PLMはLLMと互換性があり、ドメイン外のテキストに効果的に適応できることがわかった。
論文 参考訳(メタデータ) (2025-10-01T09:13:18Z) - CATER: Leveraging LLM to Pioneer a Multidimensional, Reference-Independent Paradigm in Translation Quality Evaluation [0.0]
Comprehensive AI-assisted Translation Edit Ratio (CATER)は、機械翻訳(MT)の品質を評価するための新しいフレームワークである。
大きな言語モデル(LLM)は、慎重に設計されたプロンプトベースのプロトコルによって使用される。
論文 参考訳(メタデータ) (2024-12-15T17:45:34Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Improving Translation Faithfulness of Large Language Models via
Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。
SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。
OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文 参考訳(メタデータ) (2023-08-24T09:32:29Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。