論文の概要: Non-Linear Scoring Model for Translation Quality Evaluation
- arxiv url: http://arxiv.org/abs/2511.13467v1
- Date: Mon, 17 Nov 2025 15:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.321115
- Title: Non-Linear Scoring Model for Translation Quality Evaluation
- Title(参考訳): 翻訳品質評価のための非線形スコアモデル
- Authors: Serge Gladkoff, Lifeng Han, Katerina Gasova,
- Abstract要約: 分析翻訳品質評価(TQE)は、伝統的に1000-2000ワードの基準サンプルに校正された線形エラー対ペナルティ尺度を用いている。
本稿では, コンテンツ利用者が様々な長さのサンプルの翻訳品質をどう認識するかを反映した, 校正・非線形スコアリングモデルを提案する。
- 参考スコア(独自算出の注目度): 3.7305040207339286
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Analytic Translation Quality Evaluation (TQE), based on Multidimensional Quality Metrics (MQM), traditionally uses a linear error-to-penalty scale calibrated to a reference sample of 1000-2000 words. However, linear extrapolation biases judgment on samples of different sizes, over-penalizing short samples and under-penalizing long ones, producing misalignment with expert intuition. Building on the Multi-Range framework, this paper presents a calibrated, non-linear scoring model that better reflects how human content consumers perceive translation quality across samples of varying length. Empirical data from three large-scale enterprise environments shows that acceptable error counts grow logarithmically, not linearly, with sample size. Psychophysical and cognitive evidence, including the Weber-Fechner law and Cognitive Load Theory, supports this premise by explaining why the perceptual impact of additional errors diminishes while the cognitive burden grows with scale. We propose a two-parameter model E(x) = a * ln(1 + b * x), a, b > 0, anchored to a reference tolerance and calibrated from two tolerance points using a one-dimensional root-finding step. The model yields an explicit interval within which the linear approximation stays within +/-20 percent relative error and integrates into existing evaluation workflows with only a dynamic tolerance function added. The approach improves interpretability, fairness, and inter-rater reliability across both human and AI-generated translations. By operationalizing a perceptually valid scoring paradigm, it advances translation quality evaluation toward more accurate and scalable assessment. The model also provides a stronger basis for AI-based document-level evaluation aligned with human judgment. Implementation considerations for CAT/LQA systems and implications for human and AI-generated text evaluation are discussed.
- Abstract(参考訳): 多次元品質指標(MQM)に基づく分析翻訳品質評価(TQE)は、伝統的に1000-2000ワードの基準サンプルに校正された線形誤差-対ペナルティ尺度を用いている。
しかし、線形補間は、異なる大きさのサンプルの判断、短いサンプルの過小評価、長いサンプルの過小評価に偏りがあり、専門家の直観と不一致をもたらす。
マルチラウンジ・フレームワークを基盤として,人間のコンテンツ消費者が様々な長さのサンプルに対して翻訳品質をどのように知覚するかをよりよく反映した,校正された非線形スコアリングモデルを提案する。
3つの大規模エンタープライズ環境から得られた実証データから、許容されるエラー数は、線形ではなく対数的に増加し、サンプルサイズが大きくなることが分かる。
Weber-Fechner法やCognitive Load Theoryを含む心理学的および認知的証拠は、認知的負担が大規模に増大する間に追加エラーの知覚的影響が減少する理由を説明することによって、この前提を支持している。
2パラメータモデル E(x) = a * ln(1 + b * x), a, b > 0 を基準許容度に固定し, 1次元のルートフィンディングステップを用いて2つの許容点から校正する。
このモデルでは、線形近似が+/-20%の相対誤差内に留まる明示的な間隔が得られ、動的寛容関数を付加するだけで既存の評価ワークフローに統合される。
このアプローチは、人間の翻訳とAI生成の両方にわたる解釈可能性、公正性、および層間信頼性を改善する。
知覚的に有効なスコアリングパラダイムを運用することにより、より正確でスケーラブルな評価に向けて、翻訳品質評価を進める。
このモデルはまた、人間の判断に沿ったAIベースの文書レベルの評価に対して、より強力な基盤を提供する。
CAT/LQAシステムの実装検討と人間とAIによるテキスト評価への影響について考察する。
関連論文リスト
- Is my Meeting Summary Good? Estimating Quality with a Multi-LLM Evaluator [6.532478490187084]
MESAは、個々のエラータイプを3段階評価し、意思決定の洗練のためのマルチエージェント議論と、エラー定義の理解と人間の判断との整合性を洗練するためのフィードバックベースの自己学習を取り入れている。
GPT-4oを背骨として、MESAは、エラー検出における人間の判断と、要約品質に対するエラーの影響を反映するミッドスパイアマンとケンドールの相関を、平均0.25以上の方法で達成する。
論文 参考訳(メタデータ) (2024-11-27T15:35:32Z) - Scaling Parameter-Constrained Language Models with Quality Data [32.35610029333478]
言語モデリングにおける法則のスケーリングは、伝統的にデータセットのサイズとモデルパラメータの関数としてトレーニング損失を定量化する。
我々は,従来のスケーリング法則の理解を,元の定式化におけるデータ品質の微視的なビューを提供することによって拡張する。
論文 参考訳(メタデータ) (2024-10-04T02:07:17Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Leveraging Variational Autoencoders for Parameterized MMSE Estimation [10.141454378473972]
条件付き線形最小二乗誤差推定器のパラメータ化のための変分オートエンコーダに基づくフレームワークを提案する。
導出した推定器は、推定問題の生成前として変分オートエンコーダを用いて最小平均2乗誤差推定器を近似する。
提案手法と最小平均二乗誤差推定器の差分を限定して厳密な解析を行う。
論文 参考訳(メタデータ) (2023-07-11T15:41:34Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - High-dimensional Measurement Error Models for Lipschitz Loss [2.6415509201394283]
リプシッツ損失関数のクラスに対する高次元計測誤差モデルを開発する。
我々の推定器は、適切な実現可能な集合に属するすべての推定器の中で、$L_1$ノルムを最小化するように設計されている。
有限標本統計誤差境界と符号の整合性の観点から理論的な保証を導出する。
論文 参考訳(メタデータ) (2022-10-26T20:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。