論文の概要: Beyond LLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation
- arxiv url: http://arxiv.org/abs/2604.05083v1
- Date: Mon, 06 Apr 2026 18:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.442889
- Title: Beyond LLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation
- Title(参考訳): LLM-as-a-Judgeを超えて:多言語生成テキスト評価のための決定論的指標
- Authors: Firoj Alam, Gagan Bhatia, Sahinur Rahman Laskar, Shammur Absar Chowdhury,
- Abstract要約: 大規模言語モデル(LLM)は、生成したテキストを評価するための自動判断器として、ますます採用されている。
我々は、相補的で決定論的に学習されたメトリクスのファミリーである textbftextit OmniScore を提案する。
大規模総合管理モデル(sim$564k, textbf107 言語)を訓練し,手動で8,617 の注釈付きインスタンスを用いて評価した。
- 参考スコア(独自算出の注目度): 20.309826321619482
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While Large Language Models (LLMs) are increasingly adopted as automated judges for evaluating generated text, their outputs are often costly, and highly sensitive to prompt design, language, and aggregation strategies, severely, which limits reproducibility. To address these challenges, we propose \textbf{\textit{OmniScore}}, a family of complementary, deterministic learned metrics developed using small size ($<$1B) parameter models. OmniScore approximates LLM-judge behavior while preserving the low latency and consistency of traditional model-based scoring. We trained the models large-scale synthetic supervision ($\sim$564k instances, in \textbf{107 languages}) and evaluated using 8,617 manually annotated instances. The OmniScore family supports reliable, multi-dimensional scores across a variety of settings, including reference-based, source-grounded, and hybrid evaluations. We evaluate these models across question answering (QA), translation, and summarization in \textbf{6 languages}. Our results demonstrate that lightweight, deterministic learned metrics provide a highly practical and scalable alternative to frontier LLMs. Our models and datasets can be found at https://huggingface.co/collections/QCRI/omniscore
- Abstract(参考訳): 大規模言語モデル(LLM)は、生成したテキストを評価する自動化判断器としてますます採用されているが、そのアウトプットはコストが高く、設計、言語、集約戦略に非常に敏感であり、再現性を著しく制限している。
これらの課題に対処するために,小ささ ($1B) のパラメータモデルを用いて開発した相補的決定論的学習指標群である \textbf{\textit{OmniScore}} を提案する。
OmniScoreは、従来のモデルベースのスコアリングの低レイテンシと一貫性を維持しながら、LCM-judgeの挙動を近似する。
我々は,大規模合成管理モデル(XMLbf{107 言語で 564k のインスタンス)を訓練し,手動で8,617 のアノテーション付きインスタンスを用いて評価した。
OmniScoreファミリは、参照ベース、ソースグラウンド、ハイブリッド評価など、さまざまな設定で信頼性の高い多次元スコアをサポートする。
質問応答 (QA) , 翻訳, 要約を含むこれらのモデルを, textbf{6 言語で評価する。
我々の結果は,軽量で決定論的に学習されたメトリクスが,フロンティアのLLMに代わる,非常に実用的でスケーラブルな代替手段を提供することを示した。
私たちのモデルとデータセットはhttps://huggingface.co/collections/QCRI/omniscoreで確認できます。
関連論文リスト
- SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。
SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文 参考訳(メタデータ) (2025-02-28T19:27:29Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。