論文の概要: Prosa: Rubric-Based Evaluation of LLMs on Real User Chats in Brazilian Portuguese
- arxiv url: http://arxiv.org/abs/2605.01630v1
- Date: Sat, 02 May 2026 22:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.858274
- Title: Prosa: Rubric-Based Evaluation of LLMs on Real User Chats in Brazilian Portuguese
- Title(参考訳): Prosa: ブラジルポルトガル語のリアルユーザチャットにおけるLLMの評価
- Authors: Roseval Malaquias Junior, Giovana Kerche Bonás, Thales Sales Almeida, Hugo Abonizio, Thiago Laitz, Ramon Pires, Marcos Piau, Celio Larcher, Rodrigo Nogueira,
- Abstract要約: Prosaはブラジル初のマルチターンポルトガル語チャットベンチマークである。
3人の審査員は16位のうち1つに同意する一方、総投票では16位のうち7つに同意する。
我々は、将来のモデルを同一条件下で評価できるように、ベンチマークとフィルタリングコードをリリースする。
- 参考スコア(独自算出の注目度): 8.678622777553267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rankings produced by holistic LLM-as-a-judge scoring are sensitive to the bias of the chosen judge model. We show that switching to binary rubric scoring with multi-judge filtering removes this sensitivity: decomposing the judgement matters more than the judge model itself. To support this claim, we introduce Prosa, the first real user multi-turn Brazilian Portuguese chat benchmark: 1,000 WildChat conversations scored by three judges from three model families on 16 models. Under filtered rubric scoring the three judges agree on every one of the 16 ranks, whereas under holistic scoring they agree on only 7 of 16. Additionally, the rubric filtering pipeline increases the average score gap between neighbouring models by 47%, thereby improving Prosa's discriminative power. Evaluating a new model on Prosa costs approximately $2.1 when using Gemini 3 Flash as the judge. We release the benchmark and the filtering code to ensure that future models can be assessed under identical conditions. These artifacts also make our rubric-based scoring method reusable beyond Prosa, supporting other open-ended evaluation settings.
- Abstract(参考訳): 総合的LLM-as-a-judgeスコアによって生成されるランキングは、選択された審査モデルのバイアスに敏感である。
マルチジャッジフィルタリングによる二項ルーブリックスコアへの切り替えは、この感度を排除し、判断を分解することが判断モデル自体よりも重要であることを示す。
この主張を支持するために,ブラジル初のマルチターンポルトガル語チャットベンチマークであるProsaを紹介した。
3人の審査員は16位のうち1つに同意する一方、総投票では16位のうち7つに同意する。
さらに、潤滑フィルターパイプラインは近隣のモデル間の平均スコアギャップを47%増加させ、プロサの識別能力を向上させる。
Prosaの新しいモデルを評価するには、審査員としてGemini 3 Flashを使用すると約2.1ドルかかる。
我々は、将来のモデルを同一条件下で評価できるように、ベンチマークとフィルタリングコードをリリースする。
これらのアーティファクトは、私たちのルーリックベースのスコアリングメソッドをProsaを超えて再利用し、他のオープンな評価設定をサポートします。
関連論文リスト
- Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - Evaluating Judges as Evaluators: The JETTS Benchmark of LLM-as-Judges as Test-Time Scaling Evaluators [66.83088028268318]
本稿では,テスト時間スケーリングベンチマークの判定評価について紹介する。
3つのタスク設定の下で、3つのドメイン(推論、コード生成、命令従)での判定性能を評価する。
我々のベンチマークは、審査員が再評価において結果報酬モデルと競合する一方で、ビームサーチにおけるプロセス報酬モデルよりも一貫して悪いことを示している。
論文 参考訳(メタデータ) (2025-04-21T17:33:23Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。