論文の概要: *-PLUIE: Personalisable metric with Llm Used for Improved Evaluation
- arxiv url: http://arxiv.org/abs/2602.15778v1
- Date: Tue, 17 Feb 2026 18:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.155021
- Title: *-PLUIE: Personalisable metric with Llm Used for Improved Evaluation
- Title(参考訳): ※-PLUIE:Llmを用いたパーソナライズ可能な評価指標
- Authors: Quentin Lemesle, Léane Jourdan, Daisy Munson, Pierre Alain, Jonathan Chevelu, Arnaud Delhay, Damien Lolive,
- Abstract要約: ParaPLUIEは、テキストを生成することなく、Yes/No'の回答に対する信頼度を推定する、難易度ベースのメトリクスである。
タスク特異的なParaPLUIEの変種である*-PLUIEを導入し、人間の判断との整合性を評価する。
実験の結果, パーソナライズされた *-PLUIE は, 計算コストを低く保ちながら, 人間の評価と強い相関関係を示すことがわかった。
- 参考スコア(独自算出の注目度): 2.5310172343494224
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating the quality of automatically generated text often relies on LLM-as-a-judge (LLM-judge) methods. While effective, these approaches are computationally expensive and require post-processing. To address these limitations, we build upon ParaPLUIE, a perplexity-based LLM-judge metric that estimates confidence over ``Yes/No'' answers without generating text. We introduce *-PLUIE, task specific prompting variants of ParaPLUIE and evaluate their alignment with human judgement. Our experiments show that personalised *-PLUIE achieves stronger correlations with human ratings while maintaining low computational cost.
- Abstract(参考訳): 自動生成されたテキストの品質を評価することは、しばしばLLM-as-a-judge(LLM-judge)メソッドに依存する。
効率的ではあるが、これらのアプローチは計算コストが高く、後処理を必要とする。
これらの制約に対処するため、テキストを生成せずに `Yes/No'' 回答に対する信頼度を推定する、難易度に基づく LLM-judge 測定値である ParaPLUIE を構築した。
タスク特異的なParaPLUIEの変種である*-PLUIEを導入し、人間の判断との整合性を評価する。
実験の結果, パーソナライズされた *-PLUIE は, 計算コストを低く保ちながら, 人間の評価と強い相関関係を示すことがわかった。
関連論文リスト
- On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。
本研究では,LLMの生成能力と評価能力の関係について検討した。
モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2025-11-25T18:33:24Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - Bayesian Calibration of Win Rate Estimation with LLM Evaluators [20.588104799661014]
本研究では,大言語モデル(LLM)を評価対象として,勝利率推定の精度を向上させる2つの手法を提案する。
我々は,ストーリ生成,要約,タスクの指示を含む6つのデータセット上で,我々の手法を実証的に検証した。
論文 参考訳(メタデータ) (2024-11-07T04:32:40Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [48.48819141999387]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。