論文の概要: YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering
- arxiv url: http://arxiv.org/abs/2505.14279v1
- Date: Tue, 20 May 2025 12:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.171446
- Title: YESciEval: Robust LLM-as-a-Judge for Scientific Question Answering
- Title(参考訳): YESciEval: 科学的質問に対するロバストなLLM-as-a-Judge
- Authors: Jennifer D'Souza, Hamed Babaei Giglou, Quentin Münch,
- Abstract要約: 大規模言語モデル (LLM) は現代の検索エンジンに科学的疑問を投げかけるが、その評価は未定である。
評価器の最適化バイアスを軽減するために,きめ細かなルーリック評価と強化学習を組み合わせたオープンソースのフレームワークであるYESciEvalを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) drive scientific question-answering on modern search engines, yet their evaluation robustness remains underexplored. We introduce YESciEval, an open-source framework that combines fine-grained rubric-based assessment with reinforcement learning to mitigate optimism bias in LLM evaluators. We release multidisciplinary scienceQ&A datasets, including adversarial variants, with evaluation scores from multiple LLMs. Independent of proprietary models and human feedback, our approach enables scalable, cost-free evaluation. By advancing reliable LLM-as-a-judge models, this work supports AI alignment and fosters robust, transparent evaluation essential for scientific inquiry and artificial general intelligence.
- Abstract(参考訳): 大規模言語モデル (LLM) は現代の検索エンジンに科学的疑問を投げかけるが、そのロバスト性は未解明のままである。
我々は,LLM評価器の最適化バイアスを軽減するために,きめ細かなルーリック評価と強化学習を組み合わせたオープンソースのフレームワークであるYESciEvalを紹介する。
我々は,複数のLSMから評価スコアを得た,逆数変種を含む多分野の科学Q&Aデータセットをリリースする。
プロプライエタリなモデルと人間のフィードバックとは独立して、当社のアプローチはスケーラブルでコストフリーな評価を可能にします。
信頼性の高いLCM-as-a-judgeモデルを進化させることで、この研究はAIアライメントをサポートし、科学的調査や人工知能に不可欠な堅牢で透明な評価を促進する。
関連論文リスト
- An Empirical Analysis of Uncertainty in Large Language Model Evaluations [28.297464655099034]
我々は2つの異なる評価条件で9つのLLM評価器を用いた実験を行った。
LLM評価器はモデルファミリやサイズによって様々な不確実性を示す。
推論やポストトレーニングのときでも、特別なプロンプト戦略を採用することで、評価の不確実性をある程度軽減できることがわかった。
論文 参考訳(メタデータ) (2025-02-15T07:45:20Z) - Your Weak LLM is Secretly a Strong Teacher for Alignment [19.33906256866585]
既存のアライメントフレームワークは、高価な人的労力または高い計算コストの形で制約を提示します。
本稿では,上位層モデルよりも資源集約度が低い弱いLLMを用いた,有望な中間層を探索する。
弱いLLMは、完全に注釈付けされたデータに匹敵する、あるいは超えるフィードバックを提供することができる。
論文 参考訳(メタデータ) (2024-09-13T13:24:52Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - Fusion-Eval: Integrating Assistant Evaluators with LLMs [11.309661922644217]
フュージョン・エバル(Fusion-Eval)は、Large Language Models(LLM)を活用して様々なアシスタント評価者の洞察を統合する革新的な手法である。
We show that Fusion-Eval achieve a 0.962 system-level Kendall-Tau correlation with human on SummEval and a 0.744 turn-level Spearman correlation on TopicalChat。
論文 参考訳(メタデータ) (2023-11-15T18:46:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。