Fugu-MT 論文翻訳(概要): Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

論文の概要: Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA

arxiv url: http://arxiv.org/abs/2603.04033v1
Date: Wed, 04 Mar 2026 13:12:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.315032
Title: Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA
Title（参考訳）: 審判員の判断 : フランスの医療オープンエンドQAにおけるLCM-as-a-Judgeの評価
Authors: Ikram Belmadani, Oumaima El Khettari, Pacôme Constant dit Beaufils, Richard Dufour, Benoit Favre,
Abstract要約: フランスの医学OEQAにおいて,大言語モデル(LLM)が意味的等価性の判断として機能するかどうかを評価する。以上の結果から, LLMに基づく判断は, 回答を生んだモデルに強く影響されていることが明らかとなった。
参考スコア（独自算出の注目度）: 5.328379818938021
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Automatic evaluation of medical open-ended question answering (OEQA) remains challenging due to the need for expert annotations. We evaluate whether large language models (LLMs) can act as judges of semantic equivalence in French medical OEQA, comparing closed-access, general-purpose, and biomedical domain-adapted models. Our results show that LLM-based judgments are strongly influenced by the model that generated the answer, with agreement varying substantially across generators. Domain-adapted and large general-purpose models achieve the highest alignment with expert annotations. We further show that lightweight adaptation of a compact model using supervised fine-tuning (SFT) and Group Relative Policy Optimization (GRPO) substantially improves performance and reduces generator sensitivity, even with limited data. Overall, our findings highlight the need for generator-aware evaluation and suggest that carefully adapted small models can support scalable evaluation in low-resource medical settings.
Abstract（参考訳）: 専門家のアノテーションが必要なため,医療用オープンエンド質問応答(OEQA)の自動評価は依然として困難である。大規模言語モデル (LLMs) がフランスの医学 OEQA における意味的等価性の判断に役立てられるかどうかを, クローズドアクセス, 汎用, バイオメディカルドメイン適応モデルの比較により検討した。以上の結果から, LLMに基づく判断は, 生成したモデルに強く影響されていることが明らかとなった。ドメイン適応型および大規模汎用モデルは、専門家アノテーションと最高の整合性を達成する。さらに、教師付き微調整(SFT)とグループ相対政策最適化(GRPO)を用いたコンパクトモデルの軽量化により、限られたデータであっても性能が大幅に向上し、ジェネレータ感度が低下することを示す。全体としては, ジェネレータ・アウェア評価の必要性を強調し, 低リソース医療環境において, 慎重に適応された小型モデルがスケーラブルな評価を支援することを示唆している。

関連論文リスト

When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation [18.338933046286257]
大きな言語モデル(LLM)は、医学的なクエリを含む様々な問題に対処するために、ますます採用されている。 LLMは医学的文脈では性能が悪く、ユーザにとって有害な誤認につながる可能性がある。本稿では,実際の患者-医師間相互作用の転写を用いたトランスフォーマーベースデコーダモデルであるLlama 2 7Bの微調整に焦点を当てた。
論文参考訳（メタデータ） (2026-02-27T21:09:43Z)
Mitigating Judgment Preference Bias in Large Language Models through Group-Based Polling [26.377421806098187]
自動評価器としての大規模言語モデル(LLM)が注目されている。 LLMは自分自身が生み出す反応を好む傾向があり、判断の信頼性を損なう。本稿では,教師なしマルチエージェント協調最適化フレームワークであるグループベースポーリング最適化(Genii)を紹介する。
論文参考訳（メタデータ） (2025-10-09T12:32:31Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards [72.44810390478229]
CompassJudger-2は、タスク駆動のマルチドメインデータキュレーション戦略によって制限を克服する新しいジェネラリストジャッジモデルである。 CompassJudger-2は、複数の判定と報奨ベンチマークで優れた結果を得る。
論文参考訳（メタデータ） (2025-07-12T01:34:24Z)
Automating Expert-Level Medical Reasoning Evaluation of Large Language Models [26.702477426812333]
我々はMedThink-Benchを紹介した。MedThink-Benchは、大規模言語モデルの医学的推論の厳密で説明可能な、スケーラブルな評価のためのベンチマークである。また, LLM-as-a-Judge 機構と精細な有理性を利用した新しい評価フレームワーク LLM-w-Ref を提案する。全体として、MedThink-Bench は LLM の医学的推論を評価し、安全で責任ある臨床実践の展開を進めるための基礎的なツールを提供している。
論文参考訳（メタデータ） (2025-07-10T17:58:26Z)
HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation [39.7293877954587]
HiMATEは機械翻訳評価のための階層型マルチエージェントフレームワークである。 MQMエラー型に基づく階層型マルチエージェントシステムを構築し,サブタイプエラーの詳細な評価を可能にする。経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
論文参考訳（メタデータ） (2025-05-22T06:24:08Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
OpeNLGauge: An Explainable Metric for NLG Evaluation with Open-Weights LLMs [1.8434042562191815]
OpeNLGaugeは、完全にオープンソースで参照不要なNLG評価指標であり、エラースパンに基づいた正確な説明を提供する。我々はOpeNLGaugeが人間の判断と競合する相関を達成し、特定のタスクにおける最先端モデルより優れていることを示す。
論文参考訳（メタデータ） (2025-03-14T20:38:47Z)
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models [68.92020689188887]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) に対する幻覚を緩和する効果を証明している。既存の自動評価メトリクスは、トレーニングと評価の間にRAGモデルによって生成されたアウトプットを正確に評価することはできない。本稿では,RAGモデルのより正確な評価を実現するため,LCMの強化を目的とした判断一貫性(ConsJudge)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T04:50:43Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。