Fugu-MT 論文翻訳(概要): Ranking Over Scoring: Towards Reliable and Robust Automated Evaluation of LLM-Generated Medical Explanatory Arguments

論文の概要: Ranking Over Scoring: Towards Reliable and Robust Automated Evaluation of LLM-Generated Medical Explanatory Arguments

arxiv url: http://arxiv.org/abs/2409.20565v1
Date: Mon, 30 Sep 2024 17:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-02 01:35:17.303588
Title: Ranking Over Scoring: Towards Reliable and Robust Automated Evaluation of LLM-Generated Medical Explanatory Arguments
Title（参考訳）: Scoring Over Scoring: LLM生成医療解説論文の信頼性とロバストな自動評価に向けて
Authors: Iker De la Iglesia, Iakes Goenaga, Johanna Ramirez-Romero, Jose Maria Villa-Gonzalez, Josu Goikoetxea, Ander Barrena,
Abstract要約: 本研究は, プロクシータスクとランキングに頼って, LLM生成医療説明論の新たな評価手法を提案する。提案手法は,非議論的テキストの評価を含む,敵対的攻撃に対して頑健であることを示す。
参考スコア（独自算出の注目度）: 0.9543943371833467
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Evaluating LLM-generated text has become a key challenge, especially in domain-specific contexts like the medical field. This work introduces a novel evaluation methodology for LLM-generated medical explanatory arguments, relying on Proxy Tasks and rankings to closely align results with human evaluation criteria, overcoming the biases typically seen in LLMs used as judges. We demonstrate that the proposed evaluators are robust against adversarial attacks, including the assessment of non-argumentative text. Additionally, the human-crafted arguments needed to train the evaluators are minimized to just one example per Proxy Task. By examining multiple LLM-generated arguments, we establish a methodology for determining whether a Proxy Task is suitable for evaluating LLM-generated medical explanatory arguments, requiring only five examples and two human experts.
Abstract（参考訳）: LLM生成テキストの評価は、特に医学分野のような領域固有の文脈において重要な課題となっている。本研究は, LLMの生成する医療説明論の新たな評価手法を導入し, 評価基準の厳密な整合性にプロキシタスクとランキングを頼り, 審査員が用いたLCMの偏見を克服する。提案手法は,非議論的テキストの評価を含む,敵対的攻撃に対して頑健であることを示す。さらに、評価者のトレーニングに必要な人為的な引数は、プロキシタスク毎に1つの例に最小化されます。複数の LLM 生成論証を調べることにより, プロキシタスクが LLM 生成論証に適しているかどうかを判断するための方法論を確立し, 5 つの例と 2 人の専門家しか必要としない。

関連論文リスト

Multi-Agent-as-Judge: Aligning LLM-Agent-Based Automated Evaluation with Multi-Dimensional Human Evaluation [36.60223310492119]
LLM-as-a-judge」パラダイムは、LLMエージェントを利用して人間の評価を確実にシミュレートする有望なアプローチに光を当てる。関連文書から異なる次元の人格を自動構築できるマルチエージェント・アズ・ジャッジ評価フレームワークMAJ-EVALを提案する。教育・医療分野での評価実験を行ったところ,MAJ-EVALは評価結果が人間の評価値とよく一致していることがわかった。
論文参考訳（メタデータ） (2025-07-28T17:48:40Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文参考訳（メタデータ） (2024-12-12T13:31:58Z)
Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。 BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文参考訳（メタデータ） (2024-08-17T16:01:45Z)
Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文参考訳（メタデータ） (2024-08-16T14:49:35Z)
Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。 LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文参考訳（メタデータ） (2024-08-07T17:11:34Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
Collaborative Evaluation: Exploring the Synergy of Large Language Models and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-05T09:24:48Z)
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文参考訳（メタデータ） (2023-08-14T15:13:04Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。