論文の概要: Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge
- arxiv url: http://arxiv.org/abs/2506.00777v1
- Date: Sun, 01 Jun 2025 02:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.67661
- Title: Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge
- Title(参考訳): LLMs-as-the-Judgeを用いたバイオメディカルリレーション抽出における大規模言語モデル(LLM)の自動評価の改善
- Authors: Md Tahmid Rahman Laskar, Israt Jahan, Elham Dolatabadi, Chun Peng, Enamul Hoque, Jimmy Huang,
- Abstract要約: 大規模言語モデル (LLM) は, 生物医学的関係抽出において顕著な性能を示した。
本稿では, LLMs-as-the-Judgeをバイオメディカルな関係抽出のための代替評価法として利用することを検討した。
- 参考スコア(独自算出の注目度): 7.064104563689608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive performance in biomedical relation extraction, even in zero-shot scenarios. However, evaluating LLMs in this task remains challenging due to their ability to generate human-like text, often producing synonyms or abbreviations of gold-standard answers, making traditional automatic evaluation metrics unreliable. On the other hand, while human evaluation is more reliable, it is costly and time-consuming, making it impractical for real-world applications. This paper investigates the use of LLMs-as-the-Judge as an alternative evaluation method for biomedical relation extraction. We benchmark 8 LLMs as judges to evaluate the responses generated by 5 other LLMs across 3 biomedical relation extraction datasets. Unlike other text-generation tasks, we observe that LLM-based judges perform quite poorly (usually below 50% accuracy) in the biomedical relation extraction task. Our findings reveal that it happens mainly because relations extracted by LLMs do not adhere to any standard format. To address this, we propose structured output formatting for LLM-generated responses that helps LLM-Judges to improve their performance by about 15% (on average). We also introduce a domain adaptation technique to further enhance LLM-Judge performance by effectively transferring knowledge between datasets. We release both our human-annotated and LLM-annotated judgment data (36k samples in total) for public use here: https://github.com/tahmedge/llm_judge_biomedical_re.
- Abstract(参考訳): 大規模言語モデル(LLM)は,ゼロショットシナリオにおいても,生物医学的関係抽出において顕著な性能を示した。
しかしながら、このタスクにおけるLCMの評価は、人間のようなテキストを生成する能力のため、しばしば金標準回答の同義語や略語を生成するため、従来の自動評価指標を信頼できないままである。
一方、人間の評価は信頼性が高いが、コストと時間を要するため、現実のアプリケーションでは実用的ではない。
本稿では, LLMs-as-the-Judgeをバイオメディカルな関係抽出のための代替評価法として利用することを検討した。
バイオメディカル・リレーショナル・リレーションシップ・データセットを用いて, 他の5つのLCMが生成する応答を評価するために, 審査員として8つのLSMをベンチマークした。
他のテキスト生成タスクとは違って, LLMに基づく判断は, バイオメディカル関係抽出タスクにおいて, 極めて不十分な(通常50%以下)。
その結果, LLM が抽出した関係が標準形式に従わないことが主な原因であることが判明した。
そこで本研究では, LLM-Judges が約15%(平均で)の性能向上を実現するための, LLM-Judges 生成応答のための構造化された出力フォーマットを提案する。
また、データセット間で知識を効果的に伝達することにより、LLM-Judgeの性能をさらに向上するドメイン適応手法も導入する。
人間のアノテーションとLLMアノテーションによる判断データ(合計36万サンプル)を以下に公開します。
関連論文リスト
- Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering [18.766132076075365]
大規模言語モデル(LLM)は、コード生成のような様々なソフトウェアエンジニアリング(SE)タスクに取り組むためにデプロイされている。
Pass@kメトリックは、広範囲なユニットテストと設定された環境を必要とし、LLM生成したテキストの評価には適していない。
BLEUのような従来のメトリクスは、意味的類似性ではなく語彙のみを測定するが、精査されている。
論文 参考訳(メタデータ) (2025-02-10T06:49:29Z) - Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である
我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。
テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文 参考訳(メタデータ) (2024-04-01T06:01:17Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Benchmarking large language models for biomedical natural language processing applications and recommendations [22.668383945059762]
大規模言語モデル(LLM)は、一般的なドメインにおいて有望であることを示している。
我々は、そのゼロショット、少数ショット、微調整性能を従来のBERTモデルやBARTモデルと比較する。
LLM出力の不足情報や幻覚といった問題を見つけます。
論文 参考訳(メタデータ) (2023-05-10T13:40:06Z) - Self-Refine: Iterative Refinement with Self-Feedback [62.78755306241981]
Self-Refineは、反復的なフィードバックと改善を通じて、大きな言語モデル(LLM)からの初期出力を改善するアプローチである。
GPT-3.5, ChatGPT, および GPT-4) LLM を用いて, 対話応答生成から数学的推論に至るまで, 7 つのタスクにまたがる自己決定性を評価する。
我々の研究は、GPT-4のような最先端のLCMでさえ、単純でスタンドアロンなアプローチを使用してテスト時にさらに改善できることを示します。
論文 参考訳(メタデータ) (2023-03-30T18:30:01Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。