論文の概要: Towards Automatic Evaluation and Selection of PHI De-identification Models via Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2510.16194v1
- Date: Fri, 17 Oct 2025 20:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.891834
- Title: Towards Automatic Evaluation and Selection of PHI De-identification Models via Multi-Agent Collaboration
- Title(参考訳): マルチエージェント協調によるPHI識別モデルの自動評価と選択に向けて
- Authors: Guanchen Wu, Zuhui Chen, Yuzhang Xie, Carl Yang,
- Abstract要約: TEAM-PHIはマルチエージェント評価と選択のためのフレームワークである。
大規模な言語モデル(LLM)を使用して、識別不能の品質を自動的に測定する。
ゴールドレーベルに大きく依存せずに最高のパフォーマンスモデルを選択する。
- 参考スコア(独自算出の注目度): 12.912307284471858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protected health information (PHI) de-identification is critical for enabling the safe reuse of clinical notes, yet evaluating and comparing PHI de-identification models typically depends on costly, small-scale expert annotations. We present TEAM-PHI, a multi-agent evaluation and selection framework that uses large language models (LLMs) to automatically measure de-identification quality and select the best-performing model without heavy reliance on gold labels. TEAM-PHI deploys multiple Evaluation Agents, each independently judging the correctness of PHI extractions and outputting structured metrics. Their results are then consolidated through an LLM-based majority voting mechanism that integrates diverse evaluator perspectives into a single, stable, and reproducible ranking. Experiments on a real-world clinical note corpus demonstrate that TEAM-PHI produces consistent and accurate rankings: despite variation across individual evaluators, LLM-based voting reliably converges on the same top-performing systems. Further comparison with ground-truth annotations and human evaluation confirms that the framework's automated rankings closely match supervised evaluation. By combining independent evaluation agents with LLM majority voting, TEAM-PHI offers a practical, secure, and cost-effective solution for automatic evaluation and best-model selection in PHI de-identification, even when ground-truth labels are limited.
- Abstract(参考訳): 保護された健康情報(PHI)の同定は、臨床ノートの安全な再利用を可能にするために重要であるが、PHIの同定モデルの評価と比較は、通常、費用がかかる小規模の専門家アノテーションに依存している。
TEAM-PHIは,大規模言語モデル(LLM)を用いたマルチエージェント評価・選択フレームワークである。
TEAM-PHIは複数の評価エージェントをデプロイし、それぞれがPHI抽出の正確性を独立に判断し、構造化メトリクスを出力する。
これらの結果はLLMベースの多数決投票機構によって統合され、様々な評価対象の視点を単一の安定かつ再現可能なランキングに統合する。
実際の臨床ノートコーパスの実験では、TEAM-PHIは、個々の評価者によって異なるが、LDMベースの投票は同じトップパフォーマンスシステムに確実に収束している。
さらに,本フレームワークの自動ランキングが教師付き評価と密接に一致していることを確認する。
TEAM-PHIは、独立評価エージェントとLLM多数決を組み合わせることで、基盤トラスラベルが限定された場合でも、自動評価とPHI識別の最良のモデル選択のための実用的で安全でコスト効率の良いソリューションを提供する。
関連論文リスト
- CRACQ: A Multi-Dimensional Approach To Automated Document Assessment [0.0]
CRACQは、コヒーレンス、リゴール、適切性、完全性、品質といった、f i v e特有の特性で文書を評価するのに適した多次元評価フレームワークである。
言語的、意味的、構造的なシグナルを累積評価に統合し、全体的および特性レベルの分析を可能にする。
論文 参考訳(メタデータ) (2025-09-26T17:01:54Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。
彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。
そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-04T18:45:10Z) - Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - PairBench: Are Vision-Language Models Reliable at Comparing What They See? [16.49586486795478]
タスクに応じて大規模視覚言語モデル(VLM)を自動評価するためのフレームワークであるPairBenchを提案する。
提案手法では,人間アノテーションとの整合性,ペアオーダ間の整合性,分散のスムーズさ,プロンプトによる可制御性という,信頼性の高い比較のための4つの重要な指標を導入している。
私たちの分析では、モデルがすべての指標を一貫して上回り、それぞれが異なる強みと弱みを示すことは明らかです。
論文 参考訳(メタデータ) (2025-02-21T04:53:11Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。