論文の概要: MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills
- arxiv url: http://arxiv.org/abs/2604.20441v1
- Date: Wed, 22 Apr 2026 11:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.096881
- Title: MedSkillAudit: A Domain-Specific Audit Framework for Medical Research Agent Skills
- Title(参考訳): MedSkillAudit:医学研究エージェントスキルのためのドメイン特化監査フレームワーク
- Authors: Yingyong Hou, Xinyuan Lao, Huimei Wang, Qianyu Yao, Wei Chen, Bocheng Huang, Fei Sun, Yuxian Lv, Weiqi Lei, Xueqian Wen, Pengfei Xia, Zhujun Tan, Shengyang Xie,
- Abstract要約: 本研究は,医学研究専門職を対象としたドメイン固有監査フレームワークを開発し,予備評価した。
5つの医学研究カテゴリーにまたがって75のスキルを評価した(15。
コンセンサスの平均スコアは72.4(SD = 13.0)、スキルの57.3%がリミテッド・リリースの閾値を下回った。
- 参考スコア(独自算出の注目度): 7.84691221924879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Agent skills are increasingly deployed as modular, reusable capability units in AI agent systems. Medical research agent skills require safeguards beyond general-purpose evaluation, including scientific integrity, methodological validity, reproducibility, and boundary safety. This study developed and preliminarily evaluated a domain-specific audit framework for medical research agent skills, with a focus on reliability against expert review. Methods: We developed MedSkillAudit (skill-auditor@1.0), a layered framework assessing skill release readiness before deployment. We evaluated 75 skills across five medical research categories (15 per category). Two experts independently assigned a quality score (0-100), an ordinal release disposition (Production Ready / Limited Release / Beta Only / Reject), and a high-risk failure flag. System-expert agreement was quantified using ICC(2,1) and linearly weighted Cohen's kappa, benchmarked against the human inter-rater baseline. Results: The mean consensus quality score was 72.4 (SD = 13.0); 57.3% of skills fell below the Limited Release threshold. MedSkillAudit achieved ICC(2,1) = 0.449 (95% CI: 0.250-0.610), exceeding the human inter-rater ICC of 0.300. System-consensus score divergence (SD = 9.5) was smaller than inter-expert divergence (SD = 12.4), with no directional bias (Wilcoxon p = 0.613). Protocol Design showed the strongest category-level agreement (ICC = 0.551); Academic Writing showed a negative ICC (-0.567), reflecting a structural rubric-expert mismatch. Conclusions: Domain-specific pre-deployment audit may provide a practical foundation for governing medical research agent skills, complementing general-purpose quality checks with structured audit workflows tailored to scientific use cases.
- Abstract(参考訳): 背景: エージェントスキルは、AIエージェントシステムにおいて、モジュール的で再利用可能な機能ユニットとしてますますデプロイされる。
医学研究エージェントのスキルは、科学的完全性、方法論的妥当性、再現性、境界安全性を含む、汎用的な評価以上の保護が必要である。
本研究は、専門家レビューに対する信頼性に焦点をあてて、医学研究エージェントスキルのためのドメイン特化監査フレームワークを開発し、予備評価した。
メソッド:MedSkillAudit(skill-auditor@1.0)を開発した。
5つの医学研究カテゴリーで75のスキルを評価した(15。
2人の専門家が独自に品質スコア(0-100)、正規リリース配置(Production Ready / Limited Release / Beta Only / Reject)、ハイリスク障害フラグを割り当てた。
ICC(2,1)と線形重み付けされたCohen's Kappaを用いてシステム-専門家合意を定量化した。
結果: コンセンサスの平均品質スコアは72.4(SD = 13.0)で, 57.3%のスキルがリミテッドリリース閾値を下回った。
MedSkillAuditはICC(2,1) = 0.449 (95% CI: 0.250-0.610) を達成した。
System-consensus score divergence (SD = 9.5) は専門家間分散 (SD = 12.4) よりも小さく、方向バイアスがない (Wilcoxon p = 0.613)。
Protocol Designは最も強いカテゴリレベルの合意(ICC = 0.551)を示し、アカデミックライティングは構造的ルーリック-エキスパートミスマッチを反映した負のICC(-0.567)を示した。
結論: ドメイン固有の事前デプロイ監査は、科学的なユースケースに適した構造化監査ワークフローによる汎用的な品質チェックを補完し、医療研究エージェントのスキルを管理するための実践的な基盤を提供する可能性がある。
関連論文リスト
- Multi-Agent Reasoning with Consistency Verification Improves Uncertainty Calibration in Medical MCQA [0.0]
マルチエージェントフレームワークはドメイン固有の特殊エージェントとTwo-Phase VerificationとS-Score Weighted Fusionを組み合わせたものだ。
4つの専門エージェントがQwen2.5-7B-Instructを使用して独立した診断を生成する。
Sスコアは最終回答を選択する重み付き融合戦略を推進し、信頼性を報告している。
論文 参考訳(メタデータ) (2026-03-25T16:22:53Z) - ResearchGym: Evaluating Language Model Agents on Real-World AI Research [48.46915933681714]
我々は、エンドツーエンドの研究においてAIエージェントを評価するためのベンチマークおよび実行環境であるResearchGymを紹介する。
これを実現するために,ICML,ICLR,ACLの5つの口頭およびスポットライト論文を再利用した。
GPT-5を動力とするエージェントの制御評価において、我々は鋭い能力-信頼性ギャップを観察する。
論文 参考訳(メタデータ) (2026-02-16T19:00:03Z) - A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing [0.4349324020366305]
大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T14:17:27Z) - Automated Rubrics for Reliable Evaluation of Medical Dialogue Systems [19.880569341968023]
大規模言語モデル(LLM)は、幻覚や安全でない提案が患者の安全に直接的なリスクをもたらすという、臨床的な意思決定支援にますます利用されている。
本稿では,インスタンス固有の評価ルーリックの自動生成を目的とした検索拡張型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-21T16:40:41Z) - DispatchMAS: Fusing taxonomy and artificial intelligence agents for emergency medical services [49.70819009392778]
大規模言語モデル (LLM) とマルチエージェントシステム (MAS) は、ディスパッチを増強する機会を提供する。
本研究の目的は,現実的なシナリオをシミュレートする分類基盤型マルチエージェントシステムの開発と評価である。
論文 参考訳(メタデータ) (2025-10-24T08:01:21Z) - ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review [23.630458187587223]
ReviewerTooは、AI支援ピアレビューの研究とデプロイのためのフレームワークである。
専門的なレビュアー・ペルソナと構造化された評価基準による体系的な実験を支援する。
私たちは、複雑な評価判断をドメインの専門家に任せながら、AIが一貫性、カバレッジ、公平性を高める方法を示します。
論文 参考訳(メタデータ) (2025-10-09T23:53:19Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - AI Agents-as-Judge: Automated Assessment of Accuracy, Consistency, Completeness and Clarity for Enterprise Documents [0.0]
本研究では,AIエージェントを用いた高度に構造化された企業文書の自動レビューのためのモジュール型マルチエージェントシステムを提案する。
LangChain、CrewAI、TruLens、Guidanceといった現代的なオーケストレーションツールを使用して、文書のセクション単位での評価を可能にする。
99%の情報一貫性(人間の場合は92%)を実現し、エラーとバイアス率を半減させ、1文書あたりの平均レビュー時間を30分から2.5分に短縮する。
論文 参考訳(メタデータ) (2025-06-23T17:46:15Z) - Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling [50.08315607506652]
信頼性の高い人的判断のための制約付きアクティブサンプリングフレームワーク(CASF)を提案する。
実験の結果、CASFは93.18%のシステム認識精度が得られた。
論文 参考訳(メタデータ) (2024-06-12T07:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。