論文の概要: A Graph-Based Test-Harness for LLM Evaluation
- arxiv url: http://arxiv.org/abs/2508.20810v1
- Date: Thu, 28 Aug 2025 14:10:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.436795
- Title: A Graph-Based Test-Harness for LLM Evaluation
- Title(参考訳): LLM評価のためのグラフベーステストハーネス
- Authors: Jessica Lundin, Guillaume Chabot-Couture,
- Abstract要約: 我々は400以上の質問に対して、ダイナミックで体系的な医療ガイドラインのベンチマークのプロトタイプを初めて提示する。
我々はWHO IMCIハンドブックを200以上のノードを持つ有向グラフに変換し、年齢別シナリオを含む質問を生成する。
症状認識には優れたモデルがあるが,重症度,治療プロトコル,フォローアップケアに苦慮している。
- 参考スコア(独自算出の注目度): 0.8164433158925593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a first known prototype of a dynamic, systematic benchmark of medical guidelines for 400+ questions, with 3.3+ trillion possible combinations, covering 100\% of guideline relationships. We transformed the WHO IMCI handbook into a directed graph with 200+ nodes (conditions, symptoms, treatments, follow-ups, severities) and 300+ edges, then used graph traversal to generate questions that incorporated age-specific scenarios and contextual distractors to ensure clinical relevance. Our graph-based approach enables systematic evaluation across clinical tasks (45-67\% accuracy), and we find models excel at symptom recognition but struggle with triaging severity, treatment protocols and follow-up care, demonstrating how customized benchmarks can identify specific capability gaps that general-domain evaluations miss. Beyond evaluation, this dynamic MCQA methodology enhances LLM post-training (supervised finetuning, GRPO, DPO), where correct answers provide high-reward samples without expensive human annotation. The graph-based approach successfully addresses the coverage limitations of manually curated benchmarks. This methodology is a step toward scalable, contamination-resistant solution for creating comprehensive benchmarks that can be dynamically generated, including when the guidelines are updated. Code and datasets are available at https://github.com/jessicalundin/graph_testing_harness
- Abstract(参考訳): 我々は400以上の質問に対する動的で体系的な医療ガイドラインのベンチマークのプロトタイプを初めて公開し、3.3兆以上の組み合わせが可能であり、100 %のガイドライン関係をカバーしている。
我々はWHO IMCIハンドブックを200以上のノード(条件、症状、治療、フォローアップ、重症度)と300以上のエッジを持つ有向グラフに変換し、それからグラフトラバーサルを使用して年齢別シナリオとコンテキストトラバーサルを用いて臨床関連性を確保する。
グラフベースのアプローチにより,臨床タスクの体系的評価(45~67パーセントの精度)が可能となり,症状認識に優れながら重症度,治療プロトコル,フォローアップケアに苦慮するモデルが得られた。
評価以外にも、この動的MCQA手法はLLMポストトレーニング(教師付き微調整、GRPO、DPO)を強化する。
グラフベースのアプローチは、手作業によるベンチマークのカバレッジ制限に対処する。
この方法論は、ガイドラインが更新された時を含む動的に生成可能な包括的なベンチマークを作成するためのスケーラブルで汚染耐性のあるソリューションへのステップである。
コードとデータセットはhttps://github.com/jessicalundin/graph_testing_harnessで公開されている。
関連論文リスト
- HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - Unsupervised Clustering Approaches for Autism Screening: Achieving 95.31% Accuracy with a Gaussian Mixture Model [0.0]
自閉症スペクトラム障害(ASD)は、効果的かつ迅速に診断する上で困難な状態である。
従来の診断方法はラベル付きデータの可用性を前提としています。
本稿では、4つの異なるクラスタリングアルゴリズムを用いて、ASDをスクリーニングした704人の成人の公開データセットを解析する。
論文 参考訳(メタデータ) (2025-02-20T18:12:59Z) - Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation [9.286509119104563]
我々は、MedGraphRAGと呼ばれる医療領域向けに設計された新しいグラフベースのRetrieval-Augmented Generationフレームワークを紹介する。
提案手法は,9つの医療用Q&Aベンチマーク,2つの健康用ファクトチェックベンチマーク,および1つの収集データセットで検証した。
論文 参考訳(メタデータ) (2024-08-08T03:11:12Z) - Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward
Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-24T01:47:56Z) - Extended Graph Assessment Metrics for Graph Neural Networks [13.49677006107642]
回帰タスクと連続隣接行列のための拡張グラフアセスメントメトリクス(GAM)を導入する。
異なる医学集団グラフと異なる学習環境下で、これらの指標とモデル性能の相関関係を示す。
論文 参考訳(メタデータ) (2023-07-13T13:55:57Z) - Transductive Linear Probing: A Novel Framework for Few-Shot Node
Classification [56.17097897754628]
自己教師付きグラフと対照的な事前学習による帰納的線形探索は、同じプロトコル下での最先端の完全教師付きメタラーニング手法より優れていることを示す。
この研究が、数ショットのノード分類問題に新たな光を当て、グラフ上のわずかにラベル付けされたインスタンスから学ぶことの今後の研究を促進することを願っている。
論文 参考訳(メタデータ) (2022-12-11T21:10:34Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - VAESim: A probabilistic approach for self-supervised prototype discovery [0.23624125155742057]
条件付き変分オートエンコーダに基づく画像階層化アーキテクチャを提案する。
我々は、連続した潜伏空間を用いて障害の連続を表現し、訓練中にクラスターを見つけ、画像/患者の成層に使用することができる。
本手法は,標準VAEに対して,分類タスクで測定されたkNN精度において,ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-25T17:55:31Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - Active Learning on Attributed Graphs via Graph Cognizant Logistic
Regression and Preemptive Query Generation [37.742218733235084]
本稿では,属性グラフにおけるノード分類処理のための新しいグラフベース能動学習アルゴリズムを提案する。
提案アルゴリズムは,線形化グラフ畳み込みニューラルネットワーク(GCN)と等価なグラフ認識ロジスティック回帰を用いて,予測フェーズの誤差低減を最大化する。
5つの公開ベンチマークデータセットで実験を行い、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-07-09T18:00:53Z) - ECG-DelNet: Delineation of Ambulatory Electrocardiograms with Mixed
Quality Labeling Using Neural Networks [69.25956542388653]
ディープラーニング(DL)アルゴリズムは、学術的、産業的にも重くなっている。
セグメンテーションフレームワークにECGの検出とデライン化を組み込むことにより、低解釈タスクにDLをうまく適用できることを実証する。
このモデルは、PhyloNetのQTデータベースを使用して、105個の増幅ECG記録から訓練された。
論文 参考訳(メタデータ) (2020-05-11T16:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。