論文の概要: The NordDRG AI Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.13790v2
- Date: Wed, 18 Jun 2025 01:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 16:34:05.501425
- Title: The NordDRG AI Benchmark for Large Language Models
- Title(参考訳): 大規模言語モデルのためのNordDRG AIベンチマーク
- Authors: Tapio Pitkäranta,
- Abstract要約: NordDRG-AI-Benchmarkは、完全なDRGルールをキャプチャし、LLMの多言語診断、手順、関税ロジックを推論する能力を評価する最初の公開テストベッドである。
i) DRGロジック、ICDおよびNCSPコード、年齢/性別分割、国旗を含む20のテーブルを持つ定義テーブル、(ii) 実際のガバナンスを記述する専門家マニュアルと変更ログテンプレート、(iii) コードルックアップ、クロステーブル推論、多言語用語、品質保証監査にまたがる14のCaseMixタスクの即時パック。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are already being piloted for clinical coding and decision support. However, until now, no open benchmark has targeted the hospital funding layer where Diagnosis-Related Groups (DRG) determine reimbursement across many countries. We release NordDRG-AI-Benchmark, the first public test-bed that captures a complete DRG rule set and evaluates an LLM's ability to reason over multilingual diagnosis, procedure, and tariff logic. The benchmark bundles three classes of artefacts: (i) definition tables with 20 interlinked tables covering DRG logic, ICD and NCSP codes, age/sex splits, and country flags; (ii) expert manuals and changelog templates describing real governance workflows; and (iii) a prompt pack of 14 CaseMix tasks that span code lookup, cross-table inference, multilingual terminology, and quality-assurance audits. All artefacts are available at: https://github.com/longshoreforrest/norddrg-ai-benchmark A baseline demonstration shows that five state-of-the-art LLMs perform very differently on the nine automatically verifiable tasks: o3 (OpenAI) scores 9 out of 9, GPT-4o and o4-mini-high score 7 out of 9, while Gemini 2.5 Pro and Gemini 2.5 Flash solve only 5 out of 9 and 3 out of 9, respectively. These results confirm that NordDRG-AI-Benchmark highlights domain-specific strengths and weaknesses that remain hidden in generic LLM benchmarks, offering a reproducible baseline for research on trustworthy automation in hospital funding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、すでに臨床的なコーディングと意思決定のサポートのために試験されている。
しかし、これまで、診断関連グループ(DRG)が多くの国で再支払いを決定する病院資金層をターゲットにしたオープンベンチマークは行われていない。
NordDRG-AI-Benchmarkは、完全なDRGルールセットをキャプチャし、多言語診断、手順、関税ロジックを解析するLLMの能力を評価する最初の公開テストベッドである。
ベンチマークには3つのアーティファクトがバンドルされている。
一 DRG論理、ICD及びNCSP符号、年齢/性別分割及び国旗を網羅した20の連接表を有する定義表
(二 実際のガバナンスワークフローを記述する専門家マニュアル及び変更ログテンプレート
(iii)コードルックアップ、クロステーブル推論、多言語用語、品質保証監査にまたがる14のCaseMixタスクのプロンプトパック。
https://github.com/longshoreforrest/norddrg-ai-benchmark ベースラインのデモでは、5つの最先端のLLMが、9つの自動検証タスクにおいて、非常に異なるパフォーマンスを示している。
これらの結果は,NorDRG-AI-Benchmarkが一般のLCMベンチマークに隠された領域固有の強みと弱みを強調し,病院資金における信頼性の高い自動化研究のための再現可能なベースラインを提供することを確認した。
関連論文リスト
- AraReasoner: Evaluating Reasoning-Based LLMs for Arabic NLP [2.869780207429188]
大規模言語モデル(LLM)は推論能力の顕著な進歩を示している。
しかし、アラビアデータにおける彼らのパフォーマンスは、豊富な形態学、多様な方言、複雑な文字によって特徴づけられ、未発見のままである。
本稿では,複数の推論に焦点をあてたLLMの総合的なベンチマーク研究について述べる。
論文 参考訳(メタデータ) (2025-06-10T13:10:31Z) - GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。
一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - LettuceDetect: A Hallucination Detection Framework for RAG Applications [2.4830926411920315]
Retrieval Augmented Generation (RAG) システムは、外部知識源を取り入れたとしても、幻覚応答に弱いままである。
本稿では,既存の幻覚検出法における2つの限界に対処するフレームワークであるLettuceDetectを提案する。
ModernBERTの拡張コンテキスト機能(最大8kトークン)に基づいて構築し、RAGTruthベンチマークデータセットでトレーニングします。
提案手法は,従来のエンコーダベースモデルや最もプロンプトベースモデルよりも優れており,最良モデルよりも約30倍小さい。
論文 参考訳(メタデータ) (2025-02-24T13:11:47Z) - Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-12T16:30:51Z) - DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation [48.11754113512047]
この研究には、コード生成ベンチマークデータセットであるDOMAINEVALが含まれており、6つの人気のあるドメインを含んでいる。
私たちのパイプラインは完全に自動化され、コードリポジトリから研究対象のフォーマットへのプッシュボットの構築が可能になります。
本研究のコントリビューションには、コード生成ベンチマークデータセットであるDOMAINEVAL、コードベンチマークを構築するための完全自動化パイプライン、DOMAINEVALのパフォーマンスに基づいたコード生成タスクにおけるLLMの制限の識別が含まれている。
論文 参考訳(メタデータ) (2024-08-23T16:33:58Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。