Fugu-MT 論文翻訳(概要): The NordDRG AI Benchmark for Large Language Models

論文の概要: The NordDRG AI Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2506.13790v1
Date: Wed, 11 Jun 2025 11:40:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-18 17:34:59.139098
Title: The NordDRG AI Benchmark for Large Language Models
Title（参考訳）: 大規模言語モデルのためのNordDRG AIベンチマーク
Authors: Tapio Pitkäranta,
Abstract要約: NordDRG-AI-Benchmarkは、完全なDRGルールをキャプチャし、LLMの多言語診断、手順、関税ロジックを推論する能力を評価する最初の公開テストベッドである。 i) DRGロジック、ICDおよびNCSPコード、年齢/性別分割、国旗を含む20のテーブルを持つ定義テーブル、(ii) 実際のガバナンスを記述する専門家マニュアルと変更ログテンプレート、(iii) コードルックアップ、クロステーブル推論、多言語用語、品質保証監査にまたがる14のCaseMixタスクの即時パック。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are already being piloted for clinical coding and decision support. However, until now, no open benchmark has targeted the hospital funding layer where Diagnosis-Related Groups (DRG) determine reimbursement across many countries. We release NordDRG-AI-Benchmark, the first public test-bed that captures a complete DRG rule set and evaluates an LLM's ability to reason over multilingual diagnosis, procedure, and tariff logic. The benchmark bundles three classes of artefacts: (i) definition tables with 20 interlinked tables covering DRG logic, ICD and NCSP codes, age/sex splits, and country flags; (ii) expert manuals and changelog templates describing real governance workflows; and (iii) a prompt pack of 14 CaseMix tasks that span code lookup, cross-table inference, multilingual terminology, and quality-assurance audits. All artefacts are available at: https://github.com/longshoreforrest/norddrg-ai-benchmark A baseline demonstration shows that five state-of-the-art LLMs perform very differently on the nine automatically verifiable tasks: o3 (OpenAI) scores 9 out of 9, GPT-4o and o4-mini-high score 7 out of 9, while Gemini 2.5 Pro and Gemini 2.5 Flash solve only 5 out of 9 and 3 out of 9, respectively. These results confirm that NordDRG-AI-Benchmark highlights domain-specific strengths and weaknesses that remain hidden in generic LLM benchmarks, offering a reproducible baseline for research on trustworthy automation in hospital funding.
Abstract（参考訳）: 大規模言語モデル(LLM)は、すでに臨床的なコーディングと意思決定のサポートのために試験されている。しかし、これまで、診断関連グループ(DRG)が多くの国で再支払いを決定する病院資金層をターゲットにしたオープンベンチマークは行われていない。 NordDRG-AI-Benchmarkは、完全なDRGルールセットをキャプチャし、多言語診断、手順、関税ロジックを解析するLLMの能力を評価する最初の公開テストベッドである。ベンチマークには3つのアーティファクトがバンドルされている。一 DRG論理、ICD及びNCSP符号、年齢/性別分割及び国旗を網羅した20の連接表を有する定義表 (二実際のガバナンスワークフローを記述する専門家マニュアル及び変更ログテンプレート (iii)コードルックアップ、クロステーブル推論、多言語用語、品質保証監査にまたがる14のCaseMixタスクのプロンプトパック。 https://github.com/longshoreforrest/norddrg-ai-benchmark ベースラインのデモでは、5つの最先端のLLMが、9つの自動検証タスクにおいて、非常に異なるパフォーマンスを示している。これらの結果は,NorDRG-AI-Benchmarkが一般のLCMベンチマークに隠された領域固有の強みと弱みを強調し,病院資金における信頼性の高い自動化研究のための再現可能なベースラインを提供することを確認した。

関連論文リスト

ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。 ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文参考訳（メタデータ） (2026-02-06T23:27:17Z)
A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces [34.59674580962045]
本稿では,階層型検索インタフェースを直接モデルに公開するエージェントRAGフレームワークであるA-RAGを紹介する。 A-RAGはキーワード検索、セマンティック検索、チャンク読み取りという3つの検索ツールを提供する。複数のオープンドメインQAベンチマークの実験は、A-RAGが既存のアプローチを同等または低いトークンで一貫して上回っていることを示している。
論文参考訳（メタデータ） (2026-02-03T12:07:21Z)
ROMA: Recursive Open Meta-Agent Framework for Long-Horizon Multi-Agent Systems [25.131570054560353]
現在のエージェントフレームワークは、ロングホライゾンタスクでパフォーマンスが低い。これらの制限に対処するドメインに依存しないフレームワークであるROMAを紹介します。 ROMAとGEPA+が組み合わさって、推論と長文生成のベンチマークにおいて、システムレベルの主要な性能を提供することを示す。
論文参考訳（メタデータ） (2026-02-02T09:20:59Z)
OctoBench: Benchmarking Scaffold-Aware Instruction Following in Repository-Grounded Agentic Coding [57.39403818250357]
ここでは,レポジトリベースエージェントコーディングにおける足場認識命令のベンチマークを行うOctoBenchを紹介する。 OctoBenchは34の環境と217のタスクを3つの足場タイプでインスタンス化し、7,098の客観的チェックリストアイテムとペアリングする。実験により、タスク解決と足場対応の体系的なギャップが明らかになり、トレーニングと評価の必要性が強調される。
論文参考訳（メタデータ） (2026-01-15T12:36:08Z)
Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。 Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文参考訳（メタデータ） (2025-10-30T07:29:14Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
Large Language Models as Medical Codes Selectors: a benchmark using the International Classification of Primary Care [3.969022748080135]
本研究では,ドメイン固有検索エンジンを用いてICPC-2符号を割り当てる大規模言語モデルの可能性を評価する。 ICPC-2コードでアノテートされたブラジルポルトガルの437の臨床的表現のデータセットが使用された。
論文参考訳（メタデータ） (2025-07-19T16:11:10Z)
Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文参考訳（メタデータ） (2025-06-19T16:18:53Z)
AraReasoner: Evaluating Reasoning-Based LLMs for Arabic NLP [2.869780207429188]
大規模言語モデル(LLM)は推論能力の顕著な進歩を示している。しかし、アラビアデータにおける彼らのパフォーマンスは、豊富な形態学、多様な方言、複雑な文字によって特徴づけられ、未発見のままである。本稿では,複数の推論に焦点をあてたLLMの総合的なベンチマーク研究について述べる。
論文参考訳（メタデータ） (2025-06-10T13:10:31Z)
FlowReasoner: Reinforcing Query-Level Meta-Agents [63.602173107171076]
本稿では,クエリレベルのマルチエージェントシステムの設計を自動化するために,FlowReasonerというクエリレベルのメタエージェントを提案する。私たちの中核的な考え方は、外部の実行フィードバックを通じて推論ベースのメタエージェントをインセンティブ化することです。
論文参考訳（メタデータ） (2025-04-21T17:35:42Z)
GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文参考訳（メタデータ） (2025-03-23T16:20:14Z)
START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。 STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2025-03-06T17:11:51Z)
LettuceDetect: A Hallucination Detection Framework for RAG Applications [2.4830926411920315]
Retrieval Augmented Generation (RAG) システムは、外部知識源を取り入れたとしても、幻覚応答に弱いままである。本稿では,既存の幻覚検出法における2つの限界に対処するフレームワークであるLettuceDetectを提案する。 ModernBERTの拡張コンテキスト機能(最大8kトークン)に基づいて構築し、RAGTruthベンチマークデータセットでトレーニングします。提案手法は,従来のエンコーダベースモデルや最もプロンプトベースモデルよりも優れており,最良モデルよりも約30倍小さい。
論文参考訳（メタデータ） (2025-02-24T13:11:47Z)
Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? [90.30635552818875]
9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
論文参考訳（メタデータ） (2024-11-06T05:09:34Z)
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。 RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文参考訳（メタデータ） (2024-10-12T16:30:51Z)
DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation [48.11754113512047]
この研究には、コード生成ベンチマークデータセットであるDOMAINEVALが含まれており、6つの人気のあるドメインを含んでいる。私たちのパイプラインは完全に自動化され、コードリポジトリから研究対象のフォーマットへのプッシュボットの構築が可能になります。本研究のコントリビューションには、コード生成ベンチマークデータセットであるDOMAINEVAL、コードベンチマークを構築するための完全自動化パイプライン、DOMAINEVALのパフォーマンスに基づいたコード生成タスクにおけるLLMの制限の識別が含まれている。
論文参考訳（メタデータ） (2024-08-23T16:33:58Z)
Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文参考訳（メタデータ） (2024-07-23T20:40:37Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。 5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文参考訳（メタデータ） (2024-02-14T05:57:58Z)
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文参考訳（メタデータ） (2023-11-15T14:41:57Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。