論文の概要: ABRA: Agent Benchmark for Radiology Applications
- arxiv url: http://arxiv.org/abs/2605.11224v1
- Date: Mon, 11 May 2026 20:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.41795
- Title: ABRA: Agent Benchmark for Radiology Applications
- Title(参考訳): ABRA:放射線医学応用のためのエージェントベンチマーク
- Authors: Bulat Maksudov, Vladislav Kurenkov, Kathleen M. Curran, Alessandra Mileo,
- Abstract要約: エージェントがビューアとOrthanc DICOMサーバを操作する無線エージェントベンチマークであるABRAを紹介する。
ABRAには3つの困難層と8つのタイプにわたる655の655のタスクが含まれている。
各エピソードは、タスクタイプ固有の自動スコアラーによって、プランニング、実行、アウトカム(Blueth et al., 2025)に沿ってスコアされる。
- 参考スコア(独自算出の注目度): 46.39696206872633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing medical-agent benchmarks deliver imaging as pre-selected samples, never as an environment the agent must navigate. We introduce ABRA, a radiology-agent benchmark in which the agent operates an OHIF viewer and an Orthanc DICOM server through twenty-one function-calling tools that span slice navigation, windowing, series selection, pixel-coordinate annotation, and structured reporting. ABRA contains 655 programmatically generated tasks across three difficulty tiers and eight types (viewer control, metadata QA, vision probe, annotation, longitudinal comparison, BI-RADS reporting, and oracle variants of annotation and BI-RADS reporting), drawn from LIDC-IDRI, Duke Breast Cancer MRI, and NLST New-Lesion LongCT. Each episode is scored along Planning, Execution, and Outcome (Bluethgen et al., 2025) by task-type-specific automatic scorers. Ten current models, five closed-weight and five open-weight, reach at least 89% Execution on real annotation but only 0-25% Outcome; on the paired oracle variant where a simulated detector supplies the finding, Outcome on the same task reaches 69-100% across the models evaluated, localising the bottleneck to perception rather than tool orchestration. Code, task generators, and scorers are released at https://github.com/Luab/ABRA
- Abstract(参考訳): 既存の医療エージェントのベンチマークでは、事前に選択されたサンプルとして、エージェントがナビゲートしなければならない環境として、イメージングが提供される。
エージェントがOHIFビューアとOrthanc DICOMサーバを、スライスナビゲーション、ウィンドウニング、シリーズ選択、ピクセル座標アノテーション、構造化レポートにまたがる21の関数呼び出しツールを介して操作する放射線学エージェントベンチマークであるABRAを紹介する。
ABRAは、LIDC-IDRI、Duke Breast Cancer MRI、NLST New-Lesion LongCTから抽出された655のプログラム生成タスク(ビューアコントロール、メタデータQA、ビジョンプローブ、アノテーション、長手比較、BI-RADSレポート、およびBI-RADSレポート)を含む。
各エピソードは、タスクタイプ固有の自動スコアラーによって、プランニング、実行、アウトカム(Bluethgen et al , 2025)に沿ってスコアされる。
現在の10つのモデル、5つのクローズドウェイト、5つのオープンウェイトは、実際のアノテーションで少なくとも89%の実行に到達するが、0-25%のアウトカムしか達成できない。
コード、タスクジェネレータ、スコアラはhttps://github.com/Luab/ABRAでリリースされる。
関連論文リスト
- TADI: Tool-Augmented Drilling Intelligence via Agentic LLM Orchestration over Heterogeneous Wellsite Data [0.0]
TADI(Tool-Augmented Drilling Intelligence)は、ドリル操作データをエビデンスベースの分析インテリジェンスに変換するエージェントAIシステムである。
TADIは、毎日1,759件の掘削レポート、選択されたWITリアルタイムオブジェクト、15,634件の生産記録、生成トップ、穴を二重ストアアーキテクチャに統合している。
論文 参考訳(メタデータ) (2026-04-30T03:19:39Z) - CUJBench: Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend [2.9612444540570113]
診断フレーミングにおけるブラウザ可視性障害証拠とバックエンド可観測性を組み合わせた最初のベンチマークであるCUJBenchを提案する。
このベンチマークでは、全体的な精度は19.7%、天井は52%、飽和度よりかなり低い。
論文 参考訳(メタデータ) (2026-04-25T22:10:53Z) - AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents [40.88941407116349]
本稿では,大規模言語モデル(LLM)エージェントにおけるデータオーバー露光(DOE)リスクを検出するための,最初の自動化フレームワークであるAgentRaftを紹介する。
実世界のエージェントツール6,675のテスト環境でAgentRaftを評価した。
論文 参考訳(メタデータ) (2026-03-08T09:40:54Z) - BUSTR: Breast Ultrasound Text Reporting with a Descriptor-Aware Vision-Language Model [0.0]
乳房超音波(BUS)のための自動放射線診断レポート生成(RRG)は、ペア画像レポートデータセットの欠如により制限される。
本稿では,BUSレポートを生成するマルチタスク・ビジョン言語フレームワークであるBUSTRを提案する。
論文 参考訳(メタデータ) (2025-11-26T01:22:29Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [68.00304954972232]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。