論文の概要: ReX-MLE: The Autonomous Agent Benchmark for Medical Imaging Challenges
- arxiv url: http://arxiv.org/abs/2512.17838v1
- Date: Fri, 19 Dec 2025 17:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.516036
- Title: ReX-MLE: The Autonomous Agent Benchmark for Medical Imaging Challenges
- Title(参考訳): ReX-MLE:医療画像診断のための自律エージェントベンチマーク
- Authors: Roshan Kenia, Xiaoman Zhang, Pranav Rajpurkar,
- Abstract要約: ReX-MLE(ReX-MLE)は、ハイインパクトな医用イメージングコンペティションから導かれる20の課題のベンチマークである。
以前のベンチマークとは異なり、ReX-MLEは完全なエンドツーエンドを評価し、エージェントはデータ前処理、モデルトレーニング、サブミッションを独立して管理する必要がある。
ほとんどの応募は、人間専門家と比較して0パーセントのランクでランク付けされます。
- 参考スコア(独自算出の注目度): 5.886200278450183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous coding agents built on large language models (LLMs) can now solve many general software and machine learning tasks, but they remain ineffective on complex, domain-specific scientific problems. Medical imaging is a particularly demanding domain, requiring long training cycles, high-dimensional data handling, and specialized preprocessing and validation pipelines, capabilities not fully measured in existing agent benchmarks. To address this gap, we introduce ReX-MLE, a benchmark of 20 challenges derived from high-impact medical imaging competitions spanning diverse modalities and task types. Unlike prior ML-agent benchmarks, ReX-MLE evaluates full end-to-end workflows, requiring agents to independently manage data preprocessing, model training, and submission under realistic compute and time constraints. Evaluating state-of-the-art agents (AIDE, ML-Master, R&D-Agent) with different LLM backends (GPT-5, Gemini, Claude), we observe a severe performance gap: most submissions rank in the 0th percentile compared to human experts. Failures stem from domain-knowledge and engineering limitations. ReX-MLE exposes these bottlenecks and provides a foundation for developing domain-aware autonomous AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)上に構築された自律的コーディングエージェントは、今や多くの一般的なソフトウェアや機械学習タスクを解決できるが、複雑なドメイン固有の科学的問題には効果がない。
医用画像は特に要求の多い領域であり、トレーニングサイクルの長い、高次元のデータ処理、特別な前処理と検証パイプラインを必要とする。
このギャップに対処するために、さまざまなモダリティやタスクタイプにまたがるハイインパクトな医療画像コンペから導かれる20の課題のベンチマークであるReX-MLEを紹介する。
従来のMLエージェントベンチマークとは異なり、ReX-MLEは完全なエンドツーエンドワークフローを評価し、エージェントはデータ前処理、モデルのトレーニング、実際の計算と時間の制約下での提出を独立して管理する必要がある。
最先端エージェント (AIDE, ML-Master, R&D-Agent) を異なるLLMバックエンド (GPT-5, Gemini, Claude) で評価し, 高い性能差が見られた。
失敗はドメイン知識とエンジニアリングの制限に起因する。
ReX-MLEはこれらのボトルネックを明らかにし、ドメイン対応の自律AIシステムを開発する基盤を提供する。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification [17.67273082468732]
検証 -- エージェントの振る舞いに報酬を割り当てる関数 -- は、数学やボードゲームのような分野におけるAIの進歩の鍵となっている。
我々は,Multimodal Large Language Models (MLLM) を,Webナビゲーション,コンピュータ利用,ロボット操作におけるエージェントトラジェクトリの検証手段として評価した。
本稿では,MLLMの知識と推論をより効果的に活用する軽量な手法である自己検証(SGV)を提案する。
論文 参考訳(メタデータ) (2025-07-15T18:50:29Z) - R&D-Agent: An LLM-Agent Framework Towards Autonomous Data Science [70.1638335489284]
高レベルの機械学習エンジニアリングタスクは、労働集約的で反復的である。
機械学習プロセスを形式化する包括的で分離されたフレームワークであるR&D-Agentを紹介します。
R&D-AgentはMLEを2つのフェーズと6つのコンポーネントに定義し、MLEのエージェント設計を原則としてテスト可能なプロセスに変える。
論文 参考訳(メタデータ) (2025-05-20T06:07:00Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Simplifying Multimodality: Unimodal Approach to Multimodal Challenges in Radiology with General-Domain Large Language Model [3.012719451477384]
MID-Mは,汎用言語モデル(LLM)のコンテキスト内学習機能を利用して,画像記述によるマルチモーダルデータの処理を行う新しいフレームワークである。
MID-Mは、タスク固有の微調整 LMM や他の汎用ドメインと同等または優れた性能を達成し、ドメイン固有の訓練やマルチモーダルデータによる事前トレーニングは行わない。
データ品質問題に対するMID-Mの堅牢性は、実世界の医療ドメインアプリケーションにおいて実用性を示している。
論文 参考訳(メタデータ) (2024-04-29T13:23:33Z) - EHRAgent: Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records [47.5632532642591]
大規模言語モデル(LLM)は、計画とツールの利用において例外的な能力を示した。
コードインタフェースを備えたLLMエージェントであるEHRAgentを提案し,マルチタブラル推論のためのコードの自動生成と実行を行う。
論文 参考訳(メタデータ) (2024-01-13T18:09:05Z) - CheXstray: Real-time Multi-Modal Data Concordance for Drift Detection in
Medical Imaging AI [1.359138408203412]
医用画像AIドリフトモニタリングワークフローを構築してテストし、同時代の地上真実なしにデータとモデルドリフトを追跡する。
主な貢献は,(1)VAEおよび領域特異的統計手法を含む医用画像ドリフト検出のための概念実証である。
この研究は、動的医療環境における継続的医療画像AIモデルモニタリングに関連する翻訳ギャップに対処するために重要な意味を持つ。
論文 参考訳(メタデータ) (2022-02-06T18:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。