論文の概要: U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking
- arxiv url: http://arxiv.org/abs/2510.07041v1
- Date: Wed, 08 Oct 2025 14:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.53958
- Title: U-Bench: A Comprehensive Understanding of U-Net through 100-Variant Benchmarking
- Title(参考訳): U-Bench: 100変数ベンチマークによるU-Netの理解
- Authors: Fenghe Tang, Chengqi Dong, Wenxin Ma, Zikang Xu, Heqin Zhu, Zihang Jiang, Rongsheng Wang, Yuhao Wang, Chenxu Wu, Shaohua Kevin Zhou,
- Abstract要約: U-Netは、医療画像のセグメンテーションにおいて支配的なアーキテクチャであり、何千ものU字型の変種の開発に繋がった。
広く採用されているにもかかわらず、パフォーマンスとユーティリティを体系的に評価する包括的なベンチマークはいまだに存在しない。
U-Benchは、28のデータセットと10の画像モダリティにまたがる100のU-Net変異を評価する、最初の大規模で統計的に厳密なベンチマークである。
- 参考スコア(独自算出の注目度): 13.41099918346476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past decade, U-Net has been the dominant architecture in medical image segmentation, leading to the development of thousands of U-shaped variants. Despite its widespread adoption, there is still no comprehensive benchmark to systematically evaluate their performance and utility, largely because of insufficient statistical validation and limited consideration of efficiency and generalization across diverse datasets. To bridge this gap, we present U-Bench, the first large-scale, statistically rigorous benchmark that evaluates 100 U-Net variants across 28 datasets and 10 imaging modalities. Our contributions are threefold: (1) Comprehensive Evaluation: U-Bench evaluates models along three key dimensions: statistical robustness, zero-shot generalization, and computational efficiency. We introduce a novel metric, U-Score, which jointly captures the performance-efficiency trade-off, offering a deployment-oriented perspective on model progress. (2) Systematic Analysis and Model Selection Guidance: We summarize key findings from the large-scale evaluation and systematically analyze the impact of dataset characteristics and architectural paradigms on model performance. Based on these insights, we propose a model advisor agent to guide researchers in selecting the most suitable models for specific datasets and tasks. (3) Public Availability: We provide all code, models, protocols, and weights, enabling the community to reproduce our results and extend the benchmark with future methods. In summary, U-Bench not only exposes gaps in previous evaluations but also establishes a foundation for fair, reproducible, and practically relevant benchmarking in the next decade of U-Net-based segmentation models. The project can be accessed at: https://fenghetan9.github.io/ubench. Code is available at: https://github.com/FengheTan9/U-Bench.
- Abstract(参考訳): 過去10年間、U-Netは医療画像のセグメンテーションにおいて支配的なアーキテクチャであり、数千種類のU字型が開発されてきた。
広く採用されているにもかかわらず、その性能とユーティリティを体系的に評価するための包括的なベンチマークはいまだに存在しない。
このギャップを埋めるために、28のデータセットと10の画像モダリティにわたる100のU-Net変異を評価する、最初の大規模で統計的に厳密なベンチマークであるU-Benchを紹介する。
1)包括的評価:U-Benchは統計的ロバスト性、ゼロショット一般化、計算効率の3つの主要な次元に沿ってモデルを評価する。
モデル進行に関するデプロイメント指向の視点を提供するため、パフォーマンス効率トレードオフを共同でキャプチャする新しいメトリック、U-Scoreを導入する。
2)システム分析とモデル選択指導:大規模評価から得られた重要な知見を要約し,データセットの特徴とアーキテクチャパラダイムがモデル性能に与える影響を体系的に分析する。
これらの知見に基づいて,特定のデータセットやタスクに対して最適なモデルを選択するために,研究者を指導するモデルアドバイザエージェントを提案する。
(3)パブリックアベイラビリティ: すべてのコード、モデル、プロトコル、ウェイトを提供し、コミュニティが結果を再現し、将来のメソッドでベンチマークを拡張することができます。
要約すると、U-Benchは以前の評価のギャップを露呈するだけでなく、次の10年間のU-Netベースのセグメンテーションモデルにおいて、公正で再現性があり、実用的なベンチマークのための基盤も確立している。
プロジェクトへのアクセスは、https://fenghetan9.github.io/ubench.com/でできる。
コードは、https://github.com/FengheTan9/U-Bench.comで入手できる。
関連論文リスト
- KG-EDAS: A Meta-Metric Framework for Evaluating Knowledge Graph Completion Models [0.0]
知識グラフ(KG)を評価する上での大きな課題は、複数のデータセットとメトリクスのパフォーマンスを比較することだ。
我々は,平均解からの距離に基づくKG評価を提案し,マルチメトリック・マルチデータセットのパフォーマンスを統一的なランキングに組み込む。
EDASは、より情報のあるモデル選択をサポートし、データセット間の評価において公平性を促進するグローバルな視点を提供する。
論文 参考訳(メタデータ) (2025-08-21T08:37:35Z) - Beyond One-Size-Fits-All: Tailored Benchmarks for Efficient Evaluation [19.673388630963807]
本論文では,各対象モデルに合わせてカスタマイズした評価を行うTaloredBenchを提案する。
Global-coresetはまず、ターゲットモデル毎に最も一貫性のあるソースモデルを特定するプローブとして構築される。
拡張性のあるK-Medoidsクラスタリングアルゴリズムが提案され、Global-coresetを各ターゲットモデルに適したNative-coresetに拡張する。
論文 参考訳(メタデータ) (2025-02-19T09:31:50Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance [68.18779562801762]
マルチモーダルモデルは、下流の"ゼロショット"のパフォーマンスを線形改善するために、指数関数的に多くのデータを必要とする。
本研究は,大規模な訓練パラダイムの下での「ゼロショット」一般化能力の鍵となる訓練データに対する指数関数的要求を明らかにする。
論文 参考訳(メタデータ) (2024-04-04T17:58:02Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。