論文の概要: Robustness tests for biomedical foundation models should tailor to specification
- arxiv url: http://arxiv.org/abs/2502.10374v1
- Date: Fri, 14 Feb 2025 18:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:48:49.173581
- Title: Robustness tests for biomedical foundation models should tailor to specification
- Title(参考訳): バイオメディカルファンデーションモデルのロバストネステストは仕様に適合すべきである
- Authors: R. Patrick Xian, Noah R. Baker, Tom David, Qiming Cui, A. Jay Holmgren, Stefan Bauer, Madhumita Sushil, Reza Abbasi-Asl,
- Abstract要約: 我々は、優先順位に基づくタスク指向のアプローチにより、事前定義された仕様にロバスト性評価の目的を調整することを提案する。
我々は、具体的ポリシーに対して、仕様におけるロバストネスの概念の粒度の分類を採用するよう促す。
- 参考スコア(独自算出の注目度): 16.66048720047442
- License:
- Abstract: Existing regulatory frameworks for biomedical AI include robustness as a key component but lack detailed implementational guidance. The recent rise of biomedical foundation models creates new hurdles in testing and certification given their broad capabilities and susceptibility to complex distribution shifts. To balance test feasibility and effectiveness, we suggest a priority-based, task-oriented approach to tailor robustness evaluation objectives to a predefined specification. We urge concrete policies to adopt a granular categorization of robustness concepts in the specification. Our approach promotes the standardization of risk assessment and monitoring, which guides technical developments and mitigation efforts.
- Abstract(参考訳): 既存のバイオメディカルAIの規制フレームワークには、重要なコンポーネントとして堅牢性があるが、詳細な実装ガイダンスがない。
近年のバイオメディカル基礎モデルの台頭は、複雑な分布シフトに対する幅広い能力と感受性から、テストと認定における新たなハードルを生み出している。
テストの実現可能性と有効性のバランスをとるために,事前定義された仕様に頑健性評価の目的を調整するための優先順位に基づくタスク指向アプローチを提案する。
我々は、具体的ポリシーに対して、仕様におけるロバストネスの概念の粒度の分類を採用するよう促す。
本手法はリスクアセスメントとモニタリングの標準化を推進し、技術的発展と緩和の取り組みを導く。
関連論文リスト
- Pitfalls of topology-aware image segmentation [81.19923502845441]
我々は、不適切な接続選択、見過ごされたトポロジカルアーティファクト、評価指標の不適切な使用を含むモデル評価における致命的な落とし穴を同定する。
本稿では,トポロジを意識した医用画像分割手法の公正かつ堅牢な評価基準を確立するための,行動可能なレコメンデーションセットを提案する。
論文 参考訳(メタデータ) (2024-12-19T08:11:42Z) - Beyond One-Time Validation: A Framework for Adaptive Validation of Prognostic and Diagnostic AI-based Medical Devices [55.319842359034546]
既存のアプローチは、これらのデバイスを実際にデプロイする際の複雑さに対処するのに不足することが多い。
提示されたフレームワークは、デプロイメント中に検証と微調整を繰り返すことの重要性を強調している。
現在の米国とEUの規制分野に位置づけられている。
論文 参考訳(メタデータ) (2024-09-07T11:13:52Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks [0.6282171844772422]
大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。
近年、自然言語処理タスクの逆例として命名されたエンティティが発見され、事前訓練されたLLMの知識の堅牢性に対するそれらの潜在的な影響に関する疑問が提起されている。
バイオメディカル知識のロバスト性を評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
論文 参考訳(メタデータ) (2024-02-16T09:29:38Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Benchmarking Scalable Epistemic Uncertainty Quantification in Organ
Segmentation [7.313010190714819]
モデル予測に関連する不確実性の定量化は 重要な臨床応用に不可欠です
自動臓器分割のためのディープラーニングに基づく手法は,診断と治療計画を支援する上で有望であることを示す。
医用画像解析設定においてどの方法が好ましいかは不明確である。
論文 参考訳(メタデータ) (2023-08-15T00:09:33Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Estimating Test Performance for AI Medical Devices under Distribution
Shift with Conformal Prediction [4.395519864600419]
ラベルのない対象領域における任意のブラックボックスモデルのテスト精度を予測するタスクについて検討する。
そこで本研究では,共形予測に基づく「ブラックボックス」テスト推定手法を提案し,他の手法と比較した。
論文 参考訳(メタデータ) (2022-07-12T19:25:21Z) - Generalized Coverage Criteria for Combinatorial Sequence Testing [4.807321976136717]
本稿では,アクションのシーケンスとアサーションをテストベクトルとして使用するテストシステムに対して,新しいモデルベースのアプローチを提案する。
我々のソリューションは、テスト品質の定量化方法、提案するカバレッジ基準に基づいて高品質なテストスイートを生成するツール、リスクを評価するフレームワークを含む。
論文 参考訳(メタデータ) (2022-01-03T08:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。