論文の概要: Robustness tests for biomedical foundation models should tailor to specifications
- arxiv url: http://arxiv.org/abs/2502.10374v2
- Date: Mon, 04 Aug 2025 10:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:56.196443
- Title: Robustness tests for biomedical foundation models should tailor to specifications
- Title(参考訳): バイオメディカルファンデーションモデルのロバストネステストは仕様に適合すべきである
- Authors: R. Patrick Xian, Noah R. Baker, Tom David, Qiming Cui, A. Jay Holmgren, Stefan Bauer, Madhumita Sushil, Reza Abbasi-Asl,
- Abstract要約: タスク依存の優先順位に応じて堅牢性テストの調整を提案する。
本稿では,実装の指針となる事前定義された仕様にロバスト性という概念を統合することを提案する。
- 参考スコア(独自算出の注目度): 16.66048720047442
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rise of biomedical foundation models creates new hurdles in model testing and authorization given their broad capabilities and susceptibility to complex distribution shifts. We suggest tailoring robustness tests according to task-dependent priorities and propose to integrate granular notions of robustness in a predefined specification to guide implementation. Our approach facilitates the standardization of robustness assessments in the model lifecycle and connects abstract AI regulatory frameworks with concrete testing procedures.
- Abstract(参考訳): バイオメディカル基礎モデルの台頭は、複雑な分布シフトに対する幅広い能力と感受性から、モデルテストと認可における新たなハードルを生み出します。
タスク依存の優先順位に従ってロバストネステストの調整を提案し、事前に定義された仕様にロバストネスの詳細な概念を統合することを提案する。
提案手法は,モデルライフサイクルにおけるロバストネス評価の標準化を促進し,抽象的なAI規制フレームワークと具体的なテスト手順を結びつける。
関連論文リスト
- Score-based Generative Modeling for Conditional Independence Testing [35.0533359302886]
本稿では,精度の高いタイプIエラー制御と強力なテスト能力を実現するための,スコアベース生成モデルによる新しいCIテスト手法を提案する。
スコアベース生成モデルによりモデル化された条件分布の誤差境界を理論的に確立し,CIテストの有効性を検証した。
論文 参考訳(メタデータ) (2025-05-29T10:10:46Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Beyond Black-Box Benchmarking: Observability, Analytics, and Optimization of Agentic Systems [1.415098516077151]
エージェントがさまざまなタスクを実行するために協力するエージェントAIシステムの台頭は、その振る舞いを観察し、分析し、最適化する上で、新たな課題を提起する。
従来の評価とベンチマークのアプローチは、これらのシステムの非決定論的、文脈に敏感で動的な性質を扱うのに苦労する。
本稿では,エージェントシステムを開発,テスト,保守にまたがって分析・最適化する上で重要な課題と機会について考察する。
論文 参考訳(メタデータ) (2025-03-09T20:02:04Z) - SMRS: advocating a unified reporting standard for surrogate models in the artificial intelligence era [1.4835379864550937]
我々は、サロゲートモデルのための構造化レポート標準を確立する緊急の必要性を論じる。
標準化されながらフレキシブルなフレームワークを推進することによって、サロゲートモデリングの信頼性を向上させることを目指している。
論文 参考訳(メタデータ) (2025-02-10T18:31:15Z) - Pitfalls of topology-aware image segmentation [81.19923502845441]
我々は、不適切な接続選択、見過ごされたトポロジカルアーティファクト、評価指標の不適切な使用を含むモデル評価における致命的な落とし穴を同定する。
本稿では,トポロジを意識した医用画像分割手法の公正かつ堅牢な評価基準を確立するための,行動可能なレコメンデーションセットを提案する。
論文 参考訳(メタデータ) (2024-12-19T08:11:42Z) - Exposing Assumptions in AI Benchmarks through Cognitive Modelling [0.0]
文化AIベンチマークは、しばしば測定された構成物に関する暗黙の仮定に頼っており、不適切で明確な相互関係を持つ曖昧な定式化に繋がる。
構造方程式モデルとして定式化された明示的認知モデルを用いて,これらの仮定を明らかにする。
論文 参考訳(メタデータ) (2024-09-25T11:55:02Z) - Beyond One-Time Validation: A Framework for Adaptive Validation of Prognostic and Diagnostic AI-based Medical Devices [55.319842359034546]
既存のアプローチは、これらのデバイスを実際にデプロイする際の複雑さに対処するのに不足することが多い。
提示されたフレームワークは、デプロイメント中に検証と微調整を繰り返すことの重要性を強調している。
現在の米国とEUの規制分野に位置づけられている。
論文 参考訳(メタデータ) (2024-09-07T11:13:52Z) - FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models [54.09244105445476]
本研究は,フェデレート・ラーニング・フレームワーク内で医療基盤モデルを拡張するための新しい知識注入手法であるFedKIMを紹介する。
FedKIMは軽量なローカルモデルを活用して、プライベートデータから医療知識を抽出し、この知識を集中基盤モデルに統合する。
7つのモードで12タスクを対象に実験を行い,FedKIMの有効性について検討した。
論文 参考訳(メタデータ) (2024-08-17T15:42:29Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks [0.6282171844772422]
大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。
近年、自然言語処理タスクの逆例として命名されたエンティティが発見され、事前訓練されたLLMの知識の堅牢性に対するそれらの潜在的な影響に関する疑問が提起されている。
バイオメディカル知識のロバスト性を評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
論文 参考訳(メタデータ) (2024-02-16T09:29:38Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Benchmarking Scalable Epistemic Uncertainty Quantification in Organ
Segmentation [7.313010190714819]
モデル予測に関連する不確実性の定量化は 重要な臨床応用に不可欠です
自動臓器分割のためのディープラーニングに基づく手法は,診断と治療計画を支援する上で有望であることを示す。
医用画像解析設定においてどの方法が好ましいかは不明確である。
論文 参考訳(メタデータ) (2023-08-15T00:09:33Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Benchmarking Model Predictive Control Algorithms in Building Optimization Testing Framework (BOPTEST) [40.17692290400862]
物理に基づく建築エミュレータのためのデータ駆動モデリングおよび制御フレームワークを提案する。
a)モデル評価を加速し、コスト効率の良い勾配を提供し、モデル予測制御(MPC)における後退地平線に対する良好な予測精度を維持する、微分可能な代理モデルのオフライントレーニング。
ビルディング最適化テストフレームワーク(BOPTEST)で利用可能な様々なテストケースに対して、複数のサロゲートモデルと最適化フレームワークを用いて、モデリングと制御性能を広範囲に評価する。
論文 参考訳(メタデータ) (2023-01-31T06:55:19Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - Estimating Test Performance for AI Medical Devices under Distribution
Shift with Conformal Prediction [4.395519864600419]
ラベルのない対象領域における任意のブラックボックスモデルのテスト精度を予測するタスクについて検討する。
そこで本研究では,共形予測に基づく「ブラックボックス」テスト推定手法を提案し,他の手法と比較した。
論文 参考訳(メタデータ) (2022-07-12T19:25:21Z) - Extending Process Discovery with Model Complexity Optimization and
Cyclic States Identification: Application to Healthcare Processes [62.997667081978825]
モデル最適化のための半自動支援を実現するプロセスマイニング手法を提案する。
所望の粒度で生モデルを抽象化するモデル単純化手法が提案されている。
医療分野の異なるアプリケーションから得られた3つのデータセットを用いて、技術的ソリューションの能力を実証することを目的としている。
論文 参考訳(メタデータ) (2022-06-10T16:20:59Z) - Calibrating Over-Parametrized Simulation Models: A Framework via
Eligibility Set [3.862247454265944]
厳密な頻繁な統計的保証を満たす校正手法を開発するための枠組みを開発する。
本手法は,書籍市場シミュレータのキャリブレーションへの応用を含む,いくつかの数値例で実証する。
論文 参考訳(メタデータ) (2021-05-27T00:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。