論文の概要: Vision Foundry: A System for Training Foundational Vision AI Models
- arxiv url: http://arxiv.org/abs/2512.11837v1
- Date: Wed, 03 Dec 2025 14:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.710604
- Title: Vision Foundry: A System for Training Foundational Vision AI Models
- Title(参考訳): Vision Foundry: 基礎的なビジョンAIモデルをトレーニングするシステム
- Authors: Mahmut S. Gokmen, Mitchell A. Klusty, Evan W. Damron, W. Vaiden Logan, Aaron D. Mullen, Caroline N. Leach, Emily B. Collier, Samuel E. Armstrong, V. K. Cody Bumgardner,
- Abstract要約: Vision FoundryはコードフリーのHIPAA準拠のプラットフォームで、ビジョンモデルの事前トレーニング、適応、デプロイを民主化する。
高度な表現学習と実践的応用のギャップを埋めることで、Vision Foundryはドメインの専門家が最先端の臨床AIツールを開発することを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) leverages vast unannotated medical datasets, yet steep technical barriers limit adoption by clinical researchers. We introduce Vision Foundry, a code-free, HIPAA-compliant platform that democratizes pre-training, adaptation, and deployment of foundational vision models. The system integrates the DINO-MX framework, abstracting distributed infrastructure complexities while implementing specialized strategies like Magnification-Aware Distillation (MAD) and Parameter-Efficient Fine-Tuning (PEFT). We validate the platform across domains, including neuropathology segmentation, lung cellularity estimation, and coronary calcium scoring. Our experiments demonstrate that models trained via Vision Foundry significantly outperform generic baselines in segmentation fidelity and regression accuracy, while exhibiting robust zero-shot generalization across imaging protocols. By bridging the gap between advanced representation learning and practical application, Vision Foundry enables domain experts to develop state-of-the-art clinical AI tools with minimal annotation overhead, shifting focus from engineering optimization to clinical discovery.
- Abstract(参考訳): 自己教師付き学習(SSL)は、膨大な無注釈の医療データセットを活用するが、急激な技術的障壁は臨床研究者による採用を制限する。
コードフリーでHIPAAに準拠したプラットフォームであるVision Foundryを紹介します。
このシステムはDINO-MXフレームワークを統合し、分散インフラストラクチャの複雑さを抽象化し、Magnification-Aware Distillation (MAD) やパラメータ効率の良いファインチューニング (PEFT) といった特殊な戦略を実装している。
われわれは,神経病理領域,肺細胞性評価,冠カルシウムスコアなど,各領域にまたがるプラットフォームを検証した。
実験により,Vision Foundryを用いてトレーニングしたモデルは,画像プロトコル間のゼロショットの堅牢な一般化を図りながら,セグメンテーションの忠実度と回帰精度において,一般的なベースラインを著しく上回ることを示した。
高度な表現学習と実践的応用のギャップを埋めることで、Vision Foundryは、ドメインの専門家が最小限のオーバーヘッドで最先端の臨床AIツールを開発することができ、エンジニアリング最適化から臨床発見へと焦点を移すことができる。
関連論文リスト
- Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - DiSSECT: Structuring Transfer-Ready Medical Image Representations through Discrete Self-Supervision [9.254163621425727]
DiSSECTはSSLパイプラインにマルチスケールベクトル量子化を統合するフレームワークで、離散的な表現ボトルネックを課す。
分類タスクとセグメンテーションタスクの両方で強力なパフォーマンスを実現し、微調整は最小か不要である。
複数の公開医用画像データセットにまたがってDiSSECTを検証し、その堅牢性と一般化性を示す。
論文 参考訳(メタデータ) (2025-09-23T07:58:21Z) - A Fully Open and Generalizable Foundation Model for Ultrasound Clinical Applications [77.3888788549565]
一般臨床用超音波基礎モデルであるEchoCareについて紹介する。
我々は、キュレートされた、一般公開された大規模なデータセットであるEchoCareData上で、自己教師付き学習を通じてEchoCareを開発した。
最小限のトレーニングで、EchoCareは10の代表的なベンチマークで最先端の比較モデルを上回っている。
論文 参考訳(メタデータ) (2025-09-15T10:05:31Z) - Leveraging the Structure of Medical Data for Improved Representation Learning [12.175375511821352]
一般化可能な医療AIシステムを構築するには、データ効率とドメイン認識の事前トレーニング戦略が必要である。
本稿では,医療データセットの固有構造を利用した自己教師型フレームワークを提案する。
教師付き目標やベースラインが構造を生かさずにトレーニングされているのに比べ、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2025-07-01T11:14:45Z) - Decentralized LoRA Augmented Transformer with Context-aware Multi-scale Feature Learning for Secured Eye Diagnosis [2.1358421658740214]
本稿では、コンテキスト認識型マルチスケールパッチ埋め込み、ローランド適応(LoRA)、知識蒸留、フェデレーション学習を統合し、これらの課題に統一的に対処する新しいデータ効率画像変換器(DeiT)ベースのフレームワークを提案する。
提案モデルでは,マルチスケールパッチ表現と局所的および大域的注意機構を活用することで,局所的および大域的網膜特徴を効果的に捉えている。
論文 参考訳(メタデータ) (2025-05-11T13:51:56Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - CLIP in Medical Imaging: A Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
CLIPの使用は最近、医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。