論文の概要: Route-and-Execute: Auditable Model-Card Matching and Specialty-Level Deployment
- arxiv url: http://arxiv.org/abs/2508.16839v3
- Date: Sun, 31 Aug 2025 22:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.676092
- Title: Route-and-Execute: Auditable Model-Card Matching and Specialty-Level Deployment
- Title(参考訳): Route-and-Execute: Auditable Model-Card Matching and Specialty-Level Deployment
- Authors: Shayan Vassef, Soorya Ram Shimegekar, Abhay Goyal, Koustuv Saha, Pi Zonooz, Navin Kumar,
- Abstract要約: 本稿では,視覚言語モデル(VLM)を2つの補完的役割に用いたフレームワークを提案する。
まず、VLMは、入力された画像を適切なスペシャリストモデルにルーティングする、意識的なモデルカードマッチングとして機能する。
第2に、単一のモデルが複数の下流タスクをカバーすることを保証する特別なデータセットについて、VLMを微調整する。
- 参考スコア(独自算出の注目度): 6.7202991099968346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical workflows are fragmented as a patchwork of scripts and task-specific networks that often handle triage, task selection, and model deployment. These pipelines are rarely streamlined for data science pipeline, reducing efficiency and raising operational costs. Workflows also lack data-driven model identification (from imaging/tabular inputs) and standardized delivery of model outputs. In response, we present a practical, healthcare-first framework that uses a single vision-language model (VLM) in two complementary roles. First (Solution 1), the VLM acts as an aware model-card matcher that routes an incoming image to the appropriate specialist model via a three-stage workflow (modality -> primary abnormality -> model-card id). Checks are provided by (i) stagewise prompts that allow early exit via None/Normal/Other and (ii) a stagewise answer selector that arbitrates between the top-2 candidates at each stage, reducing the chance of an incorrect selection and aligning the workflow with clinical risk tolerance. Second (Solution 2), we fine-tune the VLM on specialty-specific datasets ensuring a single model covers multiple downstream tasks within each specialty, maintaining performance while simplifying deployment. Across gastroenterology, hematology, ophthalmology, and pathology, our single-model deployment matches or approaches specialized baselines. Compared with pipelines composed of many task-specific agents, this approach shows that one VLM can both decide and do. It may reduce effort by data scientists, shorten monitoring, increase the transparency of model selection (with per-stage justifications), and lower integration overhead.
- Abstract(参考訳): 臨床ワークフローは、トリアージ、タスク選択、モデルデプロイメントを扱うスクリプトとタスク固有のネットワークのパッチワークとして断片化されている。
これらのパイプラインは、データサイエンスパイプラインのために合理化されることが滅多にないため、効率が低下し、運用コストが上昇する。
ワークフローには、(イメージ/タブラル入力からの)データ駆動型モデル識別や、モデル出力の標準化されたデリバリも欠けている。
そこで本研究では,単一の視覚言語モデル(VLM)を2つの補完的役割に用いた実践的,医療第一の枠組みを提案する。
まず、VLMは、3段階のワークフロー(モダリティ ->プライマリ異常 ->モデルカードID)を介して、入ってくる画像を適切なスペシャリストモデルにルーティングする、意識的なモデルカードマッチングとして機能する。
チェックは、提供します。
(i)None/Normal/Other経由の早期退避を許可する段階的なプロンプト
2)各段階で上位2候補を仲裁し、不正選択の可能性を低減し、ワークフローを臨床リスク耐性に整合させる段階的な回答セレクタ。
次に、VLMを特別なデータセットに微調整し、1つのモデルが各専門分野内の複数の下流タスクをカバーし、デプロイを簡素化しながらパフォーマンスを維持します。
腹腔内科、血液学、眼科、病理学にまたがって、私たちの単一モデルデプロイメントマッチや特殊なベースラインへのアプローチ。
多くのタスク固有のエージェントからなるパイプラインと比較すると、このアプローチはひとつのVLMが決定と実行の両方が可能なことを示している。
データサイエンティストによる労力の削減、監視の短縮、モデル選択の透明性の向上(ステージ単位の正当化による)、統合オーバーヘッドの低減などが期待できる。
関連論文リスト
- Effortless Vision-Language Model Specialization in Histopathology without Annotation [0.4154350202907906]
VLM(Vision-Language Models)は、様々なタスクにまたがる印象的なゼロショット分類機能を実証している。
その汎用設計は、特定の下流アプリケーションにおいて最適以下の性能をもたらす可能性がある。
本稿では,ドメインおよびタスク関連画像カプセルの事前学習によるVLMのアノテーションなし適応について検討する。
論文 参考訳(メタデータ) (2025-08-11T10:39:27Z) - Adaptation of Multi-modal Representation Models for Multi-task Surgical Computer Vision [1.890063512530524]
MML-SurgAdaptは、自然言語の監視を通じて様々な外科的タスクを処理するための統合マルチタスクフレームワークである。
マルチタスク学習における重要な課題は、異なるタスクを統合する際に部分的なアノテーションが存在することである。
本フレームワークは,複数の外科的タスクからのデータを単一の手順に統合し,不完全あるいはノイズの多いアノテーションにもかかわらず効果的な学習を可能にするため,このアプローチを拡張した。
論文 参考訳(メタデータ) (2025-07-07T14:03:10Z) - Single-Input Multi-Output Model Merging: Leveraging Foundation Models for Dense Multi-Task Learning [46.51245338355645]
モデルマージは、シングルタスクのチェックポイントをマルチタスクモデルにマージするための、柔軟で計算的に抽出可能なアプローチである。
本研究は,タスク固有デコーダの存在により,文献で研究されている単一入出力・複数出力モデルのマージ設定と定性的に異なることを示す。
SIMO設定に対する2つの単純かつ効率的な修正を提案し,統合後の特徴表現を再調整する。
論文 参考訳(メタデータ) (2025-04-15T15:10:46Z) - Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。
ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。
本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文 参考訳(メタデータ) (2024-12-07T11:19:32Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization [27.472705540825316]
アクションローカライゼーションは、しばしば別々に対処される検出タスクと認識タスクを組み合わせた、困難な問題である。
両タスクを両パートマッチングでトレーニングした単一のMViTv2-Sアーキテクチャが,RoIで事前計算した有界ボックス上でトレーニングした場合,同一のMViTv2-Sを超えることを示す。
論文 参考訳(メタデータ) (2023-12-29T17:08:38Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。