論文の概要: AURORA: Adaptive Unified Representation for Robust Ultrasound Analysis
- arxiv url: http://arxiv.org/abs/2603.19364v1
- Date: Thu, 19 Mar 2026 18:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.828861
- Title: AURORA: Adaptive Unified Representation for Robust Ultrasound Analysis
- Title(参考訳): AURORA:ロバスト超音波解析のための適応的統一表現法
- Authors: Ufaq Khan, L. D. M. S. Sai Teja, Ayuba Shakiru, Mai A. Shaaban, Yutong Xie, Muhammad Bilal, Muhammad Haris Khan,
- Abstract要約: 本稿では,Qwen3-VLファミリーのトランスフォーマービジュアルエンコーダをベースとしたマルチタスク統合フレームワークを提案する。
各タスクは小さなタスク固有の予測ヘッドで処理され、トレーニングはタスク対応サンプリングと選択的損失分散を使用する。
検証セットではパフォーマンスが67%から85%向上し、公式テストセットでは平均スコアが81.84%に達した。
- 参考スコア(独自算出の注目度): 18.677691292710325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ultrasound images vary widely across scanners, operators, and anatomical targets, which often causes models trained in one setting to generalize poorly to new hospitals and clinical conditions. The Foundation Model Challenge for Ultrasound Image Analysis (FMC-UIA) reflects this difficulty by requiring a single model to handle multiple tasks, including segmentation, detection, classification, and landmark regression across diverse organs and datasets. We propose a unified multi-task framework based on a transformer visual encoder from the Qwen3-VL family. Intermediate token features are projected into spatial feature maps and fused using a lightweight multi-scale feature pyramid, enabling both pixel-level predictions and global reasoning within a shared representation. Each task is handled by a small task-specific prediction head, while training uses task-aware sampling and selective loss balancing to manage heterogeneous supervision and reduce task imbalance. Our method is designed to be simple to optimize and adaptable across a wide range of ultrasound analysis tasks. The performance improved from 67% to 85% on the validation set and achieved an average score of 81.84% on the official test set across all tasks. The code is publicly available at: https://github.com/saitejalekkala33/FMCUIA-ISBI.git
- Abstract(参考訳): 超音波画像はスキャナー、オペレーター、解剖学的対象によって大きく異なり、1つの場所で訓練されたモデルが新しい病院や臨床状況に悪影響を及ぼすことがしばしばある。
FMC-UIA(Foundation Model Challenge for Ultrasound Image Analysis)は、さまざまな臓器やデータセットにまたがるセグメンテーション、検出、分類、ランドマークレグレッションを含む複数のタスクを単一のモデルで処理する必要がある、という難しさを反映している。
本稿では,Qwen3-VLファミリーのトランスフォーマービジュアルエンコーダをベースとしたマルチタスク統合フレームワークを提案する。
中間トークン機能は空間的特徴マップに投影され、軽量なマルチスケール特徴ピラミッドを使用して融合される。
各タスクは、タスク固有の予測ヘッドによって処理され、トレーニングでは、タスク対応サンプリングと選択的な損失バランスを使用して、不均一な監視を管理し、タスクの不均衡を低減する。
本手法は,広範囲の超音波解析タスクに対して,簡便に最適化し,適応できるように設計されている。
検証セットではパフォーマンスが67%から85%向上し、すべてのタスクで公式テストセットの平均スコアは81.84%に達した。
コードは、https://github.com/saitejalekkala33/FMCUIA-ISBI.gitで公開されている。
関連論文リスト
- TAP-SLF: Parameter-Efficient Adaptation of Vision Foundation Models for Multi-Task Ultrasound Image Analysis [1.5074458114135958]
Task-Aware Prompting and Selective Layer Fine-Tuning (TAP-SLF) はマルチタスク超音波画像解析のための統合フレームワークである。
TAP-SLFは、タスク固有の先行情報を入力トークンシーケンスに組み込み、LoRAをエンコーダの選択した特定のトップ層に適用する。
The FMC_UIA 2026 Challenge test set, with the evaluations on the officially released training dataset using a 8:2 train-test split, show that task-aware prompting and selective layer tuning is effective strategy for efficient VFM adapt。
論文 参考訳(メタデータ) (2026-02-28T03:21:07Z) - Baseline Method of the Foundation Model Challenge for Ultrasound Image Analysis [15.017057362402687]
超音波画像解析のための基礎モデルチャレンジ(FM_UIA2026)を提案する。
このモデルは、ImageNet-pretrained EfficientNet--B4のバックボーンを堅牢な特徴抽出に使用し、FPN(Feature Pyramid Network)と組み合わせてコンテキスト情報をキャプチャする。
タスク固有のルーティング戦略により、グローバルタスクは高レベルなセマンティックな特徴を活用でき、高密度な予測タスクは空間的詳細なFPN表現を活用できる。
論文 参考訳(メタデータ) (2026-02-01T06:52:11Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Generalizing Medical Image Representations via Quaternion Wavelet Networks [9.836302410524842]
医用画像から健全な特徴を抽出できる,新しい,一般化可能な,データに依存しないフレームワークを提案する。
提案する4元ウェーブレットネットワーク(quaVE)は,既存の医用画像解析や合成作業と容易に統合できる。
論文 参考訳(メタデータ) (2023-10-16T09:34:06Z) - Building Flyweight FLIM-based CNNs with Adaptive Decoding for Object
Detection [40.97322222472642]
本研究では、ユーザ描画マーカーからオブジェクトを検出するために、畳み込みニューラルネットワーク(CNN)層を構築する方法を提案する。
糞便サンプルの顕微鏡画像におけるSchistosomiasis mansoni卵の検出と,衛星画像における船舶の検出に対処する。
我々のCNNは、SOTAオブジェクト検出器より数千倍も小さく、CPU実行に適している。
論文 参考訳(メタデータ) (2023-06-26T16:48:20Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - DETA: Denoised Task Adaptation for Few-Shot Learning [135.96805271128645]
数ショット学習におけるテスト時間タスク適応は、訓練済みのタスク非依存モデルに適応してタスク固有の知識を取得することを目的としている。
少数のサンプルしか得られないため、支持試料からのイメージノイズ(Xノイズ)またはラベルノイズ(Yノイズ)の悪影響を著しく増幅することができる。
Denoized Task Adaptation (DETA) は、既存のタスク適応アプローチに対して、最初に統合された画像とラベルをデノベートするフレームワークである。
論文 参考訳(メタデータ) (2023-03-11T05:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。