論文の概要: HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection
- arxiv url: http://arxiv.org/abs/2601.17405v1
- Date: Sat, 24 Jan 2026 10:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.715628
- Title: HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection
- Title(参考訳): HAAF:Few-Shot 病巣異常検出のための階層的適応と基礎モデルのアライメント
- Authors: Chunze Yang, Wenjie Zhao, Yue Tang, Junbo Lu, Jiusong Ge, Qidong Liu, Zeyu Gao, Chen Li,
- Abstract要約: 階層型適応アライメントフレームワーク(HAAF)を提案する。
中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。
デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
- 参考スコア(独自算出の注目度): 10.649984141835189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precision pathology relies on detecting fine-grained morphological abnormalities within specific Regions of Interest (ROIs), as these local, texture-rich cues - rather than global slide contexts - drive expert diagnostic reasoning. While Vision-Language (V-L) models promise data efficiency by leveraging semantic priors, adapting them faces a critical Granularity Mismatch, where generic representations fail to resolve such subtle defects. Current adaptation methods often treat modalities as independent streams, failing to ground semantic prompts in ROI-specific visual contexts. To bridge this gap, we propose the Hierarchical Adaptation and Alignment Framework (HAAF). At its core is a novel Cross-Level Scaled Alignment (CLSA) mechanism that enforces a sequential calibration order: visual features first inject context into text prompts to generate content-adaptive descriptors, which then spatially guide the visual encoder to spotlight anomalies. Additionally, a dual-branch inference strategy integrates semantic scores with geometric prototypes to ensure stability in few-shot settings. Experiments on four benchmarks show HAAF significantly outperforms state-of-the-art methods and effectively scales with domain-specific backbones (e.g., CONCH) in low-resource scenarios.
- Abstract(参考訳): 精密病理学は、特定の関心領域(ROI)におけるきめ細かい形態的異常を検出することに依存しており、これらの局所的でテクスチャに富んだ手がかりは、グローバルなスライドコンテキストではなく、専門家の診断推論を駆動している。
Vision-Language (V-L) モデルはセマンティックな事前情報を活用することでデータ効率を約束するが、それらの適応は、一般的な表現がそのような微妙な欠陥を解決するのに失敗する重要なグラニュラリティ・ミスマッチに直面している。
現在の適応法は、モダリティを独立したストリームとして扱うことが多く、ROI特有の視覚的文脈において意味的なプロンプトを根拠にしない。
このギャップを埋めるため、階層適応調整フレームワーク(HAAF)を提案する。
視覚的特徴はまずコンテキストをテキストプロンプトに注入し、コンテンツ適応型記述子を生成し、視覚的エンコーダを空間的に誘導して異常をスポットライトする。
さらに、デュアルブランチ推論戦略では、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
4つのベンチマークでの実験では、HAAFは最先端の手法を大きく上回り、低リソースのシナリオではドメイン固有のバックボーン(例:CONCH)で効果的にスケールする。
関連論文リスト
- Defect-aware Hybrid Prompt Optimization via Progressive Tuning for Zero-Shot Multi-type Anomaly Detection and Segmentation [12.030059666003972]
分散シフト下でのゼロショット多重型およびバイナリ異常検出とセグメンテーションのプログレッシブチューニングに基づく,Defect-aware Prompt Optimizationのための新しいアプローチであるDAPOを紹介する。
本手法は,固定されたテキストアンカーと学習可能なトークン埋め込みの両方で,ハイブリッドな欠陥認識プロンプトを学習することにより,異常関連画像特徴と対応するテキストセマンティクスを一致させる。
論文 参考訳(メタデータ) (2025-12-10T09:19:17Z) - S2D-ALIGN: Shallow-to-Deep Auxiliary Learning for Anatomically-Grounded Radiology Report Generation [8.720883068109774]
既存手法はマルチモーダル大言語モデル(MLLM)の強力なクロスモーダル生成機能を活用している
我々は,様々な粒度の補助信号を活用することで,解剖学的アライメントを確立する新しいSFTパラダイムであるtextscS2D-Alignを提案する。
評価のために、textscMIC-CXR と textscIU X-Ray ベンチマークを用いて、textscS2D-Align が最先端の性能を達成する実験を行った。
論文 参考訳(メタデータ) (2025-11-14T08:34:06Z) - Towards Fine-Grained Vision-Language Alignment for Few-Shot Anomaly Detection [65.29550320117526]
我々はFinGrainedADという新しいフレームワークを提案し、異常なローカライゼーション性能を改善する。
実験により、提案されたFinGrainedADは、数ショット設定で全体的なパフォーマンスが優れていることが示された。
論文 参考訳(メタデータ) (2025-10-30T13:09:00Z) - Saccadic Vision for Fine-Grained Visual Classification [10.681604440788854]
きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
論文 参考訳(メタデータ) (2025-09-19T07:03:37Z) - CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection [6.1568149026052374]
Conditional Prompt Synthesis (CoPS)は、視覚的特徴に条件付き動的プロンプトを合成し、ZSAD性能を向上させる新しいフレームワークである。
CoPSは、13の産業および医療データセットの分類とセグメンテーションの両方において、最先端の手法を2.5%AUROCで上回っている。
論文 参考訳(メタデータ) (2025-08-05T13:47:45Z) - Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。
本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。
報酬信号は、テキストの意味情報を合成画像と整合させるように設計されている。
論文 参考訳(メタデータ) (2025-03-20T01:51:05Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Self-Guided Adaptation: Progressive Representation Alignment for Domain
Adaptive Object Detection [86.69077525494106]
非教師なしドメイン適応(UDA)は、オブジェクト検出モデルのドメイン間ロバスト性を改善するために前例のない成功を収めた。
既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視しており、大きなドメインシフトによって特徴表現が劣化する可能性がある。
本稿では、特徴表現の整合とドメイン間のオブジェクト検出モデルの転送を目標とする自己ガイド適応モデルを提案する。
論文 参考訳(メタデータ) (2020-03-19T13:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。