論文の概要: Effortless Vision-Language Model Specialization in Histopathology without Annotation
- arxiv url: http://arxiv.org/abs/2508.07835v1
- Date: Mon, 11 Aug 2025 10:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.047536
- Title: Effortless Vision-Language Model Specialization in Histopathology without Annotation
- Title(参考訳): アノテーションを伴わない病理組織学における不運な視覚・言語モデル
- Authors: Jingna Qiu, Nishanth Jain, Jonas Ammeling, Marc Aubreville, Katharina Breininger,
- Abstract要約: VLM(Vision-Language Models)は、様々なタスクにまたがる印象的なゼロショット分類機能を実証している。
その汎用設計は、特定の下流アプリケーションにおいて最適以下の性能をもたらす可能性がある。
本稿では,ドメインおよびタスク関連画像カプセルの事前学習によるVLMのアノテーションなし適応について検討する。
- 参考スコア(独自算出の注目度): 0.4154350202907906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) in histopathology, such as CONCH and QuiltNet, have demonstrated impressive zero-shot classification capabilities across various tasks. However, their general-purpose design may lead to suboptimal performance in specific downstream applications. While supervised fine-tuning methods address this issue, they require manually labeled samples for adaptation. This paper investigates annotation-free adaptation of VLMs through continued pretraining on domain- and task-relevant image-caption pairs extracted from existing databases. Our experiments on two VLMs, CONCH and QuiltNet, across three downstream tasks reveal that these pairs substantially enhance both zero-shot and few-shot performance. Notably, with larger training sizes, continued pretraining matches the performance of few-shot methods while eliminating manual labeling. Its effectiveness, task-agnostic design, and annotation-free workflow make it a promising pathway for adapting VLMs to new histopathology tasks. Code is available at https://github.com/DeepMicroscopy/Annotation-free-VLM-specialization.
- Abstract(参考訳): CONCHやQuiltNetのような病理学における視覚言語モデル(VLM)の最近の進歩は、様々なタスクにまたがる印象的なゼロショット分類能力を示している。
しかし、その汎用設計は、特定の下流アプリケーションにおいて最適以下の性能をもたらす可能性がある。
教師付き微調整手法はこの問題に対処するが、適応には手動でラベル付けされたサンプルが必要である。
本稿では,既存のデータベースから抽出したドメインおよびタスク関連画像カプセルの事前学習を通じて,VLMのアノテーションなし適応について検討する。
下流3つのタスクを対象とした2つのVLM(CONCHとQuiltNet)の実験により、これらのペアはゼロショットと少数ショットの両方のパフォーマンスを大幅に向上させることがわかった。
特に、トレーニングサイズが大きくなると、トレーニングの継続は、手動ラベリングを排除しながら、数ショットのメソッドのパフォーマンスにマッチする。
その有効性、タスクに依存しない設計、およびアノテーションのないワークフローは、新しい病理学タスクにVLMを適用する上で有望な経路となる。
コードはhttps://github.com/DeepMicroscopy/Annotation-free-VLM-specializationで公開されている。
関連論文リスト
- Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。
近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。
本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文 参考訳(メタデータ) (2025-08-07T16:27:37Z) - Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model [41.55165760439727]
視覚言語モデル(VLM)は、さまざまな下流タスクに取り組むために、トレーニング済みの大きなモデルを活用することで、機械学習に革命をもたらした。
ラベル効率適応と推論のためのグラフベースの手法を提案する。
提案手法は,テキストプロンプト,少数ショット例,テストサンプルのグラフを動的に構築する。
論文 参考訳(メタデータ) (2024-12-24T09:15:00Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - VLM-CPL: Consensus Pseudo Labels from Vision-Language Models for Annotation-Free Pathological Image Classification [16.05109192966549]
事前学習型視覚言語モデル(VLM)を利用した新しいヒトアノテーションフリー手法を提案する。
VLM-CPLは、2つのノイズラベルフィルタリング技術と半教師付き学習戦略を含む新しい手法である。
パッチレベルおよびスライドレベル分類のための5つの公開病理画像データセットの実験結果から,本手法はVLMによるゼロショット分類を著しく上回った。
論文 参考訳(メタデータ) (2024-03-23T13:24:30Z) - Enhancing Vision-Language Few-Shot Adaptation with Negative Learning [11.545127156146368]
我々は,タスク固有の知識をより効率的に活用するための,シンプルで効果的な否定的学習手法SimNLを提案する。
そこで本研究では,雑音を緩和するために,プラグアンドプレイによる数発のインスタンス再重み付け手法を提案する。
提案したSimNLは,少数ショット学習とドメイン一般化の両タスクにおいて,既存の最先端手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-03-19T17:59:39Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。