論文の概要: Geometry-Aware Uncertainty Coresets for Robust Visual In-Context Learning in Histopathology
- arxiv url: http://arxiv.org/abs/2605.18419v1
- Date: Mon, 18 May 2026 13:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.689359
- Title: Geometry-Aware Uncertainty Coresets for Robust Visual In-Context Learning in Histopathology
- Title(参考訳): 病理組織学におけるロバストな視覚的インテクスト学習のための幾何学的不確実性コアセット
- Authors: Franciskus Xaverius Erick, Johanna Paula Müller, Bernhard Kainz,
- Abstract要約: GAUCは,事前学習されたマルチモーダル埋め込み空間で直接動作する,トレーニング不要なコアセット選択法である。
CRC-100K と MHIST が複数のオープンソース VLM アーキテクチャにまたがっている場合、GAUC は精度、キャリブレーション、高速な勾配ロバスト性を改善している。
- 参考スコア(独自算出の注目度): 8.2867621159451
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) can couple visual perception with open-ended clinical reasoning, making them attractive for computational histopathology. However, fine-tuning billions of parameters on scarce, expert-annotated pathology data is prohibitive, while in-context learning (ICL), which conditions the VLM on demonstrative image-text pairs without parameter updates, suffers from high sensitivity to which examples are selected and how the query is phrased, producing unreliable diagnostics. Existing selection strategies rely on query-dependent nearest-neighbour retrieval that ignores global data structure, require costly parameter updates, or disregard the joint vision-text embedding geometry of VLMs. We propose GAUC, a training-free coreset selection method operating directly in the pre-trained multimodal embedding space. GAUC jointly optimises three objectives: (1) a Maximum Mean Discrepancy term enforcing distributional fidelity between coreset and full dataset, (2) an Effective Mutual Information Difference regulariser bounding performance degradation under prompt paraphrases by exploiting the VLM's joint vision-text alignment, and (3) a predictive-variance penalty suppressing overconfident, unstable outputs. On CRC-100K and MHIST across multiple open-source VLM architectures, GAUC consistently improves accuracy, calibration, and prompt robustness over recent ICL selection methods and dataset-distillation baselines, all without a single gradient update.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚をオープンな臨床推論と組み合わせることで、計算病理学にとって魅力的なものとなる。
しかし、パラメータ更新を伴わない実証的画像テキスト対にVLMを条件づけたテキスト内学習(ICL)は、どの例が選択され、どのようにクエリがフレーズ化されるかという高い感度に悩まされ、信頼性の低い診断が生み出される。
既存の選択戦略は、グローバルなデータ構造を無視したり、コストのかかるパラメータ更新を必要としたり、VLMの合同視覚テキスト埋め込み幾何を無視したりする、クエリ依存の近接近傍検索に依存している。
GAUCは,事前学習されたマルチモーダル埋め込み空間で直接動作する,トレーニング不要なコアセット選択法である。
GAUCは,(1)コアセットと全データセット間の分布の忠実度を規定する最大平均偏差項,(2)VLMの合同視線テキストアライメントを利用して,即時パラフレーズ下での性能劣化を限定する有効相互情報差正規化項,(3)過信で不安定な出力を抑える予測分散ペナルティの3つの目的を共同で最適化する。
CRC-100K と MHIST が複数のオープンソース VLM アーキテクチャにまたがっている場合、GAUC は最新の ICL 選択法とデータセット蒸留ベースラインに対して、一貫した精度、キャリブレーション、迅速な堅牢性を向上する。
関連論文リスト
- PDCR: Perception-Decomposed Confidence Reward for Vision-Language Reasoning [80.94559742826083]
Reinforcement Learning with Verifiable Rewards (RLVR) は伝統的に、粗末で結果に基づく信号に依存している。
近年の研究では,高コストな外部モデルを必要としないステップレベルのガイダンスを提供することで,詳細なモデル固有の信号を提供することで,言語推論のトレーニングを効果的に向上することが示された。
一助文には有効であるが,この大域的な報酬を視覚言語推論(V-L)に適用することは準最適戦略である。
本稿では、報酬構造とタスクの不均一な性質を整合させることにより、この問題を解決するフレームワークであるパーセプション分解信頼回復(PDCR:Perception-Decomposed Confidence Reward)を提案する。
論文 参考訳(メタデータ) (2026-05-13T12:55:18Z) - SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation [12.0982298854338]
Continual Test-Time Adaptation (CTTA)は、トレーニング済みのモデルが、ラベルなしドメインの継続的な変更に適応できるようにすることを目的としている。
医用画像セグメンテーションのためのセマンティック・プロンプト拡張グラフクラスタリング(SPEGC)によるCTTAを提案する。
論文 参考訳(メタデータ) (2026-03-12T03:22:43Z) - HAAF: Hierarchical Adaptation and Alignment of Foundation Models for Few-Shot Pathology Anomaly Detection [10.649984141835189]
階層型適応アライメントフレームワーク(HAAF)を提案する。
中心となるのは、シーケンシャルなキャリブレーション順序を強制するクロスレベルスケールアライメント機構である。
デュアルブランチ推論戦略は、セマンティックスコアと幾何学的プロトタイプを統合して、数ショット設定での安定性を確保する。
論文 参考訳(メタデータ) (2026-01-24T10:31:21Z) - HEDGE: Hallucination Estimation via Dense Geometric Entropy for VQA with Vision-Language Models [4.099133096025821]
視覚言語モデル(VLM)は、オープンエンドの視覚的質問応答を可能にするが、幻覚に苦しむ傾向にある。
我々は、制御された視覚摂動、セマンティッククラスタリング、堅牢な不確実性メトリクスを組み合わせた幻覚検出のための統合フレームワークであるHEDGEを提案する。
論文 参考訳(メタデータ) (2025-11-16T17:16:31Z) - Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。
これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。
我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文 参考訳(メタデータ) (2025-10-28T11:39:22Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection [68.8373788348678]
ビジュアルインストラクションチューニングは、事前訓練されたマルチモーダル大言語モデルに人間の指示に従うように適応する。
PRISMは、効率的な視覚的命令選択のための最初のトレーニング不要のフレームワークである。
データ選択とモデルチューニングのエンドツーエンドの時間を従来のパイプラインの30%に短縮する。
論文 参考訳(メタデータ) (2025-02-17T18:43:41Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Open-Vocabulary Calibration for Fine-tuned CLIP [44.82453633696438]
微調整視覚言語モデル(VLM)の信頼性校正問題は、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。
本稿では,素早い学習の文脈において,信頼度校正問題を体系的に検討することにより,ギャップを埋める。
本稿では,予測されたテキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づく,DAC(Distance-Aware)と呼ばれるシンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。