論文の概要: Measuring and Aligning Abstraction in Vision-Language Models with Medical Taxonomies
- arxiv url: http://arxiv.org/abs/2601.14827v1
- Date: Wed, 21 Jan 2026 09:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.324572
- Title: Measuring and Aligning Abstraction in Vision-Language Models with Medical Taxonomies
- Title(参考訳): 医用分類を用いた視覚言語モデルにおける抽象化の測定とアライメント
- Authors: Ben Schaper, Maxime Di Folco, Bernhard Kainz, Julia A. Schnabel, Cosmin I. Bercea,
- Abstract要約: Vision-Language Modelsは胸部X線分類において強いゼロショット性能を示すが、標準的なフラットメトリクスは臨床的にマイナーなエラーと重度のエラーを区別することができない。
階層的メトリクスを用いていくつかの最先端のVLMをベンチマークし、クロスブランチミスを捉えるために破滅的抽象化エラーを導入します。
- 参考スコア(独自算出の注目度): 9.399546516030757
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models show strong zero-shot performance for chest X-ray classification, but standard flat metrics fail to distinguish between clinically minor and severe errors. This work investigates how to quantify and mitigate abstraction errors by leveraging medical taxonomies. We benchmark several state-of-the-art VLMs using hierarchical metrics and introduce Catastrophic Abstraction Errors to capture cross-branch mistakes. Our results reveal substantial misalignment of VLMs with clinical taxonomies despite high flat performance. To address this, we propose risk-constrained thresholding and taxonomy-aware fine-tuning with radial embeddings, which reduce severe abstraction errors to below 2 per cent while maintaining competitive performance. These findings highlight the importance of hierarchical evaluation and representation-level alignment for safer and more clinically meaningful deployment of VLMs.
- Abstract(参考訳): Vision-Language Modelsは胸部X線分類において強いゼロショット性能を示すが、標準的なフラットメトリクスは臨床的にマイナーなエラーと重度のエラーを区別することができない。
本研究は,医学分類学を利用して,抽象的誤りを定量化し緩和する方法を検討する。
階層的メトリクスを用いていくつかの最先端のVLMをベンチマークし、クロスブランチミスを捉えるために破滅的抽象化エラーを導入します。
以上の結果より, ハイフラットパフォーマンスにもかかわらず, VLMと臨床分類の相違が明らかとなった。
そこで本研究では, 危険な抽象化誤差を2%以下に低減し, 競争性能を維持しつつ, リスク制約付きしきい値設定と分類対応の微調整を提案する。
これらの知見は,より安全かつ臨床的に意義のあるVLMの展開における階層的評価と表現レベルのアライメントの重要性を浮き彫りにした。
関連論文リスト
- Hallucination Benchmark for Speech Foundation Models [33.92968426403491]
自動音声認識(ASR)システムにおける幻覚とは、基礎となる音響入力(すなわち、音声信号)とは全く無関係な神経性ASRモデルによって生成される流動的でコヒーレントな転写を指す。
この明らかな一貫性は、その後の処理段階を誤解させ、特に医療や法のような重要な領域において重大なリスクをもたらす可能性がある。
本稿では,ASRにおける幻覚現象を,語彙,音声,形態,意味の4つの相補軸に沿って体系的に分類し,定量化する最初のベンチマークフレームワークであるSHALLOWを紹介する。
論文 参考訳(メタデータ) (2025-10-18T16:26:16Z) - Glo-VLMs: Leveraging Vision-Language Models for Fine-Grained Diseased Glomerulus Classification [7.87247433522498]
本稿では,視覚言語モデルの細粒度分類への適応を探求する体系的なフレームワークであるGlo-VLMを紹介する。
本手法は,臨床用テキストプロンプトとともに治療された病理画像を活用し,共同画像・テキスト表現学習を容易にする。
本研究は, 標準化されたマルチクラスメトリクスを用いて, 臨床応用のための大規模事前学習モデルの実用的要件と可能性を明らかにすることを目的として, 全モデルの評価を行う。
論文 参考訳(メタデータ) (2025-08-21T21:05:44Z) - Interpreting Biomedical VLMs on High-Imbalance Out-of-Distributions: An Insight into BiomedCLIP on Radiology [0.0]
我々は、高度にバランスの取れない、アウト・オブ・ディストリビューションな医療データセットに適用した場合、BiomedCLIPの限界を分析する。
ゼロショット設定下でのモデルは,すべてのラベルを過度に予測し,精度の低下とクラス間分離性に繋がることを示す。
我々は、現実の環境で信頼性と適用性を高めるために、モデルの慎重な適応の必要性を強調します。
論文 参考訳(メタデータ) (2025-06-17T02:59:42Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - CHAIR -- Classifier of Hallucination as Improver [1.397828249435483]
トークンの各層からの内部ロジットを分析し,幻覚を検出するための教師付きフレームワークであるCHAIR(Classifier of Hallucination As ImproveR)を紹介する。
本手法は,すべての層にまたがるトークンロジットから,最大,最小,平均,標準偏差,傾斜といった,コンパクトな特徴セットを抽出し,過剰に収まることなく効果的な幻覚検出を可能にする。
論文 参考訳(メタデータ) (2025-01-05T12:15:02Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Semantic Latent Space Regression of Diffusion Autoencoders for Vertebral
Fracture Grading [72.45699658852304]
本稿では,教師なし特徴抽出器として生成拡散オートエンコーダモデルを訓練するための新しい手法を提案する。
フラクチャーグレーディングを連続回帰としてモデル化し, フラクチャーのスムーズな進行を反映した。
重要なことに,本手法の創成特性は,与えられた脊椎の様々な段階を可視化し,自動グルーピングに寄与する特徴を解釈し,洞察することを可能にする。
論文 参考訳(メタデータ) (2023-03-21T17:16:01Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - VACA: Design of Variational Graph Autoencoders for Interventional and
Counterfactual Queries [11.35838396538348]
本稿では,隠れた共同設立者がいない場合に,因果推論のための変分グラフオートエンコーダのクラスであるVacAを紹介する。
公平な分類問題における対実的公正性の評価にVacAを適用し,性能を損なうことなく公平な分類法を学習する。
論文 参考訳(メタデータ) (2021-10-27T18:16:39Z) - Towards Robust Partially Supervised Multi-Structure Medical Image
Segmentation on Small-Scale Data [123.03252888189546]
データ不足下における部分教師付き学習(PSL)における方法論的ギャップを埋めるために,不確実性下でのビシナルラベル(VLUU)を提案する。
マルチタスク学習とヴィジナルリスク最小化によって動機づけられたVLUUは、ビジナルラベルを生成することによって、部分的に教師付き問題を完全な教師付き問題に変換する。
本研究は,ラベル効率の高い深層学習における新たな研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2020-11-28T16:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。