論文の概要: Leveraging Vision-Language Foundation Models to Reveal Hidden Image-Attribute Relationships in Medical Imaging
- arxiv url: http://arxiv.org/abs/2503.23618v1
- Date: Sun, 30 Mar 2025 22:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.212066
- Title: Leveraging Vision-Language Foundation Models to Reveal Hidden Image-Attribute Relationships in Medical Imaging
- Title(参考訳): 医用画像における隠れ画像属性関係の解明を目指した視覚・言語基礎モデルの構築
- Authors: Amar Kumar, Anita Kriz, Barak Pertzov, Tal Arbel,
- Abstract要約: 視覚言語基礎モデル (VLM) は, テキストによる画像生成の指導において, 優れた性能を示した。
この研究において、我々は最初に「微調整された基礎モデルは、重要で、おそらく未知のデータ特性を特定するのに役立つか?」という疑問を調査する。
- 参考スコア(独自算出の注目度): 0.768721532845575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language foundation models (VLMs) have shown impressive performance in guiding image generation through text, with emerging applications in medical imaging. In this work, we are the first to investigate the question: 'Can fine-tuned foundation models help identify critical, and possibly unknown, data properties?' By evaluating our proposed method on a chest x-ray dataset, we show that these models can generate high-resolution, precisely edited images compared to methods that rely on Structural Causal Models (SCMs) according to numerous metrics. For the first time, we demonstrate that fine-tuned VLMs can reveal hidden data relationships that were previously obscured due to available metadata granularity and model capacity limitations. Our experiments demonstrate both the potential of these models to reveal underlying dataset properties while also exposing the limitations of fine-tuned VLMs for accurate image editing and susceptibility to biases and spurious correlations.
- Abstract(参考訳): ヴィジュアル言語基礎モデル(VLM)は、テキストによる画像生成を指導する上で優れた性能を示しており、医療画像に新たな応用がもたらされている。
この研究において、我々は最初に「微調整された基礎モデルは、重要で、おそらく未知のデータ特性を特定するのに役立つか?」という疑問を調査する。
提案手法を胸部X線データセット上で評価することにより, 構造因果モデル (Structure Causal Models, SCMs) に依存する手法と比較して, 高精度で正確に編集された画像を生成することができることを示す。
最初に、微調整されたVLMは、メタデータの粒度やモデルキャパシティの制限により、これまで隠されていた隠れたデータ関係を明らかにすることができることを示した。
実験では,これらのモデルが基盤となるデータセット特性を明らかにすると同時に,高精度な画像編集とバイアスに対する感受性,および刺激的相関性に対する微調整VLMの限界を明らかにする。
関連論文リスト
- Mapping the Mind of an Instruction-based Image Editing using SMILE [8.773288793688998]
本稿では,局所的解釈可能性の新たなモデル認識であるSMILE(Statistical Model-Agnostic Interpretability with Local Explanations)を紹介する。
私たちのモデルは、解釈可能性と信頼性をどのように改善できるかを示します。
これらの結果は、重要なアプリケーションにおける信頼性と信頼性に対するモデル非依存的解釈可能性のエキサイティングな可能性を示している。
論文 参考訳(メタデータ) (2024-12-20T18:33:23Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Exploring Foundation Models for Synthetic Medical Imaging: A Study on Chest X-Rays and Fine-Tuning Techniques [0.49000940389224884]
機械学習は、疾患の予防と治療の特定を支援することで、医療を著しく進歩させた。
しかし、プライバシの懸念と厳格な規制のため、患者データへのアクセスは困難である可能性がある。
近年の研究では、微調整基礎モデルがこのようなデータを効果的に生成できることが示唆されている。
論文 参考訳(メタデータ) (2024-09-06T17:36:08Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Controllable Image Generation via Collage Representations [31.456445433105415]
ミラー・アンド・マッチングシーン(M&Ms)とは、コラージュ内の異なる要素の外観的特徴と空間的位置を条件とした、逆向きに訓練された生成画像モデルからなるアプローチである。
M&Mは、画質とサンプルの多様性の点で非常に競争力がありながら、きめ細かなシーン制御性の観点から、ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-26T17:58:39Z) - Diagnosing and Rectifying Vision Models using Language [31.588965563961573]
最近のコントラスト学習モデルは、強力な視覚分類器を構築するのに適した埋め込み空間を学習できることを実証している。
我々の研究は、このマルチモーダル埋め込み空間の明確な利点として、自然言語で視覚分類器を診断する能力を挙げている。
提案手法は,ハイエラーデータスライスを発見し,重要な属性を同定し,さらに好ましくないモデルの振る舞いを補正する。
論文 参考訳(メタデータ) (2023-02-08T18:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。