論文の概要: MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering
- arxiv url: http://arxiv.org/abs/2603.07066v1
- Date: Sat, 07 Mar 2026 06:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.713398
- Title: MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering
- Title(参考訳): MedSteer: トレーニングフリーアクティベーションステアリングによる非現実的内視鏡合成
- Authors: Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le,
- Abstract要約: 内視鏡合成のためのトレーニングフレームワークであるMedSteerを提案する。
MedSteerはベクターに沿ってイメージアクティベーションを制御し、スクラッチから反ファクトペアを生成する。
Kvasir v3とHypervasirの3つの実験でMedSteerを評価した。
- 参考スコア(独自算出の注目度): 13.433368839181353
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative diffusion models are increasingly used for medical imaging data augmentation, but text prompting cannot produce causal training data. Re-prompting rerolls the entire generation trajectory, altering anatomy, texture, and background. Inversion-based editing methods introduce reconstruction error that causes structural drift. We propose MedSteer, a training-free activation-steering framework for endoscopic synthesis. MedSteer identifies a pathology vector for each contrastive prompt pair in the cross-attention layers of a diffusion transformer. At inference time, it steers image activations along this vector, generating counterfactual pairs from scratch where the only difference is the steered concept. All other structure is preserved by construction. We evaluate MedSteer across three experiments on Kvasir v3 and HyperKvasir. On counterfactual generation across three clinical concept pairs, MedSteer achieves flip rates of 0.800, 0.925, and 0.950, outperforming the best inversion-based baseline in both concept flip rate and structural preservation. On dye disentanglement, MedSteer achieves 75% dye removal against 20% (PnP) and 10% (h-Edit). On downstream polyp detection, augmenting with MedSteer counterfactual pairs achieves ViT AUC of 0.9755 versus 0.9083 for quantity-matched re-prompting, confirming that counterfactual structure drives the gain. Code is at link https://github.com/phamtrongthang123/medsteer
- Abstract(参考訳): 生成拡散モデルは医療画像データの増大にますます利用されているが、テキストのプロンプトは因果訓練データを生成することができない。
再プロンプティングは、解剖学、テクスチャ、背景を変化させて、生成軌跡全体をロールする。
インバージョンベースの編集手法は構造的ドリフトを引き起こす再構成誤差を導入する。
内視鏡合成のためのトレーニング不要なアクティベーションステアリングフレームワークであるMedSteerを提案する。
MedSteerは拡散トランスのクロスアテンション層における各コントラストプロンプトペアに対する病理ベクトルを同定する。
推論時には、このベクトルに沿って画像のアクティベーションを操り、スクラッチから反ファクトペアを生成します。
その他の建造物は全て保存されている。
我々は、Kvasir v3とHyperKvasirの3つの実験でMedSteerを評価した。
MedSteerは3つの臨床コンセプトペアの反ファクト生成において、フリップレート0.800、0.925、0.950を達成し、概念フリップレートと構造保存の両方において最高のインバージョンベースラインを上回っている。
染料のゆがみについては、MedSteerは20%(PnP)と10%(h-Edit)に対して75%の染料除去を達成する。
下流ポリプ検出では、MedSteer の反ファクト対による増強により、量マッチング再プロンプトの ViT AUC が 0.9755 対 0.9083 となり、反ファクト構造が利得を加速することを確認した。
Code is at link https://github.com/phamtrongthang123/medsteer
関連論文リスト
- PMPBench: A Paired Multi-Modal Pan-Cancer Benchmark for Medical Image Synthesis [33.41070177089698]
11個のヒト臓器にまたがる、最初の公開、完全にペア化された、パンがんの医療画像データセットをリリースする。
データセットは解剖学的対応のためにキュレートされ、翻訳設定の厳密な評価を可能にする。
現代画像から画像への翻訳における代表的ベースラインの成果を報告する。
論文 参考訳(メタデータ) (2026-01-22T11:58:37Z) - Delving into Masked Autoencoders for Multi-Label Thorax Disease
Classification [16.635426201975587]
ビジョントランスフォーマー (ViT) は、データハングリーの性質と注釈付き医療データの欠如により、医療タスクにおける畳み込みニューラルネットワーク (CNN) に劣る性能を示した。
本稿では,266,340個の胸部X線をMasked Autoencoders (MAE) で事前トレーニングし,各画像の小さな部分から失明画素を再構成する。
以上の結果から,VTは多ラベル胸部疾患分類のための最先端CNN (DenseNet-121) と相容れない(時折良い)ことが示唆された。
論文 参考訳(メタデータ) (2022-10-23T20:14:57Z) - Building Brains: Subvolume Recombination for Data Augmentation in Large
Vessel Occlusion Detection [56.67577446132946]
この戦略をデータから学ぶためには、標準的なディープラーニングベースのモデルに対して、大規模なトレーニングデータセットが必要である。
そこで本研究では, 異なる患者から血管木セグメントを組換えることで, 人工的なトレーニングサンプルを生成する方法を提案する。
拡張スキームに則って,タスク固有の入力を入力した3D-DenseNetを用いて,半球間の比較を行う。
論文 参考訳(メタデータ) (2022-05-05T10:31:57Z) - Adversarial Distortion Learning for Medical Image Denoising [43.53912137735094]
本稿では,2次元および3次元(2D/3D)のバイオメディカル画像データから,新たな逆歪み学習法を提案する。
提案されたADLは2つの自動エンコーダで構成されている。
デノイザとディスクリミネータはどちらも、Efficient-Unetと呼ばれる自動エンコーダをベースとしている。
論文 参考訳(メタデータ) (2022-04-29T13:47:39Z) - FedMed-ATL: Misaligned Unpaired Brain Image Synthesis via Affine
Transform Loss [58.58979566599889]
脳画像合成のための新しい自己教師型学習(FedMed)を提案する。
アフィン変換損失(ATL)は、プライバシー法に違反することなく、ひどく歪んだ画像を使用するように定式化された。
提案手法は, 極めて不整合かつ不整合なデータ設定下での合成結果の品質の両方において, 高度な性能を示す。
論文 参考訳(メタデータ) (2022-01-29T13:45:39Z) - Predicting Knee Osteoarthritis Progression from Structural MRI using
Deep Learning [2.9822184411723645]
先行技術は手動でデザインされたイメージングバイオマーカーに焦点を合わせており、MRIスキャンに存在するすべての疾患関連情報を十分に活用するものではないかもしれない。
対照的に,本手法では,Deep Learningを用いて生データのエンドツーエンドから関連する表現を学習する。
この方法は2D CNNを用いてデータをスライス的に処理し、抽出した特徴をTransformerを使って集約する。
論文 参考訳(メタデータ) (2022-01-26T10:17:41Z) - FedMed-GAN: Federated Domain Translation on Unsupervised Cross-Modality
Brain Image Synthesis [55.939957482776194]
我々は、教師なし脳画像合成におけるフェデレートドメイン翻訳のための新しいベンチマーク(FedMed-GAN)を提案する。
FedMed-GANは発電機の性能を犠牲にすることなくモード崩壊を緩和する。
FedMed-GANと他の集中型手法を比較するための総合的な評価を提供する。
論文 参考訳(メタデータ) (2022-01-22T02:50:29Z) - CyTran: A Cycle-Consistent Transformer with Multi-Level Consistency for
Non-Contrast to Contrast CT Translation [56.622832383316215]
コントラストCTを非コントラストCTに変換する手法を提案する。
提案手法は、CyTranを略して、サイクル一貫性のある生成逆転変換器に基づいている。
実験の結果、CyTranは競合するすべての手法より優れています。
論文 参考訳(メタデータ) (2021-10-12T23:25:03Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - DR-Unet104 for Multimodal MRI brain tumor segmentation [7.786297008452384]
脳MRIにおける病変分割のために,104層の畳み込み層(DR-Unet104)を有する2次元奥行きUnetを提案する。
Unetエンコーダに'bottleneck'残ブロックを追加し、各畳み込みブロックスタックの後にドロップアウトを追加するなど、Unetアーキテクチャに複数の追加を加えています。
コンボリューションは2次元のコンボリューションしかなく,低消費電力コンピュータで使用可能なメリットも備えた,競争力のある病変分割アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-11-04T01:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。