論文の概要: Stylizing ViT: Anatomy-Preserving Instance Style Transfer for Domain Generalization
- arxiv url: http://arxiv.org/abs/2601.17586v1
- Date: Sat, 24 Jan 2026 20:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.004684
- Title: Stylizing ViT: Anatomy-Preserving Instance Style Transfer for Domain Generalization
- Title(参考訳): ストライジング ViT:ドメイン一般化のための解剖学的保存型インスタンススタイル転送
- Authors: Sebastian Doerrich, Francesco Di Salvo, Jonas Alle, Christian Ledig,
- Abstract要約: スティライズ ViT は、自己と横断の両方に重み付きアテンションブロックを利用する新しいビジョントランスフォーマーエンコーダである。
テスト時間拡張に使用する場合,ViTのスチル化はトレーニングを超えて有効であり,推論時に17%の性能向上が達成できることを示す。
- 参考スコア(独自算出の注目度): 1.8747639074211104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models in medical image analysis often struggle with generalizability across domains and demographic groups due to data heterogeneity and scarcity. Traditional augmentation improves robustness, but fails under substantial domain shifts. Recent advances in stylistic augmentation enhance domain generalization by varying image styles but fall short in terms of style diversity or by introducing artifacts into the generated images. To address these limitations, we propose Stylizing ViT, a novel Vision Transformer encoder that utilizes weight-shared attention blocks for both self- and cross-attention. This design allows the same attention block to maintain anatomical consistency through self-attention while performing style transfer via cross-attention. We assess the effectiveness of our method for domain generalization by employing it for data augmentation on three distinct image classification tasks in the context of histopathology and dermatology. Results demonstrate an improved robustness (up to +13% accuracy) over the state of the art while generating perceptually convincing images without artifacts. Additionally, we show that Stylizing ViT is effective beyond training, achieving a 17% performance improvement during inference when used for test-time augmentation. The source code is available at https://github.com/sdoerrich97/stylizing-vit .
- Abstract(参考訳): 医用画像解析における深層学習モデルは、データの不均一性と不足のため、ドメインや人口集団間の一般化に苦慮することが多い。
従来の拡張は堅牢性を改善するが、実質的なドメインシフトでは失敗する。
近年のスタイリスティックな拡張は、様々な画像スタイルによるドメインの一般化を促進するが、スタイルの多様性や生成された画像にアーティファクトを導入することで不足する。
これらの制約に対処するために,自己と横断の両方に重み付きアテンションブロックを利用する新しいビジョントランスフォーマエンコーダであるStylizing ViTを提案する。
この設計により、同じアテンションブロックが自己アテンションを通じて解剖学的一貫性を維持しつつ、クロスアテンションを介してスタイル転送を行うことができる。
組織学・皮膚科学の文脈における3つの異なる画像分類課題に対して,データ拡張に用いた領域一般化手法の有効性を評価した。
その結果,最先端技術に対して高いロバスト性(最大+13%の精度)を示し,人工物なしで知覚的に説得力のある画像を生成することができた。
さらに,ViTのスチル化はトレーニングを超えて有効であり,テスト時間拡張に使用する場合,推論時に17%の性能向上が達成できることを示した。
ソースコードはhttps://github.com/sdoerrich97/stylizing-vit で公開されている。
関連論文リスト
- GenMix: Effective Data Augmentation with Generative Diffusion Model Image Editing [60.101097709212716]
本稿では、一般化可能なプロンプト誘導型生成データ拡張手法であるGenMixを紹介する。
本手法は、画像編集を利用して、カスタム条件付きプロンプトに基づく拡張画像を生成する。
提案手法は、非現実的な画像とラベルの曖昧さを緩和し、結果のモデルの性能と対角的堅牢性を向上する。
論文 参考訳(メタデータ) (2024-12-03T10:45:34Z) - MoreStyle: Relax Low-frequency Constraint of Fourier-based Image Reconstruction in Generalizable Medical Image Segmentation [53.24011398381715]
MoreStyleと呼ばれるデータ拡張のためのPlug-and-Playモジュールを紹介します。
MoreStyleは、フーリエ空間の低周波制約を緩和することで、イメージスタイルを多様化する。
敵対的学習の助けを借りて、MoreStyleは潜在機能の中で最も複雑なスタイルの組み合わせを指差している。
論文 参考訳(メタデータ) (2024-03-18T11:38:47Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Learning domain-agnostic visual representation for computational
pathology using medically-irrelevant style transfer augmentation [4.538771844947821]
STRAP(Style TRansfer Augmentation for histoPathology)は、芸術絵画からのランダムなスタイル移行に基づくデータ拡張の一形態である。
スタイル転送は、画像の低レベルのテクスチャ内容をランダムに選択された芸術絵画の非形式的なスタイルに置き換える。
STRAPが最先端のパフォーマンス、特にドメインシフトの存在につながることを実証する。
論文 参考訳(メタデータ) (2021-02-02T18:50:16Z) - Style-invariant Cardiac Image Segmentation with Test-time Augmentation [10.234493507401618]
ディープモデルは、実際の臨床環境での外観の変化により、しばしば深刻なパフォーマンス低下に悩まされる。
本稿では,心臓画像分割のための新しいスタイル不変手法を提案する。
論文 参考訳(メタデータ) (2020-09-24T08:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。