論文の概要: SALIENT: Frequency-Aware Paired Diffusion for Controllable Long-Tail CT Detection
- arxiv url: http://arxiv.org/abs/2602.23447v1
- Date: Thu, 26 Feb 2026 19:12:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.103431
- Title: SALIENT: Frequency-Aware Paired Diffusion for Controllable Long-Tail CT Detection
- Title(参考訳): SALIENT-Long-Tail CT検出のための周波数対応Paired Diffusion
- Authors: Yifan Li, Mehrdad Salimitari, Taiyu Zhang, Guang Li, David Dreizin,
- Abstract要約: 制御可能なCT拡張のためのマスク条件のウェーブレットドメイン拡散フレームワークであるSALIENTを紹介する。
SALIENTは、画素空間を飾る代わりに、離散ウェーブレット係数上の構造拡散を行い、高周波構造の詳細から低周波輝度を分離する。
3D VAEは多様なボリューム障害マスクを生成し、セミ教師は下流マスク誘導検出のためのペアスライスレベル擬似ラベルを生成する。
- 参考スコア(独自算出の注目度): 6.673878172809982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detection of rare lesions in whole-body CT is fundamentally limited by extreme class imbalance and low target-to-volume ratios, producing precision collapse despite high AUROC. Synthetic augmentation with diffusion models offers promise, yet pixel-space diffusion is computationally expensive, and existing mask-conditioned approaches lack controllable attribute-level regulation and paired supervision for accountable training. We introduce SALIENT, a mask-conditioned wavelet-domain diffusion framework that synthesizes paired lesion-masking volumes for controllable CT augmentation under long-tail regimes. Instead of denoising in pixel space, SALIENT performs structured diffusion over discrete wavelet coefficients, explicitly separating low-frequency brightness from high-frequency structural detail. Learnable frequency-aware objectives disentangle target and background attributes (structure, contrast, edge fidelity), enabling interpretable and stable optimization. A 3D VAE generates diverse volumetric lesion masks, and a semi-supervised teacher produces paired slice-level pseudo-labels for downstream mask-guided detection. SALIENT improves generative realism, as reflected by higher MS-SSIM (0.63 to 0.83) and lower FID (118.4 to 46.5). In a separate downstream evaluation, SALIENT-augmented training improves long-tail detection performance, yielding disproportionate AUPRC gains across low prevalences and target-to-volume ratios. Optimal synthetic ratios shift from 2x to 4x as labeled seed size decreases, indicating a seed-dependent augmentation regime under low-label conditions. SALIENT demonstrates that frequency-aware diffusion enables controllable, computationally efficient precision rescue in long-tail CT detection.
- Abstract(参考訳): 全身CTにおけるまれな病変の検出は,高AUROCにもかかわらず,極度のクラス不均衡と低いターゲット・ツー・ボリューム比によって根本的に制限され,精度の低下が生じる。
拡散モデルによる合成拡張は、約束を提供するが、ピクセル空間の拡散は計算に高価であり、既存のマスク条件のアプローチでは、制御可能な属性レベルの規制や、説明可能なトレーニングのためのペア化された監督が欠如している。
マスク条件のウェーブレットドメイン拡散フレームワークであるSALIENTを導入する。
SALIENTは、画素空間を飾る代わりに、離散ウェーブレット係数上の構造拡散を行い、低周波輝度を高周波構造詳細から明確に分離する。
学習可能な周波数認識対象は、対象と背景特性(構造、コントラスト、エッジ忠実度)を分離し、解釈可能かつ安定した最適化を可能にする。
3D VAEは多様なボリューム障害マスクを生成し、セミ教師は下流マスク誘導検出のためのペアスライスレベル擬似ラベルを生成する。
SALIENTは、より高いMS-SSIM (0.63 - 0.83) と低いFID (118.4 - 46.5) によって反映されるように、生成的リアリズムを改善する。
個別の下流評価では、SALIENT強化トレーニングにより、長期検出性能が向上し、低頻度でのAUPRCゲインとターゲット・ツー・ボリューム比で不均質なAUPRCゲインが得られる。
ラベル付き種子サイズが減少するにつれて、最適な合成比は2倍から4倍に変化し、低ラベル条件下での種子依存性の増強体制を示す。
SALIENTは、ロングテールCT検出において、周波数認識拡散により制御可能で、計算効率のよい精度の救助が可能になることを実証している。
関連論文リスト
- AWDiff: An a trous wavelet diffusion model for lung ultrasound image synthesis [5.0322920296798435]
肺超音波(LUS)は安全かつポータブルな画像モダリティであるが、データの不足により、画像解釈と疾患モニタリングのための機械学習手法の開発が制限される。
A Trous Wavelet Diffusion (AWDiff) は、トロイスウェーブレットを統合して微細構造を保存するための拡散に基づく拡張フレームワークである。
AWDiffは既存の方法に比べて歪みが低く、知覚品質も高く、構造的忠実度と臨床多様性の両方を実証した。
論文 参考訳(メタデータ) (2026-03-03T15:57:57Z) - 3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising [6.285848674409191]
低線量ポジトロン断層撮影(PET)は、患者の放射線被曝を減少させるが、画像品質と診断信頼性を低下させるノイズの増大に悩まされる。
完全3次元拡散に基づくフレームワークであるWavelet-Conditioned ControlNet(WCC-Net)を提案する。
論文 参考訳(メタデータ) (2026-01-11T23:26:06Z) - Toward Diffusible High-Dimensional Latent Spaces: A Frequency Perspective [73.86108756585857]
我々は、エンコーダ/デコーダの動作を分析し、デコーダが詳細を回復するために高周波遅延成分に強く依存していることを確認する。
本稿ではFreqWarmについて紹介する。FreqWarmはプラグアンドプレイの周波数ウォームアップカリキュラムで、高周波潜時信号の早期露出を増大させる。
論文 参考訳(メタデータ) (2025-11-27T09:20:36Z) - LLM Hallucination Detection: A Fast Fourier Transform Method Based on Hidden Layer Temporal Signals [10.85580316542761]
幻覚は、信頼性に敏感なアプリケーションに大規模言語モデル(LLM)をデプロイする上で、依然として重要な障壁である。
隠れ表現の時間的ダイナミクスをモデル化する新しい幻覚検出フレームワークであるHSAD(Hidden Signal Analysis-based Detection)を提案する。
TruthfulQAを含む複数のベンチマークにおいて、HSADは従来の最先端手法に比べて10パーセント以上の改善を実現している。
論文 参考訳(メタデータ) (2025-09-16T15:08:19Z) - SARD: Segmentation-Aware Anomaly Synthesis via Region-Constrained Diffusion with Discriminative Mask Guidance [4.65786322515141]
SARD (Segmentation-Aware anomaly synthesis via Region-constrained Diffusion with discriminative mask Guidance) は, 異常生成に特化して設計された新しい拡散型フレームワークである。
SARDは、セグメンテーションの精度と視覚的品質において既存の手法を超越し、ピクセルレベルの異常合成のための新しい最先端技術を確立している。
論文 参考訳(メタデータ) (2025-08-05T06:43:01Z) - SpectrumFM: Redefining Spectrum Cognition via Foundation Modeling [65.65474629224558]
本稿ではスペクトル認識のための新しいパラダイムを提供するスペクトルFMと呼ばれるスペクトル基盤モデルを提案する。
畳み込みニューラルネットワークを利用した革新的なスペクトルエンコーダを提案し、スペクトルデータにおける微細な局所信号構造と高レベルのグローバルな依存関係の両方を効果的に捕捉する。
2つの新しい自己教師型学習タスク、すなわちマスク付き再構成と次のスロット信号予測が、SpectrumFMの事前学習のために開発され、モデルがリッチで伝達可能な表現を学習できるようにする。
論文 参考訳(メタデータ) (2025-08-02T14:40:50Z) - Implicit Spatiotemporal Bandwidth Enhancement Filter by Sine-activated Deep Learning Model for Fast 3D Photoacoustic Tomography [0.0]
高周波半球トランスデューサを用いた3次元光音響トモグラフィ(3D-PAT)は、ほぼ一方向受信を提供する。
しかし、サンプリングレートが制限されたチャンネル数などの実用的な制約は、画像品質を低下させるスパースと帯域制限センサーをもたらすことが多い。
センサワイドPAラジオ周波数(PARF)データに直接適用した2次元ディープラーニング(DL)手法を再検討する。
具体的には、SPF信号のブロードバンド特性を復元するために、DLモデルにsine-activatedを導入します。
論文 参考訳(メタデータ) (2025-07-28T07:16:32Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。
既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。
教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2025-05-19T03:45:16Z) - Freqformer: Frequency-Domain Transformer for 3-D Reconstruction and Quantification of Human Retinal Vasculature [3.708884194494243]
本稿では,グローバル空間コンテキストをキャプチャするトランスフォーマー層を統合した,デュアルブランチアーキテクチャを備えた新しいトランスフォーマーモデルであるFreqformerを紹介する。
Freqformerは1枚の深度平面OCTA画像を用いて訓練され、音量積分OCTAを基礎的真理として利用した。
Freqformerは既存の畳み込みニューラルネットワークとTransformerベースの手法を大幅に上回り、優れた画像メトリクスを実現した。
論文 参考訳(メタデータ) (2024-11-17T22:38:39Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - UDHF2-Net: Uncertainty-diffusion-model-based High-Frequency TransFormer Network for Remotely Sensed Imagery Interpretation [17.289252835606533]
不確実拡散モデルに基づく高周波トランスフォーマーネットワーク(UDHF2-Net)が最初に提案される。
UDHF2-Netは空間定常非定常高周波接続パラダイム(SHCP)である
Mask-and-geo-knowledge-based uncertainty diffusion module (MUDM) は自己指導型学習戦略である。
周波数ワイド半擬似半擬似UDHF2-Netは、変更検出の精度と複雑さのバランスをとるために提案された最初のものである。
論文 参考訳(メタデータ) (2024-06-23T15:03:35Z) - Spectrum Breathing: Protecting Over-the-Air Federated Learning Against Interference [73.63024765499719]
モバイルネットワークは、近隣のセルやジャマーからの干渉によって損なわれる可能性がある。
本稿では,帯域幅拡大を伴わない干渉を抑制するために,カスケード段階のプルーニングとスペクトル拡散を行うスペクトルブリーチングを提案する。
呼吸深度によって制御された勾配プルーニングと干渉誘発誤差の間には,性能的トレードオフが認められた。
論文 参考訳(メタデータ) (2023-05-10T07:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。