論文の概要: CAFlow: Adaptive-Depth Single-Step Flow Matching for Efficient Histopathology Super-Resolution
- arxiv url: http://arxiv.org/abs/2603.18513v1
- Date: Thu, 19 Mar 2026 05:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.974242
- Title: CAFlow: Adaptive-Depth Single-Step Flow Matching for Efficient Histopathology Super-Resolution
- Title(参考訳): CAFlow : 効率的な病理組織学的超解像のための適応深さ単段フローマッチング法
- Authors: Elad Yoshai, Ariel D. Yoshai, Natan T. Shaked,
- Abstract要約: 全スライディング画像は、通常、ギガピクセルの解像度を超えるため、計算集約的な生成超解像は、日常的な展開には不実用である。
適応的な1ステップフローマッチングフレームワークであるCAFlowを導入し,各画像タイルを最も浅いネットワーク出口にルーティングする。
多臓器の病理組織学的 x4 SR では、適応的ルーティングは完全な深さで 31.72 dB PSNR と 31.84 dB を達成し、最も浅い出口は SwinIR-light よりも2.8倍少ない計算で +1.9 dB を超える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In digital pathology, whole-slide images routinely exceed gigapixel resolution, making computationally intensive generative super-resolution (SR) impractical for routine deployment. We introduce CAFlow, an adaptive-depth single-step flow-matching framework that routes each image tile to the shallowest network exit that preserves reconstruction quality. CAFlow performs flow matching in pixel-unshuffled rearranged space, reducing spatial computation by 16x while enabling direct inference. We show that dedicating half of training to exact t=0 samples is essential for single-step quality (-1.5 dB without it). The backbone, FlowResNet (1.90M parameters), mixes convolution and window self-attention blocks across four early exits spanning 3.1 to 13.3 GFLOPs. A lightweight exit classifier (~6K parameters) achieves 33% compute savings at only 0.12 dB cost. On multi-organ histopathology x4 SR, adaptive routing achieves 31.72 dB PSNR versus 31.84 dB at full depth, while the shallowest exit exceeds bicubic by +1.9 dB at 2.8x less compute than SwinIR-light. The method generalizes to held-out colon tissue with minimal quality loss (-0.02 dB), and at x8 upscaling it outperforms all comparable-compute baselines while remaining competitive with the much larger SwinIR-Medium model. Downstream nuclei segmentation confirms preservation of clinically relevant structure. The model trains in under 5 hours on a single GPU, and adaptive routing can reduce whole-slide inference from minutes to seconds.
- Abstract(参考訳): デジタル病理学において、全スライディング画像は、通常、ギガピクセル分解能を超え、計算集約的な生成超解像(SR)を日常的な展開に不実用にする。
適応的な1ステップフローマッチングフレームワークであるCAFlowを導入し、各画像タイルを最も浅いネットワーク出口にルーティングし、再構築品質を維持する。
CAFlowは画素アンシャッフルされた再配置された空間でフローマッチングを行い、直接推論を可能にしながら空間計算を16倍削減する。
トレーニングの半分を正確な t=0 サンプルに捧げることは, シングルステップ品質 (-1.5 dB ) に不可欠であることを示す。
バックボーンであるFlowResNet (1.90Mパラメータ)は、3.1から13.3 GFLOPにまたがる4つの早期出口に畳み込みとウィンドウ自己保持ブロックを混合する。
軽量の出口分類器(約6Kパラメータ)は、わずか0.12dBのコストで33%の計算節約を達成する。
多臓器の病理組織学 x4 SR では、適応的ルーティングは完全な深さで 31.72 dB PSNR と 31.84 dB を達成し、最も浅い出口は SwinIR-light よりも2.8倍少ない計算で +1.9 dB を超える。
この方法は、最小品質の損失 (-0.02 dB) で保留する大腸組織に一般化され、x8では、より大きなSwinIR-Mediumモデルと競合しながら、同等のコンピュートベースラインをすべて上回っている。
下流核セグメンテーションは臨床的に関係のある構造の保存を確認する。
モデルは1つのGPU上で5時間未満でトレーニングされ、適応的なルーティングにより、スライダー全体の推論を数分から秒に短縮することができる。
関連論文リスト
- DiP: Taming Diffusion Models in Pixel Space [91.51011771517683]
Diffusion Transformer (DiT) バックボーンは、効率的なグローバル構造構築のために大きなパッチで動作する。
共同トレーニングされた軽量パッチディーラーヘッドは、コンテキスト機能を活用して、きめ細かいローカル詳細を復元する。
論文 参考訳(メタデータ) (2025-11-24T06:55:49Z) - Progressive Supernet Training for Efficient Visual Autoregressive Modeling [56.15415456746672]
本稿では,パラダイムとフルネットワークの両方の世代品質のフロンティアを突破するトレーニング戦略を提案する。
ImageNetの実験では、事前訓練されたVAR-d30、VARiant-d16、VARiant-d8と比べ、ほぼ同等の品質を実現している。
VARiant-d2は3.5倍のスピードアップと80%のメモリ削減を実現している。
論文 参考訳(メタデータ) (2025-11-20T16:59:24Z) - MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization [6.908972852063454]
時間的行動の局所化は、正確な境界検出と計算効率の両方を必要とする。
我々は、境界距離回帰(BDR)と適応時間制限(ATR)という2つの補完的なイノベーションを通じてこの問題に対処する。
THUMOS14では、ActionFormer++ (55.7% mAP@0.7 at 235G) よりも36%少ないFLOPを用いて、151GのFLOPで56.5% mAP@0.7を達成する。
論文 参考訳(メタデータ) (2025-11-06T00:41:54Z) - Loss-Aware Automatic Selection of Structured Pruning Criteria for Deep Neural Network Acceleration [1.3225694028747144]
本稿では,深層ニューラルネットワークのスリム化と高速化に有効なLAASP(Los-Aware Automatic Selection of Structured Pruning Criteria)を提案する。
刈り取り訓練アプローチは第1段階を排除し、第2段階と第3段階を1サイクルに統合する。
CIFAR-10およびImageNetベンチマークデータセットにおけるVGGNetとResNetモデルの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-06-25T06:18:46Z) - SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - Scaling Up 3D Kernels with Bayesian Frequency Re-parameterization for
Medical Image Segmentation [25.62587471067468]
RepUX-Netは、単純な大きなカーネルブロック設計を持つ純粋なCNNアーキテクチャである。
人間の視覚系における空間周波数にインスパイアされ、カーネル収束を要素的設定に変化させるよう拡張する。
論文 参考訳(メタデータ) (2023-03-10T08:38:34Z) - Pruning Very Deep Neural Network Channels for Efficient Inference [6.497816402045099]
トレーニングされたCNNモデルを用いて,各層を効果的にプルーする反復的2段階アルゴリズムを提案する。
VGG-16は5倍のスピードアップを実現し、エラーはわずか0.3%増加した。
提案手法は,ResNet,Xceptionなどの現代のネットワークを高速化し,それぞれ2倍のスピードアップで1.4%,1.0%の精度損失を被る。
論文 参考訳(メタデータ) (2022-11-14T06:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。