論文の概要: ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion
- arxiv url: http://arxiv.org/abs/2604.09450v1
- Date: Fri, 10 Apr 2026 16:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.951664
- Title: ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion
- Title(参考訳): ECHO: 1段階ブロック拡散を用いた効率的な胸部X線レポート生成
- Authors: Lifeng Chen, Tianqi You, Hao Liu, Zhimin Bao, Jile Jiao, Xiao Han, Zhicai Ou, Tao Sun, Xiaofeng Mou, Xiaojie Jin, Yi Xu,
- Abstract要約: 胸部X線レポート生成のための効率的な拡散型VLM (dVLM) である textbfECHO を提案する。
ECHOは、新しい直接蒸留(DCD)フレームワークを通じて、ブロック毎の安定した1ステップの推論を可能にする。
実験により、ECHOは最先端の自己回帰手法を超え、それぞれ textbf64.33% と textbf60.58% で RaTE と SemScore を改善した。
- 参考スコア(独自算出の注目度): 26.504953858868465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chest X-ray report generation (CXR-RG) has the potential to substantially alleviate radiologists' workload. However, conventional autoregressive vision--language models (VLMs) suffer from high inference latency due to sequential token decoding. Diffusion-based models offer a promising alternative through parallel generation, but they still require multiple denoising iterations. Compressing multi-step denoising to a single step could further reduce latency, but often degrades textual coherence due to the mean-field bias introduced by token-factorized denoisers. To address this challenge, we propose \textbf{ECHO}, an efficient diffusion-based VLM (dVLM) for chest X-ray report generation. ECHO enables stable one-step-per-block inference via a novel Direct Conditional Distillation (DCD) framework, which mitigates the mean-field limitation by constructing unfactorized supervision from on-policy diffusion trajectories to encode joint token dependencies. In addition, we introduce a Response-Asymmetric Diffusion (RAD) training strategy that further improves training efficiency while maintaining model effectiveness. Extensive experiments demonstrate that ECHO surpasses state-of-the-art autoregressive methods, improving RaTE and SemScore by \textbf{64.33\%} and \textbf{60.58\%} respectively, while achieving an \textbf{$8\times$} inference speedup without compromising clinical accuracy.
- Abstract(参考訳): 胸部X線レポート生成(CXR-RG)は放射線医の作業負荷を大幅に軽減する可能性がある。
しかし、従来の自己回帰視覚言語モデル(VLM)は、シーケンシャルトークンの復号化により、高い推論遅延に悩まされる。
拡散ベースのモデルは、並列生成を通じて有望な代替手段を提供するが、それでも複数の復調反復を必要とする。
複数ステップを1ステップに圧縮することで、レイテンシをさらに削減できるが、トークンファクターデノイザが導入する平均フィールドバイアスにより、テキストコヒーレンスを低下させることが多い。
この課題に対処するために,胸部X線レポート生成のための効率的な拡散型VLM(dVLM)であるtextbf{ECHO}を提案する。
ECHOは、新しいDirect Conditional Distillation (DCD)フレームワークを通じて、ブロック当たりの安定した1ステップの推論を可能にする。
さらに、モデルの有効性を維持しながら、トレーニング効率をさらに向上する、応答非対称拡散(RAD)トレーニング戦略を導入する。
広範な実験により、ECHOは最先端の自己回帰法を超越し、RaTEとSemScoreをそれぞれ \textbf{64.33\%} と \textbf{60.58\%} で改善し、臨床精度を損なうことなく \textbf{$8\times$} 推論速度を達成した。
関連論文リスト
- Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - BADiff: Bandwidth Adaptive Diffusion Model [55.10134744772338]
従来の拡散モデルは、下流の伝送制限によらず、一定数のデノナイジングステップを実行することで、高忠実度画像を生成する。
実際のクラウド・ツー・デバイス・シナリオでは、帯域幅の制限はしばしば重い圧縮を必要とし、微妙なテクスチャや無駄な計算が失われる。
使用可能な帯域幅から導かれる目標品質レベルに拡散モデルを条件付けする,共同エンドツーエンドのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-10-24T11:50:03Z) - SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation [62.14510717860079]
本稿では, 自己回帰モデルの学習効率を, 拡散の並列推論能力で統一するSynergistic Diffusion-Autoregressionパラダイムを提案する。
SDARは、十分に訓練された自己回帰モデル(AR)を、簡潔でデータ効率のよい適応を通じてブロックワイズ拡散モデルに変換する、軽量なパラダイム変換を実行する。
この知見に基づいて、SDARは最小コストで効率的なAR-拡散変換を実現し、並列生成を可能にしながら、ARレベルのパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-07T17:29:28Z) - Fewer Denoising Steps or Cheaper Per-Step Inference: Towards Compute-Optimal Diffusion Model Deployment [14.097906894386066]
PostDiffは、トレーニング済みの拡散モデルを加速するためのトレーニング不要のフレームワークである。
我々はPostDiffが最先端拡散モデルの忠実性と効率のトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2025-08-08T09:29:37Z) - FlashDLM: Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [22.207275433870937]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - Constrained Discrete Diffusion [61.81569616239755]
本稿では,拡散過程における微分可能制約最適化の新たな統合であるCDD(Constrained Discrete Diffusion)を紹介する。
CDDは直接、離散拡散サンプリングプロセスに制約を課し、トレーニング不要で効果的なアプローチをもたらす。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。