論文の概要: UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation
- arxiv url: http://arxiv.org/abs/2601.11522v1
- Date: Fri, 16 Jan 2026 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.608198
- Title: UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation
- Title(参考訳): UniX: 胸部X線理解と生成のための自己回帰と拡散の統合
- Authors: Ruiheng Zhang, Jingfeng Yao, Huangxuan Zhao, Hao Yan, Xiao He, Lei Chen, Zhou Wei, Yong Luo, Zengmao Wang, Lefei Zhang, Dacheng Tao, Bo Du,
- Abstract要約: 胸部X線理解・生成のための次世代統合医療基盤モデルUniXについて述べる。
UniXは2つのタスクを、理解のための自己回帰分岐と高忠実度生成のための拡散分岐に分離する。
2つの代表的なベンチマークでは、Unixは46.1%の性能向上と24.2%の世代品質向上を実現している。
- 参考スコア(独自算出の注目度): 98.93314262366681
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent progress, medical foundation models still struggle to unify visual understanding and generation, as these tasks have inherently conflicting goals: semantic abstraction versus pixel-level reconstruction. Existing approaches, typically based on parameter-shared autoregressive architectures, frequently lead to compromised performance in one or both tasks. To address this, we present UniX, a next-generation unified medical foundation model for chest X-ray understanding and generation. UniX decouples the two tasks into an autoregressive branch for understanding and a diffusion branch for high-fidelity generation. Crucially, a cross-modal self-attention mechanism is introduced to dynamically guide the generation process with understanding features. Coupled with a rigorous data cleaning pipeline and a multi-stage training strategy, this architecture enables synergistic collaboration between tasks while leveraging the strengths of diffusion models for superior generation. On two representative benchmarks, UniX achieves a 46.1% improvement in understanding performance (Micro-F1) and a 24.2% gain in generation quality (FD-RadDino), using only a quarter of the parameters of LLM-CXR. By achieving performance on par with task-specific models, our work establishes a scalable paradigm for synergistic medical image understanding and generation. Codes and models are available at https://github.com/ZrH42/UniX.
- Abstract(参考訳): 近年の進歩にもかかわらず、医療基盤モデルは視覚的理解と生成の統一に苦慮している。
既存のアプローチは、パラメータ共有の自己回帰アーキテクチャに基づいており、しばしば1つまたは両方のタスクで性能を損なう。
そこで我々は胸部X線理解・生成のための次世代統合医療基盤モデルUniXを提案する。
UniXは2つのタスクを、理解のための自己回帰分岐と高忠実度生成のための拡散分岐に分離する。
重要なことは、特徴を理解することによって生成プロセスを動的に導くために、モーダルな自己認識機構を導入することである。
このアーキテクチャは、厳密なデータクリーニングパイプラインとマルチステージのトレーニング戦略と組み合わせて、優れた世代のための拡散モデルの強みを活用しながら、タスク間の相乗的協調を可能にする。
2つの代表的なベンチマークでは、LLM-CXRのパラメータの4分の1しか使用せず、理解性能(Micro-F1)が46.1%向上し、生成品質(FD-RadDino)が24.2%向上した。
タスク固有のモデルに匹敵するパフォーマンスを達成することで、我々の研究は、シナジスティックな医療画像理解と生成のためのスケーラブルなパラダイムを確立します。
コードとモデルはhttps://github.com/ZrH42/UniXで入手できる。
関連論文リスト
- UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation [39.921363034430875]
統一された画像理解と生成は、マルチモーダル人工知能において有望なパラダイムとして浮上している。
本研究では,タスク固有の専門家モデルの理解と生成のためのモダリティアライメント行動について検討する。
タスクの干渉を避けるため,タスク固有の分岐を深いレイヤに導入しながら,タスクのタスク表現学習のための浅いレイヤを共有する,新しいY字型アーキテクチャであるUniForkを紹介した。
論文 参考訳(メタデータ) (2025-06-20T17:52:31Z) - DDAE++: Enhancing Diffusion Models Towards Unified Generative and Discriminative Learning [53.27049077100897]
生成前訓練は差別的な表現をもたらし、統一された視覚生成と理解への道を開くことが示されている。
この研究は自己条件付けを導入し、ネットワークに固有のリッチなセマンティクスを内部的に活用し、独自のデコード層をガイドする。
提案手法は、FIDの生成と認識の精度を1%の計算オーバーヘッドで向上させ、多様な拡散アーキテクチャで一般化する。
論文 参考訳(メタデータ) (2025-05-16T08:47:16Z) - Unifying Autoregressive and Diffusion-Based Sequence Generation [3.1853022872760186]
拡散に基づくシーケンス生成モデルに対して,自己回帰型言語モデルで行を曖昧にする重要な拡張を提示する。
個別のトークン位置に異なるノイズスケジュールを割り当てるハイパースケジューリングを導入する。
第二に,吸収過程と一様過程の間に介在する2つのハイブリッドトークン単位のノイズ発生過程を提案し,過去の誤りを解消する。
論文 参考訳(メタデータ) (2025-04-08T20:32:10Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。