論文の概要: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation
- arxiv url: http://arxiv.org/abs/2411.01647v1
- Date: Sun, 03 Nov 2024 17:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:12.272353
- Title: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation
- Title(参考訳): 医用ビデオ生成のための光フロー表現アライメントマンバ拡散モデル
- Authors: Zhenbin Wang, Lei Zhang, Lituan Wang, Minjuan Zhu, Zhenwei Zhang,
- Abstract要約: 医療ビデオモデルは、医療産業に大きな影響を与えることが期待されている。
3つの要素を組み込んだ医用ビデオジェネレータ(MedSora)を提案する。
テストと応用は、MedSoraが医療ビデオの生成において優れた視覚的品質を示すことを示している。
- 参考スコア(独自算出の注目度): 7.432082883533906
- License:
- Abstract: Medical video generation models are expected to have a profound impact on the healthcare industry, including but not limited to medical education and training, surgical planning, and simulation. Current video diffusion models typically build on image diffusion architecture by incorporating temporal operations (such as 3D convolution and temporal attention). Although this approach is effective, its oversimplification limits spatio-temporal performance and consumes substantial computational resources. To counter this, we propose Medical Simulation Video Generator (MedSora), which incorporates three key elements: i) a video diffusion framework integrates the advantages of attention and Mamba, balancing low computational load with high-quality video generation, ii) an optical flow representation alignment method that implicitly enhances attention to inter-frame pixels, and iii) a video variational autoencoder (VAE) with frequency compensation addresses the information loss of medical features that occurs when transforming pixel space into latent features and then back to pixel frames. Extensive experiments and applications demonstrate that MedSora exhibits superior visual quality in generating medical videos, outperforming the most advanced baseline methods. Further results and code are available at https://wongzbb.github.io/MedSora
- Abstract(参考訳): 医療ビデオ生成モデルは、医療教育やトレーニング、手術計画、シミュレーションに限らず、医療産業に大きな影響を与えることが期待されている。
現在のビデオ拡散モデルは、通常、時間的操作(例えば3D畳み込みや時間的注意)を組み込むことで、画像拡散アーキテクチャに基づいて構築される。
このアプローチは有効であるが、その単純化は時空間性能を制限し、かなりの計算資源を消費する。
これに対応するために,3つの重要な要素を組み込んだメディカルシミュレーションビデオジェネレータ(MedSora)を提案する。
一 ビデオ拡散フレームワークは、注意力とマンバの利点を統合し、低計算負荷と高品質のビデオ生成のバランスをとる。
二 フレーム間画素への注意を暗黙的に増強する光フロー表示アライメント方法
三 周波数補償付きビデオ変分オートエンコーダ(VAE)は、画素空間を潜時特徴に変換して画素フレームに戻る際に発生する医療的特徴の情報損失に対処する。
大規模な実験と応用により、MedSoraは医療ビデオの生成において優れた視覚的品質を示し、最も先進的なベースライン法よりも優れていることが示されている。
さらなる結果とコードはhttps://wongzbb.github.io/MedSoraで公開されている。
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - SurGen: Text-Guided Diffusion Model for Surgical Video Generation [0.6551407780976953]
SurGenは、外科用ビデオ合成に適したテキスト誘導拡散モデルである。
標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。
本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。
論文 参考訳(メタデータ) (2024-08-26T05:38:27Z) - Vision Mamba: Cutting-Edge Classification of Alzheimer's Disease with 3D MRI Scans [0.6827423171182153]
アルツハイマー病の早期発見のための3次元MRI画像の分類は、医用画像において重要な課題である。
畳み込みニューラルネットワーク(CNN)とトランスフォーマーを用いた従来のアプローチは、この領域で重要な課題に直面している。
本研究では,3次元MRI画像の分類のための状態空間モデル(SSM)に基づく高度なモデルであるVision Mambaを用いてアルツハイマー病を検出することを提案する。
論文 参考訳(メタデータ) (2024-06-09T12:23:22Z) - Endora: Video Generation Models as Endoscopy Simulators [53.72175969751398]
本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。
また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。
Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
論文 参考訳(メタデータ) (2024-03-17T00:51:59Z) - MedMamba: Vision Mamba for Medical Image Classification [0.0]
視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)は医療画像分類タスクで広く研究され、広く利用されている。
近年の研究では、マンバで表される状態空間モデル(SSM)が、長距離依存を効果的にモデル化できることが示されている。
我々は、医用画像の一般的な分類のための最初のビジョンマンバであるメドマンバを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:49:33Z) - Vivim: a Video Vision Mamba for Medical Video Segmentation [52.11785024350253]
本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。
我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。
超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
論文 参考訳(メタデータ) (2024-01-25T13:27:03Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Enhanced Quadratic Video Interpolation [56.54662568085176]
より複雑なシーンや動きパターンを扱うために,拡張された2次ビデオ(EQVI)モデルを提案する。
さらなる性能向上のために,学習可能な拡張プロセスと見なせる新しいマルチスケール核融合ネットワーク(MS-Fusion)を考案した。
提案されたEQVIモデルは、AIM 2020 Video Temporal Super-Resolution Challengeで優勝した。
論文 参考訳(メタデータ) (2020-09-10T02:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。