論文の概要: EndoGen: Conditional Autoregressive Endoscopic Video Generation
- arxiv url: http://arxiv.org/abs/2507.17388v1
- Date: Wed, 23 Jul 2025 10:32:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.957176
- Title: EndoGen: Conditional Autoregressive Endoscopic Video Generation
- Title(参考訳): EndoGen: 条件付き自己回帰型内視鏡ビデオ生成
- Authors: Xinyu Liu, Hengyu Liu, Cheng Wang, Tianming Liu, Yixuan Yuan,
- Abstract要約: 本研究では,最初の条件付き内視鏡映像生成フレームワークであるEndoGenを提案する。
具体的には、時空間グリッドフレームパターンを調整した自己回帰モデルを構築する。
高品質で条件付き内視鏡コンテンツ作成におけるフレームワークの有効性を実証する。
- 参考スコア(独自算出の注目度): 51.97720772069513
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Endoscopic video generation is crucial for advancing medical imaging and enhancing diagnostic capabilities. However, prior efforts in this field have either focused on static images, lacking the dynamic context required for practical applications, or have relied on unconditional generation that fails to provide meaningful references for clinicians. Therefore, in this paper, we propose the first conditional endoscopic video generation framework, namely EndoGen. Specifically, we build an autoregressive model with a tailored Spatiotemporal Grid-Frame Patterning (SGP) strategy. It reformulates the learning of generating multiple frames as a grid-based image generation pattern, which effectively capitalizes the inherent global dependency modeling capabilities of autoregressive architectures. Furthermore, we propose a Semantic-Aware Token Masking (SAT) mechanism, which enhances the model's ability to produce rich and diverse content by selectively focusing on semantically meaningful regions during the generation process. Through extensive experiments, we demonstrate the effectiveness of our framework in generating high-quality, conditionally guided endoscopic content, and improves the performance of downstream task of polyp segmentation. Code released at https://www.github.com/CUHK-AIM-Group/EndoGen.
- Abstract(参考訳): 内視鏡画像生成は医療画像の進歩と診断能力の向上に不可欠である。
しかし、この分野での以前の取り組みは静的なイメージに焦点を合わせ、実践的な応用に必要な動的コンテキストを欠いているか、あるいは、臨床医に意味のある参照を提供するのに失敗した無条件生成に依存しているかのどちらかである。
そこで本研究では,最初の条件付き内視鏡映像生成フレームワークであるEndoGenを提案する。
具体的には、時空間グリッドフレームパターン(SGP)戦略を調整した自己回帰モデルを構築する。
グリッドベースの画像生成パターンとして複数のフレームを生成する学習を再構築し、自動回帰アーキテクチャの本質的にグローバルな依存性モデリング能力を効果的に活用する。
さらに、生成プロセス中に意味論的意味のある領域に選択的に焦点をあてることで、モデルがリッチで多様なコンテンツを生成する能力を高めるセマンティック・アウェア・トークン・メイキング(SAT)機構を提案する。
広範にわたる実験を通じて,高品質で条件付き内視鏡コンテンツを生成する上でのフレームワークの有効性を実証し,ポリプセグメンテーションの下流タスクの性能を向上させる。
https://www.github.com/CUHK-AIM-Group/EndoGen.comで公開されている。
関連論文リスト
- Controllable Video Generation: A Survey [72.38313362192784]
本稿では、制御可能なビデオ生成の体系的レビューを行い、理論的基礎と最近の現場の進歩の両方について述べる。
まず、主要な概念を導入し、一般的に使われているオープンソースビデオ生成モデルを紹介します。
次に、映像拡散モデルにおける制御機構に着目し、生成を誘導する認知過程に異なる種類の条件を組み込む方法について分析する。
論文 参考訳(メタデータ) (2025-07-22T06:05:34Z) - Generative Pre-trained Autoregressive Diffusion Transformer [54.476056835275415]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - WeGen: A Unified Model for Interactive Multimodal Generation as We Chat [51.78489661490396]
マルチモーダル生成と理解を統合するモデルWeGenを紹介する。
より詳細な指示を省くために、創造性の高い多様な結果を生成することができる。
様々なビジュアル生成ベンチマークにおいて,最先端性能が達成されていることを示す。
論文 参考訳(メタデータ) (2025-03-03T02:50:07Z) - Nested Diffusion Models Using Hierarchical Latent Priors [23.605302440082994]
ネスト拡散モデル(ネスト拡散モデル)は、効率的で強力な階層的生成フレームワークである。
提案手法では,様々な意味レベルで潜伏変数を段階的に生成するために,一連の拡散モデルを用いる。
これらの潜伏変数を構築するために,事前学習した視覚エンコーダを用いて,強い意味的視覚表現を学習する。
論文 参考訳(メタデータ) (2024-12-08T16:13:39Z) - ARCON: Advancing Auto-Regressive Continuation for Driving Videos [7.958859992610155]
本稿では,ビデオ継続におけるLVM(Large Vision Models)の利用について検討する。
セマンティックトークンとRGBトークンを交互に生成するスキームであるARCONを導入し,LVMが高レベルな構造化映像情報を明示的に学習できるようにする。
自律走行シナリオの実験は、我々のモデルが一貫して長いビデオを生成できることを示しています。
論文 参考訳(メタデータ) (2024-12-04T22:53:56Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Unified Framework for Histopathology Image Augmentation and Classification via Generative Models [6.404713841079193]
本稿では,データ生成とモデルトレーニングの段階を統一プロセスに統合する,革新的な統一フレームワークを提案する。
提案手法では、画像合成と分類の両方を同時に扱うために、純粋視覚変換器(ViT)ベースの条件付き生成適応ネットワーク(cGAN)モデルを用いる。
本実験により,我々の統合合成増強フレームワークは,病理組織像分類モデルの性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2022-12-20T03:40:44Z) - Histopathology DatasetGAN: Synthesizing Large-Resolution Histopathology
Datasets [0.0]
病理組織学的データセットGAN(HDGAN)は、画像の生成と分割のためのフレームワークであり、大きな解像度の病理組織像によく対応している。
生成したバックボーンの更新,ジェネレータからの遅延特徴の選択的抽出,メモリマップされた配列への切り替えなど,オリジナルのフレームワークからいくつかの適応を行う。
血栓性微小血管症における高分解能タイルデータセット上でHDGANを評価し,高分解能画像アノテーション生成タスクにおいて高い性能を示した。
論文 参考訳(メタデータ) (2022-07-06T14:33:50Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Improved Image Generation via Sparse Modeling [27.66648389933265]
生成器は、Convolutional Sparse Coding (CSC) とそのMulti-Layeredバージョン (ML-CSC) 合成プロセスの発現として見ることができる。
この観測は、発電機内の適切な選択された活性化層にスパーシファイング正規化を明示的に強制することによって活用する。
論文 参考訳(メタデータ) (2021-04-01T13:52:40Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。