Fugu-MT 論文翻訳(概要): ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

論文の概要: ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation

arxiv url: http://arxiv.org/abs/2602.23203v1
Date: Thu, 26 Feb 2026 16:51:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.791266
Title: ColoDiff: Integrating Dynamic Consistency With Content Awareness for Colonoscopy Video Generation
Title（参考訳）: ColoDiff: 大腸内視鏡ビデオ生成のための動的一貫性とコンテンツ認識の統合
Authors: Junhu Fu, Shuyu Liang, Wutong Li, Chen Ma, Peng Huang, Kehao Wang, Ke Chen, Shengli Lin, Pinghong Zhou, Zeju Li, Yuanyuan Wang, Yi Guo,
Abstract要約: 大腸内視鏡ビデオ生成は、腸疾患の診断に不可欠なダイナミックで情報豊富なデータを提供する。動的に一貫性のあるコンテント対応の大腸内視鏡ビデオを生成する拡散型フレームワークであるColoDiffを提案する。
参考スコア（独自算出の注目度）: 15.809307327262298
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Colonoscopy video generation delivers dynamic, information-rich data critical for diagnosing intestinal diseases, particularly in data-scarce scenarios. High-quality video generation demands temporal consistency and precise control over clinical attributes, but faces challenges from irregular intestinal structures, diverse disease representations, and various imaging modalities. To this end, we propose ColoDiff, a diffusion-based framework that generates dynamic-consistent and content-aware colonoscopy videos, aiming to alleviate data shortage and assist clinical analysis. At the inter-frame level, our TimeStream module decouples temporal dependency from video sequences through a cross-frame tokenization mechanism, enabling intricate dynamic modeling despite irregular intestinal structures. At the intra-frame level, our Content-Aware module incorporates noise-injected embeddings and learnable prototypes to realize precise control over clinical attributes, breaking through the coarse guidance of diffusion models. Additionally, ColoDiff employs a non-Markovian sampling strategy that cuts steps by over 90% for real-time generation. ColoDiff is evaluated across three public datasets and one hospital database, based on both generation metrics and downstream tasks including disease diagnosis, modality discrimination, bowel preparation scoring, and lesion segmentation. Extensive experiments show ColoDiff generates videos with smooth transitions and rich dynamics. ColoDiff presents an effort in controllable colonoscopy video generation, revealing the potential of synthetic videos in complementing authentic representation and mitigating data scarcity in clinical settings.
Abstract（参考訳）: 大腸内視鏡ビデオ生成は、特にデータスカースシナリオにおいて、腸疾患の診断に重要なダイナミックで情報豊富なデータを提供する。高品質のビデオ生成は、時間的一貫性と臨床特性の正確な制御を必要とするが、不規則な腸構造、多様な疾患の表現、様々な画像モダリティの課題に直面している。そこで本研究では,データ不足を軽減し,臨床解析を支援するために,ダイナミック一貫性とコンテント対応の大腸内視鏡ビデオを生成する拡散型フレームワークであるColoDiffを提案する。フレーム間レベルでは、TimeStreamモジュールは、フレーム間のトークン化機構を通じて、ビデオシーケンスからの時間的依存を分離します。フレーム内レベルでは、私たちのContent-Awareモジュールはノイズ注入型埋め込みと学習可能なプロトタイプを組み込んで臨床特性の正確な制御を実現し、拡散モデルの粗いガイダンスを破る。さらに、ColoDiffは非マルコフサンプリング戦略を採用しており、リアルタイム生成のステップを90%以上削減している。 ColoDiffは3つのパブリックデータセットと1つの病院データベースで評価され、疾患の診断、モダリティ差別、腸準備スコア、病変のセグメンテーションなど、生成指標と下流タスクの両方に基づいて評価される。大規模な実験では、ColoDiffはスムーズなトランジションとリッチなダイナミックスを備えたビデオを生成する。 ColoDiffは、コントロール可能な大腸内視鏡ビデオ生成の取り組みを示し、臨床環境での真の表現を補完し、データの不足を緩和する合成ビデオの可能性を明らかにしている。

関連論文リスト

A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。 CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文参考訳（メタデータ） (2025-12-15T10:22:43Z)
CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。 CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文参考訳（メタデータ） (2025-11-26T07:27:11Z)
Mitigating Surgical Data Imbalance with Dual-Prediction Video Diffusion Model [7.746379804154433]
$SurgiFlowVid$は、表現不足のクラスの手術ビデオを生成するための、スパースでコントロール可能なビデオ拡散フレームワークである。本研究は,行動認識,ツール存在検出,腹腔鏡下運動予測などの3つの課題にまたがる手術データセットに対するアプローチを検証した。
論文参考訳（メタデータ） (2025-10-07T20:29:27Z)
MedVSR: Medical Video Super-Resolution with Cross State-Space Propagation [63.38824041721275]
低解像度(LR)医療ビデオは、ビデオ超解像度(VSR)モデルに固有の課題を提示する。本稿では,医療用VSRのためのフレームワークであるMedVSRを提案する。 MedVSRは既存のVSRモデルよりも性能と効率が優れていることを示す。
論文参考訳（メタデータ） (2025-09-25T14:56:59Z)
Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文参考訳（メタデータ） (2025-05-14T23:43:29Z)
Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文参考訳（メタデータ） (2025-04-20T01:54:18Z)
Label-Efficient Data Augmentation with Video Diffusion Models for Guidewire Segmentation in Cardiac Fluoroscopy [16.62770246342126]
深層学習法はワイヤセグメンテーションにおいて高い精度とロバスト性を示した。これらの手法は、一般化可能性のためにかなりのデータセットを必要とする。ラベル付き蛍光ビデオの大規模なコレクションを生成するためのフレーム一貫性拡散モデル(SF-VD)を提案する。
論文参考訳（メタデータ） (2024-12-20T16:52:11Z)
Video Set Distillation: Information Diversification and Temporal Densification [68.85010825225528]
Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
論文参考訳（メタデータ） (2024-11-28T05:37:54Z)
CCIS-Diff: A Generative Model with Stable Diffusion Prior for Controlled Colonoscopy Image Synthesis [7.1892156088672]
拡散アーキテクチャに基づく高品質な大腸内視鏡画像合成のための制御された生成モデルを提案する。本手法は, 臨床記述に適合するポリープの空間特性(ポリープ位置と形状)と臨床特性の両方を正確に制御する。
論文参考訳（メタデータ） (2024-11-19T03:30:06Z)
Colonoscopy Polyp Detection: Domain Adaptation From Medical Report Images to Real-time Videos [76.37907640271806]
大腸内視鏡画像と実時間映像の領域間ギャップに対処する画像-ビデオ結合型ポリープ検出ネットワーク(Ivy-Net)を提案する。収集したデータセットの実験は、Ivy-Netが大腸内視鏡ビデオで最先端の結果を達成することを示した。
論文参考訳（メタデータ） (2020-12-31T10:33:09Z)
PS-DeVCEM: Pathology-sensitive deep learning model for video capsule endoscopy based on weakly labeled data [0.0]
本稿では, ビデオカプセル内視鏡(VCE)データを用いて, フレームレベルの異常検出と大腸疾患の多ラベル分類を行うための, 病因性深層学習モデル(PS-DeVCEM)を提案する。我々のモデルは注目に基づく深層マルチインスタンス学習によって駆動され、弱いラベル付きデータでエンドツーエンドに訓練されている。トレーニング中にフレームアノテーション情報を使わずに、時間的にフレームを病状でローカライズする能力を示す。
論文参考訳（メタデータ） (2020-11-22T15:33:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。