論文の概要: RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal Consistency to Frame-Based Domain Translation Approaches
- arxiv url: http://arxiv.org/abs/2310.00868v2
- Date: Tue, 13 May 2025 16:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.088176
- Title: RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal Consistency to Frame-Based Domain Translation Approaches
- Title(参考訳): RT-GAN:フレームベースドメイン変換アプローチに軽量時間一貫性を付加するための繰り返し時間GAN
- Authors: Shawn Mathew, Saad Nadeem, Alvin C. Goh, Arie Kaufman,
- Abstract要約: 本稿では,個別のフレームベースアプローチに時間的整合性を加えるための,可変時間パラメータRT-GANを用いた軽量な解を提案する。
大腸内視鏡検査における2症例に対するアプローチの有効性について検討した。
- 参考スコア(独自算出の注目度): 3.7873597471903944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fourteen million colonoscopies are performed annually just in the U.S. However, the videos from these colonoscopies are not saved due to storage constraints (each video from a high-definition colonoscope camera can be in tens of gigabytes). Instead, a few relevant individual frames are saved for documentation/reporting purposes and these are the frames on which most current colonoscopy AI models are trained on. While developing new unsupervised domain translation methods for colonoscopy (e.g. to translate between real optical and virtual/CT colonoscopy), it is thus typical to start with approaches that initially work for individual frames without temporal consistency. Once an individual-frame model has been finalized, additional contiguous frames are added with a modified deep learning architecture to train a new model from scratch for temporal consistency. This transition to temporally-consistent deep learning models, however, requires significantly more computational and memory resources for training. In this paper, we present a lightweight solution with a tunable temporal parameter, RT-GAN (Recurrent Temporal GAN), for adding temporal consistency to individual frame-based approaches that reduces training requirements by a factor of 5. We demonstrate the effectiveness of our approach on two challenging use cases in colonoscopy: haustral fold segmentation (indicative of missed surface) and realistic colonoscopy simulator video generation. We also release a first-of-its kind temporal dataset for colonoscopy for the above use cases. The datasets, accompanying code, and pretrained models will be made available on our Computational Endoscopy Platform GitHub (https://github.com/nadeemlab/CEP). The supplementary video is available at https://youtu.be/UMVP-uIXwWk.
- Abstract(参考訳): しかし、これらのコロノコピーのビデオは保存の制約により保存されない(高解像度のコロノスコープカメラの動画は数ギガバイト)。
代わりに、ドキュメンテーション/レポートの目的のために、関連する個々のフレームが保存される。これらは、現在の大腸内視鏡AIモデルの大半がトレーニングされているフレームである。
大腸内視鏡の新しい教師なし領域翻訳法(例えば、実際の光学的および仮想的/CT的大腸内視鏡間の翻訳法)は、当初、時間的整合性のない個々のフレームに対して機能するアプローチから始めるのが一般的である。
個別のフレームモデルが完成すると、追加の連続したフレームに修正されたディープラーニングアーキテクチャを追加して、スクラッチから新しいモデルをトレーニングして、時間的一貫性を高める。
しかし、この時間的に一貫性のあるディープラーニングモデルへの移行は、トレーニングのためにはるかに多くの計算とメモリリソースを必要とする。
本稿では,時間パラメータを調整可能なRT-GAN(Recurrent Temporal GAN)を用いた軽量なソリューションを提案する。
本研究は,大腸内視鏡検査における2つの困難な症例に対するアプローチの有効性を実証するものである。
また,上述の症例に対する大腸内視鏡検査のための初診時データセットもリリースした。
データセット、付随コード、トレーニング済みモデルは、当社のComputational Endoscopy Platform GitHub(https://github.com/nadeemlab/CEP)で利用可能になります。
補足ビデオはhttps://youtu.be/UMVP-uIXwWk.comで公開されている。
関連論文リスト
- Adapting Vision Foundation Models for Real-time Ultrasound Image Segmentation [20.009670139005085]
既存の超音波セグメンテーション法は、しばしば新しいタスクへの適応性に苦しむ。
視覚基盤モデルHieraを応用した適応型フレームワークを導入し,マルチスケールな特徴を抽出する。
これらのリッチな機能は、精密で堅牢なセグメンテーションを生成するためにデコードされる。
論文 参考訳(メタデータ) (2025-03-31T17:47:42Z) - EndoMamba: An Efficient Foundation Model for Endoscopic Videos [2.747826950754128]
視覚ナビゲーションや外科的位相認識などの内視鏡的ビデオベースのタスクは、リアルタイムの補助を提供することで、最小侵襲の手術において重要な役割を果たす。
近年のビデオ基礎モデルは有望なものとなっているが、その応用は、内視鏡の訓練のための限られたデータによる計算不効率と準最適性能によって妨げられている。
これらの問題に対処するため,一般化表現を取り入れたリアルタイム推論のための基礎モデルであるEndoMambaを提案する。
論文 参考訳(メタデータ) (2025-02-26T12:36:16Z) - A Temporal Convolutional Network-Based Approach and a Benchmark Dataset for Colonoscopy Video Temporal Segmentation [3.146247125118741]
ColonTCNは、独自の時間的畳み込みブロックを使用して、大腸内視鏡ビデオの時間的セグメンテーションの時間的依存関係を効率的にキャプチャする学習ベースのアーキテクチャである。
ColonTCNは、評価時に低いパラメータ数を維持しながら、分類精度の最先端性を達成する。
腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下手術を施行した。
論文 参考訳(メタデータ) (2025-02-05T18:21:56Z) - WinTSR: A Windowed Temporal Saliency Rescaling Method for Interpreting Time Series Deep Learning Models [0.51795041186793]
我々は、新しい解釈方法、textitWindowed Temporal Saliency Rescaling(WinTSR)を導入する。
我々は、異なるアーキテクチャの5つの最先端ディープラーニングモデルを用いて、WinTSRを10の最近の解釈手法と比較した。
総括分析の結果,WinTSRは他の局所解釈手法よりも性能が優れていた。
論文 参考訳(メタデータ) (2024-12-05T17:15:07Z) - STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing [6.872340834265972]
チャネルワイドおよび深度ワイドの畳み込みを学習可能な層としてのみ依存する,S時間学習のための新しい方法STLightを提案する。
STLightは、空間次元と時間次元を並べ替えることで、従来の畳み込みアプローチの限界を克服する。
本アーキテクチャは,データセットや設定のSTLベンチマーク上での最先端性能を実現するとともに,パラメータや計算FLOPの計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T13:53:19Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation [4.027361638728112]
本稿では,自己教師型学習を補助課題として行うビデオポリープセグメンテーション手法と,表現学習を改善するための空間的時間的自己認識機構を提案する。
実験により, 現状技術(SOTA)法の改良が示された。
本研究は,Diceの類似度係数と交叉結合度の両方において,ネットワークの精度が3%以上,10%近く向上することが確認された。
論文 参考訳(メタデータ) (2024-06-14T17:33:11Z) - Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。
提案手法は, 監視対象の性能を超過する。
論文 参考訳(メタデータ) (2024-03-25T17:40:32Z) - MeVGAN: GAN-based Plugin Model for Video Generation with Applications in
Colonoscopy [12.515404169717451]
我々は,GAN(Geneversarative Adrial Network)によるメモリ効率の良いビデオGAN(MeVGAN)を提案する。
事前訓練された2次元画像GANを用いて、ノイズ空間内の各軌跡を構築することにより、GANモデルを通して転送された軌跡が実写映像を構成する。
我々は,MeVGANが高品質な合成大腸内視鏡映像を制作できることを示し,仮想シミュレータで使用することができることを示した。
論文 参考訳(メタデータ) (2023-11-07T10:58:16Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast
Video Polyp Detection [80.68520401539979]
textbfYONA (textbfYou textbfOnly textbfNeed one textbfAdjacent Reference-frame)は、ビデオポリープ検出のための効率的なエンドツーエンドのトレーニングフレームワークである。
提案したYONAは,従来の最先端の競合他社よりも精度と速度の両面で優れています。
論文 参考訳(メタデータ) (2023-06-06T13:53:15Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Fast Non-Rigid Radiance Fields from Monocularized Data [66.74229489512683]
本稿では,不規則に変形するシーンを360度内向きに合成する新しい手法を提案する。
提案手法のコアとなるのは, 空間情報と時間情報の処理を分離し, 訓練と推論を高速化する効率的な変形モジュール, 2) 高速ハッシュ符号化ニューラルラジオアンスフィールドとしての標準シーンを表す静的モジュールである。
どちらの場合も,本手法は従来の手法よりもはるかに高速で,7分未満で収束し,1K解像度でリアルタイムのフレームレートを実現するとともに,生成した新規なビューに対して高い視覚的精度が得られる。
論文 参考訳(メタデータ) (2022-12-02T18:51:10Z) - CLTS-GAN: Color-Lighting-Texture-Specular Reflection Augmentation for
Colonoscopy [5.298287413134345]
CLTS-GANは、OCビデオフレームのための色、照明、テクスチャ、および仕様反射を細かく制御する新しいディープラーニングモデルである。
トレーニングデータに大腸内視鏡特異的な拡張を加えることで,最先端のポリープ検出/分離法が向上することを示す。
論文 参考訳(メタデータ) (2022-06-29T23:51:16Z) - Unsupervised Shot Boundary Detection for Temporal Segmentation of Long
Capsule Endoscopy Videos [0.0]
医師は消化器内視鏡(英語版) (CE) を非侵襲的、非外科的処置として使用し、全消化管 (GI) を検査する。
1回のCE検査は8時間から11時間で8万フレームを生成でき、ビデオとしてコンパイルされる。
論文 参考訳(メタデータ) (2021-10-18T07:22:46Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - Colonoscopy Polyp Detection: Domain Adaptation From Medical Report
Images to Real-time Videos [76.37907640271806]
大腸内視鏡画像と実時間映像の領域間ギャップに対処する画像-ビデオ結合型ポリープ検出ネットワーク(Ivy-Net)を提案する。
収集したデータセットの実験は、Ivy-Netが大腸内視鏡ビデオで最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2020-12-31T10:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。