論文の概要: RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal Consistency to Frame-Based Domain Translation Approaches
- arxiv url: http://arxiv.org/abs/2310.00868v2
- Date: Tue, 13 May 2025 16:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.088176
- Title: RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal Consistency to Frame-Based Domain Translation Approaches
- Title(参考訳): RT-GAN:フレームベースドメイン変換アプローチに軽量時間一貫性を付加するための繰り返し時間GAN
- Authors: Shawn Mathew, Saad Nadeem, Alvin C. Goh, Arie Kaufman,
- Abstract要約: 本稿では,個別のフレームベースアプローチに時間的整合性を加えるための,可変時間パラメータRT-GANを用いた軽量な解を提案する。
大腸内視鏡検査における2症例に対するアプローチの有効性について検討した。
- 参考スコア(独自算出の注目度): 3.7873597471903944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fourteen million colonoscopies are performed annually just in the U.S. However, the videos from these colonoscopies are not saved due to storage constraints (each video from a high-definition colonoscope camera can be in tens of gigabytes). Instead, a few relevant individual frames are saved for documentation/reporting purposes and these are the frames on which most current colonoscopy AI models are trained on. While developing new unsupervised domain translation methods for colonoscopy (e.g. to translate between real optical and virtual/CT colonoscopy), it is thus typical to start with approaches that initially work for individual frames without temporal consistency. Once an individual-frame model has been finalized, additional contiguous frames are added with a modified deep learning architecture to train a new model from scratch for temporal consistency. This transition to temporally-consistent deep learning models, however, requires significantly more computational and memory resources for training. In this paper, we present a lightweight solution with a tunable temporal parameter, RT-GAN (Recurrent Temporal GAN), for adding temporal consistency to individual frame-based approaches that reduces training requirements by a factor of 5. We demonstrate the effectiveness of our approach on two challenging use cases in colonoscopy: haustral fold segmentation (indicative of missed surface) and realistic colonoscopy simulator video generation. We also release a first-of-its kind temporal dataset for colonoscopy for the above use cases. The datasets, accompanying code, and pretrained models will be made available on our Computational Endoscopy Platform GitHub (https://github.com/nadeemlab/CEP). The supplementary video is available at https://youtu.be/UMVP-uIXwWk.
- Abstract(参考訳): しかし、これらのコロノコピーのビデオは保存の制約により保存されない(高解像度のコロノスコープカメラの動画は数ギガバイト)。
代わりに、ドキュメンテーション/レポートの目的のために、関連する個々のフレームが保存される。これらは、現在の大腸内視鏡AIモデルの大半がトレーニングされているフレームである。
大腸内視鏡の新しい教師なし領域翻訳法(例えば、実際の光学的および仮想的/CT的大腸内視鏡間の翻訳法)は、当初、時間的整合性のない個々のフレームに対して機能するアプローチから始めるのが一般的である。
個別のフレームモデルが完成すると、追加の連続したフレームに修正されたディープラーニングアーキテクチャを追加して、スクラッチから新しいモデルをトレーニングして、時間的一貫性を高める。
しかし、この時間的に一貫性のあるディープラーニングモデルへの移行は、トレーニングのためにはるかに多くの計算とメモリリソースを必要とする。
本稿では,時間パラメータを調整可能なRT-GAN(Recurrent Temporal GAN)を用いた軽量なソリューションを提案する。
本研究は,大腸内視鏡検査における2つの困難な症例に対するアプローチの有効性を実証するものである。
また,上述の症例に対する大腸内視鏡検査のための初診時データセットもリリースした。
データセット、付随コード、トレーニング済みモデルは、当社のComputational Endoscopy Platform GitHub(https://github.com/nadeemlab/CEP)で利用可能になります。
補足ビデオはhttps://youtu.be/UMVP-uIXwWk.comで公開されている。
関連論文リスト
- Adapting Vision Foundation Models for Real-time Ultrasound Image Segmentation [20.009670139005085]
既存の超音波セグメンテーション法は、しばしば新しいタスクへの適応性に苦しむ。
視覚基盤モデルHieraを応用した適応型フレームワークを導入し,マルチスケールな特徴を抽出する。
これらのリッチな機能は、精密で堅牢なセグメンテーションを生成するためにデコードされる。
論文 参考訳(メタデータ) (2025-03-31T17:47:42Z) - EndoMamba: An Efficient Foundation Model for Endoscopic Videos [2.747826950754128]
視覚ナビゲーションや外科的位相認識などの内視鏡的ビデオベースのタスクは、リアルタイムの補助を提供することで、最小侵襲の手術において重要な役割を果たす。
近年のビデオ基礎モデルは有望なものとなっているが、その応用は、内視鏡の訓練のための限られたデータによる計算不効率と準最適性能によって妨げられている。
これらの問題に対処するため,一般化表現を取り入れたリアルタイム推論のための基礎モデルであるEndoMambaを提案する。
論文 参考訳(メタデータ) (2025-02-26T12:36:16Z) - WinTSR: A Windowed Temporal Saliency Rescaling Method for Interpreting Time Series Deep Learning Models [0.51795041186793]
我々は、新しい解釈方法、textitWindowed Temporal Saliency Rescaling(WinTSR)を導入する。
我々は、異なるアーキテクチャの5つの最先端ディープラーニングモデルを用いて、WinTSRを10の最近の解釈手法と比較した。
総括分析の結果,WinTSRは他の局所解釈手法よりも性能が優れていた。
論文 参考訳(メタデータ) (2024-12-05T17:15:07Z) - STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing [6.872340834265972]
チャネルワイドおよび深度ワイドの畳み込みを学習可能な層としてのみ依存する,S時間学習のための新しい方法STLightを提案する。
STLightは、空間次元と時間次元を並べ替えることで、従来の畳み込みアプローチの限界を克服する。
本アーキテクチャは,データセットや設定のSTLベンチマーク上での最先端性能を実現するとともに,パラメータや計算FLOPの計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T13:53:19Z) - Cross Space and Time: A Spatio-Temporal Unitized Model for Traffic Flow Forecasting [16.782154479264126]
時間的要因間の複雑な相互作用により、バックボーン・時間的トラフィックフローを予測することが課題となる。
既存のアプローチでは、これらの次元を分離し、重要な相互依存を無視している。
本稿では,空間的および時間的依存関係の両方をキャプチャする統合フレームワークであるSanonymous-Temporal Unitized Unitized Cell (ASTUC)を紹介する。
論文 参考訳(メタデータ) (2024-11-14T07:34:31Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。
提案手法は, 監視対象の性能を超過する。
論文 参考訳(メタデータ) (2024-03-25T17:40:32Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。