論文の概要: Spatial-Temporal Pre-Training for Embryo Viability Prediction Using Time-Lapse Videos
- arxiv url: http://arxiv.org/abs/2506.17403v1
- Date: Fri, 20 Jun 2025 18:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.400735
- Title: Spatial-Temporal Pre-Training for Embryo Viability Prediction Using Time-Lapse Videos
- Title(参考訳): タイムラプス映像を用いた胚生存予測のための空間時間事前訓練
- Authors: Zhiyi Shi, Junsik Kim, Helen Y. Yang, Yonghyun Song, Hyun-Jic Oh, Dalit Ben-Yosef, Daniel Needleman, Hanspeter Pfister,
- Abstract要約: 自己教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を活用して予測を改善する。
既存のビデオのSSLメソッドは、2つの課題があるため、胚発生ビデオには直接適用されない。
これらの課題に対処するために,時空間事前学習(STPT)を提案する。
STPTは、ビデオ間のフレーム単位のアライメントを回避し、空間ステージは、各ビデオ内のアライメントと時間的に一貫したアライメントから学習する。
時間的段階は,ビデオ埋め込み間の関係をモデル化し,時間的変動を効果的に処理する。
- 参考スコア(独自算出の注目度): 20.617772805817154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automating embryo viability prediction for in vitro fertilization (IVF) is important but challenging due to the limited availability of labeled pregnancy outcome data, as only a small fraction of embryos are labeled after transfer. Self-supervised learning (SSL) can leverage both labeled and unlabeled data to improve prediction. However, existing SSL methods for videos are not directly applicable to embryo development videos due to two challenges: (1) embryo time-lapse videos contain hundreds of frames, requiring significant GPU memory for conventional SSL; (2) the dataset contains videos with varying lengths and many outlier frames, causing traditional video alignment methods to struggle with semantic misalignment. We propose Spatial-Temporal Pre-Training (STPT) to address these challenges. STPT includes two stages: spatial and temporal. In each stage, only one encoder is trained while the other is frozen, reducing memory demands. To handle temporal misalignment, STPT avoids frame-by-frame alignment across videos. The spatial stage learns from alignments within each video and its temporally consistent augmentations. The temporal stage then models relationships between video embeddings. Our method efficiently handles long videos and temporal variability. On 23,027 time-lapse videos (3,286 labeled), STPT achieves the highest AUC of 0.635 (95% CI: 0.632-0.638) compared to baselines, with limited computational resources.
- Abstract(参考訳): In vitro 受精 (IVF) における胚の生存率予測の自動化は重要であるが, 移植後わずかな胚しかラベル付けされないため, ラベル付き妊娠結果データが不足しているため困難である。
自己教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を活用して予測を改善する。
しかし、ビデオの既存のSSLメソッドは、(1)胚のタイムラプスビデオには数百のフレームが含まれており、従来のSSLに相当なGPUメモリを必要とする、(2)データセットには様々な長さと多くの不整合フレームの動画が含まれており、従来のビデオアライメント手法では意味的ミスアライメントに苦労する、という2つの課題により、胚発生ビデオには直接適用できない。
これらの課題に対処するために,時空間事前学習(STPT)を提案する。
STPTは時空間と時空間の2段階を含む。
各ステージでは、1つのエンコーダのみがトレーニングされ、もう1つのエンコーダが凍結され、メモリ要求が減少する。
時間的ミスアライメントを処理するため、STPTはビデオ間のフレーム単位のアライメントを避ける。
空間ステージは、各ビデオ内のアライメントと時間的に一貫した拡張から学習する。
時間段階は、ビデオ埋め込み間の関係をモデル化する。
提案手法は,長時間のビデオと時間変動を効率的に処理する。
23,027のタイムラプスビデオ (3,286 ラベル付き) では、STPT は計算資源が限られているベースラインと比較して 0.635 (95% CI: 0.632-0.638) の AUC を達成する。
関連論文リスト
- Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild [30.99346916414286]
本稿では,アノテーションのコスト削減のための新しいパラダイムを提案する。
不完全な疑似アノテーションの直接事前学習は、不一致の文-ビデオペアや不正確な時間境界など、重大な課題を呈する。
本稿では,セマンティックス誘導の洗練とメモリ・コンセンサス補正の2つの相からなるReCorrectアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-01T13:49:21Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [62.36887303063542]
本研究は,ストリーム映像深度推定の課題に対処する。
フレームやクリップ間でコンテキスト情報を共有することは、時間的一貫性を育む上で重要である、と我々は主張する。
本稿では,任意の長さの動画に対して一貫したコンテキスト認識学習と推論戦略を提案し,クロスクリップなコンテキストを提供する。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。