Fugu-MT 論文翻訳(概要): Deep-Learning-Assisted Analysis of Cataract Surgery Videos

論文の概要: Deep-Learning-Assisted Analysis of Cataract Surgery Videos

arxiv url: http://arxiv.org/abs/2312.05900v1
Date: Sun, 10 Dec 2023 14:25:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 18:02:24.512265
Title: Deep-Learning-Assisted Analysis of Cataract Surgery Videos
Title（参考訳）: ディープラーニングを用いた白内障手術ビデオの解析
Authors: Negin Ghamsarian
Abstract要約: このような自動システムの需要が絶え間なく増加し、外科的ビデオ分析のための機械学習ベースのアプローチがもたらされた。この論文は、白内障手術ビデオ解析における重要な課題に対処し、効率的な文脈認識システム構築の道を開く。
参考スコア（独自算出の注目度）: 1.8673970128645236
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Following the technological advancements in medicine, the operation rooms are evolving into intelligent environments. The context-aware systems (CAS) can comprehensively interpret the surgical state, enable real-time warning, and support decision-making, especially for novice surgeons. These systems can automatically analyze surgical videos and perform indexing, documentation, and post-operative report generation. The ever-increasing demand for such automatic systems has sparked machine-learning-based approaches for surgical video analysis. This thesis addresses the significant challenges in cataract surgery video analysis to pave the way for building efficient context-aware systems. The main contributions of this thesis are five folds: (1) This thesis demonstrates that spatio-temporal localization of the relevant content can considerably improve phase recognition accuracy. (2) This thesis proposes a novel deep-learning-based framework for relevance-based compression to enable real-time streaming and adaptive storage of cataract surgery videos. (3) Several convolutional modules are proposed to boost the networks' semantic interpretation performance in challenging conditions. These challenges include blur and reflection distortion, transparency, deformability, color and texture variation, blunt edges, and scale variation. (4) This thesis proposes and evaluates the first framework for automatic irregularity detection in cataract surgery videos. (5) To alleviate the requirement for manual pixel-based annotations, this thesis proposes novel strategies for self-supervised representation learning adapted to semantic segmentation.
Abstract（参考訳）: 医療技術の進歩に伴い、手術室はインテリジェントな環境へと進化している。文脈認識システム(CAS)は、手術状態を包括的に解釈し、リアルタイム警告を可能にし、特に初心者外科医の意思決定を支援する。これらのシステムは、手術ビデオを自動的に分析し、インデクシング、文書化、手術後のレポート生成を行うことができる。このような自動システムに対する需要がますます高まる中、手術用ビデオ分析のための機械学習ベースのアプローチが生まれている。この論文は白内障手術ビデオ解析における重要な課題に対処し、効率的な文脈認識システム構築の道を開く。 1) 本論文は, 関連コンテンツの時空間的局所化が位相認識精度を大幅に向上させることを示す。 2)本論文は,白内障手術ビデオのリアルタイムストリーミングと適応ストレージを実現するための,関連性に基づく圧縮のための新しいディープラーニングフレームワークを提案する。 3)いくつかの畳み込みモジュールが提案され,ネットワークの意味解釈性能の向上が期待できる。これらの課題には、ぼかしと反射の歪み、透明性、変形性、色とテクスチャの変化、鈍いエッジ、スケールの変動などがある。 (4)白内障手術ビデオにおける自動不規則検出のための最初の枠組みを提案し,評価する。 (5)手動ピクセルベースのアノテーションの要件を軽減するため,セマンティックセグメンテーションに適応した自己教師付き表現学習のための新しい戦略を提案する。

関連論文リスト

ClipGS: Clippable Gaussian Splatting for Interactive Cinematic Visualization of Volumetric Medical Data [51.095474325541794]
医用データのインタラクティブなシネマティック可視化のためのクリッピングプレーンを備えた革新的なガウススプレイティングフレームワークであるClipGSを紹介した。本手法を5つのボリューム医療データで検証し,平均36.635 PSNRレンダリング品質を156 FPS,16.1MBモデルサイズで達成した。
論文参考訳（メタデータ） (2025-07-09T08:24:28Z)
Future Slot Prediction for Unsupervised Object Discovery in Surgical Video [10.984331138780682]
オブジェクト中心のスロットアテンションは、構造化された解釈可能なオブジェクト中心の表現を教師なしで学習するための新たなパラダイムである。適応スロット数による現在のアプローチは,画像上では良好に機能するが,手術ビデオ上でのパフォーマンスは低い。本稿では、時間的推論と最適な将来スロット予測の両方のために訓練された動的時間的スロットトランス (DTST) モジュールを提案する。
論文参考訳（メタデータ） (2025-07-02T16:52:16Z)
Large-scale Self-supervised Video Foundation Model for Intelligent Surgery [27.418249899272155]
本稿では,大規模な外科的ビデオデータから共同時間的表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを紹介する。 SurgVISTAは,空間構造を捕捉し,時間的ダイナミックスを複雑化する再構成型事前学習手法である。実験では、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回っている。
論文参考訳（メタデータ） (2025-06-03T09:42:54Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI [15.513949299806582]
外科的ビデオの自動要約は, 手続き的文書の充実, 外科的訓練の支援, 術後分析の促進に不可欠である。本稿では,コンピュータビジョンと大規模言語モデルの最近の進歩を活用して,包括的な映像要約を生成するマルチモーダルフレームワークを提案する。また,50個の腹腔鏡画像からの計測とアクションアノテーションを用いて,ColecT50データセットを用いて本手法の評価を行った。
論文参考訳（メタデータ） (2025-04-28T15:46:02Z)
Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文参考訳（メタデータ） (2025-04-26T15:37:22Z)
One Patient's Annotation is Another One's Initialization: Towards Zero-Shot Surgical Video Segmentation with Cross-Patient Initialization [1.0536099636804035]
ビデオオブジェクトセグメンテーションは、リアルタイムな外科的ビデオセグメンテーションに適した新興技術である。しかし、追跡されたオブジェクトを選択するために手動で介入する必要があるため、その採用は限られている。本研究では,他の患者からの注釈付きフレームを追跡フレームとして使用することで,この課題を革新的な解決法で解決する。この非従来的アプローチは、患者の追跡フレームの使用実績と一致したり、超えたりすることさえできる。
論文参考訳（メタデータ） (2025-03-04T03:11:03Z)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。 OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳（メタデータ） (2024-11-23T02:53:08Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
Thoracic Surgery Video Analysis for Surgical Phase Recognition [0.08706730566331035]
我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。 ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
論文参考訳（メタデータ） (2024-06-13T14:47:57Z)
FLex: Joint Pose and Dynamic Radiance Fields Optimization for Stereo Endoscopic Videos [79.50191812646125]
内視鏡的シーンの再構築は、外科手術後の分析から教育訓練まで、様々な医療応用にとって重要な要素である。変形組織の非常にダイナミックな環境下での移動内視鏡の挑戦的なセットアップに着目する。複数重重なり合う4次元ニューラルラジアンスフィールド(NeRF)への暗黙的なシーン分離と、再構成とカメラのスクラッチからのポーズを協調的に最適化するプログレッシブ最適化手法を提案する。これにより、使いやすさが向上し、5000フレーム以上の手術ビデオの処理に間に合うように復元能力を拡張できる。
論文参考訳（メタデータ） (2024-03-18T19:13:02Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
Learning How To Robustly Estimate Camera Pose in Endoscopic Videos [5.073761189475753]
カメラポーズ推定における2つの幾何学的損失を最小限に抑えるために,奥行きと光学的流れを推定するステレオ内視鏡の解を提案する。最も重要なことは、入力画像の内容に応じてコントリビューションのバランスをとるために、2つの学習された画素単位の重みマッピングを導入することである。パブリックなSCAREDデータセットに対する我々のアプローチを検証するとともに、新たなインビボデータセットであるStereoMISを導入しています。
論文参考訳（メタデータ） (2023-04-17T07:05:01Z)
Robotic Navigation Autonomy for Subretinal Injection via Intelligent Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。ブタ前眼の精度と再現性について実験を行った。
論文参考訳（メタデータ） (2023-01-17T21:41:21Z)
Relevance Detection in Cataract Surgery Videos by Spatio-Temporal Action Localization [7.235239641693831]
白内障手術では、顕微鏡の助けを借りて手術を行います。顕微鏡は最大2人程度でリアルタイム手術を観察できるため、記録されたビデオを用いて手術訓練の大部分を行う。ビデオコンテンツでトレーニング手順を最適化するには、外科医は自動関連性検出アプローチが必要です。本稿では,白内障映像における関連フェーズセグメントの検出と分類を行うための3モジュールフレームワークを提案する。
論文参考訳（メタデータ） (2021-04-29T12:01:08Z)
Simulation-to-Real domain adaptation with teacher-student learning for endoscopic instrument segmentation [1.1047993346634768]
注釈付きシミュレーションデータとラベルのない実データから共同学習する教師学習手法を紹介します。 3つのデータセットの実証結果は、提案したフレームワークの有効性を浮き彫りにする。
論文参考訳（メタデータ） (2021-03-02T09:30:28Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Synthetic and Real Inputs for Tool Segmentation in Robotic Surgery [10.562627972607892]
腹腔鏡画像と組み合わせたロボットキネマティックデータを用いてラベル付け問題を緩和できる可能性が示唆された。腹腔鏡画像とシミュレーション画像の並列処理のための新しい深層学習モデルを提案する。
論文参考訳（メタデータ） (2020-07-17T16:33:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。