論文の概要: OphEdit: Training-Free Text-Guided Editing of Ophthalmic Surgical Videos
- arxiv url: http://arxiv.org/abs/2605.07695v1
- Date: Fri, 08 May 2026 13:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.057873
- Title: OphEdit: Training-Free Text-Guided Editing of Ophthalmic Surgical Videos
- Title(参考訳): OphEdit:眼科手術ビデオの無料テキストガイド編集
- Authors: Ritul Jangir, Arkya Jyoti Bagchi, Aiman Farooq, Mangalton Okram, Saurabh Seetaram Korgaonkar, Deepak Mishra,
- Abstract要約: OphEditは、眼科手術ビデオのテキストガイド編集のためのトレーニング不要のフレームワークである。
楽器スワップや手続きのバリエーションなどの複雑な外科的変換を処理し、優れた構造的忠実性と時間的整合性を持つ。
本研究は,眼科領域におけるトレーニング不要ビデオ編集の初めての応用例である。
- 参考スコア(独自算出の注目度): 4.542352618234179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-fidelity surgical video generation can greatly improve medical training and the development of AI, adapting these generative models for precise video editing remains a formidable challenge. Modifying surgical attributes, such as instrument tissue interactions or procedural phases is challenging due to the strict anatomical and temporal constraints. In this paper, we propose OphEdit, a novel training-free framework for the text-guided editing of ophthalmic surgical videos. Our approach leverages a deterministic second-order ODE inversion pipeline to capture Attention Value (V) tensors from the original video. By selectively injecting these stored tensors into the conditional Classifier-Free Guidance (CFG) branch during the denoising phase, OphEdit rigorously preserves the intricate anatomical geometry of the eye while seamlessly mapping text-driven semantic modifications onto the video stream. Clinical evaluations demonstrates that OphEdit effectively handles complex surgical transformations, such as instrument swaps and procedural variations, with superior structural fidelity and temporal consistency compared to natural-domain video editors. Our work represents the first application of training-free video editing in the ophthalmic surgical domain, offering a scalable solution for generating diverse, annotated medical datasets without the need for exhaustive manual recording or costly model fine-tuning. The code and prompts can be accessed at https://github.com/ophedit/OphEdit
- Abstract(参考訳): 高忠実度手術用ビデオ生成は、医療訓練とAIの開発を大幅に改善する可能性がある。
器組織相互作用や手続き段階などの外科的特性の修正は、厳密な解剖学的および時間的制約のために困難である。
本稿では,眼科手術ビデオのテキストガイド編集のための新しいトレーニングフリーフレームワークであるOphEditを提案する。
提案手法では,決定論的二階ODEインバージョンパイプラインを利用して,元のビデオからアテンション値(V)テンソルをキャプチャする。
これらの保存テンソルを条件付き分類自由誘導(CFG)ブランチに選択的に注入することにより、OphEditは、テキスト駆動のセマンティックな修正をビデオストリームにシームレスにマッピングしながら、眼の複雑な解剖学的形状を厳格に保存する。
臨床的評価から,OphEditは楽器スワップやプロシージャのバリエーションといった複雑な外科的変換を効果的に処理し,構造的忠実度や時間的整合性が自然ドメインビデオエディタと比較して優れていることが示された。
我々の研究は、眼科領域におけるトレーニング不要のビデオ編集の最初の応用であり、広範囲な手動記録やコストのかかる微調整を必要とせずに、多様な注釈付き医療データセットを生成するスケーラブルなソリューションを提供する。
コードとプロンプトはhttps://github.com/ophedit/OphEditでアクセスできます。
関連論文リスト
- Versatile Editing of Video Content, Actions, and Dynamics without Training [57.167192591765456]
我々はDynaEditを紹介した。DynaEditは、事前訓練されたテキスト・ツー・ビデオ・フローモデルを用いて、多目的なビデオ編集機能を解放する訓練不要の編集方法である。
そこで,DynaEditは複雑なテキストベースのビデオ編集タスクにおいて,アクションの変更,シーンと対話するオブジェクトの挿入,グローバルな効果の導入など,最先端の成果を達成していることを示す。
論文 参考訳(メタデータ) (2026-03-18T17:50:56Z) - From Phase Grounding to Intelligent Surgical Narratives [4.047840018793636]
ビデオ手術のタイムラインは、外科医が手術の重要な部分に集中できるため、ツール補助手術の重要な部分である。
現在の方法では、外科医が手術後の報告(OP)を記入するが、これはしばしば曖昧であり、手動で手術ビデオに注釈を付ける。
本手法は,手術映像から直接,手術スケジュールと物語を自動生成することを目的としている。
論文 参考訳(メタデータ) (2026-03-05T22:44:24Z) - EditVerse: Unifying Image and Video Editing and Generation with In-Context Learning [58.53074381801114]
イメージとビデオの生成と編集を単一のモデルで統合したフレームワークであるEditVerseを紹介する。
テキスト、画像、ビデオなどのすべてのモダリティを統一されたトークンシーケンスとして表現することで、EditVerseは、堅牢なインコンテキスト学習を実現するために自己アテンションを活用する。
多様なタスクや解像度をカバーする命令ベースのビデオ編集のための最初のベンチマークであるEditVerseBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T17:59:30Z) - O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing [88.93410369258203]
O-DisCo-Editは、新しいオブジェクト歪み制御(O-DisCo)を組み込んだ統合フレームワークである
この信号はランダムノイズと適応ノイズに基づいて、単一の表現内に幅広い編集キューを柔軟にカプセル化する。
O-DisCo-Editは、効果的なトレーニングパラダイムによる効率的な高忠実な編集を可能にする。
論文 参考訳(メタデータ) (2025-09-01T16:29:39Z) - A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。
また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文 参考訳(メタデータ) (2024-11-07T18:20:28Z) - SurgicalGaussian: Deformable 3D Gaussians for High-Fidelity Surgical Scene Reconstruction [17.126895638077574]
内視鏡的ビデオにおける変形性組織の動的再構成は、ロボット支援手術の鍵となる技術である。
NeRFは、シーン内のオブジェクトの複雑な詳細をキャプチャするのに苦労します。
我々のネットワークは、レンダリング品質、レンダリング速度、GPU使用率など、多くの面で既存の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-06T09:31:30Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - Deep-Learning-Assisted Analysis of Cataract Surgery Videos [1.8673970128645236]
このような自動システムの需要が絶え間なく増加し、外科的ビデオ分析のための機械学習ベースのアプローチがもたらされた。
この論文は、白内障手術ビデオ解析における重要な課題に対処し、効率的な文脈認識システム構築の道を開く。
論文 参考訳(メタデータ) (2023-12-10T14:25:04Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。