論文の概要: Hi-GaTA: Hierarchical Gated Temporal Aggregation Adapter for Surgical Video Report Generation
- arxiv url: http://arxiv.org/abs/2605.11208v2
- Date: Sat, 16 May 2026 12:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.268976
- Title: Hi-GaTA: Hierarchical Gated Temporal Aggregation Adapter for Surgical Video Report Generation
- Title(参考訳): Hi-GaTA: 手術映像生成のための階層的ゲート付き時間アグリゲーションアダプタ
- Authors: Kedi Sun, Chaohui Dang, Yue Feng, James Glasbey, Theodoros N. Arvanitis, Le Zhang,
- Abstract要約: 手術報告生成のための知覚推論フレームワークを提案し, 軽量な時間適応型HiGa-TAを特徴とする。
実験により,提案手法は,MLLMベースラインよりも一貫したゲインを達成し,全体的な性能を向上することを示す。
- 参考スコア(独自算出の注目度): 7.606404030331724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated, clinician-grade assessment reports for surgical procedures could reduce documentation burden and provide objective feedback, yet remain challenging due to the difficulty of aligning dense spatio-temporal video representations with language-based reasoning and the scarcity of high-quality, privacy-preserving datasets. To address this gap, we establish a benchmark comprising 214 high-quality simulated surgical videos paired with surgeon-authored evaluation reports. Building on this resource, we propose a Perception-Alignment-Reasoning framework for surgical video report generation, featuring Hi-GaTA, a novel lightweight temporal adapter that efficiently compresses long video sequences into compact, LLM-compatible visual prefix tokens through short-to-long-range temporal aggregation. For robust visual perception, we pretrain Sur40k, a surgical-specific ViViT-style video encoder on 40,000 minutes of public surgical videos to capture fine-grained spatio-temporal procedural priors. Hi-GaTA employs a temporal pyramid with text-conditioned dual cross-attention, and improves multi-scale consistency through cross-level gated fusion and an increasing-depth strategy. Finally, we fine-tune the LLM backbone using LoRA to enable coherent and stylistically consistent surgical report generation under limited supervision. Experiments show our approach achieves the best overall performance, with consistent gains over strong Multimodal Large Language Model (MLLM) baselines. Ablation studies further validate the effectiveness of each proposed component.
- Abstract(参考訳): 手術手順の自動化された臨床レベルの評価報告は、ドキュメントの負担を軽減し、客観的なフィードバックを提供するが、高密度の時空間ビデオ表現と言語に基づく推論との整合が困難であり、高品質でプライバシー保護されたデータセットの不足のため、難しいままである。
このギャップに対処するために,214本の高品質なシミュレートされた手術用ビデオと,外科医による評価報告を併用したベンチマークを構築した。
このリソースをベースとして, 短時間から長期の時間的アグリゲーションにより, 長いビデオ列をコンパクトかつLLM互換の視覚的接頭辞トークンに効率よく圧縮する, Hi-GaTA を特徴とする, 手術用ビデオレポート生成のための知覚アライメント・推論フレームワークを提案する。
堅牢な視覚知覚のために,手術固有のViViTスタイルのビデオエンコーダであるSur40kを4万分間の公開手術ビデオでプレトレーニングし,より微細な時空間のプロシージャ前兆を捉えた。
Hi-GaTAは、テキスト条件のデュアルアテンションを持つ時間ピラミッドを採用し、クロスレベルゲート融合によるマルチスケール一貫性と、深層戦略の向上を実現している。
最後に, LLMバックボーンをLoRAを用いて微調整し, 厳密でスタイリスティックに整合性のある手術報告生成を可能にする。
実験により,マルチモーダル大規模言語モデル (MLLM) ベースラインよりも一貫したゲインが得られた。
アブレーション研究は、提案する各成分の有効性をさらに検証する。
関連論文リスト
- Scaling Video Pretraining for Surgical Foundation Models [51.92777479821822]
SurgRecは、スケーラブルで再現可能な、外科的ビデオ理解のための事前学習のレシピだ。
内視鏡,腹腔鏡,白内障,ロボット手術を対象とする10,535ビデオと214.5Mフレームの大規模なコーパスをキュレートした。
論文 参考訳(メタデータ) (2026-03-31T16:31:25Z) - SurgLLM: A Versatile Large Multimodal Model with Spatial Focus and Temporal Awareness for Surgical Video Understanding [75.00667948967848]
SurgLLMフレームワークは、多用途の手術ビデオ理解タスクに適した、大規模なマルチモーダルモデルである。
外科的ビデオの空間的焦点を高めるために,SurgLLMの動画エンコーダのためのSurg-Pretraining(Surg-Pretraining)を最初に考案した。
外科的時間的知識をSurgLLMに組み込むため, インターリーブ型マルチモーダル埋め込みによる時間的推論を改善するために, 時間的対応型マルチモーダルチューニング(TM-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-08-30T04:36:41Z) - Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI [15.513949299806582]
外科的ビデオの自動要約は, 手続き的文書の充実, 外科的訓練の支援, 術後分析の促進に不可欠である。
本稿では,コンピュータビジョンと大規模言語モデルの最近の進歩を活用して,包括的な映像要約を生成するマルチモーダルフレームワークを提案する。
また,50個の腹腔鏡画像からの計測とアクションアノテーションを用いて,ColecT50データセットを用いて本手法の評価を行った。
論文 参考訳(メタデータ) (2025-04-28T15:46:02Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - VidLPRO: A $\underline{Vid}$eo-$\underline{L}$anguage $\underline{P}$re-training Framework for $\underline{Ro}$botic and Laparoscopic Surgery [4.12931136981508]
ロボットおよび腹腔鏡下手術に特化して設計された新しいビデオ言語(VL)事前学習フレームワークであるVidLPROを紹介する。
VidLPROは、ビデオテキストコントラスト学習、ビデオテキストマッチング、マスキング言語モデリングの目的を統合し、リッチなVL表現を学習する。
我々のモデルは21.5%の精度と15.7%のF1スコアの改善を示し、新しいベンチマークをフィールドに設定する。
論文 参考訳(メタデータ) (2024-09-07T06:33:12Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。