論文の概要: Fine-Grained Action Segmentation for Renorrhaphy in Robot-Assisted Partial Nephrectomy
- arxiv url: http://arxiv.org/abs/2604.09051v1
- Date: Fri, 10 Apr 2026 07:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.747578
- Title: Fine-Grained Action Segmentation for Renorrhaphy in Robot-Assisted Partial Nephrectomy
- Title(参考訳): ロボットによる部分腎摘出術における腎硬変に対する細粒化アクションセグメンテーション
- Authors: Jiaheng Dai, Huanrong Liu, Tailai Zhou, Tongyu Jia, Qin Liu, Yutong Ban, Zeju Li, Yu Gao, Xin Ma, Qingbiao Li,
- Abstract要約: SIA-RAPNベンチマークは、da Vinci Xiシステムで取得した50の臨床ビデオでこの問題を定義している。
ベンチマークでは、MS-TCN++、AsFormer、TUT、DiffActの4つの時間モデルを比較している。
- 参考スコア(独自算出の注目度): 14.437095044838841
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-grained action segmentation during renorrhaphy in robot-assisted partial nephrectomy requires frame-level recognition of visually similar suturing gestures with variable duration and substantial class imbalance. The SIA-RAPN benchmark defines this problem on 50 clinical videos acquired with the da Vinci Xi system and annotated with 12 frame-level labels. The benchmark compares four temporal models built on I3D features: MS-TCN++, AsFormer, TUT, and DiffAct. Evaluation uses balanced accuracy, edit score, segmental F1 at overlap thresholds of 10, 25, and 50, frame-wise accuracy, and frame-wise mean average precision. In addition to the primary evaluation across five released split configurations on SIA-RAPN, the benchmark reports cross-domain results on a separate single-port RAPN dataset. Across the strongest reported values over those five runs on the primary dataset, DiffAct achieves the highest F1, frame-wise accuracy, edit score, and frame mAP, while MS-TCN++ attains the highest balanced accuracy.
- Abstract(参考訳): ロボットによる部分腎摘出術では, 視力的に類似した縫合ジェスチャーのフレームレベルの認識が, 時間的変化とクラス不均衡の程度で要求される。
SIA-RAPNベンチマークは、da Vinci Xiシステムで取得され、12フレームレベルのラベルで注釈付けされた50の臨床ビデオでこの問題を定義している。
ベンチマークでは、MS-TCN++、AsFormer、TUT、DiffActの4つの時間モデルを比較している。
評価には、バランスの取れた精度、編集スコア、重なり合うしきい値10,25,50のセグメントF1、フレームワイドの精度、フレームワイドの平均精度が使用される。
SIA-RAPNでリリースされた5つの分割構成の一次評価に加えて、ベンチマークでは、別々の単一ポートRAPNデータセットでクロスドメイン結果が報告されている。
DiffActはプライマリデータセット上で実行される5つの最強の値に対して、フレーム単位の精度、編集スコア、フレームmAPを達成し、MS-TCN++は最もバランスの取れた精度を達成している。
関連論文リスト
- From Frames to Events: Rethinking Evaluation in Human-Centric Video Anomaly Detection [9.404376027901277]
ポースベースのビデオ異常検出(VAD)は、プライバシー保護の性質と環境変動に対する堅牢性において大きな注目を集めている。
従来のフレームレベルの評価では、ビデオは孤立したフレームの集合として扱われ、現実の世界で異常がどのように現れ、行動するかを根本的に誤解している。
本稿では,階層的なガウススムースメントと適応二項化を備えたスコアリファインメントパイプラインと,イベントレベルの検出を直接生成するエンドツーエンドのデュアルブランチモデルという,時間的イベントローカライゼーションのための2つの戦略を紹介する。
論文 参考訳(メタデータ) (2026-04-10T13:52:18Z) - MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding [47.843626983298726]
textbfMedVidBenchは、ビデオ、セグメント、フレームレベルのタスクにまたがる8つの医療ソースにわたる531,850のビデオインストラクションペアの大規模なベンチマークである。
MedVidBenchの教師付き微調整は顕著な利益をもたらすが、標準強化学習はデータセット間の不均衡な報酬スケールのために失敗する。
textbfMedGRPOは、2つの重要な革新を伴うバランスの取れたマルチデータセットトレーニングのための新しいRLフレームワークである。
論文 参考訳(メタデータ) (2025-12-06T22:27:59Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - CROC: Evaluating and Training T2I Metrics with Pseudo- and Human-Labeled Contrastive Robustness Checks [46.89839054706183]
CROC(Contrastive Robustness Checks)を提案する。
我々は100万以上の対照的なプロンプトイメージ対の擬似ラベル付きデータセットを生成する。
また、このデータセットを使ってCROCScoreをトレーニングしています。
論文 参考訳(メタデータ) (2025-05-16T14:39:44Z) - G-MSGINet: A Grouped Multi-Scale Graph-Involution Network for Contactless Fingerprint Recognition [20.458766184257147]
G-MSGINetは、接触レス指紋認識のための統一されたフレームワークである。
生の入力画像から直接、微妙な局所化とアイデンティティの埋め込みを共同で行う。
3つのベンチマークデータセットの大規模な実験は、G-MSGINetが97.0%から99.1%の範囲で0.83pm0.02$、ランク1の識別精度で一貫してF1スコアを達成していることを示している。
論文 参考訳(メタデータ) (2025-05-13T05:24:24Z) - D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement [37.78880948551719]
D-FINEは、優れた位置決め精度を実現する強力なリアルタイム物体検出器である。
D-FINEは、FDRとGlobal Optimal Localization Self-Distillation(GO-LSD)の2つの重要なコンポーネントから構成される。
Objects365で事前訓練された場合、D-FINE-L / Xは57.1% / 59.3%APとなり、既存のリアルタイム検出器を全て上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:57:01Z) - RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose Estimation [46.659592045271125]
RTMOは座標分類をシームレスに統合する一段階のポーズ推定フレームワークである。
高速を維持しながらトップダウン手法に匹敵する精度を達成する。
私たちの最大のモデルであるRTMO-lは、COCO val 2017で74.8%AP、1つのV100 GPUで141FPSを実現しています。
論文 参考訳(メタデータ) (2023-12-12T18:55:29Z) - A quality assurance framework for real-time monitoring of deep learning
segmentation models in radiotherapy [3.5752677591512487]
この研究は、品質保証フレームワークを確立するために、心臓のサブ構造セグメンテーションを例として用いている。
心電図(CT)画像と241例の心電図を用いたベンチマークデータセットを収集した。
訓練されたDenoising Autoencoder(DAE)と2つの手動特徴を利用して画像領域シフト検出器を開発した。
Dice similarity coefficient (DSC) を用いて患者ごとのセグメンテーション精度を予測するための回帰モデルを構築した。
論文 参考訳(メタデータ) (2023-05-19T14:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。