論文の概要: Class-Incremental Domain Adaptation with Smoothing and Calibration for
Surgical Report Generation
- arxiv url: http://arxiv.org/abs/2107.11091v1
- Date: Fri, 23 Jul 2021 09:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 14:16:56.537860
- Title: Class-Incremental Domain Adaptation with Smoothing and Calibration for
Surgical Report Generation
- Title(参考訳): 手術報告作成のための平滑化と校正によるクラスインクリメンタルドメイン適応
- Authors: Mengya Xu, Mobarakol Islam, Chwee Ming Lim, Hongliang Ren
- Abstract要約: 本稿では,ロボット手術時の手術報告を生成するために,対象領域の新たなクラスとドメインシフトに取り組むためのクラスインクリメンタルドメイン適応(CIDA)を提案する。
抽出した特徴からキャプションを生成するために、一次元ガウス平滑化(CBS)によるカリキュラムを多層トランスを用いたキャプション予測モデルに統合する。
我々は,領域不変な特徴学習とよく校正されたネットワークが,ソース領域とターゲット領域の両方で手術報告生成性能を向上させることを観察する。
- 参考スコア(独自算出の注目度): 12.757176743817277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating surgical reports aimed at surgical scene understanding in
robot-assisted surgery can contribute to documenting entry tasks and
post-operative analysis. Despite the impressive outcome, the deep learning
model degrades the performance when applied to different domains encountering
domain shifts. In addition, there are new instruments and variations in
surgical tissues appeared in robotic surgery. In this work, we propose
class-incremental domain adaptation (CIDA) with a multi-layer transformer-based
model to tackle the new classes and domain shift in the target domain to
generate surgical reports during robotic surgery. To adapt incremental classes
and extract domain invariant features, a class-incremental (CI) learning method
with supervised contrastive (SupCon) loss is incorporated with a feature
extractor. To generate caption from the extracted feature, curriculum by
one-dimensional gaussian smoothing (CBS) is integrated with a multi-layer
transformer-based caption prediction model. CBS smoothes the features embedding
using anti-aliasing and helps the model to learn domain invariant features. We
also adopt label smoothing (LS) to calibrate prediction probability and obtain
better feature representation with both feature extractor and captioning model.
The proposed techniques are empirically evaluated by using the datasets of two
surgical domains, such as nephrectomy operations and transoral robotic surgery.
We observe that domain invariant feature learning and the well-calibrated
network improves the surgical report generation performance in both source and
target domain under domain shift and unseen classes in the manners of one-shot
and few-shot learning. The code is publicly available at
https://github.com/XuMengyaAmy/CIDACaptioning.
- Abstract(参考訳): ロボット支援手術における外科的シーン理解を目的とした手術報告の生成は,作業の文書化や術後分析に寄与する。
印象的な結果にも関わらず、ディープラーニングモデルは、ドメインシフトに遭遇するさまざまなドメインに適用される場合のパフォーマンスを低下させる。
さらに、ロボット手術に現れる外科組織には、新しい器具やバリエーションがある。
そこで本研究では,多層トランスフォーマーモデルを用いたクラスインクリメンタルドメイン適応(CIDA)を提案し,対象領域の新たなクラスとドメインシフトに対処し,手術時の手術報告を生成する。
インクリメンタルなクラスに適応し、ドメイン不変の特徴を抽出するために、教師付きコントラスト(SupCon)損失を持つクラス増分学習法を特徴抽出器に組み込む。
抽出された特徴からキャプションを生成するために、一次元ガウス平滑化(cbs)によるカリキュラムを多層トランスフォーマーに基づくキャプション予測モデルに統合する。
CBSはアンチエイリアスを使って機能を埋め込み、モデルがドメイン不変の機能を学ぶのに役立つ。
また,ラベルスムーシング(LS)を用いて予測確率の調整を行い,特徴抽出モデルとキャプションモデルの両方で特徴表現を改善する。
本手法は腎摘出術と経口腔的ロボット手術の2つの手術領域のデータセットを用いて経験的に評価する。
ドメイン不変機能学習とネットワークの高度化は,単発学習と少数発学習の手法で,ドメインシフトと未認識クラスの下でのソースとターゲットドメインの双方における手術レポート生成性能を向上させる。
コードはhttps://github.com/XuMengyaAmy/CIDACaptioning.comで公開されている。
関連論文リスト
- Surgical Scene Segmentation by Transformer With Asymmetric Feature Enhancement [7.150163844454341]
視覚特異的トランスフォーマー法は外科的シーン理解に有望な方法である。
非対称特徴拡張モジュール(TAFE)を用いたトランスフォーマーベースの新しいフレームワークを提案する。
提案手法は, 手術分割作業におけるSOTA法よりも優れており, さらに, 微細な構造認識の能力も証明している。
論文 参考訳(メタデータ) (2024-10-23T07:58:47Z) - GS-EMA: Integrating Gradient Surgery Exponential Moving Average with
Boundary-Aware Contrastive Learning for Enhanced Domain Generalization in
Aneurysm Segmentation [41.97669338211682]
勾配手術指数移動平均(GS-EMA)最適化手法と境界対応コントラスト学習(BACL)を利用した新しい領域一般化戦略を提案する。
我々のアプローチは、ドメイン不変の特徴を学習することで、新しい未確認領域に適応し、様々な臨床データセット間での動脈瘤セグメンテーションの堅牢性と正確性を向上させることができるという点で際立っている。
論文 参考訳(メタデータ) (2024-02-23T10:02:15Z) - Cross-Dataset Adaptation for Instrument Classification in Cataract
Surgery Videos [54.1843419649895]
特定のデータセットでこのタスクをうまく実行する最先端モデルでは、別のデータセットでテストすると、パフォーマンスが低下する。
本稿では,Barlow Adaptorと呼ばれる新しいエンドツーエンドのUnsupervised Domain Adaptation (UDA)手法を提案する。
さらに,BFAL(Barlow Feature Alignment Loss)と呼ばれる,異なるドメインにまたがる特徴を整列させる新たな損失を導入する。
論文 参考訳(メタデータ) (2023-07-31T18:14:18Z) - Semantic segmentation of surgical hyperspectral images under geometric
domain shifts [69.91792194237212]
本稿では、幾何学的アウト・オブ・ディストリビューション(OOD)データの存在下で、最先端のセマンティックセグメンテーションネットワークを初めて分析する。
有機移植(Organ transplantation)と呼ばれる専用の拡張技術により、一般化可能性にも対処する。
提案手法は,SOA DSCの最大67 % (RGB) と90% (HSI) を改善し,実際のOODテストデータ上での分配内性能と同等の性能を示す。
論文 参考訳(メタデータ) (2023-03-20T09:50:07Z) - Task-Aware Asynchronous Multi-Task Model with Class Incremental
Contrastive Learning for Surgical Scene Understanding [17.80234074699157]
手術報告生成とツール-タスク間相互作用予測のためのマルチタスク学習モデルを提案する。
共有特徴抽出器のモデル形式,キャプション用メッシュ・トランスフォーマブランチ,ツールとタスク間の相互作用予測のためのグラフアテンションブランチ。
タスク認識型非同期MTL最適化手法を組み込んで,共有重みを微調整し,両タスクを最適に収束させる。
論文 参考訳(メタデータ) (2022-11-28T14:08:48Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - Surgical Gesture Recognition Based on Bidirectional Multi-Layer
Independently RNN with Explainable Spatial Feature Extraction [10.469989981471254]
本研究では, 説明可能な特徴抽出プロセスを用いて, 効果的な外科的ジェスチャー認識手法の開発を目指す。
本稿では,双方向マルチ層独立RNN(BML-indRNN)モデルを提案する。
dcnnのブラックボックス効果を解消するために、勾配重み付けクラスアクティベーションマッピング(grad-cam)を用いる。
その結果,提案手法に基づく縫合作業の精度は87.13%であり,最先端のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2021-05-02T12:47:19Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Co-Generation and Segmentation for Generalized Surgical Instrument
Segmentation on Unlabelled Data [49.419268399590045]
正確な機器追跡と拡張現実オーバーレイには、ロボット支援手術のための外科用機器セグメンテーションが必要です。
深層学習法では手術器具のセグメンテーションに最先端のパフォーマンスが示されたが,結果はラベル付きデータに依存する。
本稿では,ロボットによる手術を含むさまざまなデータセット上で,これらの手法の限定的な一般化性を実証する。
論文 参考訳(メタデータ) (2021-03-16T18:41:18Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。