論文の概要: Task-Aware Asynchronous Multi-Task Model with Class Incremental
Contrastive Learning for Surgical Scene Understanding
- arxiv url: http://arxiv.org/abs/2211.15327v1
- Date: Mon, 28 Nov 2022 14:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 16:43:41.605436
- Title: Task-Aware Asynchronous Multi-Task Model with Class Incremental
Contrastive Learning for Surgical Scene Understanding
- Title(参考訳): 外科的場面理解のためのクラスインクリメンタルコントラスト学習を用いたタスク対応非同期マルチタスクモデル
- Authors: Lalithkumar Seenivasan, Mobarakol Islam, Mengya Xu, Chwee Ming Lim and
Hongliang Ren
- Abstract要約: 手術報告生成とツール-タスク間相互作用予測のためのマルチタスク学習モデルを提案する。
共有特徴抽出器のモデル形式,キャプション用メッシュ・トランスフォーマブランチ,ツールとタスク間の相互作用予測のためのグラフアテンションブランチ。
タスク認識型非同期MTL最適化手法を組み込んで,共有重みを微調整し,両タスクを最適に収束させる。
- 参考スコア(独自算出の注目度): 17.80234074699157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: Surgery scene understanding with tool-tissue interaction recognition
and automatic report generation can play an important role in intra-operative
guidance, decision-making and postoperative analysis in robotic surgery.
However, domain shifts between different surgeries with inter and intra-patient
variation and novel instruments' appearance degrade the performance of model
prediction. Moreover, it requires output from multiple models, which can be
computationally expensive and affect real-time performance.
Methodology: A multi-task learning (MTL) model is proposed for surgical
report generation and tool-tissue interaction prediction that deals with domain
shift problems. The model forms of shared feature extractor, mesh-transformer
branch for captioning and graph attention branch for tool-tissue interaction
prediction. The shared feature extractor employs class incremental contrastive
learning (CICL) to tackle intensity shift and novel class appearance in the
target domain. We design Laplacian of Gaussian (LoG) based curriculum learning
into both shared and task-specific branches to enhance model learning. We
incorporate a task-aware asynchronous MTL optimization technique to fine-tune
the shared weights and converge both tasks optimally.
Results: The proposed MTL model trained using task-aware optimization and
fine-tuning techniques reported a balanced performance (BLEU score of 0.4049
for scene captioning and accuracy of 0.3508 for interaction detection) for both
tasks on the target domain and performed on-par with single-task models in
domain adaptation.
Conclusion: The proposed multi-task model was able to adapt to domain shifts,
incorporate novel instruments in the target domain, and perform tool-tissue
interaction detection and report generation on par with single-task models.
- Abstract(参考訳): 目的: ロボット手術における術中指導, 意思決定, 術後分析において, ツール間相互作用認識と自動レポート生成による手術シーン理解が重要な役割を担っている。
しかし,患者間および患者内変動の異なる手術群と,新しい楽器の外観のドメインシフトは,モデル予測の性能を低下させる。
さらに、計算コストが高く、リアルタイムのパフォーマンスに影響する複数のモデルからの出力が必要である。
方法論: 領域シフト問題に対処する多タスク学習(MTL)モデルが手術報告生成およびツールとタスク間の相互作用予測のために提案される。
共有特徴抽出器のモデル形式、キャプションのためのメッシュ変換分岐、ツール・トイシューインタラクション予測のためのグラフ注意分岐。
共有特徴抽出器は、クラスインクリメンタルコントラスト学習(CICL)を用いて、ターゲット領域における強度シフトと新しいクラス外観に取り組む。
我々は,gaussian (log) に基づくカリキュラム学習のlalacianを,共有分科とタスク分科に分割して,モデル学習を強化する。
タスク対応非同期MTL最適化手法を導入し,共有重みを微調整し,両タスクを最適に収束させる。
結果:タスク認識最適化と微調整技術を用いて訓練したMTLモデルは,目標領域上の両方のタスクに対するバランス性能(シーンキャプションのBLEUスコア0.4049,インタラクション検出の精度0.3508)を報告し,ドメイン適応における単一タスクモデルとオンパーで実行した。
結論: 提案するマルチタスクモデルは, ドメインシフトに適応し, 対象領域に新しい機器を取り入れ, ツール間インタラクション検出とレポート生成を単一タスクモデルと同等に行うことができた。
関連論文リスト
- Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - Modeling Output-Level Task Relatedness in Multi-Task Learning with Feedback Mechanism [7.479892725446205]
マルチタスク学習(MTL)は、異なるレベルで情報を共有することで複数のタスクを同時に学習するパラダイムである。
異なるタスクが相互に影響のある相関出力を生成する可能性があることを考慮し、後続情報をモデルに導入する。
我々は,MTLモデルにフィードバック機構を組み込むことで,あるタスクの出力が他のタスクの隠れ機能として機能する。
論文 参考訳(メタデータ) (2024-04-01T03:27:34Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - InterroGate: Learning to Share, Specialize, and Prune Representations
for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。
学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文 参考訳(メタデータ) (2024-02-26T18:59:52Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - AP-MTL: Attention Pruned Multi-task Learning Model for Real-time
Instrument Detection and Segmentation in Robot-assisted Surgery [23.33984309289549]
高解像度画像の検出とセグメンテーションのためのリアルタイムロボットシステムの訓練は、限られた計算資源で難しい問題となる。
重み付きエンコーダとタスク認識検出とセグメンテーションデコーダを備えた,エンドツーエンドのトレーニング可能なリアルタイムマルチタスク学習モデルを開発した。
我々のモデルは最先端のセグメンテーションモデルや検出モデルよりも優れており、最も優れたモデルもその課題である。
論文 参考訳(メタデータ) (2020-03-10T14:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。