論文の概要: Multitask Learning in Minimally Invasive Surgical Vision: A Review
- arxiv url: http://arxiv.org/abs/2401.08256v1
- Date: Tue, 16 Jan 2024 10:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:22:37.521123
- Title: Multitask Learning in Minimally Invasive Surgical Vision: A Review
- Title(参考訳): 最小侵襲手術ビジョンにおけるマルチタスク学習
- Authors: Oluwatosin Alabi, Tom Vercauteren, Miaojing Shi
- Abstract要約: 最小侵襲手術(MIS)は多くの手術に革命をもたらし、回復時間と患者の怪我のリスクを減らした。
データ駆動型外科的視覚アルゴリズムは、自律性を改善した将来のMISシステムの開発において重要な構成要素であると考えられている。
機械学習とコンピュータビジョンの最近の進歩は、MISビデオにおける課題の緩和を約束して、MISから得られたビデオを分析することに成功している。
- 参考スコア(独自算出の注目度): 12.325297234992076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Minimally invasive surgery (MIS) has revolutionized many procedures and led
to reduced recovery time and risk of patient injury. However, MIS poses
additional complexity and burden on surgical teams. Data-driven surgical vision
algorithms are thought to be key building blocks in the development of future
MIS systems with improved autonomy. Recent advancements in machine learning and
computer vision have led to successful applications in analyzing videos
obtained from MIS with the promise of alleviating challenges in MIS videos.
Surgical scene and action understanding encompasses multiple related tasks
that, when solved individually, can be memory-intensive, inefficient, and fail
to capture task relationships. Multitask learning (MTL), a learning paradigm
that leverages information from multiple related tasks to improve performance
and aid generalization, is wellsuited for fine-grained and high-level
understanding of MIS data. This review provides an overview of the current
state-of-the-art MTL systems that leverage videos obtained from MIS. Beyond
listing published approaches, we discuss the benefits and limitations of these
MTL systems. Moreover, this manuscript presents an analysis of the literature
for various application fields of MTL in MIS, including those with large
models, highlighting notable trends, new directions of research, and
developments.
- Abstract(参考訳): 最小侵襲手術(MIS)は多くの手術に革命をもたらし、回復時間と患者の怪我のリスクを減らした。
しかし、MISは外科チームに対してさらなる複雑さと負担をもたらす。
データ駆動型外科的視覚アルゴリズムは、自律性を改善した将来のMISシステムの開発において重要な構成要素であると考えられている。
機械学習とコンピュータビジョンの最近の進歩は、MISビデオにおける課題の緩和を約束してMISから得られたビデオを分析することに成功している。
手術シーンと行動理解は、個別に解決された複数の関連するタスクを含み、メモリ集約的で非効率であり、タスクの関係を捉えない。
MTL(Multitask Learning)は、複数の関連するタスクの情報を活用してパフォーマンスを改善し、一般化を支援する学習パラダイムであり、MISデータのきめ細かい高レベルな理解に適している。
本総説では,MISから取得した映像を利用した最新のMTLシステムの概要について述べる。
公開アプローチをリストアップするだけでなく,これらのmtlシステムのメリットと限界についても論じる。
さらに,本書は,MISにおけるMTLの様々な応用分野に関する文献を,大規模モデルを含む文献で分析し,顕著な傾向,研究の方向性,開発状況を明らかにする。
関連論文リスト
- Lumen: Unleashing Versatile Vision-Centric Capabilities of Large
Multimodal Models [92.68883571206032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
LumenはCOCO検出ベンチマークで既存のLMMベースのアプローチをはるかに上回り、視覚的なタスクにシームレスなスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene
Understanding: From Learning Paradigm Perspectives [57.3734614555802]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Visual AI and Linguistic Intelligence Through Steerability and
Composability [0.0]
本研究では,言語と視覚を統合した多段階課題に対処する上で,LLM(Multimodal large language model)の機能について検討する。
この研究は、AI Lego DesigningからAI Satellite Image Analysisまで、創造的で建設的に多様な14のタスクを提示する。
論文 参考訳(メタデータ) (2023-11-18T22:01:33Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - MMICL: Empowering Vision-language Model with Multi-Modal In-Context Learning [42.68425777473114]
大規模言語モデル(LLM)によって強化された視覚言語モデル(VLM)は、急速に人気が高まっている。
マルチモーダル・インコンテキスト・ラーニング(MMICL)を用いた視覚言語モデルを導入し,VLMがマルチモーダル入力を効率的に処理できるようにする。
実験により,MMICLは多種多様な視覚言語タスクにおいて,最先端のゼロショット性能を実現することを確認した。
論文 参考訳(メタデータ) (2023-09-14T17:59:17Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、ITの一般的な方法論、ITデータセットの構築、ITモデルのトレーニング、異なるモダリティ、ドメイン、アプリケーションへのアプリケーションを含む、文献を体系的にレビューする。
また、ITの潜在的な落とし穴とそれに対する批判、および既存の戦略の現在の欠陥を指摘し、実りある研究の道筋を提案する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - Improving Multi-task Learning via Seeking Task-based Flat Regions [43.85516379095757]
MTL(Multi-Task Learning)は、ディープニューラルネットワークをトレーニングするための強力な学習パラダイムである。
MTLには、究極の勾配降下方向を導出するためにタスク勾配を操作することに焦点を当てた、新たな作業ラインがある。
単タスク学習におけるモデル一般化能力を向上するシャープネス認識最小化という,最近導入されたトレーニング手法を活用することを提案する。
論文 参考訳(メタデータ) (2022-11-24T17:19:30Z) - A Comprehensive Evaluation of Multi-task Learning and Multi-task
Pre-training on EHR Time-series Data [0.0]
MTL(Multi-task Learning)は、多くのタスクにまたがる情報を活用することにより、モデルパフォーマンスの向上を目的とした機械学習技術である。
本研究では,EMHの時系列データに基づいて,タスクのバッテリにまたがるMLLについて検討する。
MTLは一般的な負の伝達に苦しむが、MTL事前学習と単一タスクの微調整を併用することで大きな効果が得られている。
論文 参考訳(メタデータ) (2020-07-20T15:19:28Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。