論文の概要: Multitask Learning in Minimally Invasive Surgical Vision: A Review
- arxiv url: http://arxiv.org/abs/2401.08256v1
- Date: Tue, 16 Jan 2024 10:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:22:37.521123
- Title: Multitask Learning in Minimally Invasive Surgical Vision: A Review
- Title(参考訳): 最小侵襲手術ビジョンにおけるマルチタスク学習
- Authors: Oluwatosin Alabi, Tom Vercauteren, Miaojing Shi
- Abstract要約: 最小侵襲手術(MIS)は多くの手術に革命をもたらし、回復時間と患者の怪我のリスクを減らした。
データ駆動型外科的視覚アルゴリズムは、自律性を改善した将来のMISシステムの開発において重要な構成要素であると考えられている。
機械学習とコンピュータビジョンの最近の進歩は、MISビデオにおける課題の緩和を約束して、MISから得られたビデオを分析することに成功している。
- 参考スコア(独自算出の注目度): 12.325297234992076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Minimally invasive surgery (MIS) has revolutionized many procedures and led
to reduced recovery time and risk of patient injury. However, MIS poses
additional complexity and burden on surgical teams. Data-driven surgical vision
algorithms are thought to be key building blocks in the development of future
MIS systems with improved autonomy. Recent advancements in machine learning and
computer vision have led to successful applications in analyzing videos
obtained from MIS with the promise of alleviating challenges in MIS videos.
Surgical scene and action understanding encompasses multiple related tasks
that, when solved individually, can be memory-intensive, inefficient, and fail
to capture task relationships. Multitask learning (MTL), a learning paradigm
that leverages information from multiple related tasks to improve performance
and aid generalization, is wellsuited for fine-grained and high-level
understanding of MIS data. This review provides an overview of the current
state-of-the-art MTL systems that leverage videos obtained from MIS. Beyond
listing published approaches, we discuss the benefits and limitations of these
MTL systems. Moreover, this manuscript presents an analysis of the literature
for various application fields of MTL in MIS, including those with large
models, highlighting notable trends, new directions of research, and
developments.
- Abstract(参考訳): 最小侵襲手術(MIS)は多くの手術に革命をもたらし、回復時間と患者の怪我のリスクを減らした。
しかし、MISは外科チームに対してさらなる複雑さと負担をもたらす。
データ駆動型外科的視覚アルゴリズムは、自律性を改善した将来のMISシステムの開発において重要な構成要素であると考えられている。
機械学習とコンピュータビジョンの最近の進歩は、MISビデオにおける課題の緩和を約束してMISから得られたビデオを分析することに成功している。
手術シーンと行動理解は、個別に解決された複数の関連するタスクを含み、メモリ集約的で非効率であり、タスクの関係を捉えない。
MTL(Multitask Learning)は、複数の関連するタスクの情報を活用してパフォーマンスを改善し、一般化を支援する学習パラダイムであり、MISデータのきめ細かい高レベルな理解に適している。
本総説では,MISから取得した映像を利用した最新のMTLシステムの概要について述べる。
公開アプローチをリストアップするだけでなく,これらのmtlシステムのメリットと限界についても論じる。
さらに,本書は,MISにおけるMTLの様々な応用分野に関する文献を,大規模モデルを含む文献で分析し,顕著な傾向,研究の方向性,開発状況を明らかにする。
関連論文リスト
- Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。
このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。
モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文 参考訳(メタデータ) (2025-01-18T17:43:05Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - A Multivocal Review of MLOps Practices, Challenges and Open Issues [9.227450931458907]
MLOpsに関する総合的な知識を提供するため,150の学術研究と48のグレー文学の多言語文献レビュー(MLR)を実施している。
複雑なパイプラインの開発と運用、大規模生産の管理、アーティファクトの管理、品質、セキュリティ、ガバナンス、倫理的側面の確保など、さまざまな分野に関するMLOpsのプラクティスや採用課題、ソリューションの出現を特定します。
論文 参考訳(メタデータ) (2024-06-14T05:47:13Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - A Comprehensive Evaluation of Multi-task Learning and Multi-task
Pre-training on EHR Time-series Data [0.0]
MTL(Multi-task Learning)は、多くのタスクにまたがる情報を活用することにより、モデルパフォーマンスの向上を目的とした機械学習技術である。
本研究では,EMHの時系列データに基づいて,タスクのバッテリにまたがるMLLについて検討する。
MTLは一般的な負の伝達に苦しむが、MTL事前学習と単一タスクの微調整を併用することで大きな効果が得られている。
論文 参考訳(メタデータ) (2020-07-20T15:19:28Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。