Fugu-MT 論文翻訳(概要): Multitask Learning in Minimally Invasive Surgical Vision: A Review

論文の概要: Multitask Learning in Minimally Invasive Surgical Vision: A Review

arxiv url: http://arxiv.org/abs/2401.08256v1
Date: Tue, 16 Jan 2024 10:18:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 14:22:37.521123
Title: Multitask Learning in Minimally Invasive Surgical Vision: A Review
Title（参考訳）: 最小侵襲手術ビジョンにおけるマルチタスク学習
Authors: Oluwatosin Alabi, Tom Vercauteren, Miaojing Shi
Abstract要約: 最小侵襲手術(MIS)は多くの手術に革命をもたらし、回復時間と患者の怪我のリスクを減らした。データ駆動型外科的視覚アルゴリズムは、自律性を改善した将来のMISシステムの開発において重要な構成要素であると考えられている。機械学習とコンピュータビジョンの最近の進歩は、MISビデオにおける課題の緩和を約束して、MISから得られたビデオを分析することに成功している。
参考スコア（独自算出の注目度）: 12.325297234992076
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Minimally invasive surgery (MIS) has revolutionized many procedures and led to reduced recovery time and risk of patient injury. However, MIS poses additional complexity and burden on surgical teams. Data-driven surgical vision algorithms are thought to be key building blocks in the development of future MIS systems with improved autonomy. Recent advancements in machine learning and computer vision have led to successful applications in analyzing videos obtained from MIS with the promise of alleviating challenges in MIS videos. Surgical scene and action understanding encompasses multiple related tasks that, when solved individually, can be memory-intensive, inefficient, and fail to capture task relationships. Multitask learning (MTL), a learning paradigm that leverages information from multiple related tasks to improve performance and aid generalization, is wellsuited for fine-grained and high-level understanding of MIS data. This review provides an overview of the current state-of-the-art MTL systems that leverage videos obtained from MIS. Beyond listing published approaches, we discuss the benefits and limitations of these MTL systems. Moreover, this manuscript presents an analysis of the literature for various application fields of MTL in MIS, including those with large models, highlighting notable trends, new directions of research, and developments.
Abstract（参考訳）: 最小侵襲手術(MIS)は多くの手術に革命をもたらし、回復時間と患者の怪我のリスクを減らした。しかし、MISは外科チームに対してさらなる複雑さと負担をもたらす。データ駆動型外科的視覚アルゴリズムは、自律性を改善した将来のMISシステムの開発において重要な構成要素であると考えられている。機械学習とコンピュータビジョンの最近の進歩は、MISビデオにおける課題の緩和を約束してMISから得られたビデオを分析することに成功している。手術シーンと行動理解は、個別に解決された複数の関連するタスクを含み、メモリ集約的で非効率であり、タスクの関係を捉えない。 MTL(Multitask Learning)は、複数の関連するタスクの情報を活用してパフォーマンスを改善し、一般化を支援する学習パラダイムであり、MISデータのきめ細かい高レベルな理解に適している。本総説では,MISから取得した映像を利用した最新のMTLシステムの概要について述べる。公開アプローチをリストアップするだけでなく,これらのmtlシステムのメリットと限界についても論じる。さらに,本書は,MISにおけるMTLの様々な応用分野に関する文献を,大規模モデルを含む文献で分析し,顕著な傾向,研究の方向性,開発状況を明らかにする。

関連論文リスト

True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文参考訳（メタデータ） (2025-07-21T17:08:18Z)
Few-Shot Vision-Language Action-Incremental Policy Learning [55.07841353049953]
トランスフォーマーに基づくロボット操作手法は,多視点空間表現と言語命令を用いてロボットの運動軌跡を学習する。既存のメソッドには、いくつかのデモだけで新しいタスクを継続的に学習する能力がない。我々はこれらの問題に対処するタスク-prOmpt graPh evolutIon poliCy (TOPIC) を開発した。
論文参考訳（メタデータ） (2025-04-22T01:30:47Z)
Learning to Instruct for Visual Instruction Tuning [56.23557578405653]
視覚インストラクションチューニング(VIT)の進歩であるLITを提案する。 LITは、損失関数を命令シーケンスと応答シーケンスの両方に組み込むことによって、シンプルだが効果的なアプローチを採用する。驚くべきことに、LITは極めて基本的な視覚能力を備えており、キャプション性能は最大で18%向上している。
論文参考訳（メタデータ） (2025-03-28T08:04:51Z)
Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文参考訳（メタデータ） (2025-01-18T17:43:05Z)
Exploring Large Language Models for Multimodal Sentiment Analysis: Challenges, Benchmarks, and Future Directions [0.0]
マルチモーダル・アスペクトベース感性分析(MABSA)は、テキストや画像を含む多モーダル情報からアスペクト項とその対応する感情極性を抽出することを目的としている。従来の教師付き学習手法はこの課題において有効性を示したが、大規模言語モデル(LLM)のMABSAへの適応性は未だ不明である。 Llama2、LLaVA、ChatGPTなどのLLMの最近の進歩は、一般的なタスクにおいて強力な能力を示しているが、MABSAのような複雑できめ細かなシナリオでは、その性能が過小評価されている。
論文参考訳（メタデータ） (2024-11-23T02:17:10Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文参考訳（メタデータ） (2024-08-22T23:32:42Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
A Multivocal Review of MLOps Practices, Challenges and Open Issues [9.227450931458907]
MLOpsに関する総合的な知識を提供するため,150の学術研究と48のグレー文学の多言語文献レビュー(MLR)を実施している。複雑なパイプラインの開発と運用、大規模生産の管理、アーティファクトの管理、品質、セキュリティ、ガバナンス、倫理的側面の確保など、さまざまな分野に関するMLOpsのプラクティスや採用課題、ソリューションの出現を特定します。
論文参考訳（メタデータ） (2024-06-14T05:47:13Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-06T02:02:34Z)
Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-14T22:24:58Z)
A Comprehensive Evaluation of Multi-task Learning and Multi-task Pre-training on EHR Time-series Data [0.0]
MTL(Multi-task Learning)は、多くのタスクにまたがる情報を活用することにより、モデルパフォーマンスの向上を目的とした機械学習技術である。本研究では,EMHの時系列データに基づいて,タスクのバッテリにまたがるMLLについて検討する。 MTLは一般的な負の伝達に苦しむが、MTL事前学習と単一タスクの微調整を併用することで大きな効果が得られている。
論文参考訳（メタデータ） (2020-07-20T15:19:28Z)
Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文参考訳（メタデータ） (2020-04-28T09:15:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。