論文の概要: LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery
- arxiv url: http://arxiv.org/abs/2402.16664v3
- Date: Wed, 23 Oct 2024 16:27:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 12:02:00.199038
- Title: LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery
- Title(参考訳): ロボット手術における視覚質問応答のためのLLM支援多教師連続学習
- Authors: Yuyang Du, Kexin Chen, Yue Zhan, Chang Han Low, Tao You, Mobarakol Islam, Ziyu Guo, Yueming Jin, Guangyong Chen, Pheng-Ann Heng,
- Abstract要約: 患者のデータのプライバシは、モデル更新時に古いデータの可用性を制限することが多い。
CL研究は外科領域で2つの重要な問題を見落としていた。
本稿では,多モーダル大規模言語モデル (LLM) と適応重み付け手法を用いて,これらの問題に対処することを提案する。
- 参考スコア(独自算出の注目度): 57.358568111574314
- License:
- Abstract: Visual question answering (VQA) is crucial for promoting surgical education. In practice, the needs of trainees are constantly evolving, such as learning more surgical types, adapting to different robots, and learning new surgical instruments and techniques for various surgeries. However, patient data privacy often restricts the availability of old data when updating the model, necessitating an exemplar-free continual learning (CL) setup. Prior CL studies overlooked two vital problems in the surgical domain: 1) large domain shifts from diverse surgical operations collected from multiple sources, and 2) severe data imbalance arising from the uneven presence of surgical instruments or activities. This paper proposes addressing these problems with a multimodal large language model (LLM) and an adaptive weight assignment methodology. We first develop a new multi-teacher CL framework that leverages a multimodal LLM as the additional teacher. The strong generalization ability of the LLM can bridge the knowledge gap when domain shifts and data imbalances occur. We then put forth a novel data processing method that transforms complex LLM embeddings into logits compatible with our CL framework. We further design an adaptive weight assignment approach that balances the generalization ability of the LLM and the domain expertise of the old CL model. Finally, to comprehensively test the effectiveness of our proposed method, we have also constructed two new surgical VQA datasets that are largely different from existing ones and could be valuable resources for future research. Extensive experimental results on the tested datasets demonstrate the superiority of our method to other advanced CL schemes.
- Abstract(参考訳): 視覚的質問応答(VQA)は外科教育の推進に不可欠である。
実際には、より外科的なタイプを学ぶこと、異なるロボットに適応すること、さまざまな外科手術のための新しい手術器具や技術を学ぶことなど、訓練者のニーズは常に進化している。
しかし、患者データのプライバシは、しばしばモデル更新時に古いデータの可用性を制限し、模範のない連続学習(CL)セットアップを必要とする。
CL研究は外科領域における2つの重要な問題を見落としていた。
1)複数のソースから収集した多種多様な外科手術からの大規模なドメインシフト
2 外科器具又は活動の不均一な存在に起因する重度のデータ不均衡。
本稿では,多モーダル大規模言語モデル (LLM) と適応重み付け手法を用いて,これらの問題に対処することを提案する。
我々はまず,マルチモーダルLLMを付加的な教師として活用するマルチモーダルCLフレームワークを開発する。
LLMの強力な一般化能力は、ドメインシフトやデータの不均衡が発生すると、知識ギャップを橋渡しすることができる。
次に、複雑なLCM埋め込みをCLフレームワークと互換性のあるログに変換する新しいデータ処理方法を提案する。
さらに、LLMの一般化能力と旧CLモデルのドメイン知識のバランスをとる適応重み付け手法を設計する。
最後に,提案手法の有効性を総合的に検証するために,既存のものとは大きく異なり,今後の研究に有用な2つの新しい手術用VQAデータセットを構築した。
テストしたデータセットに対する大規模な実験結果から,本手法が他の高度なCL方式よりも優れていることが示された。
関連論文リスト
- Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning [15.646322352232819]
新しいデータセットであるSurg-QAを作成し、手術用ビデオインストラクションペアを102,000個作成する。
手術知識を学習するために, LLMを用いた2段階質問応答生成パイプラインを提案する。
LLaVA-Surgは、手術ビデオに関するオープンな質問に答えられる新しい視覚言語対話アシスタントだ。
論文 参考訳(メタデータ) (2024-08-15T07:00:20Z) - Jumpstarting Surgical Computer Vision [2.7396997668655163]
我々は、多様な外科的データセットを柔軟に活用するために、自己教師付き学習を採用する。
腹腔鏡下胆嚢摘出術と腹腔鏡下子宮摘出術の位相認識と安全性の検討を行った。
事前トレーニングデータセットの構成は、さまざまな下流タスクに対するSSLメソッドの有効性に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-12-10T18:54:16Z) - Revisiting Distillation for Continual Learning on Visual Question
Localized-Answering in Robotic Surgery [20.509915509237818]
ビジュアルクエストローカライズド・アンサーリング(VQLA)システムは、外科教育における知識のあるアシスタントとして機能する。
ディープニューラルネットワーク(DNN)は、新しい知識を学ぶ際に破滅的な忘れに苦しむ。
論文 参考訳(メタデータ) (2023-07-22T10:35:25Z) - How to Train Your CheXDragon: Training Chest X-Ray Models for Transfer
to Novel Tasks and Healthcare Systems [0.118749525824656]
自己教師付き学習(SSL)は、機械学習モデルのラベルの効率的なトレーニングを可能にする。
本研究では,様々な教師付き・自己監督型事前学習戦略を体系的に実験する。
マルチモーダルSSLは、新しい医療システムやタスクにおいて、非モーダルSSLよりもパフォーマンスが大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-13T22:33:09Z) - Adapter Learning in Pretrained Feature Extractor for Continual Learning
of Diseases [66.27889778566734]
現在、インテリジェント診断システムには、デプロイされたばかりの新しい病気を継続的に診断する能力がない。
特に、新しい疾患のトレーニングデータを用いたインテリジェント診断システムの更新は、古い疾患の知識を壊滅的に忘れてしまう可能性がある。
ACLと呼ばれるアダプタベースの連続学習フレームワークは、新しい病気の集合を効果的に学習するために提案されている。
論文 参考訳(メタデータ) (2023-04-18T15:01:45Z) - Identification of Cognitive Workload during Surgical Tasks with
Multimodal Deep Learning [20.706268332427157]
関連する認知ワークロード(CWL)の増加は、予期せぬ、反復的なタスクへの対処から生じる。
本稿では,CWLのマルチモーダル認識のための2つの機械学習手法のカスケードを提案する。
畳み込みニューラルネットワーク(CNN)は、この情報を用いて、各手術タスクに関連するさまざまなタイプのCWLを識別する。
論文 参考訳(メタデータ) (2022-09-12T18:29:34Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。