論文の概要: MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization
- arxiv url: http://arxiv.org/abs/2509.12893v1
- Date: Tue, 16 Sep 2025 09:48:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.014137
- Title: MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization
- Title(参考訳): MEJO: MLLM-Engaged surgery Triplet Recognition by Inter-およびInter-Task Joint Optimization (英語)
- Authors: Yiyi Zhang, Yuchen Yuan, Ying Zheng, Jialun Pei, Jinpeng Li, Zheng Li, Pheng-Ann Heng,
- Abstract要約: 手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。
タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。
タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
- 参考スコア(独自算出の注目度): 52.149337961205624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical triplet recognition, which involves identifying instrument, verb, target, and their combinations, is a complex surgical scene understanding challenge plagued by long-tailed data distribution. The mainstream multi-task learning paradigm benefiting from cross-task collaborative promotion has shown promising performance in identifying triples, but two key challenges remain: 1) inter-task optimization conflicts caused by entangling task-generic and task-specific representations; 2) intra-task optimization conflicts due to class-imbalanced training data. To overcome these difficulties, we propose the MLLM-Engaged Joint Optimization (MEJO) framework that empowers both inter- and intra-task optimization for surgical triplet recognition. For inter-task optimization, we introduce the Shared-Specific-Disentangled (S$^2$D) learning scheme that decomposes representations into task-shared and task-specific components. To enhance task-shared representations, we construct a Multimodal Large Language Model (MLLM) powered probabilistic prompt pool to dynamically augment visual features with expert-level semantic cues. Additionally, comprehensive task-specific cues are modeled via distinct task prompts covering the temporal-spatial dimensions, effectively mitigating inter-task ambiguities. To tackle intra-task optimization conflicts, we develop a Coordinated Gradient Learning (CGL) strategy, which dissects and rebalances the positive-negative gradients originating from head and tail classes for more coordinated learning behaviors. Extensive experiments on the CholecT45 and CholecT50 datasets demonstrate the superiority of our proposed framework, validating its effectiveness in handling optimization conflicts.
- Abstract(参考訳): 楽器、動詞、ターゲット、それらの組み合わせを識別する外科的三重項認識は、長い尾のデータ分布に悩まされる複雑な手術シーン理解の課題である。
クロスタスクのコラボレーティブプロモーションから恩恵を受ける主流のマルチタスク学習パラダイムは、トリプルを識別する上で有望なパフォーマンスを示しているが、大きな課題は2つ残っている。
1)タスクジェネリック及びタスク固有表現の絡み合いによるタスク間最適化の対立
2) クラス不均衡学習データによるタスク内最適化の矛盾。
これらの課題を克服するために, MLLM-Engaged Joint Optimization (MEJO) フレームワークを提案する。
タスク間最適化のために,タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習方式(S$^2$D)を導入する。
タスク共有表現を強化するために,マルチモーダル大規模言語モデル(MLLM)を用いた確率的プロンプトプールを構築し,専門家レベルのセマンティックキューで視覚的特徴を動的に増強する。
さらに、包括的なタスク固有のキューは、時間空間次元をカバーする個別のタスクプロンプトによってモデル化され、タスク間のあいまいさを効果的に緩和する。
タスク内最適化の対立に対処するために、より協調的な学習行動のために頭と尾のクラスから生じる正負の勾配を識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
CholecT45とColecT50データセットの大規模な実験は、提案したフレームワークの優位性を実証し、最適化競合を処理する上での有効性を検証する。
関連論文リスト
- Rep-MTL: Unleashing the Power of Representation-level Task Saliency for Multi-Task Learning [27.472039054277644]
Rep-MTLは、タスク固有の最適化と共有表現学習の間の相互作用を定量化するために、表現レベルタスクの相性を利用する。
Rep-MTLは、純粋なコンフリクト解決ではなく、個々のタスクの効果的なトレーニングを維持することで、ネガティブトランスファーを軽減することを目的としている。
論文 参考訳(メタデータ) (2025-07-28T17:59:28Z) - Robust-Multi-Task Gradient Boosting [6.718184400443239]
マルチタスク学習(MTL)は、タスク間の共有情報を利用して一般化を改善する効果を示す。
本稿では,R-MTGB(Robust-Multi-Task Gradient Boosting)を提案する。
R-MTGBは学習プロセスを3つのブロックに構成する:(1)共有パターンの学習、(2)正規化パラメータを持つ逐次タスクを外れ値と非外れ値に分割、(3)微調整タスク固有の予測器。
論文 参考訳(メタデータ) (2025-07-15T15:31:12Z) - InterroGate: Learning to Share, Specialize, and Prune Representations
for Multi-task Learning [17.66308231838553]
推論計算効率を最適化しつつ,タスク干渉を緩和する新しいマルチタスク学習(MTL)アーキテクチャを提案する。
学習可能なゲーティング機構を用いて、すべてのタスクのパフォーマンスを保ちながら、共有表現とタスク固有の表現を自動的にバランスさせる。
論文 参考訳(メタデータ) (2024-02-26T18:59:52Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。
我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。