論文の概要: Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning
- arxiv url: http://arxiv.org/abs/2505.15687v1
- Date: Wed, 21 May 2025 16:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.760774
- Title: Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning
- Title(参考訳): 効率的なマルチモーダル・パス・リソン法における診断基準とTokenallocationの検索
- Authors: Zhe Xu, Cheng Jin, Yihui Wang, Ziyi Liu, Hao Chen,
- Abstract要約: 多モード画像理解は、診断精度を向上させる可能性から、広く関心を集めている。
既存の手法では推論能力が限られており、複雑な診断シナリオを扱う能力を妨げている。
本稿では,2つの相乗的分枝からなる二元的強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.707757721296627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal pathological image understanding has garnered widespread interest due to its potential to improve diagnostic accuracy and enable personalized treatment through integrated visual and textual data. However, existing methods exhibit limited reasoning capabilities, which hamper their ability to handle complex diagnostic scenarios. Additionally, the enormous size of pathological images leads to severe computational burdens, further restricting their practical deployment. To address these limitations, we introduce a novel bilateral reinforcement learning framework comprising two synergistic branches. One reinforcement branch enhances the reasoning capability by enabling the model to learn task-specific decision processes, i.e., pathology rationales, directly from labels without explicit reasoning supervision. While the other branch dynamically allocates a tailored number of tokens to different images based on both their visual content and task context, thereby optimizing computational efficiency. We apply our method to various pathological tasks such as visual question answering, cancer subtyping, and lesion detection. Extensive experiments show an average +41.7 absolute performance improvement with 70.3% lower inference costs over the base models, achieving both reasoning accuracy and computational efficiency.
- Abstract(参考訳): マルチモーダル画像理解は、診断精度を向上し、視覚とテキストの統合データによるパーソナライズされた治療を可能にする可能性から、広く関心を集めている。
しかし、既存の手法では推論能力が限られており、複雑な診断シナリオを扱うのを妨げている。
さらに, 病理像の巨大化により, 計算負荷が大きくなり, 実用的展開が制限される。
これらの制約に対処するため、我々は2つの相乗的分岐からなる新しい二元的強化学習フレームワークを導入する。
1つの強化分枝は、モデルが明確な推論監督なしにラベルから直接タスク固有の意思決定過程、すなわち病理学的根拠を学習できるようにすることにより、推論能力を高める。
他方のブランチは、視覚内容とタスクコンテキストの両方に基づいて、異なる画像に調整されたトークン数を動的に割り当て、計算効率を最適化する。
本手法は,視覚的質問応答,癌サブタイプ,病変検出など,様々な病態に応用する。
大規模な実験では、ベースモデルよりも70.3%低い推論コストで平均+41.7の絶対的な性能向上を示し、推論精度と計算効率の両方を達成している。
関連論文リスト
- Pre-trained Models Succeed in Medical Imaging with Representation Similarity Degradation [6.545152478351316]
本研究は,表現類似性軌跡の定量化と解析を中心とした厳密な問題定義を確立する。
実験結果から,タスクの精度と事前学習した起源との類似性の両方を保った高性能モデルが存在する可能性が示唆された。
論文 参考訳(メタデータ) (2025-03-11T01:37:54Z) - A Deep Learning Approach for Augmenting Perceptional Understanding of Histopathology Images [0.1813006808606333]
本論文は, 病理組織像解析の高度化に向けた新しいアプローチについて述べる。
視覚変換器(Vit)とGpt-2を併用した画像キャプチャ用マルチモーダルモデル
論文 参考訳(メタデータ) (2025-03-10T03:50:25Z) - Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Pathology Analysis [37.11302829771659]
大規模視覚言語モデル(LVLM)は、入力解像度の制約によって制限され、病理画像解析の効率と精度を損なう。
課題誘導型機能拡張と課題誘導型詳細機能補完の2つの革新的戦略を提案する。
OmniPathは診断精度と効率において既存の方法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-12T18:07:23Z) - Augmentation is AUtO-Net: Augmentation-Driven Contrastive Multiview
Learning for Medical Image Segmentation [3.1002416427168304]
この論文は網膜血管セグメンテーションの課題に焦点を当てている。
深層学習に基づく医用画像セグメンテーションアプローチの広範な文献レビューを提供する。
効率的でシンプルな多視点学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:31:08Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Unsupervised deep learning techniques for powdery mildew recognition
based on multispectral imaging [63.62764375279861]
本稿では,キュウリ葉の粉状ミドウを自動的に認識する深層学習手法を提案する。
マルチスペクトルイメージングデータに適用した教師なし深層学習技術に焦点をあてる。
本稿では, オートエンコーダアーキテクチャを用いて, 疾患検出のための2つの手法を提案する。
論文 参考訳(メタデータ) (2021-12-20T13:29:13Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z) - Learning Binary Semantic Embedding for Histology Image Classification
and Retrieval [56.34863511025423]
バイナリ・セマンティック・エンベディング(LBSE)の学習方法を提案する。
効率的な埋め込み、分類、検索を行い、組織像の解釈可能なコンピュータ支援診断を提供する。
3つのベンチマークデータセットで実施された実験は、様々なシナリオにおいてLBSEの優位性を検証する。
論文 参考訳(メタデータ) (2020-10-07T08:36:44Z) - Unified Representation Learning for Efficient Medical Image Analysis [0.623075162128532]
統一モダリティ特化特徴表現(UMS-Rep)を用いた医用画像解析のためのマルチタスクトレーニング手法を提案する。
提案手法は,計算資源の全体的な需要を減らし,タスクの一般化と性能の向上を図っている。
論文 参考訳(メタデータ) (2020-06-19T16:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。