論文の概要: LoC-Path: Learning to Compress for Pathology Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2512.05391v2
- Date: Thu, 11 Dec 2025 16:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 14:11:15.08874
- Title: LoC-Path: Learning to Compress for Pathology Multimodal Large Language Models
- Title(参考訳): LoC-Path: 病的マルチモーダル大言語モデルに対する圧縮学習
- Authors: Qingqiao Hu, Weimin Lyu, Meilong Xu, Kehan Qi, Xiaoling Hu, Saumya Gupta, Jiawei Zhou, Chao Chen,
- Abstract要約: ワイルスライド画像(WSI)の理解は、そのギガピクセルスケールと診断関連領域の極端に親和性があるため、基本的に困難である。
既存のスライドレベルの多モード大言語モデル(MLLM)は、重いスライドレベルのエンコーダに依存している。
コストのかかるスライドレベルのエンコーダを冗長性低減モジュールに置き換える,効率的なMLLMフレームワークであるLoC-Pathを導入する。
- 参考スコア(独自算出の注目度): 19.89635786218384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whole Slide Image (WSI) understanding is fundamentally challenging due to its gigapixel scale and the extreme sparsity of diagnostically relevant regions. Unlike human experts who primarily rely on key areas to arrive at a diagnosis, existing slide-level multimodal large language models (MLLMs) for pathology rely on heavy slide-level encoders that process thousands of patch features in a brute-force manner, resulting in excessive computational cost. In this work, we revisit the WSI-language modeling paradigm and show that tile-level features exhibit strong global and local redundancy, whereas only a small subset of tiles are truly task-relevant. Motivated by this observation, we introduce an efficient MLLM framework, called LoC-Path, that replaces the expensive slide-level encoder with redundancy-reducing modules. We first design a Sparse Token Merger (STM) and an MAE-pretrained resampler to remove local redundancy and compress globally redundant tile tokens into a compact slide-level representation set. We then propose a Cross-Attention Routing Adapter (CARA) and a Token Importance Scorer (TIS) to integrate the compressed visual representation with the language model in a computation-efficient manner. Extensive experiments demonstrate that our approach achieves performance comparable to existing state-of-the-art whole-slide MLLMs, while requiring significantly lower computation and memory.
- Abstract(参考訳): ワイルスライド画像(WSI)の理解は、そのギガピクセルスケールと診断関連領域の極端に親和性があるため、基本的に困難である。
診断に到達するための重要な領域を主に頼っている人間の専門家とは異なり、病理学における既存のスライドレベルの多モーダル言語モデル(MLLM)は、数千のパッチ機能をブルートフォースで処理する重いスライドレベルのエンコーダに依存しており、計算コストが過大になる。
本稿では、WSI言語モデリングのパラダイムを再考し、タイルレベルの特徴が強いグローバルおよびローカルな冗長性を示すのに対して、タイルの小さなサブセットだけが真にタスク関連であることを示す。
本研究の目的は,コストのかかるスライドレベルのエンコーダを冗長性低減モジュールに置き換える,効率的なMLLMフレームワークであるLoC-Pathを導入することである。
まず,STM (Sparse Token Merger) と MAE- Pretrained Resampler を設計し,局所冗長性を除去し,冗長なタイルトークンをコンパクトなスライドレベル表現セットに圧縮する。
次に、圧縮された視覚表現と言語モデルを統合するために、CARA(Cross-Attention Routing Adapter)とTIS(Token Importance Scorer)を提案する。
実験の結果,従来のMLLMに匹敵する性能が得られたが,計算量やメモリの削減は困難であった。
関連論文リスト
- From Passive Perception to Active Memory: A Weakly Supervised Image Manipulation Localization Framework Driven by Coarse-Grained Annotations [14.0185129202898]
BoxPromptIMLは、アノテーションコストとローカライゼーションパフォーマンスのバランスをとる、新しい弱教師付きIMLフレームワークである。
ヒトの意識下記憶機構にインスパイアされた我々の特徴融合モジュールは、リアルタイムな観察手法を用いて、リコールされたパターンを積極的に文脈化するための二重誘導方式を採用している。
論文 参考訳(メタデータ) (2025-11-25T14:39:17Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - Libra-MIL: Multimodal Prototypes Stereoscopic Infused with Task-specific Language Priors for Few-shot Whole Slide Image Classification [18.928408687991368]
大規模言語モデル(LLM)は、計算病理学において有望な方向性として現れつつある。
既存の視覚言語によるMIL(Multi-Instance Learning)手法では、一方向指導を用いることが多い。
本稿では,双方向インタラクションを促進するマルチモーダルプロトタイプベースのマルチインスタンス学習を提案する。
論文 参考訳(メタデータ) (2025-11-11T07:46:38Z) - PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity [39.98516860109934]
PixelReferは、統一された領域レベルのMLLMフレームワークで、ユーザが指定した領域についてより詳細な理解を可能にする。
解析の結果,グローバルな視覚トークンは主に初期のLCM層に寄与し,PixelRefer-Liteの設計を刺激していることがわかった。
微粒な命令チューニングを容易にするため,高品質なオブジェクト中心命令データセットであるPixelRefer-2.2Mをキュレートする。
論文 参考訳(メタデータ) (2025-10-27T17:59:32Z) - HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models [50.31704374968706]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解を整合させるための変換的アプローチとして登場した。
それらは通常、多粒度レベルでのクロスモーダルアライメントを達成するために、訓練のために非常に高い計算資源を必要とする。
この非効率性の重要な源は、CLIPやSAMなど、広く採用されている視覚エンコーダであり、多粒度レベルでの言語との整合性が欠如している。
論文 参考訳(メタデータ) (2025-10-23T08:16:44Z) - Sparse Training Scheme for Multimodal LLM [26.81140959413325]
MLLM(Multimodal Large Language Models)は、様々な領域において優れた性能を示す。
スパース・トレーニング・スキーム(STS)と呼ばれるスパース表現に基づく新しい学習効率向上フレームワークを提案する。
このスキームは、ビジュアルトークンを圧縮することで情報負荷を削減するVisual Tokenと、前方および後方の両方で言語モデルの不要なレイヤをスキップすることで計算オーバーヘッドを軽減するLayer Dynamic Skipperの2つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-09-16T11:33:20Z) - BcQLM: Efficient Vision-Language Understanding with Distilled Q-Gated Cross-Modal Fusion [6.8723394189831035]
大規模言語モデルは、リソース制約のある環境でのデプロイメントに挑戦する。
本稿では,エンドツーエンドの視覚的質問応答のための軽量MLLMフレームワークを提案する。
提案手法は,効率的なマルチモーダル理解のために最適化されたコンパクトだが強力な視覚言語である BreezeCLIP を中心にしている。
論文 参考訳(メタデータ) (2025-09-10T16:09:49Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。