論文の概要: Efficient Whole Slide Pathology VQA via Token Compression
- arxiv url: http://arxiv.org/abs/2507.14497v1
- Date: Sat, 19 Jul 2025 06:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.915073
- Title: Efficient Whole Slide Pathology VQA via Token Compression
- Title(参考訳): トーケン圧縮による高効率全すべり病VQA
- Authors: Weimin Lyu, Qingqiao Hu, Kehan Qi, Zhan Shi, Wentao Huang, Saumya Gupta, Chao Chen,
- Abstract要約: 病理学における全スライディング画像(WSI)は1万×1万ピクセルまで到達でき、大言語モデル(MLLM)にとって大きな課題となる。
トークン圧縮によりWSI VQAを実行する最初のMLLMアーキテクチャであるToken Compression Pathology LLaVA(TCP-LLaVA)を提案する。
- 参考スコア(独自算出の注目度): 10.122347041204629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whole-slide images (WSIs) in pathology can reach up to 10,000 x 10,000 pixels, posing significant challenges for multimodal large language model (MLLM) due to long context length and high computational demands. Previous methods typically focus on patch-level analysis or slide-level classification using CLIP-based models with multi-instance learning, but they lack the generative capabilities needed for visual question answering (VQA). More recent MLLM-based approaches address VQA by feeding thousands of patch tokens directly into the language model, which leads to excessive resource consumption. To address these limitations, we propose Token Compression Pathology LLaVA (TCP-LLaVA), the first MLLM architecture to perform WSI VQA via token compression. TCP-LLaVA introduces a set of trainable compression tokens that aggregate visual and textual information through a modality compression module, inspired by the [CLS] token mechanism in BERT. Only the compressed tokens are forwarded to the LLM for answer generation, significantly reducing input length and computational cost. Experiments on ten TCGA tumor subtypes show that TCP-LLaVA outperforms existing MLLM baselines in VQA accuracy while reducing training resource consumption by a substantial margin.
- Abstract(参考訳): 病理学におけるWSI(Whole-Slide Image)は1万×1万ピクセルに到達でき、長期のコンテキスト長と高い計算要求のため、MLLM(Multimodal Large Language Model)にとって大きな課題となる。
従来はパッチレベルの分析やスライドレベルの分類に重点を置いていたが、視覚的質問応答(VQA)に必要な生成能力に欠けていた。
最近のMLLMベースのアプローチでは、数千のパッチトークンを直接言語モデルに入力することでVQAに対処している。
トークン圧縮によりWSI VQAを実行する最初のMLLMアーキテクチャであるToken Compression Pathology LLaVA(TCP-LLaVA)を提案する。
TCP-LLaVAは、BERTの[CLS]トークン機構にインスパイアされた、モダリティ圧縮モジュールを通じて視覚情報とテキスト情報を集約するトレーニング可能な圧縮トークンのセットを導入している。
圧縮されたトークンのみをLSMに転送して応答生成し、入力長と計算コストを大幅に削減する。
TCGA腫瘍サブタイプ10の実験では、TCP-LLaVAは既存のMLLMベースラインをVQA精度で上回り、トレーニングリソース消費をかなりのマージンで削減している。
関連論文リスト
- QLIP: A Dynamic Quadtree Vision Prior Enhances MLLM Performance Without Retraining [28.2730962800806]
既存のMLLMとシームレスに統合可能なCLIPビジョンエンコーダのドロップイン置換を提案する。
QLIPは、様々なモデルサイズにわたるLLaVA v1.5モデルの一般的な視覚的質問応答精度を改善する。
特にQLIPは、挑戦的な$Vast$ベンチマークの詳細な理解パフォーマンスを最大13.6%向上させる。
論文 参考訳(メタデータ) (2025-05-29T02:26:34Z) - VQ-Logits: Compressing the Output Bottleneck of Large Language Models via Vector Quantized Logits [9.470124763460904]
VQ-Logitsは、大規模言語モデル出力層のパラメータカウントと計算負荷を大幅に削減する新しいアプローチである。
VQ-Logitsは出力層で最大99%のパラメータ削減を実現し,ロジット計算で6倍の高速化を実現可能である。
論文 参考訳(メタデータ) (2025-05-15T11:58:04Z) - TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation [80.90309237362526]
TokLIPは、ベクトル量子化(VQ)トークンを意味付けることで、理解を深めるビジュアルトークンライザである。
TokLIPは、低レベルの離散VQトークンライザとViTベースのトークンエンコーダを統合して、高レベルの連続的なセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2025-05-08T17:12:19Z) - QG-VTC: Question-Guided Visual Token Compression in MLLMs for Efficient VQA [16.494799458292]
画像はテキストよりも冗長な情報が多く、視覚的な詳細が特定の質問に関係しているわけではない。
MLLMに基づくVQAタスクのための新しい質問誘導型ビジュアルトークン圧縮手法であるQG-VTCを提案する。
QG-VTCは、事前訓練されたテキストエンコーダと学習可能なフィードフォワード層を使用して、ユーザ質問を視覚エンコーダの機能空間に埋め込む。
論文 参考訳(メタデータ) (2025-04-01T11:07:19Z) - Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。
我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文 参考訳(メタデータ) (2024-10-30T15:05:17Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。