論文の概要: Pre-Trained LLM is a Semantic-Aware and Generalizable Segmentation Booster
- arxiv url: http://arxiv.org/abs/2506.18034v1
- Date: Sun, 22 Jun 2025 13:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.710052
- Title: Pre-Trained LLM is a Semantic-Aware and Generalizable Segmentation Booster
- Title(参考訳): セマンティック・アウェアで一般化可能なセグメンテーション・ブースターであるプレトレーニングLDM
- Authors: Fenghe Tang, Wenxin Ma, Zhiyang He, Xiaodong Tao, Zihang Jiang, S. Kevin Zhou,
- Abstract要約: CNNエンコーダ・デコーダ・セグメンテーション・フレームワーク(LLM4Seg)に事前学習した凍結LDM層を統合する単純なハイブリッド構造を提案する。
驚くべきことに、この設計は、超音波、皮膚内視鏡、ポリスコピー、CTスキャンなど、様々なモードでトレーニング可能なパラメータを最小限に増やすことで、セグメンテーション性能を向上させる。
- 参考スコア(独自算出の注目度): 18.666242153073476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of Large Language Model (LLM) for natural language processing, this paper presents an intriguing finding: a frozen pre-trained LLM layer can process visual tokens for medical image segmentation tasks. Specifically, we propose a simple hybrid structure that integrates a pre-trained, frozen LLM layer within the CNN encoder-decoder segmentation framework (LLM4Seg). Surprisingly, this design improves segmentation performance with a minimal increase in trainable parameters across various modalities, including ultrasound, dermoscopy, polypscopy, and CT scans. Our in-depth analysis reveals the potential of transferring LLM's semantic awareness to enhance segmentation tasks, offering both improved global understanding and better local modeling capabilities. The improvement proves robust across different LLMs, validated using LLaMA and DeepSeek.
- Abstract(参考訳): 自然言語処理のためのLarge Language Model (LLM) の進歩により, 凍結したLLM層は, 医用画像セグメンテーションタスクの視覚トークンを処理できるという興味深い発見が得られた。
具体的には,CNNエンコーダ・デコーダ・セグメンテーション・フレームワーク(LLM4Seg)に,事前学習した凍結LDM層を統合する単純なハイブリッド構造を提案する。
驚くべきことに、この設計は、超音波、皮膚内視鏡、ポリスコピー、CTスキャンなど、様々なモードでトレーニング可能なパラメータを最小限に増やすことで、セグメンテーション性能を向上させる。
我々の詳細な分析により,LLMのセグメンテーションタスクを向上するために意味的認識を伝達する可能性を明らかにし,グローバルな理解とより優れた局所モデリング機能を提供する。
この改善は、LLaMAとDeepSeekを使用して検証された、異なるLLM間で堅牢であることが証明されている。
関連論文リスト
- ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - LLaFS: When Large Language Models Meet Few-Shot Segmentation [32.86287519276783]
LLaFSは,大規模言語モデル(LLM)を数発のセグメンテーションで活用するための最初の試みである。
LLaFSは、アノテーション付きサポート画像からの制限された情報とバイアスのある情報のみに依存する従来の数ショットセグメンテーション法とは対照的に、LLMを直接使用して数ショットで画像のセグメンテーションを行う。
LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。
論文 参考訳(メタデータ) (2023-11-28T16:31:27Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。