論文の概要: DSV-LFS: Unifying LLM-Driven Semantic Cues with Visual Features for Robust Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2503.04006v1
- Date: Thu, 06 Mar 2025 01:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:57.014424
- Title: DSV-LFS: Unifying LLM-Driven Semantic Cues with Visual Features for Robust Few-Shot Segmentation
- Title(参考訳): DSV-LFS:ロバストフルショットセグメンテーションのための視覚機能付きLCM駆動セマンティックキュー
- Authors: Amin Karimi, Charalambos Poullis,
- Abstract要約: Few-shot semantic segmentation (FSS) は、限定されたラベル付き例のみを使用して、モデルが新規/未使用のオブジェクトクラスをセグメンテーションできるようにすることを目的としている。
本稿では,大規模言語モデル(LLM)を用いて,汎用クラス意味情報をクエリ画像に適用する新しいフレームワークを提案する。
我々のフレームワークは、様々なシナリオにまたがって、新しいクラスへの高度な一般化と堅牢性を示す、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 2.7624021966289605
- License:
- Abstract: Few-shot semantic segmentation (FSS) aims to enable models to segment novel/unseen object classes using only a limited number of labeled examples. However, current FSS methods frequently struggle with generalization due to incomplete and biased feature representations, especially when support images do not capture the full appearance variability of the target class. To improve the FSS pipeline, we propose a novel framework that utilizes large language models (LLMs) to adapt general class semantic information to the query image. Furthermore, the framework employs dense pixel-wise matching to identify similarities between query and support images, resulting in enhanced FSS performance. Inspired by reasoning-based segmentation frameworks, our method, named DSV-LFS, introduces an additional token into the LLM vocabulary, allowing a multimodal LLM to generate a "semantic prompt" from class descriptions. In parallel, a dense matching module identifies visual similarities between the query and support images, generating a "visual prompt". These prompts are then jointly employed to guide the prompt-based decoder for accurate segmentation of the query image. Comprehensive experiments on the benchmark datasets Pascal-$5^{i}$ and COCO-$20^{i}$ demonstrate that our framework achieves state-of-the-art performance-by a significant margin-demonstrating superior generalization to novel classes and robustness across diverse scenarios. The source code is available at \href{https://github.com/aminpdik/DSV-LFS}{https://github.com/aminpdik/DSV-LFS}
- Abstract(参考訳): Few-shot semantic segmentation (FSS) は、限定されたラベル付き例のみを使用して、モデルが新規/未使用のオブジェクトクラスをセグメンテーションできるようにすることを目的としている。
しかしながら、現在のFSS法は、不完全で偏りのある特徴表現による一般化にしばしば苦労する。
FSSパイプラインを改善するために,大規模言語モデル(LLM)を用いて,汎用クラスセマンティック情報をクエリ画像に適用する新しいフレームワークを提案する。
さらに、このフレームワークは、クエリとサポート画像の類似性を識別するために、密度の高いピクセルワイドマッチングを用いており、その結果、FSS性能が向上した。
DSV-LFSと呼ばれる推論ベースのセグメンテーションフレームワークにインスパイアされた我々の手法は、LLM語彙に新たなトークンを導入し、クラス記述からマルチモーダルLLMが「意味的なプロンプト」を生成することを可能にする。
並行して、密マッチングモジュールはクエリとサポートイメージの視覚的類似性を識別し、"視覚的プロンプト"を生成する。
これらのプロンプトは、クエリイメージの正確なセグメンテーションのために、プロンプトベースのデコーダをガイドするために共同で使用される。
Pascal-$5^{i}$およびCOCO-$20^{i}$のベンチマークデータセットに関する総合的な実験は、我々のフレームワークが最先端のパフォーマンスを達成することを実証している。
ソースコードは \href{https://github.com/aminpdik/DSV-LFS}{https://github.com/aminpdik/DSV-LFS} で入手できる。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - AFANet: Adaptive Frequency-Aware Network for Weakly-Supervised Few-Shot Semantic Segmentation [37.9826204492371]
少ないショット学習は、いくつかのサンプルから学んだ事前知識を活用することで、新しい概念を認識することを目的としている。
弱教師付き少数ショットセマンティックセマンティックセグメンテーションのための適応周波数認識ネットワーク(AFANet)を提案する。
論文 参考訳(メタデータ) (2024-12-23T14:20:07Z) - SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Masked Cross-image Encoding for Few-shot Segmentation [16.445813548503708]
Few-shot segmentation (FSS) は、注釈付き画像の限られた数だけを用いて、未確認クラスのピクセルワイズラベルを推測することを目的とした、密度の高い予測タスクである。
本研究では,オブジェクトの詳細を記述した共通視覚特性をキャプチャし,特徴の相互作用を高める双方向画像間の依存関係を学習する,Masked Cross-Image MCEという共同学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T05:36:39Z) - Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation
and Beyond [0.0]
視覚的およびテキスト的事前案内マスク集合ネットワーク(PGMA-Net)を提案する。
偏見を緩和するためにクラス非依存のマスクアセンブリープロセスを採用し、様々なタスクをアフィニティを通じて事前を組み立てることで統一的な方法で定式化する。
mIoUは$textPASCAL-5i$で7.6ドル、$textCOCO-20i$で59.4ドルである。
論文 参考訳(メタデータ) (2023-08-15T02:46:49Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - Few-shot Semantic Segmentation with Support-induced Graph Convolutional
Network [28.46908214462594]
Few-shot semantic segmentation (FSS) は、いくつかの注釈付きサンプルで新しいオブジェクトのセグメンテーションを実現することを目的としている。
本稿では,クエリ画像中の遅延コンテキスト構造を明示的に抽出するために,Support-induced Graph Convolutional Network (SiGCN)を提案する。
論文 参考訳(メタデータ) (2023-01-09T08:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。