論文の概要: Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.10287v1
- Date: Fri, 15 Mar 2024 13:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 17:01:25.368512
- Title: Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた視覚質問応答における画像分類とセグメンテーション
- Authors: Tian Meng, Yang Tao, Ruilin Lyu, Wuliang Yin,
- Abstract要約: 本稿では,FS-CS問題を視覚質問 (VQA) 問題に変換する視覚指導評価 (VISE) 手法を提案する。
提案手法は,Pascal-5iおよびCOCO-20iデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 0.6149772262764599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of few-shot image classification and segmentation (FS-CS) involves classifying and segmenting target objects in a query image, given only a few examples of the target classes. We introduce the Vision-Instructed Segmentation and Evaluation (VISE) method that transforms the FS-CS problem into the Visual Question Answering (VQA) problem, utilising Vision-Language Models (VLMs), and addresses it in a training-free manner. By enabling a VLM to interact with off-the-shelf vision models as tools, the proposed method is capable of classifying and segmenting target objects using only image-level labels. Specifically, chain-of-thought prompting and in-context learning guide the VLM to answer multiple-choice questions like a human; vision models such as YOLO and Segment Anything Model (SAM) assist the VLM in completing the task. The modular framework of the proposed method makes it easily extendable. Our approach achieves state-of-the-art performance on the Pascal-5i and COCO-20i datasets.
- Abstract(参考訳): 少数ショット画像分類とセグメンテーション(FS-CS)のタスクは、ターゲットクラスのいくつかの例を考慮すれば、クエリイメージ内のターゲットオブジェクトの分類とセグメンテーションである。
FS-CS問題を視覚質問応答(VQA)問題に変換し,視覚言語モデル(VLM)を活用するVISE法を導入する。
VLMを市販の視覚モデルと対話可能なツールとして利用することにより,画像レベルラベルのみを用いて対象オブジェクトの分類とセグメンテーションを行うことができる。
具体的には、チェーン・オブ・シンセサイティングとイン・コンテクスト・ラーニングは、VLMが人間のような複数の選択の質問に答えるよう誘導する。
提案手法のモジュラー・フレームワークは容易に拡張可能である。
提案手法は,Pascal-5iおよびCOCO-20iデータセットの最先端性能を実現する。
関連論文リスト
- VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - CoLLaVO: Crayon Large Language and Vision mOdel [42.182009352159]
現在のビジョン言語モデルが本当に品質の高いオブジェクトレベルの画像理解能力を持っているかどうかは、まだ解明されていない。
その結果,現在のVLMのイメージ理解能力は,視覚言語(VL)タスクにおけるゼロショット性能と強く相関していることが判明した。
オブジェクトレベルの画像理解を強化するために,Crayon Large Language and Vision mOdel (CoLLaVO)を提案する。
本稿では,視覚的指導指導中に,オブジェクトレベルのイメージ理解を忘れずに維持するためのDual QLoRAの学習戦略を提案する。
論文 参考訳(メタデータ) (2024-02-17T11:03:02Z) - Few-Shot Classification & Segmentation Using Large Language Models Agent [0.7550566004119158]
本研究では,大規模言語モデル(LLM)をエージェントとして利用し,FS-CS問題にトレーニング不要で対処する手法を提案する。
提案手法はPascal-5iデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-19T00:33:41Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - Learning Meta-class Memory for Few-Shot Semantic Segmentation [90.28474742651422]
全てのクラスで共有可能なメタ情報であるメタクラスの概念を導入する。
本稿では,メタクラスメモリをベースとした少ショットセグメンテーション手法 (MM-Net) を提案する。
提案したMM-Netは1ショット設定でCOCOデータセット上で37.5%のmIoUを達成する。
論文 参考訳(メタデータ) (2021-08-06T06:29:59Z) - Multi-branch and Multi-scale Attention Learning for Fine-Grained Visual
Categorization [6.415792312027131]
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)は、近年のコンピュータビジョン(CV)分野における最も権威ある学術コンペティションの1つである。
ILSVRCの年次チャンピオンを、きめ細かい視覚分類(FGVC)タスクに直接適用しても、良いパフォーマンスは得られない。
私たちのアプローチはエンドツーエンドでトレーニングできますが、短い推論時間を提供します。
論文 参考訳(メタデータ) (2020-03-20T08:43:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。