論文の概要: Flexible visual prompts for in-context learning in computer vision
- arxiv url: http://arxiv.org/abs/2312.06592v1
- Date: Mon, 11 Dec 2023 18:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:32:43.771626
- Title: Flexible visual prompts for in-context learning in computer vision
- Title(参考訳): コンピュータビジョンにおけるテキスト内学習のためのフレキシブルビジュアルプロンプト
- Authors: Thomas Foster, Ioana Croitoru, Robert Dorfman, Christoffer Edlund,
Thomas Varsavsky, Jon Almaz\'an
- Abstract要約: 本研究では,画像セグメンテーションの課題に対して,文脈内学習(ICL)を提案する。
本稿では,ビジュアル・イン・コンテクスト学習のための最新のビデオ・オブジェクト(VOS)技術を適用した新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.575830278052995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address in-context learning (ICL) for the task of image
segmentation, introducing a novel approach that adapts a modern Video Object
Segmentation (VOS) technique for visual in-context learning. This adaptation is
inspired by the VOS method's ability to efficiently and flexibly learn objects
from a few examples. Through evaluations across a range of support set sizes
and on diverse segmentation datasets, our method consistently surpasses
existing techniques. Notably, it excels with data containing classes not
encountered during training. Additionally, we propose a technique for support
set selection, which involves choosing the most relevant images to include in
this set. By employing support set selection, the performance increases for all
tested methods without the need for additional training or prompt tuning. The
code can be found at https://github.com/v7labs/XMem_ICL/.
- Abstract(参考訳): 本研究では,画像セグメント化の課題に対するインコンテキスト学習(ICL)に取り組み,視覚的インコンテキスト学習に近代的なビデオオブジェクトセグメンテーション(VOS)技術を適用する新しいアプローチを導入する。
この適応は、数例から効率的に柔軟にオブジェクトを学習できるvosメソッドの能力にインスパイアされている。
サポートセットのサイズやセグメンテーションデータセットの多岐にわたる評価を通じて,本手法は既存の手法を一貫して超越している。
特に、トレーニング中に遭遇しないクラスを含むデータに優れている。
さらに,このセットに含まれる最も関連性の高い画像を選択することを含む,集合選択を支援する手法を提案する。
サポートセットの選択を採用することで、追加のトレーニングや即時チューニングを必要とせずに、すべてのテストメソッドのパフォーマンスが向上する。
コードはhttps://github.com/v7labs/XMem_ICL/で見ることができる。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt [15.259819430801402]
この問題を解決するために,暗黙的な視覚的プロンプトチューニングのための擬似視覚プロンプト(PVP)モジュールを提案する。
具体的には、まず各カテゴリの擬似視覚的プロンプトを学習し、事前学習された視覚言語モデルのよく整合した空間によって多様な視覚的知識をマイニングする。
VOC2007, MS-COCO, NUSWIDEデータセットによる実験結果から, 本手法がSOTA(State-of-the-art(SOTA)法を超えることを示す。
論文 参考訳(メタデータ) (2024-05-11T06:11:42Z) - Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models [0.6149772262764599]
本稿では,FS-CS問題を視覚質問 (VQA) 問題に変換する視覚指導評価 (VISE) 手法を提案する。
提案手法は,Pascal-5iおよびCOCO-20iデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T13:29:41Z) - Correlation-aware active learning for surgery video segmentation [13.327429312047396]
本研究は,手術ビデオセグメンテーション,COWAL,Correlation-aWare Active Learningのための新しいAL戦略を提案する。
提案手法では、コントラスト学習を用いて微調整された遅延空間に画像を投影し、ビデオフレームの局所クラスタから一定数の代表画像を選択する。
手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-15T09:30:52Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。