論文の概要: Flexible visual prompts for in-context learning in computer vision
- arxiv url: http://arxiv.org/abs/2312.06592v1
- Date: Mon, 11 Dec 2023 18:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:32:43.771626
- Title: Flexible visual prompts for in-context learning in computer vision
- Title(参考訳): コンピュータビジョンにおけるテキスト内学習のためのフレキシブルビジュアルプロンプト
- Authors: Thomas Foster, Ioana Croitoru, Robert Dorfman, Christoffer Edlund,
Thomas Varsavsky, Jon Almaz\'an
- Abstract要約: 本研究では,画像セグメンテーションの課題に対して,文脈内学習(ICL)を提案する。
本稿では,ビジュアル・イン・コンテクスト学習のための最新のビデオ・オブジェクト(VOS)技術を適用した新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.575830278052995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address in-context learning (ICL) for the task of image
segmentation, introducing a novel approach that adapts a modern Video Object
Segmentation (VOS) technique for visual in-context learning. This adaptation is
inspired by the VOS method's ability to efficiently and flexibly learn objects
from a few examples. Through evaluations across a range of support set sizes
and on diverse segmentation datasets, our method consistently surpasses
existing techniques. Notably, it excels with data containing classes not
encountered during training. Additionally, we propose a technique for support
set selection, which involves choosing the most relevant images to include in
this set. By employing support set selection, the performance increases for all
tested methods without the need for additional training or prompt tuning. The
code can be found at https://github.com/v7labs/XMem_ICL/.
- Abstract(参考訳): 本研究では,画像セグメント化の課題に対するインコンテキスト学習(ICL)に取り組み,視覚的インコンテキスト学習に近代的なビデオオブジェクトセグメンテーション(VOS)技術を適用する新しいアプローチを導入する。
この適応は、数例から効率的に柔軟にオブジェクトを学習できるvosメソッドの能力にインスパイアされている。
サポートセットのサイズやセグメンテーションデータセットの多岐にわたる評価を通じて,本手法は既存の手法を一貫して超越している。
特に、トレーニング中に遭遇しないクラスを含むデータに優れている。
さらに,このセットに含まれる最も関連性の高い画像を選択することを含む,集合選択を支援する手法を提案する。
サポートセットの選択を採用することで、追加のトレーニングや即時チューニングを必要とせずに、すべてのテストメソッドのパフォーマンスが向上する。
コードはhttps://github.com/v7labs/XMem_ICL/で見ることができる。
関連論文リスト
- Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models [0.6149772262764599]
本稿では,FS-CS問題を視覚質問 (VQA) 問題に変換する視覚指導評価 (VISE) 手法を提案する。
提案手法は,Pascal-5iおよびCOCO-20iデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-15T13:29:41Z) - Correlation-aware active learning for surgery video segmentation [13.327429312047396]
本研究は,手術ビデオセグメンテーション,COWAL,Correlation-aWare Active Learningのための新しいAL戦略を提案する。
提案手法では、コントラスト学習を用いて微調整された遅延空間に画像を投影し、ビデオフレームの局所クラスタから一定数の代表画像を選択する。
手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-15T09:30:52Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Learning to Better Segment Objects from Unseen Classes with Unlabeled
Videos [38.23575745107852]
非ラベルのビデオシーケンスを使用して、目に見えないクラスのオブジェクトのトレーニングデータを自動的に生成します。
このようなトレーニングセットを自動生成するように特別に設計されたベイズ法を導入する。
提案手法は,unseenクラスのセグメンテーションオブジェクトの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-04-25T22:05:44Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。