Fugu-MT 論文翻訳(概要): Flexible visual prompts for in-context learning in computer vision

論文の概要: Flexible visual prompts for in-context learning in computer vision

arxiv url: http://arxiv.org/abs/2312.06592v1
Date: Mon, 11 Dec 2023 18:27:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 14:32:43.771626
Title: Flexible visual prompts for in-context learning in computer vision
Title（参考訳）: コンピュータビジョンにおけるテキスト内学習のためのフレキシブルビジュアルプロンプト
Authors: Thomas Foster, Ioana Croitoru, Robert Dorfman, Christoffer Edlund, Thomas Varsavsky, Jon Almaz\'an
Abstract要約: 本研究では,画像セグメンテーションの課題に対して,文脈内学習(ICL)を提案する。本稿では,ビジュアル・イン・コンテクスト学習のための最新のビデオ・オブジェクト(VOS)技術を適用した新しい手法を提案する。
参考スコア（独自算出の注目度）: 2.575830278052995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we address in-context learning (ICL) for the task of image segmentation, introducing a novel approach that adapts a modern Video Object Segmentation (VOS) technique for visual in-context learning. This adaptation is inspired by the VOS method's ability to efficiently and flexibly learn objects from a few examples. Through evaluations across a range of support set sizes and on diverse segmentation datasets, our method consistently surpasses existing techniques. Notably, it excels with data containing classes not encountered during training. Additionally, we propose a technique for support set selection, which involves choosing the most relevant images to include in this set. By employing support set selection, the performance increases for all tested methods without the need for additional training or prompt tuning. The code can be found at https://github.com/v7labs/XMem_ICL/.
Abstract（参考訳）: 本研究では,画像セグメント化の課題に対するインコンテキスト学習(ICL)に取り組み,視覚的インコンテキスト学習に近代的なビデオオブジェクトセグメンテーション(VOS)技術を適用する新しいアプローチを導入する。この適応は、数例から効率的に柔軟にオブジェクトを学習できるvosメソッドの能力にインスパイアされている。サポートセットのサイズやセグメンテーションデータセットの多岐にわたる評価を通じて,本手法は既存の手法を一貫して超越している。特に、トレーニング中に遭遇しないクラスを含むデータに優れている。さらに,このセットに含まれる最も関連性の高い画像を選択することを含む,集合選択を支援する手法を提案する。サポートセットの選択を採用することで、追加のトレーニングや即時チューニングを必要とせずに、すべてのテストメソッドのパフォーマンスが向上する。コードはhttps://github.com/v7labs/XMem_ICL/で見ることができる。

関連論文リスト

The Power of One: A Single Example is All it Takes for Segmentation in VLMs [29.735863112700358]
大規模視覚言語モデル(VLM)は、テキスト記述と画像領域の関連性を暗黙的に学習することで、強力なマルチモーダル理解能力を示す。この創発的能力は、テキストイメージの注意マップに依存する技術を用いて、ゼロショットオブジェクトの検出とセグメンテーションを可能にする。提案手法は, ゼロショット性能が向上し, 単一視覚例による微調整によりさらに向上することを示す。
論文参考訳（メタデータ） (2025-03-13T18:18:05Z)
Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文参考訳（メタデータ） (2024-08-29T12:34:01Z)
TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt [15.259819430801402]
この問題を解決するために,暗黙的な視覚的プロンプトチューニングのための擬似視覚プロンプト(PVP)モジュールを提案する。具体的には、まず各カテゴリの擬似視覚的プロンプトを学習し、事前学習された視覚言語モデルのよく整合した空間によって多様な視覚的知識をマイニングする。 VOC2007, MS-COCO, NUSWIDEデータセットによる実験結果から, 本手法がSOTA(State-of-the-art(SOTA)法を超えることを示す。
論文参考訳（メタデータ） (2024-05-11T06:11:42Z)
Few-Shot Image Classification and Segmentation as Visual Question Answering Using Vision-Language Models [0.6149772262764599]
本稿では,FS-CS問題を視覚質問 (VQA) 問題に変換する視覚指導評価 (VISE) 手法を提案する。提案手法は,Pascal-5iおよびCOCO-20iデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-03-15T13:29:41Z)
Correlation-aware active learning for surgery video segmentation [13.327429312047396]
本研究は,手術ビデオセグメンテーション,COWAL,Correlation-aWare Active Learningのための新しいAL戦略を提案する。提案手法では、コントラスト学習を用いて微調整された遅延空間に画像を投影し、ビデオフレームの局所クラスタから一定数の代表画像を選択する。手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットに対して,本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-11-15T09:30:52Z)
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。 VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文参考訳（メタデータ） (2023-05-22T15:54:22Z)
Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。 Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文参考訳（メタデータ） (2022-12-06T18:59:58Z)
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文参考訳（メタデータ） (2022-09-14T05:47:02Z)
Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文参考訳（メタデータ） (2021-12-08T18:58:16Z)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。 CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2021-10-09T11:39:30Z)
Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても大規模なデータセットにはスケールしない我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文参考訳（メタデータ） (2020-11-02T17:34:45Z)
Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文参考訳（メタデータ） (2020-03-10T22:12:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。