論文の概要: Universal Few-shot Learning of Dense Prediction Tasks with Visual Token
Matching
- arxiv url: http://arxiv.org/abs/2303.14969v1
- Date: Mon, 27 Mar 2023 07:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 16:26:31.492625
- Title: Universal Few-shot Learning of Dense Prediction Tasks with Visual Token
Matching
- Title(参考訳): ビジュアルトークンマッチングを用いた密集予測タスクのユニバーサル・マイズショット学習
- Authors: Donggyun Kim, Jinwoo Kim, Seongwoong Cho, Chong Luo, Seunghoon Hong
- Abstract要約: 任意の密接な予測タスクに対して,ビジュアルトークンマッチング(VTM)を汎用的な数ショット学習として提案する。
VTMは、マッチングアルゴリズムを変調するタスク固有のパラメータの少ないタスクに柔軟に適応する。
我々は,タスクノミーデータセットの挑戦的な変種を用いてVTMを実験し,無意味な高密度な予測タスクを頑健に学習していることを観察した。
- 参考スコア(独自算出の注目度): 26.26540176172197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense prediction tasks are a fundamental class of problems in computer
vision. As supervised methods suffer from high pixel-wise labeling cost, a
few-shot learning solution that can learn any dense task from a few labeled
images is desired. Yet, current few-shot learning methods target a restricted
set of tasks such as semantic segmentation, presumably due to challenges in
designing a general and unified model that is able to flexibly and efficiently
adapt to arbitrary tasks of unseen semantics. We propose Visual Token Matching
(VTM), a universal few-shot learner for arbitrary dense prediction tasks. It
employs non-parametric matching on patch-level embedded tokens of images and
labels that encapsulates all tasks. Also, VTM flexibly adapts to any task with
a tiny amount of task-specific parameters that modulate the matching algorithm.
We implement VTM as a powerful hierarchical encoder-decoder architecture
involving ViT backbones where token matching is performed at multiple feature
hierarchies. We experiment VTM on a challenging variant of Taskonomy dataset
and observe that it robustly few-shot learns various unseen dense prediction
tasks. Surprisingly, it is competitive with fully supervised baselines using
only 10 labeled examples of novel tasks (0.004% of full supervision) and
sometimes outperforms using 0.1% of full supervision. Codes are available at
https://github.com/GitGyun/visual_token_matching.
- Abstract(参考訳): デンス予測タスクはコンピュータビジョンの基本的な問題である。
教師付き手法は高ピクセルラベリングコストに悩まされるため、ラベル付き画像から高密度なタスクを学習できる数ショットの学習ソリューションが望まれる。
しかし、現在の少数ショット学習法は、セマンティクスのセグメンテーションのような制限されたタスクを対象としており、これはおそらく、暗黙のセマンティクスの任意のタスクに柔軟かつ効率的に適応できる汎用的で統一されたモデルを設計することの難しさによるものと思われる。
任意の密接な予測タスクのための汎用的な数ショット学習システムであるVisual Token Matching (VTM)を提案する。
すべてのタスクをカプセル化するイメージやラベルのパッチレベルの埋め込みトークンに対して、非パラメトリックマッチングを採用する。
また、VTMは、マッチングアルゴリズムを変調するタスク固有のパラメータの少ないタスクに柔軟に適応する。
複数の特徴階層でトークンマッチングを行うViTバックボーンを含む強力な階層エンコーダデコーダアーキテクチャとして,VTMを実装した。
我々は,タスクノミーデータセットの挑戦的な変種を用いてVTMを実験し,不明瞭な予測タスクを頑健に学習することを確認する。
驚くべきことに、新しいタスクのラベル付き例(完全な監督の0.004%)のみを使用して、完全に監督されたベースラインと競合する。
コードはhttps://github.com/gitgyun/visual_token_matchingで入手できる。
関連論文リスト
- Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - All in Tokens: Unifying Output Space of Visual Tasks via Soft Token [30.6086480249568]
インスタンス分割と深度推定の2つの典型的な視覚的タスクを同時に扱う単一の統一モデルを示す。
本稿では,視覚的タスクの特異性を考慮した新しい手法を提案する。
我々はNYUv2深度推定の特定のタスクに対して0.279 RMSEを達成し、このベンチマークで新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-01-05T18:55:20Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - Automated Self-Supervised Learning for Graphs [37.14382990139527]
本研究の目的は、複数のプリテキストタスクを効果的に活用する方法を検討することである。
我々は、多くの実世界のグラフ、すなわちホモフィリーの鍵となる原理を、様々な自己教師付きプレテキストタスクを効果的に探索するためのガイダンスとして利用している。
本稿では,自己教師型タスクの組み合わせを自動的に検索するAutoSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-10T03:09:20Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - MTL-NAS: Task-Agnostic Neural Architecture Search towards
General-Purpose Multi-Task Learning [71.90902837008278]
汎用マルチタスク学習(GP-MTL)にニューラルアーキテクチャサーチ(NAS)を導入することを提案する。
異なるタスクの組み合わせに対応するため、GP-MTLネットワークを単一タスクのバックボーンに分割する。
また,探索されたアーキテクチャ間の性能ギャップを埋める単一ショット勾配に基づく探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-31T09:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。