論文の概要: Granularity-aware Adaptation for Image Retrieval over Multiple Tasks
- arxiv url: http://arxiv.org/abs/2210.02254v1
- Date: Wed, 5 Oct 2022 13:31:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 14:20:28.640574
- Title: Granularity-aware Adaptation for Image Retrieval over Multiple Tasks
- Title(参考訳): 複数のタスクに対する画像検索のための粒度認識適応
- Authors: Jon Almaz\'an, Byungsoo Ko, Geonmo Gu, Diane Larlus, Yannis Kalantidis
- Abstract要約: Grappaは、強い事前訓練されたモデルから始まり、複数の検索タスクに同時に取り組むように適応するアプローチである。
我々は、全てのアダプタ集合を、融合層を学習することにより、全ての検索タスクに適した単一の統一モデルに再構成する。
6つの異種検索タスクからなるベンチマークの結果,教師なしのGrappaモデルでは,最先端の自己教師型学習モデルのゼロショット性能が向上することが示された。
- 参考スコア(独自算出の注目度): 30.505620321478688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Strong image search models can be learned for a specific domain, ie. set of
labels, provided that some labeled images of that domain are available. A
practical visual search model, however, should be versatile enough to solve
multiple retrieval tasks simultaneously, even if those cover very different
specialized domains. Additionally, it should be able to benefit from even
unlabeled images from these various retrieval tasks. This is the more practical
scenario that we consider in this paper. We address it with the proposed
Grappa, an approach that starts from a strong pretrained model, and adapts it
to tackle multiple retrieval tasks concurrently, using only unlabeled images
from the different task domains. We extend the pretrained model with multiple
independently trained sets of adaptors that use pseudo-label sets of different
sizes, effectively mimicking different pseudo-granularities. We reconcile all
adaptor sets into a single unified model suited for all retrieval tasks by
learning fusion layers that we guide by propagating pseudo-granularity
attentions across neighbors in the feature space. Results on a benchmark
composed of six heterogeneous retrieval tasks show that the unsupervised Grappa
model improves the zero-shot performance of a state-of-the-art self-supervised
learning model, and in some places reaches or improves over a task label-aware
oracle that selects the most fitting pseudo-granularity per task.
- Abstract(参考訳): 強い画像検索モデルは特定のドメインに対して学習することができる。
ラベルのセットで、そのドメインのラベル付きイメージが利用可能である。
しかし、現実的なビジュアル検索モデルは、非常に異なる専門領域をカバーする場合でも、複数の検索タスクを同時に解くのに十分な汎用性を持つべきである。
さらに、これらのさまざまな検索タスクからラベルなしの画像からも恩恵を受けられるはずです。
これは我々が本論文で考えるより実践的なシナリオである。
提案するgrappaは,強い事前学習モデルから始めて,異なるタスク領域のラベルなしイメージのみを使用して,複数の検索タスクを同時に処理する手法である。
プリトレーニングされたモデルを、異なるサイズの擬似ラベルセットを使用する複数の独立に訓練されたアダプタセットで拡張し、異なる擬似粒度を効果的に模倣する。
特徴空間内の近傍の擬似粒度注意を伝播させることで導いた融合層を学習することにより、全ての適応集合を、全ての検索タスクに適した単一の統一モデルに再構成する。
6つの異種検索タスクからなるベンチマークの結果、教師なしのGrappaモデルは最先端の自己教師付き学習モデルのゼロショット性能を改善し、ある場所ではタスク毎の最も適した擬似粒度を選択するタスクラベル認識オラクルに到達または改善することを示した。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - Multi-Domain Learning with Modulation Adapters [33.54630534228469]
マルチドメイン学習は、複数のドメインにまたがる画像分類など、関連するタスクを同時に処理することを目的としている。
変調アダプタは、各タスクに対して乗法的にモデルの畳み込み重みを更新する。
我々のアプローチは、既存の最先端のアプローチと同等かそれ以上の精度で、優れた結果をもたらす。
論文 参考訳(メタデータ) (2023-07-17T14:40:16Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - A Generalist Framework for Panoptic Segmentation of Images and Videos [61.61453194912186]
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティクスセグメンテーションを定式化する。
単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。
本手法は,動画を(ストリーミング環境で)モデル化し,オブジェクトのインスタンスを自動的に追跡することを学ぶ。
論文 参考訳(メタデータ) (2022-10-12T16:18:25Z) - Semantic Diversity Learning for Zero-Shot Multi-label Classification [14.480713752871523]
本研究では,マルチラベルゼロショット学習のためのエンドツーエンドモデルトレーニングを提案する。
本研究では,主埋め込みベクトルを持つ埋め込み行列を用いて,調整された損失関数を用いて訓練する。
さらに, 学習中, 組込み行列の多様性を促進するために, 高い意味的多様性を示す損失関数画像サンプルの重み付けを提案する。
論文 参考訳(メタデータ) (2021-05-12T19:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。