論文の概要: AutoLabel: CLIP-based framework for Open-set Video Domain Adaptation
- arxiv url: http://arxiv.org/abs/2304.01110v2
- Date: Tue, 4 Apr 2023 08:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 10:30:18.919342
- Title: AutoLabel: CLIP-based framework for Open-set Video Domain Adaptation
- Title(参考訳): AutoLabel: オープンセットビデオドメイン適応のためのCLIPベースのフレームワーク
- Authors: Giacomo Zara, Subhankar Roy, Paolo Rota, Elisa Ricci
- Abstract要約: Open-set Unsupervised Video Domain Adaptation (OUVDA)は、ラベル付きソースドメインから非ラベル付きターゲットドメインへのアクション認識モデルを適応させるタスクを扱う。
我々は,OUVDA学習のための事前学習言語と視覚モデル(CLIP)を提案する。
AutoLabelを装備したCLIPは、ターゲットプライベートインスタンスを十分に拒否できることを示す。
- 参考スコア(独自算出の注目度): 17.967557389798362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-set Unsupervised Video Domain Adaptation (OUVDA) deals with the task of
adapting an action recognition model from a labelled source domain to an
unlabelled target domain that contains "target-private" categories, which are
present in the target but absent in the source. In this work we deviate from
the prior work of training a specialized open-set classifier or weighted
adversarial learning by proposing to use pre-trained Language and Vision Models
(CLIP). The CLIP is well suited for OUVDA due to its rich representation and
the zero-shot recognition capabilities. However, rejecting target-private
instances with the CLIP's zero-shot protocol requires oracle knowledge about
the target-private label names. To circumvent the impossibility of the
knowledge of label names, we propose AutoLabel that automatically discovers and
generates object-centric compositional candidate target-private class names.
Despite its simplicity, we show that CLIP when equipped with AutoLabel can
satisfactorily reject the target-private instances, thereby facilitating better
alignment between the shared classes of the two domains. The code is available.
- Abstract(参考訳): open-set unsupervised video domain adaptation (ouvda) は、ラベル付きソースドメインから、ターゲットに存在するがソースに存在しない"ターゲット-プライベート"カテゴリを含むラベル付きターゲットドメインへのアクション認識モデルを適用するタスクを扱う。
本研究は、事前学習された言語と視覚モデル(CLIP)の使用を提案することにより、特定のオープンセット分類器や重み付けされた対人学習を訓練する以前の作業から逸脱する。
CLIPは、リッチな表現とゼロショット認識機能のために、OUVDAに適している。
しかし、CLIPのゼロショットプロトコルでターゲットプライベートなインスタンスを拒否するには、ターゲットプライベートなラベル名に関するオラクルの知識が必要である。
本稿では,ラベル名の知識の欠如を回避するために,オブジェクト中心の合成候補クラス名を自動的に発見・生成するAutoLabelを提案する。
その単純さにもかかわらず、AutoLabelを装備したCLIPは、ターゲットプライベートなインスタンスを十分に拒否できるため、2つのドメインの共有クラス間のアライメントがより容易になる。
コードは利用可能です。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Unknown Prompt, the only Lacuna: Unveiling CLIP's Potential for Open Domain Generalization [12.126495847808803]
本稿では、視覚言語モデルCLIPのセマンティックな長所を生かしたODG-CLIPを紹介する。
我々はODGを、既知のカテゴリと新しいカテゴリの両方を包含する多クラス分類課題として概念化している。
我々は,CLIPの視覚的埋め込みの忠実度を高めるために,プロンプト空間から派生したクラス識別的知識で画像を注入する。
論文 参考訳(メタデータ) (2024-03-31T15:03:31Z) - Auto-Vocabulary Semantic Segmentation [13.410217680999462]
textitAuto-Vocabulary Semantics (AVS)を導入する。
本フレームワークは,拡張BLIP埋め込みを用いて,関連クラス名を自律的に識別する。
提案手法は,PASCAL VOCやContext,ADE20K,Cityscapes for AVSなどのデータセットに新たなベンチマークを設定する。
論文 参考訳(メタデータ) (2023-12-07T18:55:52Z) - CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。
CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。
提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文 参考訳(メタデータ) (2023-05-15T14:42:02Z) - What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Self-Paced Learning for Open-Set Domain Adaptation [50.620824701934]
従来のドメイン適応手法は、ソースとターゲットドメインのクラスが同一であると仮定する。
オープンセットドメイン適応(OSDA)は、この制限に対処する。
そこで,本研究では,共通クラスと未知クラスを識別するための自己評価学習に基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-10T14:11:09Z) - Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly
Supervised Semantic Segmentation [66.87777732230884]
本稿では,活性化対象領域の拡大を支援するために,Salliency Guided Inter-およびIntra-Class Relation Constrained (I$2$CRC) フレームワークを提案する。
また,オブジェクトガイド付きラベルリファインメントモジュールを導入し,セグメンテーション予測と初期ラベルをフル活用し,優れた擬似ラベルを得る。
論文 参考訳(メタデータ) (2022-06-20T03:40:56Z) - Progressively Select and Reject Pseudo-labelled Samples for Open-Set
Domain Adaptation [26.889303784575805]
ドメイン適応は、ラベル付きソースデータと未ラベルのターゲットデータを利用して、ターゲット領域の画像分類問題を解決する。
提案手法は,OSLPP(Open-Set Locality Preserving Projection)アルゴリズムを用いて,ソース領域とターゲット領域の識別的共通部分空間を学習する。
共通部分空間学習と擬似ラベル付きサンプル選択/拒絶は反復学習フレームワークにおいて互いに促進する。
論文 参考訳(メタデータ) (2021-10-25T04:28:55Z) - Your Classifier can Secretly Suffice Multi-Source Domain Adaptation [72.47706604261992]
マルチソースドメイン適応(MSDA)は、複数のラベル付きソースドメインからラベルなしターゲットドメインへのタスク知識の転送を扱う。
ラベル管理下のドメインを暗黙的に整列させる深層モデルが観察されるMSDAに対して、異なる視点を提示する。
論文 参考訳(メタデータ) (2021-03-20T12:44:13Z) - Prototypical Pseudo Label Denoising and Target Structure Learning for
Domain Adaptive Semantic Segmentation [24.573242887937834]
ドメイン適応セグメンテーションにおける競争的アプローチは、ターゲットドメインの擬似ラベルでネットワークを訓練する。
さらに一歩進めて,単なるプロトタイプよりも豊富な情報を提供するプロトタイプからの機能距離を活用する。
学習済みの知識を自己教師付き事前学習モデルに蒸留することで,さらなる性能向上が期待できる。
論文 参考訳(メタデータ) (2021-01-26T18:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。