論文の概要: Self-Supervised Pyramid Representation Learning for Multi-Label Visual
Analysis and Beyond
- arxiv url: http://arxiv.org/abs/2208.14439v1
- Date: Tue, 30 Aug 2022 17:57:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 12:37:34.222970
- Title: Self-Supervised Pyramid Representation Learning for Multi-Label Visual
Analysis and Beyond
- Title(参考訳): マルチラベル視覚解析のための自己教師付きピラミッド表現学習
- Authors: Cheng-Yen Hsieh, Chih-Jung Chang, Fu-En Yang, Yu-Chiang Frank Wang
- Abstract要約: 本稿では,自己改善ピラミッド学習(SS-PRL)フレームワークを提案する。
提案したSS-PRLは、適切なプロトタイプを学習することで、パッチレベルでピラミッド表現を導出するように設計されている。
本稿では,モデル事前学習のためのSS-PRLを提案することにより,様々なアプリケーションに対するモデルの適応と微調整が容易に可能であることを示す。
- 参考スコア(独自算出の注目度): 31.36818611460614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While self-supervised learning has been shown to benefit a number of vision
tasks, existing techniques mainly focus on image-level manipulation, which may
not generalize well to downstream tasks at patch or pixel levels. Moreover,
existing SSL methods might not sufficiently describe and associate the above
representations within and across image scales. In this paper, we propose a
Self-Supervised Pyramid Representation Learning (SS-PRL) framework. The
proposed SS-PRL is designed to derive pyramid representations at patch levels
via learning proper prototypes, with additional learners to observe and relate
inherent semantic information within an image. In particular, we present a
cross-scale patch-level correlation learning in SS-PRL, which allows the model
to aggregate and associate information learned across patch scales. We show
that, with our proposed SS-PRL for model pre-training, one can easily adapt and
fine-tune the models for a variety of applications including multi-label
classification, object detection, and instance segmentation.
- Abstract(参考訳): 自己教師付き学習は多くの視覚タスクに役立つことが示されているが、既存の技術は主に画像レベルの操作に焦点を当てている。
さらに、既存のSSLメソッドは、画像スケール内および画像スケール内における上記の表現を十分に記述し、関連付けることができないかもしれない。
本稿では,自己改善ピラミッド表現学習(SS-PRL)フレームワークを提案する。
提案したSS-PRLは、適切なプロトタイプを学習することで、パッチレベルでのピラミッド表現を導出し、画像内の固有の意味情報を観察し、関連付けることができる。
特に,SS-PRLにおけるパッチレベルの相互相関学習について述べる。
提案するモデル事前学習のためのss-prlにより,マルチラベル分類,オブジェクト検出,インスタンスセグメンテーションなど,さまざまなアプリケーションのモデルに容易に適応し,微調整できることを示す。
関連論文リスト
- Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Few-Shot Classification & Segmentation Using Large Language Models Agent [0.7550566004119158]
本研究では,大規模言語モデル(LLM)をエージェントとして利用し,FS-CS問題にトレーニング不要で対処する手法を提案する。
提案手法はPascal-5iデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-19T00:33:41Z) - GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot
Learning [24.075034737719776]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、それらの特性を十分に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験では、提案したGBE-MLZSLが、最先端の手法よりも大きなマージンを持つことを示した。
論文 参考訳(メタデータ) (2023-09-02T12:07:21Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning [11.66422653137002]
本稿では,ゼロショット学習の課題設定における注意に基づくモデルを提案し,未知のクラス認識に有用な属性を学習する。
本手法では,視覚変換器に適応したアテンション機構を用いて,画像から小さなパッチに分割することで識別属性をキャプチャし,学習する。
論文 参考訳(メタデータ) (2021-07-30T19:08:44Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。