論文の概要: Visual Transformers with Primal Object Queries for Multi-Label Image
Classification
- arxiv url: http://arxiv.org/abs/2112.05485v1
- Date: Fri, 10 Dec 2021 12:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:48:05.218042
- Title: Visual Transformers with Primal Object Queries for Multi-Label Image
Classification
- Title(参考訳): 複数ラベル画像分類のためのプリマルオブジェクトクエリを用いた視覚変換器
- Authors: Vacit Oguz Yazici, Joost van de Weijer, Longlong Yu
- Abstract要約: 本稿では,トランスデコーダスタックの開始時にのみ提供されるプライマリオブジェクトクエリの利用法を提案する。
プリミティブオブジェクトクエリを用いたトランスフォーマーモデルでは、最先端のクラスであるF1メトリックスを2.1%と1.8%改善する。
- 参考スコア(独自算出の注目度): 32.63955272381003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label image classification is about predicting a set of class labels
that can be considered as orderless sequential data. Transformers process the
sequential data as a whole, therefore they are inherently good at set
prediction. The first vision-based transformer model, which was proposed for
the object detection task introduced the concept of object queries. Object
queries are learnable positional encodings that are used by attention modules
in decoder layers to decode the object classes or bounding boxes using the
region of interests in an image. However, inputting the same set of object
queries to different decoder layers hinders the training: it results in lower
performance and delays convergence. In this paper, we propose the usage of
primal object queries that are only provided at the start of the transformer
decoder stack. In addition, we improve the mixup technique proposed for
multi-label classification. The proposed transformer model with primal object
queries improves the state-of-the-art class wise F1 metric by 2.1% and 1.8%;
and speeds up the convergence by 79.0% and 38.6% on MS-COCO and NUS-WIDE
datasets respectively.
- Abstract(参考訳): マルチラベル画像分類は、順序のないシーケンシャルデータと見なせる一連のクラスラベルを予測することである。
変換器はシーケンシャルデータを全体として処理するので、本質的にセット予測に長けている。
オブジェクト検出タスクのために提案された最初のビジョンベースのトランスフォーマーモデルは、オブジェクトクエリの概念を導入した。
オブジェクトクエリは、画像内の関心領域を使用してオブジェクトクラスやバウンディングボックスをデコードするためにデコーダレイヤのアテンションモジュールによって使用される、学習可能な位置エンコーディングである。
しかし、異なるデコーダ層に同じオブジェクトクエリのセットを入力するとトレーニングが妨げられ、結果としてパフォーマンスが低下し、収束が遅れる。
本稿では,transformerデコーダスタックの開始時にのみ提供されるプリミティブオブジェクトクエリの利用を提案する。
さらに,マルチラベル分類のための混合手法の改良を行った。
提案手法では,ms-coco と nus-wide データセットでそれぞれ79.0% と 38.6% の収束速度を向上し,最新クラスの wise f1 メトリックを 2.1% と 1.8% 改善した。
関連論文リスト
- Fusion Transformer with Object Mask Guidance for Image Forgery Analysis [9.468075384561947]
OMG-Fuserは、様々な法医学的信号から情報を取り出すために設計された融合トランスフォーマーベースのネットワークである。
本手法は任意の数の法定信号で動作可能であり,解析に対象情報を利用する。
我々のモデルは、伝統的で斬新な偽造攻撃に対して堅牢であり、スクラッチからトレーニングを受けることなく、新しい信号で拡張することができる。
論文 参考訳(メタデータ) (2024-03-18T20:20:13Z) - Learning Dynamic Query Combinations for Transformer-based Object
Detection and Segmentation [37.24532930188581]
トランスフォーマーに基づく検出とセグメンテーション方法は、学習された検出クエリのリストを使用して、トランスフォーマーネットワークから情報を取得する。
学習したクエリの無作為な凸の組み合わせは、まだ対応するモデルに相応しいことを実証的に見出した。
本稿では,画像の高レベルな意味論に基づいて,動的係数と凸の組み合わせを学習することを提案する。
論文 参考訳(メタデータ) (2023-07-23T06:26:27Z) - Language-aware Multiple Datasets Detection Pretraining for DETRs [4.939595148195813]
本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-07T10:34:04Z) - FAQ: Feature Aggregated Queries for Transformer-based Video Object
Detectors [37.38250825377456]
我々は,ビデオオブジェクトの検出について異なる視点を採り,より詳しくは,トランスフォーマーベースのモデルに対するクエリのアグリゲーションによる品質向上を図っている。
ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。
論文 参考訳(メタデータ) (2023-03-15T02:14:56Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Intermediate Prototype Mining Transformer for Few-Shot Semantic
Segmentation [119.51445225693382]
Few-shotのセマンティックセマンティックセマンティクスは、いくつかのアノテーション付きサポートイメージの条件下で、ターゲットオブジェクトをクエリにセグメントすることを目的としている。
そこで本研究では,提案クエリから決定論的カテゴリ情報と適応的カテゴリ知識の両方をマイニングする中間プロトタイプを提案する。
各IPMT層では,サポート機能とクエリ機能の両方のオブジェクト情報をプロトタイプに伝達し,それを使ってクエリ機能マップを活性化する。
論文 参考訳(メタデータ) (2022-10-13T06:45:07Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Query2Label: A Simple Transformer Way to Multi-Label Classification [37.206922180245265]
本稿では,多ラベル分類問題に対する単純かつ効果的なアプローチを提案する。
提案手法はTransformerデコーダを用いてクラスラベルの存在を問い合わせる。
以前の作業と比較すると、新しいフレームワークはシンプルで、標準的なトランスフォーマーとビジョンバックボーンを使用し、効果的である。
論文 参考訳(メタデータ) (2021-07-22T17:49:25Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。