論文の概要: DQ-Det: Learning Dynamic Query Combinations for Transformer-based Object
Detection and Segmentation
- arxiv url: http://arxiv.org/abs/2307.12239v1
- Date: Sun, 23 Jul 2023 06:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 17:10:32.318619
- Title: DQ-Det: Learning Dynamic Query Combinations for Transformer-based Object
Detection and Segmentation
- Title(参考訳): DQ-Det: トランスフォーマーに基づくオブジェクト検出とセグメンテーションのための動的クエリの組み合わせ学習
- Authors: Yiming Cui, Linjie Yang, Haichao Yu
- Abstract要約: トランスフォーマーに基づく検出とセグメンテーション方法は、学習された検出クエリのリストを使用して、トランスフォーマーネットワークから情報を取得する。
学習したクエリの無作為な凸の組み合わせは、まだ対応するモデルに相応しいことを実証的に見出した。
本稿では,画像の高レベルな意味論に基づいて,動的係数と凸の組み合わせを学習することを提案する。
- 参考スコア(独自算出の注目度): 37.24532930188581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based detection and segmentation methods use a list of learned
detection queries to retrieve information from the transformer network and
learn to predict the location and category of one specific object from each
query. We empirically find that random convex combinations of the learned
queries are still good for the corresponding models. We then propose to learn a
convex combination with dynamic coefficients based on the high-level semantics
of the image. The generated dynamic queries, named modulated queries, better
capture the prior of object locations and categories in the different images.
Equipped with our modulated queries, a wide range of DETR-based models achieve
consistent and superior performance across multiple tasks including object
detection, instance segmentation, panoptic segmentation, and video instance
segmentation.
- Abstract(参考訳): Transformerベースの検出とセグメンテーション方法は、学習した検出クエリのリストを使用して、トランスフォーマーネットワークから情報を取得し、各クエリから特定のオブジェクトの位置とカテゴリを予測する。
学習したクエリの無作為な凸の組み合わせは、まだ対応するモデルに相応しいことを実証的に見出した。
次に,画像の高レベルなセマンティクスに基づいて,動的係数との凸結合を学習することを提案する。
生成された動的クエリ、名前付き変調クエリは、異なる画像内のオブジェクトの位置やカテゴリをよりよくキャプチャする。
変調クエリにより、オブジェクト検出、インスタンスセグメンテーション、パノスコープセグメンテーション、ビデオインスタンスセグメンテーションを含む複数のタスクにおいて、広範囲のDETRベースのモデルが一貫性と優れたパフォーマンスを達成する。
関連論文リスト
- Language-aware Multiple Datasets Detection Pretraining for DETRs [4.939595148195813]
本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-07T10:34:04Z) - FAQ: Feature Aggregated Queries for Transformer-based Video Object
Detectors [37.38250825377456]
我々は,ビデオオブジェクトの検出について異なる視点を採り,より詳しくは,トランスフォーマーベースのモデルに対するクエリのアグリゲーションによる品質向上を図っている。
ImageNet VIDベンチマークでは、提案したモジュールと統合した場合、現在の最先端のTransformerベースのオブジェクト検出器は、mAPでは2.4%以上、AP50では4.2%以上改善できる。
論文 参考訳(メタデータ) (2023-03-15T02:14:56Z) - Learning Equivariant Segmentation with Instance-Unique Querying [47.52528819153683]
我々は、差別的なクエリ埋め込み学習を通じて、クエリベースのモデルを強化する新しいトレーニングフレームワークを考案した。
我々のアルゴリズムは、トレーニングデータセット全体から対応するインスタンスを検索するためにクエリを使用します。
4つの有名なクエリベースのモデルに加えて、トレーニングアルゴリズムは大きなパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2022-10-03T13:14:00Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Visual Transformers with Primal Object Queries for Multi-Label Image
Classification [32.63955272381003]
本稿では,トランスデコーダスタックの開始時にのみ提供されるプライマリオブジェクトクエリの利用法を提案する。
プリミティブオブジェクトクエリを用いたトランスフォーマーモデルでは、最先端のクラスであるF1メトリックスを2.1%と1.8%改善する。
論文 参考訳(メタデータ) (2021-12-10T12:29:07Z) - Vision-Language Transformer and Query Generation for Referring
Segmentation [39.01244764840372]
我々は参照セグメンテーションを直接的な注意問題として再検討する。
エンコーダとデコーダのアテンション機構を組み込んだネットワークを構築し、与えられた画像を言語表現で"クエリ"する。
我々のアプローチは軽量であり、3つの参照セグメンテーションデータセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-12T07:24:35Z) - Visual Composite Set Detection Using Part-and-Sum Transformers [74.26037922682355]
本稿では,エンドツーエンドのコンポジットセット検出を行うために,PST(Part-and-Sum Detection Transformer)という新しい手法を提案する。
PSTは、カスタムデザインの2段階モデルの結果とほぼ一致しながら、シングルステージモデル間で最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-05-05T16:31:32Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。