論文の概要: PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection
- arxiv url: http://arxiv.org/abs/2603.06917v1
- Date: Fri, 06 Mar 2026 22:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.397679
- Title: PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection
- Title(参考訳): PaQ-DETR:物体検出のための学習パターンと品質を考慮した動的クエリ
- Authors: Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang,
- Abstract要約: PaQ-DETR(Pattern and Quality-Aware DETR)は、クエリ適応性と監視バランスを高める統合フレームワークである。
グローバルなセマンティクスをキャプチャし、画像固有のクエリを動的に生成する、共有潜在パターンのコンパクトなセットを学ぶ。
COCO、CityScapes、その他のベンチマークの実験では、DETRバックボーン全体で1.5%-4.2% mAPが一貫した上昇を示した。
- 参考スコア(独自算出の注目度): 12.128587982317974
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Detection Transformer (DETR) has redefined object detection by casting it as a set prediction task within an end-to-end framework. Despite its elegance, DETR and its variants still rely on fixed learnable queries and suffer from severe query utilization imbalance, which limits adaptability and leaves the model capacity underused. We propose PaQ-DETR (Pattern and Quality-Aware DETR), a unified framework that enhances both query adaptivity and supervision balance. It learns a compact set of shared latent patterns capturing global semantics and dynamically generates image-specific queries through content-conditioned weighting. In parallel, a quality-aware one-to-many assignment strategy adaptively selects positive samples based on localizatio-classification consistency, enriching supervision and promoting balanced query optimization. Experiments on COCO, CityScapes, and other benchmarks show consistent gains of 1.5%-4.2% mAP across DETR backbones, including ResNet and Swin-Transformer. Beyond accuracy improvement, our method provides interpretable insights into how dynamic patterns cluster semantically across object categories.
- Abstract(参考訳): Detection Transformer (DETR)は、オブジェクト検出を再定義し、それをエンドツーエンドフレームワーク内のセット予測タスクとしてキャストする。
その優雅さにもかかわらず、DETRとその変種は依然として一定の学習可能なクエリに依存しており、厳格なクエリ利用の不均衡に悩まされており、適応性を制限し、モデルのキャパシティを過小評価している。
クエリ適応性と監視バランスを両立させる統合フレームワークPaQ-DETR(Pattern and Quality-Aware DETR)を提案する。
グローバルセマンティクスをキャプチャする共有潜在パターンのコンパクトなセットを学び、コンテント条件付き重み付けによって画像固有のクエリを動的に生成する。
並行して、品質を意識した1対多の割当て戦略は、ローカライズ-分類整合性に基づいて正のサンプルを適応的に選択し、監督を強化し、バランスの取れたクエリ最適化を促進する。
COCO、CityScapes、その他のベンチマークの実験では、ResNetやSwin-Transformerなど、DeTRのバックボーン間で1.5%-4.2%のmAPが一貫した上昇を示した。
本手法は,精度の向上以外にも,オブジェクトカテゴリ間で動的パターンがセマンティックにクラスタリングされる方法についての解釈可能な知見を提供する。
関連論文リスト
- IMRNNs: An Efficient Method for Interpretable Dense Retrieval via Embedding Modulation [10.74445059832999]
ブラックボックスの高密度レトリバーの解釈性は、リトリーバル強化世代における中心的な課題である。
IMRNN(Interpretable Modular Retrieval Neural Networks)は,高密度検索を推論時に動的,双方向の変調で拡張する軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-27T22:02:51Z) - Source-Free Object Detection with Detection Transformer [59.33653163035064]
Source-Free Object Detection (SFOD) は、ソースデータにアクセスすることなく、ソースドメインから教師なしのターゲットドメインへの知識転送を可能にする。
ほとんどの既存のSFODアプローチは、より高速なR-CNNのような従来のオブジェクト検出(OD)モデルに限られるか、新しいODアーキテクチャ、特に検出変換器(DETR)に適合しない一般的なソリューションとして設計されている。
本稿では,DTRのクエリ中心の機能強化を特化して設計された新しいSFODフレームワークであるFeature Reweighting ANd Contrastive Learning NetworK(FRANCK)を紹介する。
論文 参考訳(メタデータ) (2025-10-13T07:35:04Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - Efficient and Effective Query Context-Aware Learning-to-Rank Model for Sequential Recommendation [0.02638878351659022]
本稿では、クエリコンテキストの異なる戦略を因果言語モデリング手法で訓練された変換器に組み込む。
そこで本稿では,アイテムシーケンスをアテンションメカニズム内でクエリコンテキストと効果的に融合する手法を提案する。
論文 参考訳(メタデータ) (2025-07-04T19:50:01Z) - Effective Instruction Parsing Plugin for Complex Logical Query Answering on Knowledge Graphs [51.33342412699939]
知識グラフクエリ埋め込み(KGQE)は、不完全なKGに対する複雑な推論のために、低次元KG空間に一階論理(FOL)クエリを埋め込むことを目的としている。
近年の研究では、FOLクエリの論理的セマンティクスをよりよく捉えるために、さまざまな外部情報(エンティティタイプや関係コンテキストなど)を統合している。
コードのようなクエリ命令から遅延クエリパターンをキャプチャする効果的なクエリ命令解析(QIPP)を提案する。
論文 参考訳(メタデータ) (2024-10-27T03:18:52Z) - Deep Content Understanding Toward Entity and Aspect Target Sentiment Analysis on Foundation Models [0.8602553195689513]
Entity-Aspect Sentiment Triplet extract (EASTE)は、Aspect-Based Sentiment Analysisタスクである。
本研究は,EASTEタスクにおける高性能化を目標とし,モデルサイズ,タイプ,適応技術がタスクパフォーマンスに与える影響について検討する。
最終的には、複雑な感情分析における詳細な洞察と最先端の成果を提供する。
論文 参考訳(メタデータ) (2024-07-04T16:48:14Z) - Enhancing DETRs Variants through Improved Content Query and Similar Query Aggregation [27.07277433645018]
SACQ(Self-Adaptive Content Query)を新たに導入する。
SACQは自己アテンションプーリングを通じてコンテンツクエリを生成する。
候補クエリを入力イメージに適応させることで、より包括的なコンテンツが事前に提供され、ターゲットオブジェクトにもっとフォーカスできるようになる。
我々は、SACQと協調するクエリ集約戦略を提案し、類似の予測候補を異なるクエリからマージし、最適化を緩和する。
論文 参考訳(メタデータ) (2024-05-06T09:50:04Z) - D2Q-DETR: Decoupling and Dynamic Queries for Oriented Object Detection
with Transformers [14.488821968433834]
オブジェクト指向オブジェクト検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークはDETRに基づいており、ボックスレグレッションヘッドはポイント予測ヘッドに置き換えられている。
最大かつ挑戦的なDOTA-v1.0データセットとDOTA-v1.5データセットの実験は、D2Q-DETRが既存のNMSベースおよびNMSのないオブジェクト指向オブジェクト検出方法より優れていることを示している。
論文 参考訳(メタデータ) (2023-03-01T14:36:19Z) - Self-Support Few-Shot Semantic Segmentation [72.43667576285445]
本稿では,クエリ機能にマッチするクエリのプロトタイプを利用する,新しいセルフサポートマッチング戦略を提案する。
また,適応型自己サポート型バックグラウンドプロトタイプ生成モジュールと自己サポート型プロトタイプ生成モジュールを提案し,自己サポート型マッチング手順をより容易にする。
我々の自己サポートネットワークは、プロトタイプの品質を大幅に向上させ、より強力なバックボーンとサポートの改善を享受し、複数のデータセット上でSOTAを達成する。
論文 参考訳(メタデータ) (2022-07-23T16:28:07Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。