論文の概要: PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination
- arxiv url: http://arxiv.org/abs/2509.04833v1
- Date: Fri, 05 Sep 2025 06:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.492886
- Title: PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination
- Title(参考訳): PropVG:マルチグラニュラリティ識別によるエンドツーエンド提案駆動型ビジュアルグラウンド
- Authors: Ming Dai, Wenxuan Cheng, Jiedong Zhuang, Jiang-jiang Liu, Hongshen Zhao, Zhenhua Feng, Wankou Yang,
- Abstract要約: PropVGは、前景オブジェクトの提案生成と参照オブジェクトの理解をシームレスに統合するエンドツーエンドの提案ベースのフレームワークである。
文レベルと単語レベルでのコントラスト学習を活用し,参照対象の理解・識別能力を高めるコントラストベースの参照スコアリング(CRS)モジュールを提案する。
また、オブジェクトレベルと意味レベル情報を融合させて、欠落したターゲットの認識を改善するマルチグラニュラリティターゲット識別(MTD)モジュールを設計する。
- 参考スコア(独自算出の注目度): 23.54011217288122
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in visual grounding have largely shifted away from traditional proposal-based two-stage frameworks due to their inefficiency and high computational complexity, favoring end-to-end direct reference paradigms. However, these methods rely exclusively on the referred target for supervision, overlooking the potential benefits of prominent prospective targets. Moreover, existing approaches often fail to incorporate multi-granularity discrimination, which is crucial for robust object identification in complex scenarios. To address these limitations, we propose PropVG, an end-to-end proposal-based framework that, to the best of our knowledge, is the first to seamlessly integrate foreground object proposal generation with referential object comprehension without requiring additional detectors. Furthermore, we introduce a Contrastive-based Refer Scoring (CRS) module, which employs contrastive learning at both sentence and word levels to enhance the capability in understanding and distinguishing referred objects. Additionally, we design a Multi-granularity Target Discrimination (MTD) module that fuses object- and semantic-level information to improve the recognition of absent targets. Extensive experiments on gRefCOCO (GREC/GRES), Ref-ZOM, R-RefCOCO, and RefCOCO (REC/RES) benchmarks demonstrate the effectiveness of PropVG. The codes and models are available at https://github.com/Dmmm1997/PropVG.
- Abstract(参考訳): 視覚的基盤化の最近の進歩は、その非効率性と高い計算複雑性のため、従来のプロポーザルベースの2段階フレームワークから大きく移行し、エンドツーエンドの参照パラダイムが好まれている。
しかし、これらの手法は参照された監視対象にのみ依存しており、顕著な予測対象の潜在的な利益を見落としている。
さらに、既存のアプローチは、複雑なシナリオにおいて堅牢なオブジェクト識別に不可欠である多重粒度識別を組み込むことができないことが多い。
これらの制約に対処するため、我々は、私たちの知る限り、参照オブジェクトの理解を必要とせずに、前景オブジェクトの提案生成をシームレスに統合する、エンドツーエンドのプロポーザルベースのフレームワークであるPropVGを提案する。
さらに、文レベルと単語レベルでのコントラスト学習を利用して、参照対象の理解と識別の能力を高めるContrastive-based Refer Scoring (CRS)モジュールを導入する。
さらに,不在対象の認識を改善するために,オブジェクトレベルと意味レベル情報を融合したMTDモジュールを設計する。
gRefCOCO(GREC/GRES)、Ref-ZOM、R-RefCOCO、RefCOCO(REC/RES)ベンチマークに関する大規模な実験は、PropVGの有効性を実証している。
コードとモデルはhttps://github.com/Dmmm1997/PropVGで入手できる。
関連論文リスト
- Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation [61.37076111486196]
Ref-AVSは、対象のオブジェクトを所定の参照表現に基づいて可聴ビデオに分割することを目的としている。
本稿では,タスクをThink-Ground-Segmentプロセスに分解するTGS-Agentを提案する。
Ref-Thinkerはマルチモーダル言語モデルであり、テキスト、視覚、聴覚の手がかりを推論することができる。
論文 参考訳(メタデータ) (2025-08-06T13:05:09Z) - CoHD: A Counting-Aware Hierarchical Decoding Framework for Generalized Referring Expression Segmentation [37.96005100341482]
Generalized Referring Expression (GRES)は、複雑な多重/非ターゲットシナリオを含むことによって、古典的なRESの定式化を増幅する。
近年のアプローチでは、オブジェクト指向の識別により、よく認識されたRESフレームワークを直接拡張することで、GRESに対処している。
GRESのための textbfCounting-Aware textbfHierarchical textbfDecoding framework (CoHD) を提案する。
論文 参考訳(メタデータ) (2024-05-24T15:53:59Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - PETDet: Proposal Enhancement for Two-Stage Fine-Grained Object Detection [26.843891792018447]
PETDet (Proposal Enhancement for Two-stage fine-fine object detection) は, 2段階FGOD法において, サブタスクをよりよく扱うために提案される。
動的ラベル割り当てと注意に基づく分解により, アンカーフリー品質指向提案ネットワーク(QOPN)を提案する。
A novel Adaptive Recognition Loss (ARL)は、R-CNNの責任者が高品質な提案に焦点を合わせるためのガイダンスを提供する。
論文 参考訳(メタデータ) (2023-12-16T18:04:56Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - Contrastive Proposal Extension with LSTM Network for Weakly Supervised
Object Detection [52.86681130880647]
画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD (Weakly supervised Object Detection) が注目されている。
本稿では,初期提案と拡張提案を比較して,初期提案を最適化する手法を提案する。
PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。
論文 参考訳(メタデータ) (2021-10-14T16:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。