論文の概要: Prototype-Aware Multimodal Alignment for Open-Vocabulary Visual Grounding
- arxiv url: http://arxiv.org/abs/2509.06291v1
- Date: Mon, 08 Sep 2025 02:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.946146
- Title: Prototype-Aware Multimodal Alignment for Open-Vocabulary Visual Grounding
- Title(参考訳): Open-Vocabulary Visual Groundingのためのプロトタイプ対応マルチモーダルアライメント
- Authors: Jiangnan Xie, Xiaolong Zheng, Liang Zheng,
- Abstract要約: Prototype-Aware Multimodal Learning (PAML) は、視覚的・言語的モダリティの不完全整合、クロスモーダルな特徴融合の欠如、意味的プロトタイプ情報の有効利用に対処する革新的なフレームワークである。
我々のフレームワークは,オープン語彙シーンにおける最先端の成果を達成しつつ,標準的な場面での競争性能を示す。
- 参考スコア(独自算出の注目度): 11.244257545057508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Grounding (VG) aims to utilize given natural language queries to locate specific target objects within images. While current transformer-based approaches demonstrate strong localization performance in standard scene (i.e, scenarios without any novel objects), they exhibit notable limitations in open-vocabulary scene (i.e, both familiar and novel object categories during testing). These limitations primarily stem from three key factors: (1) imperfect alignment between visual and linguistic modalities, (2) insufficient cross-modal feature fusion, and (3) ineffective utilization of semantic prototype information. To overcome these challenges, we present Prototype-Aware Multimodal Learning (PAML), an innovative framework that systematically addresses these issues through several key components: First, we leverage ALBEF to establish robust cross-modal alignment during initial feature encoding. Subsequently, our Visual Discriminative Feature Encoder selectively enhances salient object representations while suppressing irrelevant visual context. The framework then incorporates a novel prototype discovering and inheriting mechanism that extracts and aggregates multi-neighbor semantic prototypes to facilitate open-vocabulary recognition. These enriched features undergo comprehensive multimodal integration through our Multi-stage Decoder before final bounding box regression. Extensive experiments across five benchmark datasets validate our approach, showing competitive performance in standard scene while achieving state-of-the-art results in open-vocabulary scene. Our code is available at https://github.com/plankXie/PAML.
- Abstract(参考訳): Visual Grounding (VG) は、与えられた自然言語クエリを使用して、イメージ内の特定のターゲットオブジェクトを特定することを目的としている。
現在のトランスフォーマーベースのアプローチは、標準的なシーン(新しいオブジェクトを持たないシナリオ)において強力なローカライズ性能を示す一方で、オープンな語彙シーン(テスト中に慣れ親しんだものと新しいオブジェクトカテゴリの両方)において顕著な制限を示す。
これらの制限は,(1) 視覚的・言語的モダリティの不完全整合,(2) クロスモーダルな特徴融合の不十分,(3) 意味的プロトタイプ情報の有効利用の3つの要因に起因している。
これらの課題を克服するために、我々は、いくつかの重要なコンポーネントを通してこれらの問題に体系的に対処する革新的なフレームワークであるPrototype-Aware Multimodal Learning (PAML)を紹介した。
その後、視覚的識別特徴エンコーダは、無関係な視覚的コンテキストを抑えながら、有能なオブジェクト表現を選択的に強化する。
このフレームワークは、複数の隣接するセマンティックプロトタイプを抽出して集約し、オープン語彙認識を容易にする新しいプロトタイプを組み込んだ。
これらのリッチな機能は、最終バウンディングボックス回帰の前に、マルチステージデコーダを通じて包括的なマルチモーダル統合を行います。
5つのベンチマークデータセットにわたる大規模な実験により、私たちのアプローチが検証され、標準シーンでの競争性能が示され、オープン語彙シーンで最先端の結果が得られます。
私たちのコードはhttps://github.com/plankXie/PAMLで利用可能です。
関連論文リスト
- Text-guided Visual Prompt DINO for Generic Segmentation [31.33676182634522]
テキスト誘導型ビジュアルプロンプトDINOフレームワークであるPrompt-DINOを提案する。
まず、テキスト/視覚的プロンプトとバックボーン機能を統一する早期融合機構を導入する。
第二に、DreTRアーキテクチャの順序整合クエリ選択を設計する。
第3に,PR(Prompting, Prompting, Prompting, RAP)モデルによる認識情報を利用した生成データエンジンを開発する。
論文 参考訳(メタデータ) (2025-08-08T09:09:30Z) - MQADet: A Plug-and-Play Paradigm for Enhancing Open-Vocabulary Object Detection via Multimodal Question Answering [5.503514317063399]
既存のオープンボキャブラリ検出器は、複雑な視覚・テクスチャのミスアライメントと長い尾のカテゴリーの不均衡によって制限される。
マルチモーダルな大言語モデルのクロスモーダル推論機能を活用することで、既存のオープン語彙検出器を強化するための共通パラダイムであるMQADetを紹介する。
複雑なテキストと視覚的ターゲットを正確にローカライズするためにMLLMをガイドする3段階のMultimodal Question Answering (MQA) パイプラインを設計する。
論文 参考訳(メタデータ) (2025-02-23T07:59:39Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-Modal Prototypes for Open-World Semantic Segmentation [37.84805778548119]
セマンティックセグメンテーションをより包括的にサポートするために,テキストおよび視覚的手がかりを多モーダルプロトタイプとして包含することを提案する。
我々は,高レベル言語情報を多視点プロトタイプとして分解し,低レベル視覚情報をより意味のあるプロトタイプとして集約する。
弾性マスク予測モジュールに基づいて、ゼロショット、少数ショット、一般化されたタスクを1つのアーキテクチャで解くことができる。
論文 参考訳(メタデータ) (2023-07-05T03:27:31Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。