論文の概要: State and Scene Enhanced Prototypes for Weakly Supervised Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2511.18012v1
- Date: Sat, 22 Nov 2025 10:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.584048
- Title: State and Scene Enhanced Prototypes for Weakly Supervised Open-Vocabulary Object Detection
- Title(参考訳): 弱教師付きオープンボキャブラリオブジェクト検出のための状態とシーン強化プロトタイプ
- Authors: Jiaying Zhou, Qingchao Chen,
- Abstract要約: 既存のセマンティックプロトタイプは、異なるオブジェクト状態によって引き起こされる豊富なクラス内の視覚的バリエーションをキャプチャできない。
標準的な擬似ボックス生成は、視覚領域の提案とオブジェクト中心のテキスト埋め込みのセマンティックなミスマッチを導入する。
セマンティック・プロトタイプ(SESP)とSAPP(Scene-Augmented Pseudo Prototypes)を導入し,セマンティック・ミスマッチに対処する。
- 参考スコア(独自算出の注目度): 23.788375360674063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-Vocabulary Object Detection (OVOD) aims to generalize object recognition to novel categories, while Weakly Supervised OVOD (WS-OVOD) extends this by combining box-level annotations with image-level labels. Despite recent progress, two critical challenges persist in this setting. First, existing semantic prototypes, even when enriched by LLMs, are static and limited, failing to capture the rich intra-class visual variations induced by different object states (e.g., a cat's pose). Second, the standard pseudo-box generation introduces a semantic mismatch between visual region proposals (which contain context) and object-centric text embeddings. To tackle these issues, we introduce two complementary prototype enhancement strategies. To capture intra-class variations in appearance and state, we propose the State-Enhanced Semantic Prototypes (SESP), which generates state-aware textual descriptions (e.g., "a sleeping cat") to capture diverse object appearances, yielding more discriminative prototypes. Building on this, we further introduce Scene-Augmented Pseudo Prototypes (SAPP) to address the semantic mismatch. SAPP incorporates contextual semantics (e.g., "cat lying on sofa") and utilizes a soft alignment mechanism to promote contextually consistent visual-textual representations. By integrating SESP and SAPP, our method effectively enhances both the richness of semantic prototypes and the visual-textual alignment, achieving notable improvements.
- Abstract(参考訳): Open-Vocabulary Object Detection (OVOD) はオブジェクト認識を新しいカテゴリに一般化することを目的としており、Wakly Supervised OVOD (WS-OVOD) はボックスレベルのアノテーションとイメージレベルのラベルを組み合わせることでこれを拡張している。
最近の進歩にもかかわらず、この環境では2つの重要な課題が続いている。
まず、既存のセマンティックプロトタイプは、LLMによって豊かにされているとしても、静的で制限されており、異なるオブジェクト状態(例えば、猫のポーズ)によって引き起こされる豊富なクラス内の視覚的バリエーションをキャプチャできない。
第二に、標準的な擬似ボックス生成は、視覚領域の提案(コンテキストを含む)とオブジェクト中心のテキスト埋め込みのセマンティックミスマッチを導入する。
これらの課題に対処するために,2つの補完的なプロトタイプ拡張戦略を導入する。
外観と状態のクラス内変異を捉えるために,状態認識型テキスト記述(例えば「寝ている猫」など)を生成し,多様なオブジェクトの外観をキャプチャし,より差別的なプロトタイプを生成する「状態拡張セマンティックプロトタイプ(SESP)」を提案する。
これに基づいて、セマンティックミスマッチに対応するためにSAPP(Scene-Augmented Pseudo Prototypes)についても紹介する。
SAPPは文脈意味論(例えば「ソファーに横たわる猫」)を取り入れ、ソフトアライメント機構を用いて文脈的に一貫した視覚・テクスチャ表現を促進する。
SESPとSAPPを統合することで、セマンティックプロトタイプの豊かさと視覚的テキストアライメントの両方を効果的に強化し、顕著な改善を実現した。
関連論文リスト
- Prototype-Aware Multimodal Alignment for Open-Vocabulary Visual Grounding [11.244257545057508]
Prototype-Aware Multimodal Learning (PAML) は、視覚的・言語的モダリティの不完全整合、クロスモーダルな特徴融合の欠如、意味的プロトタイプ情報の有効利用に対処する革新的なフレームワークである。
我々のフレームワークは,オープン語彙シーンにおける最先端の成果を達成しつつ,標準的な場面での競争性能を示す。
論文 参考訳(メタデータ) (2025-09-08T02:27:10Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - AlignCAT: Visual-Linguistic Alignment of Category and Attribute for Weakly Supervised Visual Grounding [56.972490764212175]
弱教師付きビジュアルグラウンドティングは、テキスト記述に基づいて画像中のオブジェクトを見つけることを目的としている。
既存の手法では、テキスト表現の微妙な意味的差異を区別するために、強力なクロスモーダル推論が欠如している。
本稿では、弱教師付きVGのための新しいクエリベースのセマンティックマッチングフレームワークAlignCATを紹介する。
論文 参考訳(メタデータ) (2025-08-05T08:16:35Z) - Context Disentangling and Prototype Inheriting for Robust Visual
Grounding [56.63007386345772]
ビジュアルグラウンドディング(VG)は、与えられた言語クエリに基づいて、画像内の特定のターゲットを特定することを目的としている。
本稿では,両シーンを両シーンで処理する堅牢な視覚的グラウンド化のために,コンテキストの切り離しとプロトタイプを継承する新しいフレームワークを提案する。
本手法は両シナリオにおいて最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T09:03:53Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。