論文の概要: AlignCAT: Visual-Linguistic Alignment of Category and Attributefor Weakly Supervised Visual Grounding
- arxiv url: http://arxiv.org/abs/2508.03201v1
- Date: Tue, 05 Aug 2025 08:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.86141
- Title: AlignCAT: Visual-Linguistic Alignment of Category and Attributefor Weakly Supervised Visual Grounding
- Title(参考訳): AlignCAT: 視覚言語によるカテゴリーと属性のアライメント
- Authors: Yidan Wang, Chenyi Zhuang, Wutao Liu, Pan Gao, Nicu Sebe,
- Abstract要約: 弱教師付きビジュアルグラウンドティングは、テキスト記述に基づいて画像中のオブジェクトを見つけることを目的としている。
既存の手法では、テキスト表現の微妙な意味的差異を区別するために、強力なクロスモーダル推論が欠如している。
本稿では、弱教師付きVGのための新しいクエリベースのセマンティックマッチングフレームワークAlignCATを紹介する。
- 参考スコア(独自算出の注目度): 51.74170851840497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised visual grounding (VG) aims to locate objects in images based on text descriptions. Despite significant progress, existing methods lack strong cross-modal reasoning to distinguish subtle semantic differences in text expressions due to category-based and attribute-based ambiguity. To address these challenges, we introduce AlignCAT, a novel query-based semantic matching framework for weakly supervised VG. To enhance visual-linguistic alignment, we propose a coarse-grained alignment module that utilizes category information and global context, effectively mitigating interference from category-inconsistent objects. Subsequently, a fine-grained alignment module leverages descriptive information and captures word-level text features to achieve attribute consistency. By exploiting linguistic cues to their fullest extent, our proposed AlignCAT progressively filters out misaligned visual queries and enhances contrastive learning efficiency. Extensive experiments on three VG benchmarks, namely RefCOCO, RefCOCO+, and RefCOCOg, verify the superiority of AlignCAT against existing weakly supervised methods on two VG tasks. Our code is available at: https://github.com/I2-Multimedia-Lab/AlignCAT.
- Abstract(参考訳): 弱教師付きビジュアルグラウンドディング(VG)は、画像中のオブジェクトをテキスト記述に基づいて検出することを目的としている。
著しい進歩にもかかわらず、既存の手法は、カテゴリーベースおよび属性ベースのあいまいさによるテキスト表現の微妙な意味的差異を区別する強力なクロスモーダル推論を欠いている。
これらの課題に対処するために、弱教師付きVGのための新しいクエリベースのセマンティックマッチングフレームワークAlignCATを紹介する。
視覚言語的アライメントを強化するために,カテゴリ情報とグローバルコンテキストを利用する粗いアライメントモジュールを提案し,カテゴリ非一貫性オブジェクトからの干渉を効果的に軽減する。
その後、きめ細かいアライメントモジュールが記述情報を活用し、単語レベルのテキスト特徴をキャプチャして属性一貫性を実現する。
言語的手がかりを最大限に活用することにより、提案するAlignCATは、不整合な視覚的クエリを段階的にフィルタリングし、対照的な学習効率を向上させる。
RefCOCO、RefCOCO+、RefCOCOgという3つのVGベンチマークの大規模な実験は、2つのVGタスクにおいて既存の弱い教師付き手法に対するAlignCATの優位性を検証する。
私たちのコードは、https://github.com/I2-Multimedia-Lab/AlignCAT.comで利用可能です。
関連論文リスト
- Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval [23.472806734625774]
画像テキストの正確なマッチングを実現するために,DCAR(Joint Category-Attribute Reweighting)を用いたデュアルプロンプト学習を提案する。
プロンプトパラダイムに基づいて、DCARは属性とクラスの特徴を協調的に最適化し、きめ細かい表現学習を強化する。
論文 参考訳(メタデータ) (2025-08-06T02:44:08Z) - Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文 参考訳(メタデータ) (2025-07-30T20:06:01Z) - SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。
推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文 参考訳(メタデータ) (2025-04-24T09:31:08Z) - Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。
セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。
提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-14T14:31:36Z) - Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文 参考訳(メタデータ) (2024-12-09T04:00:18Z) - Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification [8.139529179222844]
Category-Prompt Refined Feature Learning (CPRFL) は長尺多ラベル画像分類の新しい手法である。
CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、カテゴリ固有の視覚表現を分離する。
2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-15T12:51:57Z) - Category-Extensible Out-of-Distribution Detection via Hierarchical Context Descriptions [35.20091752343433]
この研究は2つの階層的文脈、すなわち知覚的文脈と刺激的文脈を導入し、正確な圏境界を注意深く記述する。
2つの文脈は、あるカテゴリの正確な記述を階層的に構成するが、これはまず、予測されたカテゴリにサンプルを大まかに分類する。
CATegory-Extensible OOD Detection (CATEX)
論文 参考訳(メタデータ) (2024-07-23T12:53:38Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。