論文の概要: SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection
- arxiv url: http://arxiv.org/abs/2503.00414v1
- Date: Sat, 01 Mar 2025 09:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:11.993392
- Title: SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection
- Title(参考訳): SGC-Net:Open-Vocabulary HOI検出のための階層化された粒界比較ネットワーク
- Authors: Xin Lin, Chong Shi, Zuopeng Yang, Haojin Tang, Zhili Zhou,
- Abstract要約: 近年のオープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(OV-HOI)検出手法は,補助的な記述を生成するために大規模言語モデル(LLM)に依存し,CLIPから抽出した知識を活用して未知の相互作用カテゴリを検出する。
1) テキストアライメントのための最終層視覚的特徴に依存し、中間層から重要なオブジェクトレベルの詳細を無視すること、(2) CLIPの特定のクラスに対する固有のバイアスに起因する意味的類似性混同、そしてラベルのみに基づくLCM生成記述は、クラス間の類似性を適切に捉えることができないこと、である。
- 参考スコア(独自算出の注目度): 16.89965584177711
- License:
- Abstract: Recent open-vocabulary human-object interaction (OV-HOI) detection methods primarily rely on large language model (LLM) for generating auxiliary descriptions and leverage knowledge distilled from CLIP to detect unseen interaction categories. Despite their effectiveness, these methods face two challenges: (1) feature granularity deficiency, due to reliance on last layer visual features for text alignment, leading to the neglect of crucial object-level details from intermediate layers; (2) semantic similarity confusion, resulting from CLIP's inherent biases toward certain classes, while LLM-generated descriptions based solely on labels fail to adequately capture inter-class similarities. To address these challenges, we propose a stratified granular comparison network. First, we introduce a granularity sensing alignment module that aggregates global semantic features with local details, refining interaction representations and ensuring robust alignment between intermediate visual features and text embeddings. Second, we develop a hierarchical group comparison module that recursively compares and groups classes using LLMs, generating fine-grained and discriminative descriptions for each interaction category. Experimental results on two widely-used benchmark datasets, SWIG-HOI and HICO-DET, demonstrate that our method achieves state-of-the-art results in OV-HOI detection. Codes will be released on https://github.com/Phil0212/SGC-Net.
- Abstract(参考訳): 近年のオープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション (OV-HOI) 検出手法は主に補助的な記述を生成するための言語モデル (LLM) に依存しており、CLIPから抽出した知識を活用して見知らぬ相互作用のカテゴリを検出する。
1) テキストアライメントのための最終層視覚的特徴に依存し、中間層から重要なオブジェクトレベルの詳細を無視すること、(2) CLIPの特定のクラスに対する固有のバイアスに起因する意味的類似性混同、そしてラベルのみに基づくLCM生成記述は、クラス間の類似性を適切に捉えることができないこと、である。
これらの課題に対処するため,我々は階層化された粒度比較ネットワークを提案する。
まず、グローバルなセマンティックな特徴を局所的な詳細で集約し、相互作用表現を精細化し、中間的な視覚的特徴とテキスト埋め込みとのロバストなアライメントを確保するための粒度検知アライメントモジュールを提案する。
第2に,LLMを用いてクラスを再帰的に比較・グループ化する階層型群比較モジュールを開発し,各相互作用カテゴリについて詳細な識別的記述を生成する。
SWIG-HOIとHICO-DETという2つの広く使われているベンチマークデータセットの実験結果から,本手法がOV-HOI検出の最先端化を実現することを示す。
コードはhttps://github.com/Phil0212/SGC-Netでリリースされる。
関連論文リスト
- Bidirectional Logits Tree: Pursuing Granularity Reconcilement in Fine-Grained Classification [89.20477310885731]
本稿では,粒度分類タスクにおけるグラニュラリティコンペティションの課題について述べる。
既存のアプローチは通常、共通のベースエンコーダから抽出された共有特徴に基づいて、独立した階層認識モデルを開発する。
グラニュラリティ再構成のための双方向ロジットツリー(BiLT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-17T10:42:19Z) - Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - GEN-VLKT: Simplify Association and Enhance Interaction Understanding for
HOI Detection [17.92210977820113]
本稿では,2分岐パイプラインをポストマッチングなしで実現するためのガイド埋め込みネットワーク(GEN)を提案する。
協会にとって、以前の2枝の手法は複雑でコストのかかるポストマッチングに悩まされる。
相互作用理解のために、従来の手法は長い尾の分布とゼロショット発見に悩まされていた。
論文 参考訳(メタデータ) (2022-03-26T01:04:13Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。