論文の概要: Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection
- arxiv url: http://arxiv.org/abs/2510.25094v1
- Date: Wed, 29 Oct 2025 01:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.977905
- Title: Visual Diversity and Region-aware Prompt Learning for Zero-shot HOI Detection
- Title(参考訳): ゼロショットHOI検出のための視覚的多様性と領域認識型プロンプト学習
- Authors: Chanhyeong Yang, Taehoon Song, Jihwan Park, Hyunwoo J. Kim,
- Abstract要約: Zero-shot Human-Object Interaction Detectionは、画像中の人間と物体をローカライズし、訓練中に特定の動詞オブジェクトペアが見えない場合でも、その相互作用を認識することを目的としている。
最近の研究は、自然言語のプロンプトと共有埋め込み空間の視覚的特徴を整合させるCLIPのような事前訓練された視覚言語モデルを用いて、プロンプト学習を用いた有望な結果を示している。
本稿では,視覚多様性と領域認識型プロンプト学習のためのフレームワークであるVを提案する。
- 参考スコア(独自算出の注目度): 36.060043308994096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot Human-Object Interaction detection aims to localize humans and objects in an image and recognize their interaction, even when specific verb-object pairs are unseen during training. Recent works have shown promising results using prompt learning with pretrained vision-language models such as CLIP, which align natural language prompts with visual features in a shared embedding space. However, existing approaches still fail to handle the visual complexity of interaction, including (1) intra-class visual diversity, where instances of the same verb appear in diverse poses and contexts, and (2) inter-class visual entanglement, where distinct verbs yield visually similar patterns. To address these challenges, we propose VDRP, a framework for Visual Diversity and Region-aware Prompt learning. First, we introduce a visual diversity-aware prompt learning strategy that injects group-wise visual variance into the context embedding. We further apply Gaussian perturbation to encourage the prompts to capture diverse visual variations of a verb. Second, we retrieve region-specific concepts from the human, object, and union regions. These are used to augment the diversity-aware prompt embeddings, yielding region-aware prompts that enhance verb-level discrimination. Experiments on the HICO-DET benchmark demonstrate that our method achieves state-of-the-art performance under four zero-shot evaluation settings, effectively addressing both intra-class diversity and inter-class visual entanglement. Code is available at https://github.com/mlvlab/VDRP.
- Abstract(参考訳): Zero-shot Human-Object Interaction Detectionは、画像中の人間と物体をローカライズし、訓練中に特定の動詞オブジェクトペアが見えない場合でも、その相互作用を認識することを目的としている。
最近の研究は、自然言語のプロンプトと共有埋め込み空間の視覚的特徴を整合させるCLIPのような事前訓練された視覚言語モデルを用いて、プロンプト学習を用いた有望な結果を示している。
しかし,(1)クラス内視覚の多様性,(2)クラス間視覚の絡み合い,(2)クラス間視覚の絡み合い,(2)異なる動詞が視覚的に類似したパターンを生じる。
これらの課題に対処するため,視覚多様性と領域認識型Prompt学習のためのフレームワークであるVDRPを提案する。
まず,視覚的多様性を意識した学習戦略を導入し,コンテキスト埋め込みにグループワイドな視覚的分散を注入する。
さらにガウス摂動を応用して、動詞の多様な視覚的バリエーションを捉えるプロンプトを奨励する。
第2に、人間、対象、連合領域から地域固有の概念を抽出する。
これらは、多様性を意識したプロンプトの埋め込みを強化するために使用され、動詞レベルの差別を強化する領域認識プロンプトをもたらす。
HICO-DETベンチマークを用いた実験により,本手法は4つのゼロショット評価条件下での最先端性能を実現し,クラス内多様性とクラス間絡みの両面に効果的に対処できることを示した。
コードはhttps://github.com/mlvlab/VDRP.comで入手できる。
関連論文リスト
- Visual Adaptive Prompting for Compositional Zero-Shot Learning [0.0]
VLM(Vision-Language Models)は、視覚データとテキストデータの共同表現を学習する際、印象的なマルチモーダル機能を実証した。
CZSLは、属性やオブジェクトのような新しい視覚的プリミティブの組み合わせに一般化するモデルを必要とする。
意味的特徴と視覚的特徴のギャップを埋める視覚適応型プロンプトシステム(VAPS)を提案する。
論文 参考訳(メタデータ) (2025-02-27T17:17:43Z) - Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation [56.001484215308075]
本稿では,DINOv2の空間的精度とCLIPの言語理解を組み合わせた,新しいハイブリッドアプローチであるTalk2DINOを提案する。
本研究では,Talk2DINOの強力なセマンティック・ローカライゼーション能力によってセグメンテーションのプロセスが強化されることを示す。
実験の結果、Talk2DINOは教師なしのOVSベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-11-28T19:00:03Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - OV-VG: A Benchmark for Open-Vocabulary Visual Grounding [33.02137080950678]
この研究は、新規で挑戦的なオープンボキャブラリ視覚タスクを導入している。
包括的な目的は、言語記述と新しいオブジェクトのローカライゼーションの関連を確立することである。
我々は、7,272 OV-VG画像と1,000 OV-PL画像を含むベンチマークをキュレートした。
論文 参考訳(メタデータ) (2023-10-22T17:54:53Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。