論文の概要: Prompt Guidance and Human Proximal Perception for HOT Prediction with Regional Joint Loss
- arxiv url: http://arxiv.org/abs/2507.01630v1
- Date: Wed, 02 Jul 2025 11:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.180971
- Title: Prompt Guidance and Human Proximal Perception for HOT Prediction with Regional Joint Loss
- Title(参考訳): 局所的関節損傷を伴うHOT予測のためのプロンプト誘導とヒト近位知覚
- Authors: Yuxiao Wang, Yu Lei, Zhenao Wei, Weiying Xue, Xinyu Jiang, Nan Zhuang, Qi Liu,
- Abstract要約: ヒューマン・オブジェクト・コンタクト(Human-Object ConTact、HOT)検出は、物体に触れている人の身体の特定の領域を特定することである。
我々はtextbfPrompt ガイダンスと textbfProximal textbfPerception を組み合わせた textbfP3HOT' フレームワークを提案する。
このアプローチは textbf0.7$uparrow$, textbf2.0$uparrow$, textbf1.6$uparrow$, textbf の改善を実現しています。
- 参考スコア(独自算出の注目度): 9.87816757989266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Human-Object conTact (HOT) detection involves identifying the specific areas of the human body that are touching objects. Nevertheless, current models are restricted to just one type of image, often leading to too much segmentation in areas with little interaction, and struggling to maintain category consistency within specific regions. To tackle this issue, a HOT framework, termed \textbf{P3HOT}, is proposed, which blends \textbf{P}rompt guidance and human \textbf{P}roximal \textbf{P}erception. To begin with, we utilize a semantic-driven prompt mechanism to direct the network's attention towards the relevant regions based on the correlation between image and text. Then a human proximal perception mechanism is employed to dynamically perceive key depth range around the human, using learnable parameters to effectively eliminate regions where interactions are not expected. Calculating depth resolves the uncertainty of the overlap between humans and objects in a 2D perspective, providing a quasi-3D viewpoint. Moreover, a Regional Joint Loss (RJLoss) has been created as a new loss to inhibit abnormal categories in the same area. A new evaluation metric called ``AD-Acc.'' is introduced to address the shortcomings of existing methods in addressing negative samples. Comprehensive experimental results demonstrate that our approach achieves state-of-the-art performance in four metrics across two benchmark datasets. Specifically, our model achieves an improvement of \textbf{0.7}$\uparrow$, \textbf{2.0}$\uparrow$, \textbf{1.6}$\uparrow$, and \textbf{11.0}$\uparrow$ in SC-Acc., mIoU, wIoU, and AD-Acc. metrics, respectively, on the HOT-Annotated dataset. Code is available at https://github.com/YuxiaoWang-AI/P3HOT.
- Abstract(参考訳): ヒューマン・オブジェクト・コンタクト(HOT)検出のタスクは、物体に触れている人の身体の特定の領域を特定することである。
しかしながら、現在のモデルは1種類の画像に制限されており、多くの場合、相互作用がほとんどなく、特定の領域におけるカテゴリの一貫性を維持するのに苦労する領域において、多くのセグメンテーションが発生する。
この問題に対処するために、HOTフレームワークである『textbf{P}HOT}』が提案され、それは『textbf{P}rompt』ガイダンスと人間の『textbf{P}roximal \textbf{P}erception』をブレンドする。
まず、画像とテキストの相関に基づいて、意味駆動的なプロンプト機構を用いて、ネットワークの注意を関連領域に向ける。
次に、人間の近位知覚機構を用いて、人間の周りの鍵深度範囲を動的に知覚し、学習可能なパラメータを用いて、相互作用が期待できない領域を効果的に除去する。
計算深度は2次元視点における人間と物体の重なり合いの不確かさを解消し、準3次元視点を提供する。
さらに, 地域共同損失(RJLoss)は, 同一地域における異常なカテゴリーを阻害する新たな損失として発生している。
AD-Acc と呼ばれる新しい評価指標。
既存のメソッドが負のサンプルに対処する際の欠点に対処するために''が導入された。
総合的な実験結果から,本手法は2つのベンチマークデータセットにまたがる4つの指標において,最先端のパフォーマンスを達成できることが示唆された。
具体的には、SC-Acc で \textbf{0.7}$\uparrow$, \textbf{2.0}$\uparrow$, \textbf{1.6}$\uparrow$, \textbf{11.0}$\uparrow$ を改良した。
、mIoU、wIoU、AD-Acc。
それぞれ、HOTアノテーション付きデータセット上のメトリクス。
コードはhttps://github.com/YuxiaoWang-AI/P3HOT.comで入手できる。
関連論文リスト
- Exploring Mutual Cross-Modal Attention for Context-Aware Human Affordance Generation [18.73832646369506]
本研究では,2次元シーンにおける空き時間予測のためのシーンコンテキストを符号化する新しいクロスアテンション機構を提案する。
まず,グローバルシーンのコンテキストエンコーディングに条件付き可変オートエンコーダを用いて,シーン内の人物の確率的位置をサンプリングする。
次に、局所文脈エンコーディングの分類器を用いて、既存の人間のポーズ候補のセットから潜在的ポーズテンプレートを予測する。
論文 参考訳(メタデータ) (2025-02-19T11:24:45Z) - Precision-Enhanced Human-Object Contact Detection via Depth-Aware Perspective Interaction and Object Texture Restoration [10.840465766762902]
人間オブジェクト接触(Human-object Contact、HOT)は、人間と物体が接触する領域を正確に識別するように設計されている。
現在の手法では、オブジェクトが頻繁にビューをブロックしているシナリオを考慮できません。
我々は、深度マップ生成モデルを用いて、カメラに関連する人間や物体の深度情報を提供するPIHOTと呼ばれる視点相互作用HOT検出器を提案する。
論文 参考訳(メタデータ) (2024-12-13T07:15:52Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - DIRV: Dense Interaction Region Voting for End-to-End Human-Object
Interaction Detection [53.40028068801092]
本稿では,HOI問題に対するインタラクション領域という新しい概念に基づいて,新しい一段階HOI検出手法を提案する。
従来の手法とは異なり,本手法は人-物対ごとに異なるスケールにわたる密集した相互作用領域に焦点をあてる。
単一相互作用領域の検出欠陥を補うために,我々は新しい投票戦略を導入する。
論文 参考訳(メタデータ) (2020-10-02T13:57:58Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization [83.57863764231655]
本稿では,根の絶対的局所化のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。
関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。
我々は,2つのベンチマークデータセットを用いて,ルートジョイントローカライゼーションとルート相対的な3次元ポーズ推定タスクについて,HDNetの評価を行った。
論文 参考訳(メタデータ) (2020-07-17T12:44:23Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - PPDM: Parallel Point Detection and Matching for Real-time Human-Object
Interaction Detection [85.75935399090379]
本稿では,Human-Object Interaction (HOI) の単一段階検出手法を提案する。
これは、初めてのリアルタイムHOI検出方法である。
論文 参考訳(メタデータ) (2019-12-30T12:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。