論文の概要: Parse Graph-Based Visual-Language Interaction for Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2509.07385v1
- Date: Tue, 09 Sep 2025 04:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.179847
- Title: Parse Graph-Based Visual-Language Interaction for Human Pose Estimation
- Title(参考訳): Parse Graphを用いた人間の視点推定のためのビジュアルランゲージインタラクション
- Authors: Shibang Liu, Xuemei Xie, Guangming Shi,
- Abstract要約: Parse Graph-based Visual-Language Interaction (PGVL) with a core novel Guided Module (GM)を提案する。
PGVLでは、低レベルノードは局所的な特徴に重点を置いており、閉鎖領域での応答の維持を最大化している。
GMは、高いセマンティックノードによって、横断的な注意を払っている低セマンティックノードの機能更新をガイドすることができる。
- 参考スコア(独自算出の注目度): 48.534087924931065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parse graphs boost human pose estimation (HPE) by integrating context and hierarchies, yet prior work mostly focuses on single modality modeling, ignoring the potential of multimodal fusion. Notably, language offers rich HPE priors like spatial relations for occluded scenes, but existing visual-language fusion via global feature integration weakens occluded region responses and causes alignment and location failures. To address this issue, we propose Parse Graph-based Visual-Language interaction (PGVL) with a core novel Guided Module (GM). In PGVL, low-level nodes focus on local features, maximizing the maintenance of responses in occluded areas and high-level nodes integrate global features to infer occluded or invisible parts. GM enables high semantic nodes to guide the feature update of low semantic nodes that have undergone cross attention. It ensuring effective fusion of diverse information. PGVL includes top-down decomposition and bottom-up composition. In the first stage, modality specific parse graphs are constructed. Next stage. recursive bidirectional cross-attention is used, purified by GM. We also design network based on PGVL. The PGVL and our network is validated on major pose estimation datasets. We will release the code soon.
- Abstract(参考訳): Parseグラフは、コンテキストと階層を統合することでヒューマンポーズ推定(HPE)を促進するが、以前の作業は、主にマルチモーダル融合の可能性を無視した単一のモダリティモデリングに重点を置いていた。
特に、言語は、隠されたシーンの空間的関係のようなリッチなHPE前処理を提供するが、グローバルな機能統合による既存の視覚言語融合は、隠された領域の応答を弱め、アライメントとロケーションの失敗を引き起こす。
この問題に対処するため、我々はParse Graphベースのビジュアル・ランゲージ・インタラクション(PGVL)とコアノベル・ガイドド・モジュール(GM)を提案する。
PGVLでは、低レベルノードは局所的な特徴に重点を置いて、隠蔽領域での応答の維持を最大化し、高レベルノードは隠蔽領域や見えない部分の推測のためにグローバル機能を統合する。
GMは、高いセマンティックノードによって、横断的な注意を払っている低セマンティックノードの機能更新をガイドすることができる。
多様な情報の効果的な融合を保証する。
PGVLはトップダウン分解およびボトムアップ合成を含む。
第1段階では、モダリティ特定パースグラフが構築される。
次のステージ。
GMによって精製され、再帰的な双方向の相互注意が使用される。
PGVLに基づくネットワークも設計する。
PGVLと我々のネットワークは,主要なポーズ推定データセット上で検証される。
私たちはすぐにコードをリリースします。
関連論文リスト
- ReaGAN: Node-as-Agent-Reasoning Graph Agentic Network [33.88839381723637]
グラフ学習のための検索拡張グラフエージェントネットワーク(ReaGAN)を提案する。
各ノードは、その内部メモリに基づいて、独立して次のアクションを計画するエージェントとして機能する。
RAGはノードが意味論的に関連のあるコンテンツにアクセスし、グラフにグローバルな関係を構築することを可能にする。
論文 参考訳(メタデータ) (2025-08-01T08:37:54Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - DHGCN: Dynamic Hop Graph Convolution Network for Self-Supervised Point
Cloud Learning [23.048005152646592]
本稿では,動的ホップグラフ畳み込みネットワーク(DHGCN)を提案する。
そこで我々は, 自己監督型部分レベルホップ距離再構築タスクを考案し, トレーニングの容易さに応じて, 新たな損失関数を設計する。
提案したDHGCNは、ポイントベースのバックボーンネットワークと互換性のあるプラグイン・アンド・プレイモジュールである。
論文 参考訳(メタデータ) (2024-01-05T02:54:23Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。