論文の概要: Probabilistic Prompt Distribution Learning for Animal Pose Estimation
- arxiv url: http://arxiv.org/abs/2503.16120v1
- Date: Thu, 20 Mar 2025 13:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:33:48.338893
- Title: Probabilistic Prompt Distribution Learning for Animal Pose Estimation
- Title(参考訳): 動物行動推定のための確率的プロンプト分布学習
- Authors: Jiyong Rao, Brian Nlong Zhao, Yu Wang,
- Abstract要約: 多種の動物のポーズ推定は、視覚的な多様性と不確実性によって妨げられ、難しいが重要な課題として現れてきた。
本稿では,ビジョン・ランゲージ事前学習モデル(例えばCLIP)を効率的に学習することで,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 4.988522046084508
- License:
- Abstract: Multi-species animal pose estimation has emerged as a challenging yet critical task, hindered by substantial visual diversity and uncertainty. This paper challenges the problem by efficient prompt learning for Vision-Language Pretrained (VLP) models, \textit{e.g.} CLIP, aiming to resolve the cross-species generalization problem. At the core of the solution lies in the prompt designing, probabilistic prompt modeling and cross-modal adaptation, thereby enabling prompts to compensate for cross-modal information and effectively overcome large data variances under unbalanced data distribution. To this end, we propose a novel probabilistic prompting approach to fully explore textual descriptions, which could alleviate the diversity issues caused by long-tail property and increase the adaptability of prompts on unseen category instance. Specifically, we first introduce a set of learnable prompts and propose a diversity loss to maintain distinctiveness among prompts, thus representing diverse image attributes. Diverse textual probabilistic representations are sampled and used as the guidance for the pose estimation. Subsequently, we explore three different cross-modal fusion strategies at spatial level to alleviate the adverse impacts of visual uncertainty. Extensive experiments on multi-species animal pose benchmarks show that our method achieves the state-of-the-art performance under both supervised and zero-shot settings. The code is available at https://github.com/Raojiyong/PPAP.
- Abstract(参考訳): 多種の動物のポーズ推定は、視覚的な多様性と不確実性によって妨げられ、難しいが重要な課題として現れてきた。
本稿では,VLP(Vision-Language Pretrained, VLP)モデルに対する効率的なプロンプト学習によって問題に挑戦する。
ソリューションの中核にあるのは、迅速な設計、確率的プロンプトモデリング、およびクロスモーダル適応であり、それによって、クロスモーダル情報の補償を可能にし、不均衡なデータ分散の下で大きなデータ分散を効果的に克服する。
そこで本研究では,テキスト記述を完全に探索する確率論的プロンプト手法を提案する。これにより,長い尾のプロパティに起因する多様性の問題が軽減され,未知のカテゴリインスタンス上でのプロンプトの適応性が向上する。
具体的には、まず学習可能なプロンプトのセットを導入し、各プロンプトの識別性を維持するために多様性損失を提案する。
様々なテキストの確率的表現をサンプリングし、ポーズ推定のガイダンスとして利用する。
その後、視覚不確実性の悪影響を軽減するために、空間レベルでの3つの異なる相互拡散戦略を探求する。
多種動物ポーズベンチマークの広範囲な実験により,本手法は教師付きとゼロショットの両方の条件下で最先端の性能を達成できることが判明した。
コードはhttps://github.com/Raojiyong/PPAPで公開されている。
関連論文リスト
- FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant [59.2438504610849]
FFAA: Face Forgery Analysis Assistant(MLLM)とMIDS(Multi-Awer Intelligent Decision System)について紹介する。
提案手法は,ユーザフレンドリで説明可能な結果を提供するだけでなく,従来の手法に比べて精度と堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-19T15:15:20Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Modeling Uncertainty in Personalized Emotion Prediction with Normalizing
Flows [6.32047610997385]
本研究では,条件付き正規化フローを用いて予測の不確かさを捉える新しい手法を提案する。
感情認識とヘイトスピーチを含む3つの主観的NLP課題に対して,本手法の有効性を検証した。
開発した手法によって得られた情報により,従来の手法を超越したハイブリッドモデルの構築が可能となった。
論文 参考訳(メタデータ) (2023-12-10T23:21:41Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Probabilistic Prompt Learning for Dense Prediction [45.577125507777474]
本稿では,高密度予測タスクにおける視覚言語知識を完全に活用するための,確率論的素早い学習法を提案する。
学習可能なクラスに依存しない属性プロンプトを導入し、オブジェクトクラス全体にわたって普遍的な属性を記述する。
属性は、クラス固有のテキスト分布を定義するために、クラス情報と視覚的コンテキスト知識と組み合わせられる。
論文 参考訳(メタデータ) (2023-04-03T08:01:27Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Discriminative Residual Analysis for Image Set Classification with
Posture and Age Variations [27.751472312581228]
識別残差分析(DRA)は分類性能を向上させるために提案される。
DRAは、残差表現を識別部分空間にキャストする強力な射影を得ようとする。
2つの正則化アプローチは、可能な小さなサンプルサイズ問題に対処するために使用される。
論文 参考訳(メタデータ) (2020-08-23T08:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。