論文の概要: CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2411.06869v2
- Date: Thu, 14 Aug 2025 02:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:22.742077
- Title: CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models
- Title(参考訳): CapeLLM: マルチモーダル大言語モデルによるサポートフリーカテゴリー非依存ポス推定
- Authors: Junho Kim, Hyungjin Chung, Byung-Hoon Kim,
- Abstract要約: カテゴリーに依存しないポーズ推定(CAPE)は、伝統的に注釈付きキーポイントを持つサポートイメージに依存してきた。
本稿では,CAPE用に設計された最初のマルチモーダル大規模言語モデル(MLLM)であるCapeLLMを紹介する。
提案手法では,MP-100ベンチマークを1ショット,さらに5ショット設定で新たな最先端に設定する。
- 参考スコア(独自算出の注目度): 18.121331575626023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Category-agnostic pose estimation (CAPE) has traditionally relied on support images with annotated keypoints, a process that is often cumbersome and may fail to fully capture the necessary correspondences across diverse object categories. Recent efforts have explored the use of text queries, leveraging their enhanced stability and generalization capabilities. However, existing approaches often remain constrained by their reliance on support queries, their failure to fully utilize the rich priors embedded in pre-trained large language models, and the limitations imposed by their parametric distribution assumptions. To address these challenges, we introduce CapeLLM, the first multimodal large language model (MLLM) designed for CAPE. Our method only employs query image and detailed text descriptions as an input to estimate category-agnostic keypoints. Our method encompasses effective training strategies and carefully designed instructions for applying the MLLM to CAPE. Moreover, we propose an inference mechanism that further enhances the reasoning process for unseen keypoints. while flexibly modeling their underlying spatial distribution and uncertainty, allowing for adaptive refinement based on contextual cues. We conducted extensive experiments to apply the MLLM to CAPE effectively, focusing not only on the model architecture and prompt design but also on ensuring robustness across input variations. Our approach sets a new state-of-the-art on the MP-100 benchmark in the 1-shot and even 5-shot setting, marking a significant advancement in the field of category-agnostic pose estimation. Code is available at https://github.com/Junhojuno/CapeLLM.
- Abstract(参考訳): カテゴリーに依存しないポーズ推定(CAPE)は伝統的に、注釈付きキーポイントを持つサポートイメージに依存してきた。
近年,テキストクエリの利用について検討し,安定性の向上と一般化機能を活用している。
しかし、既存のアプローチは、サポートクエリに依存すること、事前訓練された大規模言語モデルに埋め込まれたリッチな事前処理を十分に活用できないこと、パラメトリックな分布仮定によって課される制限によって制約されることが多い。
これらの課題に対処するために、CAPE用に設計された最初のマルチモーダル大規模言語モデル(MLLM)であるCapeLLMを紹介する。
本手法では,カテゴリに依存しないキーポイントを推定するための入力として,クエリ画像と詳細なテキスト記述のみを用いる。
本手法は, MLLMをCAPEに適用するための効果的なトレーニング戦略と, 慎重に設計した指示を含む。
さらに,未知のキーポイントの推論プロセスをさらに強化する推論機構を提案する。
空間分布と不確かさを柔軟にモデル化し 文脈に基づく適応的な改善を可能にします
MLLMをCAPEに効果的に適用するための広範囲な実験を行い、モデルアーキテクチャと迅速な設計だけでなく、入力変動に対する堅牢性の確保にも焦点をあてた。
提案手法は,MP-100ベンチマークを1ショットで,さらに5ショットで行うことで,カテゴリーに依存しないポーズ推定の分野での大きな進歩を示すものである。
コードはhttps://github.com/Junhojuno/CapeLLM.comで入手できる。
関連論文リスト
- VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension [31.283133365170052]
さまざまなタスクシナリオでキーポイントを理解することを目的としたセマンティック・キーポイントを紹介します。
また,KptLLMは,識別・検出戦略を利用する統一型マルチモーダルモデルである。
KptLLMは様々なモダリティ入力を順応的に処理し、意味内容とキーポイント位置の両方の解釈を容易にする。
論文 参考訳(メタデータ) (2024-11-04T06:42:24Z) - A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。
本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文 参考訳(メタデータ) (2024-10-25T23:52:28Z) - SCAPE: A Simple and Strong Category-Agnostic Pose Estimator [6.705257644513057]
Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。
本稿では,グローバルな意味情報をキーポイントに注入するグローバルなキーポイント機能パーセプタと,キーポイント間のノード間相関を強化するキーポイントアテンションリファクタという2つのキーモジュールを紹介する。
SCAPEは1ショットと5ショット設定で2.2と1.3PCKで先行技術より優れ、推論速度が速く、モデルキャパシティも軽い。
論文 参考訳(メタデータ) (2024-07-18T13:02:57Z) - Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization [59.06663981902496]
クエリ中心の要約(QFS)は、特定の関心事に答え、より優れたユーザ制御とパーソナライゼーションを可能にする要約を作成することを目的としている。
本稿では,LLMを用いたQFSモデル,Longthy Document Summarization,およびクエリ-LLMアライメントの2つの重要な特徴について検討する。
これらのイノベーションは、QFS技術分野における幅広い応用とアクセシビリティの道を開いた。
論文 参考訳(メタデータ) (2024-07-15T07:14:56Z) - Meta-Point Learning and Refining for Category-Agnostic Pose Estimation [46.98479393474727]
Category-Agnostic pose Estimation (CAPE) は、キーポイントを付加したいくつかのサポートイメージが与えられた場合、任意のクラスのキーポイントを予測することを目的としている。
このような潜在的なキーポイント(メタポイント)に基づくCAPEのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:54:33Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Activating the Discriminability of Novel Classes for Few-shot
Segmentation [48.542627940781095]
本稿では,特徴符号化段階とセグメンテーションの予測段階の両方において,新規クラスの識別可能性を明示的に活性化することを提案する。
セグメンテーションの予測段階では、クエリ画像の高信頼画素を用いて自分自身を洗練できる自己修正オンラインフォアグラウンド分類器(SROFB)を学習する。
論文 参考訳(メタデータ) (2022-12-02T12:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。