論文の概要: KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension
- arxiv url: http://arxiv.org/abs/2411.01846v1
- Date: Mon, 04 Nov 2024 06:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:39.296723
- Title: KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension
- Title(参考訳): KptLLM: キーポイント理解のための大規模言語モデルのパワーを提供する
- Authors: Jie Yang, Wang Zeng, Sheng Jin, Lumin Xu, Wentao Liu, Chen Qian, Ruimao Zhang,
- Abstract要約: さまざまなタスクシナリオでキーポイントを理解することを目的としたセマンティック・キーポイントを紹介します。
また,KptLLMは,識別・検出戦略を利用する統一型マルチモーダルモデルである。
KptLLMは様々なモダリティ入力を順応的に処理し、意味内容とキーポイント位置の両方の解釈を容易にする。
- 参考スコア(独自算出の注目度): 31.283133365170052
- License:
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have greatly improved their abilities in image understanding. However, these models often struggle with grasping pixel-level semantic details, e.g., the keypoints of an object. To bridge this gap, we introduce the novel challenge of Semantic Keypoint Comprehension, which aims to comprehend keypoints across different task scenarios, including keypoint semantic understanding, visual prompt-based keypoint detection, and textual prompt-based keypoint detection. Moreover, we introduce KptLLM, a unified multimodal model that utilizes an identify-then-detect strategy to effectively address these challenges. KptLLM underscores the initial discernment of semantics in keypoints, followed by the precise determination of their positions through a chain-of-thought process. With several carefully designed modules, KptLLM adeptly handles various modality inputs, facilitating the interpretation of both semantic contents and keypoint locations. Our extensive experiments demonstrate KptLLM's superiority in various keypoint detection benchmarks and its unique semantic capabilities in interpreting keypoints.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、画像理解におけるその能力を大幅に改善している。
しかしながら、これらのモデルは、例えばオブジェクトのキーポイントなど、ピクセルレベルのセマンティックディテールの把握に苦労することが多い。
このギャップを埋めるために,キーポイントの意味理解,視覚的プロンプトに基づくキーポイント検出,テキストによるプロンプトに基づくキーポイント検出など,さまざまなタスクシナリオにおけるキーポイントの理解を目的とした,セマンティックキーポイント理解という新たな課題を紹介した。
さらに,これらの課題を効果的に解決するために,識別・検出戦略を利用する統一型マルチモーダルモデルであるKptLLMを導入する。
KptLLMはキーポイントにおけるセマンティクスの最初の識別を下記し、続いてチェーン・オブ・シント・プロセスを通じてそれらの位置を正確に決定する。
いくつかの慎重に設計されたモジュールで、KptLLMは様々なモダリティ入力を順応的に処理し、セマンティック内容とキーポイント位置の両方の解釈を容易にする。
我々は、キーポイント検出ベンチマークにおけるKptLLMの優位性と、キーポイントの解釈におけるユニークなセマンティック機能を示す。
関連論文リスト
- KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - Meta-Point Learning and Refining for Category-Agnostic Pose Estimation [46.98479393474727]
Category-Agnostic pose Estimation (CAPE) は、キーポイントを付加したいくつかのサポートイメージが与えられた場合、任意のクラスのキーポイントを予測することを目的としている。
このような潜在的なキーポイント(メタポイント)に基づくCAPEのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:54:33Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - Keypoint Autoencoders: Learning Interest Points of Semantics [4.551313396927381]
キーポイント検出のための教師なし学習手法であるキーポイントオートエンコーダを提案する。
キーポイントから元のポイントクラウドへの再構成を強制することで、疎いセマンティックキーポイントの選択を奨励する。
選択したキーポイントの特異性を示すために、スパースキーポイントで形状を分類する下流タスクを行う。
論文 参考訳(メタデータ) (2020-08-11T03:43:18Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z) - Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。
そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。
CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。
検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文 参考訳(メタデータ) (2020-02-03T02:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。