Fugu-MT 論文翻訳(概要): KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension

論文の概要: KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension

arxiv url: http://arxiv.org/abs/2411.01846v1
Date: Mon, 04 Nov 2024 06:42:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.973638
Title: KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension
Title（参考訳）: KptLLM: キーポイント理解のための大規模言語モデルのパワーを提供する
Authors: Jie Yang, Wang Zeng, Sheng Jin, Lumin Xu, Wentao Liu, Chen Qian, Ruimao Zhang,
Abstract要約: さまざまなタスクシナリオでキーポイントを理解することを目的としたセマンティック・キーポイントを紹介します。また,KptLLMは,識別・検出戦略を利用する統一型マルチモーダルモデルである。 KptLLMは様々なモダリティ入力を順応的に処理し、意味内容とキーポイント位置の両方の解釈を容易にする。
参考スコア（独自算出の注目度）: 31.283133365170052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have greatly improved their abilities in image understanding. However, these models often struggle with grasping pixel-level semantic details, e.g., the keypoints of an object. To bridge this gap, we introduce the novel challenge of Semantic Keypoint Comprehension, which aims to comprehend keypoints across different task scenarios, including keypoint semantic understanding, visual prompt-based keypoint detection, and textual prompt-based keypoint detection. Moreover, we introduce KptLLM, a unified multimodal model that utilizes an identify-then-detect strategy to effectively address these challenges. KptLLM underscores the initial discernment of semantics in keypoints, followed by the precise determination of their positions through a chain-of-thought process. With several carefully designed modules, KptLLM adeptly handles various modality inputs, facilitating the interpretation of both semantic contents and keypoint locations. Our extensive experiments demonstrate KptLLM's superiority in various keypoint detection benchmarks and its unique semantic capabilities in interpreting keypoints.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の最近の進歩は、画像理解におけるその能力を大幅に改善している。しかしながら、これらのモデルは、例えばオブジェクトのキーポイントなど、ピクセルレベルのセマンティックディテールの把握に苦労することが多い。このギャップを埋めるために,キーポイントの意味理解,視覚的プロンプトに基づくキーポイント検出,テキストによるプロンプトに基づくキーポイント検出など,さまざまなタスクシナリオにおけるキーポイントの理解を目的とした,セマンティックキーポイント理解という新たな課題を紹介した。さらに,これらの課題を効果的に解決するために,識別・検出戦略を利用する統一型マルチモーダルモデルであるKptLLMを導入する。 KptLLMはキーポイントにおけるセマンティクスの最初の識別を下記し、続いてチェーン・オブ・シント・プロセスを通じてそれらの位置を正確に決定する。いくつかの慎重に設計されたモジュールで、KptLLMは様々なモダリティ入力を順応的に処理し、セマンティック内容とキーポイント位置の両方の解釈を容易にする。我々は、キーポイント検出ベンチマークにおけるKptLLMの優位性と、キーポイントの解釈におけるユニークなセマンティック機能を示す。

関連論文リスト

VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models [62.667142971664575]
因子関連認知テスト(FRCT)から得られた新しいベンチマークであるVisFactorを紹介する。 VisFactorは視覚関連FRCTサブテストのデジタル化を行い、基本的な視覚認知タスク間でMLLMを体系的に評価する。 GPT-4o, Gemini-Pro, Qwen-VLなどの最先端MLLMの総合評価を行った。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models [18.121331575626023]
カテゴリーに依存しないポーズ推定(CAPE)は、伝統的に注釈付きキーポイントを持つサポートイメージに依存してきた。最近の取り組みでは、キーポイントのサポートの必要性を排除したテキストベースのクエリの使用を模索している。本稿では,CAPEのためのテキストベースマルチモーダル大言語モデル(MLLM)を活用した新しいアプローチであるCapeLLMを紹介する。
論文参考訳（メタデータ） (2024-11-11T11:08:26Z)
KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文参考訳（メタデータ） (2024-10-14T07:39:30Z)
Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文参考訳（メタデータ） (2024-05-09T10:58:37Z)
Meta-Point Learning and Refining for Category-Agnostic Pose Estimation [46.98479393474727]
Category-Agnostic pose Estimation (CAPE) は、キーポイントを付加したいくつかのサポートイメージが与えられた場合、任意のクラスのキーポイントを予測することを目的としている。このような潜在的なキーポイント(メタポイント)に基づくCAPEのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-20T14:54:33Z)
Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文参考訳（メタデータ） (2023-10-08T07:42:41Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Keyphrase Extraction with Dynamic Graph Convolutional Networks and Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文参考訳（メタデータ） (2020-10-24T08:11:23Z)
MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。 MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文参考訳（メタデータ） (2020-04-17T11:45:28Z)
Towards High Performance Human Keypoint Detection [87.1034745775229]
文脈情報は人体構成や見えないキーポイントを推論する上で重要な役割を担っている。そこで我々は,空間とチャネルのコンテキスト情報を効率的に統合するカスケードコンテキストミキサー(CCM)を提案する。 CCMの表現能力を最大化するために、我々は、強陰性な人検出マイニング戦略と共同訓練戦略を開発する。検出精度を向上させるために,キーポイント予測を後処理するためのいくつかのサブピクセル改良手法を提案する。
論文参考訳（メタデータ） (2020-02-03T02:24:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。