論文の概要: LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model
- arxiv url: http://arxiv.org/abs/2406.04659v1
- Date: Fri, 7 Jun 2024 05:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:19:38.525571
- Title: LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model
- Title(参考訳): LocLLM:大規模言語モデルによる汎用的キーポイントローカライゼーションの展開
- Authors: Dongkai Wang, Shiyu Xuan, Shiliang Zhang,
- Abstract要約: LocLLMはLarge-Language Modelベースのキーポイントローカライゼーションモデルである。
入力として画像とテキストの命令を受け取り、所望のキーポイント座標を出力する。
標準的な2D/3Dキーポイントローカライゼーションベンチマークでは顕著なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 52.35027502274539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capacity of existing human keypoint localization models is limited by keypoint priors provided by the training data. To alleviate this restriction and pursue more general model, this work studies keypoint localization from a different perspective by reasoning locations based on keypiont clues in text descriptions. We propose LocLLM, the first Large-Language Model (LLM) based keypoint localization model that takes images and text instructions as inputs and outputs the desired keypoint coordinates. LocLLM leverages the strong reasoning capability of LLM and clues of keypoint type, location, and relationship in textual descriptions for keypoint localization. To effectively tune LocLLM, we construct localization-based instruction conversations to connect keypoint description with corresponding coordinates in input image, and fine-tune the whole model in a parameter-efficient training pipeline. LocLLM shows remarkable performance on standard 2D/3D keypoint localization benchmarks. Moreover, incorporating language clues into the localization makes LocLLM show superior flexibility and generalizable capability in cross dataset keypoint localization, and even detecting novel type of keypoints unseen during training.
- Abstract(参考訳): 既存の人間のキーポイントローカライゼーションモデルの能力は、トレーニングデータによって提供されるキーポイント先行によって制限される。
この制約を緩和し、より一般的なモデルを求めるために、本研究は、テキスト記述におけるキーピオント手がかりに基づく位置の推論により、異なる視点からキーポイントのローカライゼーションを研究する。
本稿では,LocLLMを提案する。LocLLMはLLM(Large-Language Model)をベースとした最初のキーポイントローカライゼーションモデルで,画像とテキストの命令を入力として取り出し,所望のキーポイント座標を出力する。
LocLLMは、LLMの強い推論能力とキーポイントの型、位置、およびキーポイントのローカライゼーションのためのテキスト記述における関係の手がかりを利用する。
LocLLMを効果的にチューニングするために、我々はローカライズに基づく命令会話を構築し、入力画像中のキーポイント記述と対応する座標を接続し、パラメータ効率の訓練パイプラインでモデル全体を微調整する。
LocLLMは標準的な2D/3Dキーポイントローカライゼーションベンチマークで顕著なパフォーマンスを示している。
さらに、言語ヒントをローカライゼーションに取り入れることで、LocLLMはクロスデータセットキーポイントローカライゼーションにおいて優れた柔軟性と一般化能力を示し、トレーニング中に目に見えない新しいタイプのキーポイントを検出できる。
関連論文リスト
- Multi-Stream Keypoint Attention Network for Sign Language Recognition and Translation [3.976851945232775]
現在の手話認識のアプローチは、背景のゆらぎに弱いRGBビデオ入力に依存している。
本稿では,容易に利用可能なキーポイント推定器によって生成されるキーポイントのシーケンスを記述するためのマルチストリームキーポイントアテンションネットワークを提案する。
我々は、Phoenix-2014、Phoenix-2014T、CSL-Dailyといった有名なベンチマークで包括的な実験を行い、方法論の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-09T10:58:37Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - Localized Symbolic Knowledge Distillation for Visual Commonsense Models [150.18129140140238]
ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。
大規模言語モデルから局所的なコモンセンス知識を抽出してモデルを訓練する。
局所化コモンセンスコーパスのトレーニングにより,既存の視覚言語モデルを抽出し,リファレンス・アズ・インプット・インタフェースをサポートできることが判明した。
論文 参考訳(メタデータ) (2023-12-08T05:23:50Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [77.97246496316515]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [67.1783384610417]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - End-to-End Learning of Keypoint Representations for Continuous Control
from Images [84.8536730437934]
教師なしの事前学習、デコーダ、追加の損失を必要とせずに、エンドツーエンドで効率的なキーポイント表現を学習できることが示される。
提案アーキテクチャは,ソフトアクター・クリティカルエージェントに直接座標を供給するキーポイント抽出器で構成されている。
論文 参考訳(メタデータ) (2021-06-15T09:17:06Z) - UKPGAN: A General Self-Supervised Keypoint Detector [43.35270822722044]
UKPGANは一般的な3Dキーポイント検出器である。
私たちのキーポイントは、注釈付きキーポイントラベルとよく一致します。
我々のモデルは、剛性と非剛性変換の両方の下で安定である。
論文 参考訳(メタデータ) (2020-11-24T09:08:21Z) - Learning Local Features with Context Aggregation for Visual Localization [24.167882373322957]
キーポイントの検出と記述は多くの視覚応用において不可欠である。
既存のほとんどのメソッドは、コンテキスト情報を考慮せずにローカル特徴を学習するために、検出-then-describeまたは検出-and-describe戦略を使用している。
本稿では,局所特徴の識別性を改善するために,低レベルテキスト情報と高レベル意味文脈情報の融合に着目した。
論文 参考訳(メタデータ) (2020-05-26T17:19:06Z) - UR2KiD: Unifying Retrieval, Keypoint Detection, and Keypoint Description
without Local Correspondence Supervision [16.68130648568593]
キーポイント検出、記述、画像検索という3つの関連するタスクは、単一の統合フレームワークを使用して共同で取り組むことができる。
標準的なResNetアーキテクチャのシーケンシャルレイヤからの多様な情報を活用することで、ローカル情報をエンコードするキーポイントと記述子を抽出できる。
画像検索のためのグローバル情報は、上記のローカル応答のプールに基づいて、エンドツーエンドのパイプラインにエンコードされる。
論文 参考訳(メタデータ) (2020-01-20T21:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。