論文の概要: LLaVA-Pose: Enhancing Human Pose and Action Understanding via Keypoint-Integrated Instruction Tuning
- arxiv url: http://arxiv.org/abs/2506.21317v1
- Date: Thu, 26 Jun 2025 14:32:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.132096
- Title: LLaVA-Pose: Enhancing Human Pose and Action Understanding via Keypoint-Integrated Instruction Tuning
- Title(参考訳): LLaVA-Pose: キーポイント型インストラクションチューニングによるヒューマンポースとアクション理解の強化
- Authors: Dewen Zhang, Tahir Hussain, Wangpeng An, Hayaru Shouno,
- Abstract要約: 現在の視覚言語モデル(VLM)は、一般的な視覚的理解タスクに適している。
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する手法を提案する。
このデータセットを用いてLLaVA-1.5-7Bモデルを微調整し、得られたLLaVA-Poseモデルをベンチマーク上で評価し、大幅な改善を実現した。
- 参考スコア(独自算出の注目度): 1.820765907065129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current vision-language models (VLMs) are well-adapted for general visual understanding tasks. However, they perform inadequately when handling complex visual tasks related to human poses and actions due to the lack of specialized vision-language instruction-following data. We introduce a method for generating such data by integrating human keypoints with traditional visual features such as captions and bounding boxes, enabling more precise understanding of human-centric scenes. Our approach constructs a dataset comprising 200,328 samples tailored to fine-tune models for human-centric tasks, focusing on three areas: conversation, detailed description, and complex reasoning. We establish an Extended Human Pose and Action Understanding Benchmark (E-HPAUB) to assess model performance on human pose and action understanding. We fine-tune the LLaVA-1.5-7B model using this dataset and evaluate our resulting LLaVA-Pose model on the benchmark, achieving significant improvements. Experimental results show an overall improvement of 33.2% compared to the original LLaVA-1.5-7B model. These findings highlight the effectiveness of keypoint-integrated data in enhancing multimodal models for human-centric visual understanding. Code is available at https://github.com/Ody-trek/LLaVA-Pose.
- Abstract(参考訳): 現在の視覚言語モデル(VLM)は、一般的な視覚的理解タスクに適している。
しかし、人間のポーズや行動にまつわる複雑な視覚的タスクを扱う際には、特殊な視覚言語による指示追従データが欠如しているため、不適切な処理を行う。
本研究では,人間のキーポイントとキャプションやバウンディングボックスなどの伝統的な視覚的特徴を統合し,人間の中心的なシーンをより正確に理解することで,そのようなデータを生成する手法を提案する。
提案手法は,人間中心タスクの微調整モデルに適した200,328のサンプルからなるデータセットを構築し,会話,詳細な説明,複雑な推論の3分野に着目した。
本研究では,人間のポーズと行動理解のモデル性能を評価するために,E-HPAUB(Extended Human Pose and Action Understanding Benchmark)を構築した。
このデータセットを用いてLLaVA-1.5-7Bモデルを微調整し、得られたLLaVA-Poseモデルをベンチマーク上で評価し、大幅な改善を実現した。
実験の結果、LLaVA-1.5-7Bモデルと比較すると、全体的な改善率は33.2%であった。
これらの知見は、人間中心の視覚理解のためのマルチモーダルモデルの強化におけるキーポイント統合データの有効性を浮き彫りにした。
コードはhttps://github.com/Ody-trek/LLaVA-Poseで入手できる。
関連論文リスト
- A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
本稿では,MUSE-VL(Unified Vision-Language Model Semantic)を紹介する。
提案手法は,従来のSOTA Emu3に比べて4.8%向上し,LLaVA-NeXT 34Bを3.7%上回った。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - VAGUE: Visual Contexts Clarify Ambiguous Expressions [15.140825578254324]
目的のための視覚的コンテキストを統合するマルチモーダルAIシステムの能力を評価するベンチマークであるVAGUEを紹介する。
VAGUEは1.6Kの曖昧な文体表現で構成され、それぞれに画像と複数選択の解釈が組み合わされている。
我々の実験によると、既存のマルチモーダルAIモデルは話者の真の意図を推測するのに苦労している。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models [1.9890559505377343]
現在の視覚言語マルチモーダルモデルは、一般的な視覚的理解タスクに適している。
本研究では,人間のキーポイントとキャプションやバウンディングボックスといった従来の視覚的特徴を統合することで,そのようなデータを生成する手法を提案する。
このデータセットを用いてLLaVA-1.5-7Bモデルを微調整し、ベンチマークで評価し、大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-09-14T05:07:57Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - UniHPE: Towards Unified Human Pose Estimation via Contrastive Learning [29.037799937729687]
2次元と3次元の人間の姿勢推定(HPE)はコンピュータビジョンにおける2つの重要な知覚的タスクである。
提案するUniHPEは,3つのモードの全ての特徴を整列する,統一されたヒューマンポーズ推定パイプラインである。
提案手法は,コンピュータビジョンの分野を前進させ,様々な応用に寄与する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-24T21:55:34Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。