論文の概要: HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model
- arxiv url: http://arxiv.org/abs/2406.01914v1
- Date: Tue, 4 Jun 2024 02:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:13:20.299962
- Title: HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model
- Title(参考訳): HPE-CogVLM:視覚言語モデルに基づく新しい頭部接地課題探索
- Authors: Yu Tian, Tianqi Shao, Tsukasa Demizu, Xuyang Wu, Hsin-Tai Wu,
- Abstract要約: 頭部ポーズ推定(HPE)タスクは3次元空間関係の精密な理解とヨー、ピッチ、ロール角の正確な数値出力を必要とする。
従来の研究は主に非大規模言語モデル(Non-LLMs)に基づいていた。
CogVLMは、オブジェクト境界ボックス(BBox)を予測する基盤機能を備えた視覚言語モデル(VLM)である。
- 参考スコア(独自算出の注目度): 6.0644369317519145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Head pose estimation (HPE) task requires a sophisticated understanding of 3D spatial relationships and precise numerical output of yaw, pitch, and roll Euler angles. Previous HPE studies are mainly based on Non-large language models (Non-LLMs), which rely on close-up human heads cropped from the full image as inputs and lack robustness in real-world scenario. In this paper, we present a novel framework to enhance the HPE prediction task by leveraging the visual grounding capability of CogVLM. CogVLM is a vision language model (VLM) with grounding capability of predicting object bounding boxes (BBoxes), which enables HPE training and prediction using full image information input. To integrate the HPE task into the VLM, we first cop with the catastrophic forgetting problem in large language models (LLMs) by investigating the rehearsal ratio in the data rehearsal method. Then, we propose and validate a LoRA layer-based model merging method, which keeps the integrity of parameters, to enhance the HPE performance in the framework. The results show our HPE-CogVLM achieves a 31.5\% reduction in Mean Absolute Error for HPE prediction over the current Non-LLM based state-of-the-art in cross-dataset evaluation. Furthermore, we compare our LoRA layer-based model merging method with LoRA fine-tuning only and other merging methods in CogVLM. The results demonstrate our framework outperforms them in all HPE metrics.
- Abstract(参考訳): 頭部ポーズ推定(HPE)タスクは、3次元空間関係の洗練された理解とヨー、ピッチ、ロールオイラー角の正確な数値出力を必要とする。
従来のHPE研究は主に非大規模言語モデル(Non-LLMs)に基づいており、これは実世界のシナリオにおいて、入力としてフルイメージから抽出されたクローズアップな人間の頭に依存している。
本稿では,CogVLMの視覚的接地機能を活用することで,HPE予測タスクを強化する新しいフレームワークを提案する。
CogVLMは、オブジェクト境界ボックス(BBox)の予測機能を備えた視覚言語モデル(VLM)であり、フルイメージ情報入力を用いたHPEトレーニングと予測を可能にする。
HPEタスクをVLMに統合するために,我々はまず,大言語モデル(LLM)における破滅的な忘れ問題に対処し,データリハーサル法におけるリハーサル比を調査する。
そこで我々は,パラメータの整合性を維持するLoRA層モデルマージ手法を提案し,提案手法の有効性を検証した。
その結果,HPE-CogVLMは,HPE予測における平均絶対誤差を31.5倍に減らし,非LLMに基づく現状を把握した。
さらに,我々のLoRA層モデルマージ法と,CagVLMにおけるLoRAファインチューニング法および他のマージ法との比較を行った。
その結果、我々のフレームワークはすべてのHPEメトリクスでそれらを上回ります。
関連論文リスト
- CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation [3.5379836919221566]
剛体物体のポーズを推定することはコンピュータビジョンの基本的な問題の一つである。
本稿では,多目的単分子ポーズ推定のための新しいアプローチCVAM-Poseを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:26:27Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Source-free Domain Adaptive Human Pose Estimation [12.953589379165024]
HPE(Human Pose Estimation)は、モーション分析、ヘルスケア、バーチャルリアリティーなど、さまざまな分野で広く使われている。
これを解決する1つのアプローチは、合成データセット上でHPEモデルをトレーニングし、実世界のデータに対してドメイン適応を実行することである。
HPEの既存のDAメソッドは、適応プロセスでソースデータとターゲットデータの両方を使用することで、データのプライバシとセキュリティを無視する。
論文 参考訳(メタデータ) (2023-08-06T20:19:06Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Towards Unsupervised HPO for Outlier Detection [23.77292404327994]
我々はメタラーニングに基づくHPODと呼ばれる最初の体系的アプローチを提案する。
HPODは、既存のODベンチマークデータセット上でのHPの大規模なコレクションの以前のパフォーマンスを生かしている。
将来性のあるHPを効率的に特定するために、シーケンシャルなモデルベースの最適化(元々は教師付き)を適用する。
論文 参考訳(メタデータ) (2022-08-24T18:11:22Z) - Coordinate-Aligned Multi-Camera Collaboration for Active Multi-Object
Tracking [114.16306938870055]
AMOTのための座標整列型マルチカメラ協調システムを提案する。
提案手法では,各カメラをエージェントとみなし,マルチエージェント強化学習ソリューションを用いてAMOTに対処する。
本システムでは,ベースライン法を8.9%上回る71.88%のカバレッジを実現している。
論文 参考訳(メタデータ) (2022-02-22T13:28:40Z) - DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders [3.2826250607043796]
トレーニング時に見つからない視点を扱う場合、現在の3Dヒューマンポース推定法は失敗する傾向にあることを示す。
そこで本研究では,高速変動ベイズカプセルルーティングを用いたカプセルオートエンコーダネットワークDECAを提案する。
実験による検証では,視界・視界・視界・視界・視界・視界の両面から,奥行き画像の他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T08:46:15Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。