論文の概要: HPE-CogVLM: Advancing Vision Language Models with a Head Pose Grounding Task
- arxiv url: http://arxiv.org/abs/2406.01914v2
- Date: Fri, 08 Nov 2024 17:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:53:09.592369
- Title: HPE-CogVLM: Advancing Vision Language Models with a Head Pose Grounding Task
- Title(参考訳): HPE-CogVLM:頭部接地作業による視覚言語モデルの改良
- Authors: Yu Tian, Tianqi Shao, Tsukasa Demizu, Xuyang Wu, Hsin-Tai Wu,
- Abstract要約: 頭部ポーズ推定 (HPE) は, 正確なヨー, ピッチ, ロール角を生成するために, 3次元空間関係の精密な理解を必要とする。
以前のモデルは、主にCNNベースで、クローズアップされた人間の頭部画像を入力として頼りにしており、現実のシナリオでは堅牢性に欠けることが多い。
本稿では,CagVLM と呼ばれる VLM の物体検出接地機能を活用することで,HPE の精度を向上させる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.0644369317519145
- License:
- Abstract: Head pose estimation (HPE) requires a sophisticated understanding of 3D spatial relationships to generate precise yaw, pitch, and roll angles. Previous HPE models, primarily CNN-based, rely on cropped close-up human head images as inputs and often lack robustness in real-world scenario. Vision Language Models (VLMs) can analyze entire images while focusing on specific objects through their attention mechanisms. In this paper, we propose a novel framework to improve the HPE accuracy by leveraging the object detection grounding capability of a VLM, referred to as CogVLM. We empirically find that directly LoRA fine-tuning of this VLM for the HPE task fails to achieve desirable HPE accuracy, while some model merging methods can improve accuracy but frequently produce blended invalid response formats, struggling to handle both object detection and HPE tasks simultaneously. To integrate HPE capability into CogVLM effectively, we develop a novel LoRA layer-based model merging method. This merging approach applies a high cosine similarity threshold and a winner-takes-all layer selection strategy, aligning attention to the HPE task while preserving original object detection knowledge. It successfully resolves issues with blended invalid response formats and improves accuracy. Results show that our HPE-CogVLM achieves a 31.5\% reduction in Mean Absolute Error over the current state-of-the-art CNN model, 6DRepNet, in cross-dataset evaluation. Furthermore, HPE-CogVLM outperforms both directly LoRA fine-tuned and task arithmetic-based merged VLMs across all HPE metrics.
- Abstract(参考訳): 頭部ポーズ推定 (HPE) は, 正確なヨー, ピッチ, ロール角を生成するために, 3次元空間関係の精密な理解を必要とする。
以前のHPEモデルは、主にCNNベースで、クローズアップされた人間の頭部画像を入力として頼りにしており、現実のシナリオでは堅牢性に欠けることが多い。
視覚言語モデル(VLM)は、注意機構を通じて特定のオブジェクトに注目しながら、画像全体を解析することができる。
本稿では,CagVLMと呼ばれるVLMの物体検出接地機能を活用することで,HPEの精度を向上させる新しいフレームワークを提案する。
HPEタスクに対するこのVLMを直接微調整することは望ましいHPE精度を達成するのに失敗するのに対し、いくつかのモデルマージ手法は精度を向上するが、オブジェクト検出とHPEタスクを同時に扱うのに苦戦する、ブレンドされた無効な応答形式を頻繁に生成する。
我々は,HPE機能をCogVLMに効果的に統合するために,新しいLoRA層モデルマージ法を開発した。
このマージ手法はコサイン類似度の高いしきい値と、全ての層選択戦略を適用し、元のオブジェクト検出知識を維持しながら、HPEタスクに注意を向ける。
ブレンドされた無効な応答フォーマットの問題の解決に成功し、精度を向上する。
その結果,HPE-CogVLMは,現状のCNNモデルである6DRepNetよりも平均絶対誤差を31.5倍に削減できることがわかった。
さらに、HPE-CogVLMは、すべてのHPEメトリクスで直接LoRA微調整とタスク算術ベースのマージVLMより優れている。
関連論文リスト
- CVAM-Pose: Conditional Variational Autoencoder for Multi-Object Monocular Pose Estimation [3.5379836919221566]
剛体物体のポーズを推定することはコンピュータビジョンの基本的な問題の一つである。
本稿では,多目的単分子ポーズ推定のための新しいアプローチCVAM-Poseを提案する。
論文 参考訳(メタデータ) (2024-10-11T17:26:27Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - Source-free Domain Adaptive Human Pose Estimation [12.953589379165024]
HPE(Human Pose Estimation)は、モーション分析、ヘルスケア、バーチャルリアリティーなど、さまざまな分野で広く使われている。
これを解決する1つのアプローチは、合成データセット上でHPEモデルをトレーニングし、実世界のデータに対してドメイン適応を実行することである。
HPEの既存のDAメソッドは、適応プロセスでソースデータとターゲットデータの両方を使用することで、データのプライバシとセキュリティを無視する。
論文 参考訳(メタデータ) (2023-08-06T20:19:06Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Towards Unsupervised HPO for Outlier Detection [23.77292404327994]
我々はメタラーニングに基づくHPODと呼ばれる最初の体系的アプローチを提案する。
HPODは、既存のODベンチマークデータセット上でのHPの大規模なコレクションの以前のパフォーマンスを生かしている。
将来性のあるHPを効率的に特定するために、シーケンシャルなモデルベースの最適化(元々は教師付き)を適用する。
論文 参考訳(メタデータ) (2022-08-24T18:11:22Z) - Coordinate-Aligned Multi-Camera Collaboration for Active Multi-Object
Tracking [114.16306938870055]
AMOTのための座標整列型マルチカメラ協調システムを提案する。
提案手法では,各カメラをエージェントとみなし,マルチエージェント強化学習ソリューションを用いてAMOTに対処する。
本システムでは,ベースライン法を8.9%上回る71.88%のカバレッジを実現している。
論文 参考訳(メタデータ) (2022-02-22T13:28:40Z) - DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders [3.2826250607043796]
トレーニング時に見つからない視点を扱う場合、現在の3Dヒューマンポース推定法は失敗する傾向にあることを示す。
そこで本研究では,高速変動ベイズカプセルルーティングを用いたカプセルオートエンコーダネットワークDECAを提案する。
実験による検証では,視界・視界・視界・視界・視界・視界の両面から,奥行き画像の他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T08:46:15Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。