論文の概要: HPE-CogVLM: Advancing Vision Language Models with a Head Pose Grounding Task
- arxiv url: http://arxiv.org/abs/2406.01914v2
- Date: Fri, 08 Nov 2024 17:33:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:53:09.592369
- Title: HPE-CogVLM: Advancing Vision Language Models with a Head Pose Grounding Task
- Title(参考訳): HPE-CogVLM:頭部接地作業による視覚言語モデルの改良
- Authors: Yu Tian, Tianqi Shao, Tsukasa Demizu, Xuyang Wu, Hsin-Tai Wu,
- Abstract要約: 頭部ポーズ推定 (HPE) は, 正確なヨー, ピッチ, ロール角を生成するために, 3次元空間関係の精密な理解を必要とする。
以前のモデルは、主にCNNベースで、クローズアップされた人間の頭部画像を入力として頼りにしており、現実のシナリオでは堅牢性に欠けることが多い。
本稿では,CagVLM と呼ばれる VLM の物体検出接地機能を活用することで,HPE の精度を向上させる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.0644369317519145
- License:
- Abstract: Head pose estimation (HPE) requires a sophisticated understanding of 3D spatial relationships to generate precise yaw, pitch, and roll angles. Previous HPE models, primarily CNN-based, rely on cropped close-up human head images as inputs and often lack robustness in real-world scenario. Vision Language Models (VLMs) can analyze entire images while focusing on specific objects through their attention mechanisms. In this paper, we propose a novel framework to improve the HPE accuracy by leveraging the object detection grounding capability of a VLM, referred to as CogVLM. We empirically find that directly LoRA fine-tuning of this VLM for the HPE task fails to achieve desirable HPE accuracy, while some model merging methods can improve accuracy but frequently produce blended invalid response formats, struggling to handle both object detection and HPE tasks simultaneously. To integrate HPE capability into CogVLM effectively, we develop a novel LoRA layer-based model merging method. This merging approach applies a high cosine similarity threshold and a winner-takes-all layer selection strategy, aligning attention to the HPE task while preserving original object detection knowledge. It successfully resolves issues with blended invalid response formats and improves accuracy. Results show that our HPE-CogVLM achieves a 31.5\% reduction in Mean Absolute Error over the current state-of-the-art CNN model, 6DRepNet, in cross-dataset evaluation. Furthermore, HPE-CogVLM outperforms both directly LoRA fine-tuned and task arithmetic-based merged VLMs across all HPE metrics.
- Abstract(参考訳): 頭部ポーズ推定 (HPE) は, 正確なヨー, ピッチ, ロール角を生成するために, 3次元空間関係の精密な理解を必要とする。
以前のHPEモデルは、主にCNNベースで、クローズアップされた人間の頭部画像を入力として頼りにしており、現実のシナリオでは堅牢性に欠けることが多い。
視覚言語モデル(VLM)は、注意機構を通じて特定のオブジェクトに注目しながら、画像全体を解析することができる。
本稿では,CagVLMと呼ばれるVLMの物体検出接地機能を活用することで,HPEの精度を向上させる新しいフレームワークを提案する。
HPEタスクに対するこのVLMを直接微調整することは望ましいHPE精度を達成するのに失敗するのに対し、いくつかのモデルマージ手法は精度を向上するが、オブジェクト検出とHPEタスクを同時に扱うのに苦戦する、ブレンドされた無効な応答形式を頻繁に生成する。
我々は,HPE機能をCogVLMに効果的に統合するために,新しいLoRA層モデルマージ法を開発した。
このマージ手法はコサイン類似度の高いしきい値と、全ての層選択戦略を適用し、元のオブジェクト検出知識を維持しながら、HPEタスクに注意を向ける。
ブレンドされた無効な応答フォーマットの問題の解決に成功し、精度を向上する。
その結果,HPE-CogVLMは,現状のCNNモデルである6DRepNetよりも平均絶対誤差を31.5倍に削減できることがわかった。
さらに、HPE-CogVLMは、すべてのHPEメトリクスで直接LoRA微調整とタスク算術ベースのマージVLMより優れている。
関連論文リスト
- EnsIR: An Ensemble Algorithm for Image Restoration via Gaussian Mixture Models [70.60381055741391]
画像復元の課題は、説明された問題に関連し、単一のモデル予測と地道のずれをもたらす。
アンサンブル学習は、複数のベースモデルの予測を組み合わせることで、これらの偏差に対処することを目的としている。
我々は予測候補のアンサンブル重みを推定するために予測(EM)に基づくアルゴリズムを用いる。
我々のアルゴリズムは、モデルに依存しない訓練不要であり、様々なトレーニング済み画像復元モデルのシームレスな統合と強化を可能にする。
論文 参考訳(メタデータ) (2024-10-30T12:16:35Z) - On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-01-01T08:32:50Z) - Source-free Domain Adaptive Human Pose Estimation [12.953589379165024]
HPE(Human Pose Estimation)は、モーション分析、ヘルスケア、バーチャルリアリティーなど、さまざまな分野で広く使われている。
これを解決する1つのアプローチは、合成データセット上でHPEモデルをトレーニングし、実世界のデータに対してドメイン適応を実行することである。
HPEの既存のDAメソッドは、適応プロセスでソースデータとターゲットデータの両方を使用することで、データのプライバシとセキュリティを無視する。
論文 参考訳(メタデータ) (2023-08-06T20:19:06Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Towards Unsupervised HPO for Outlier Detection [23.77292404327994]
我々はメタラーニングに基づくHPODと呼ばれる最初の体系的アプローチを提案する。
HPODは、既存のODベンチマークデータセット上でのHPの大規模なコレクションの以前のパフォーマンスを生かしている。
将来性のあるHPを効率的に特定するために、シーケンシャルなモデルベースの最適化(元々は教師付き)を適用する。
論文 参考訳(メタデータ) (2022-08-24T18:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。