論文の概要: HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model
- arxiv url: http://arxiv.org/abs/2406.01914v1
- Date: Tue, 4 Jun 2024 02:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:13:20.299962
- Title: HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model
- Title(参考訳): HPE-CogVLM:視覚言語モデルに基づく新しい頭部接地課題探索
- Authors: Yu Tian, Tianqi Shao, Tsukasa Demizu, Xuyang Wu, Hsin-Tai Wu,
- Abstract要約: 頭部ポーズ推定(HPE)タスクは3次元空間関係の精密な理解とヨー、ピッチ、ロール角の正確な数値出力を必要とする。
従来の研究は主に非大規模言語モデル(Non-LLMs)に基づいていた。
CogVLMは、オブジェクト境界ボックス(BBox)を予測する基盤機能を備えた視覚言語モデル(VLM)である。
- 参考スコア(独自算出の注目度): 6.0644369317519145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Head pose estimation (HPE) task requires a sophisticated understanding of 3D spatial relationships and precise numerical output of yaw, pitch, and roll Euler angles. Previous HPE studies are mainly based on Non-large language models (Non-LLMs), which rely on close-up human heads cropped from the full image as inputs and lack robustness in real-world scenario. In this paper, we present a novel framework to enhance the HPE prediction task by leveraging the visual grounding capability of CogVLM. CogVLM is a vision language model (VLM) with grounding capability of predicting object bounding boxes (BBoxes), which enables HPE training and prediction using full image information input. To integrate the HPE task into the VLM, we first cop with the catastrophic forgetting problem in large language models (LLMs) by investigating the rehearsal ratio in the data rehearsal method. Then, we propose and validate a LoRA layer-based model merging method, which keeps the integrity of parameters, to enhance the HPE performance in the framework. The results show our HPE-CogVLM achieves a 31.5\% reduction in Mean Absolute Error for HPE prediction over the current Non-LLM based state-of-the-art in cross-dataset evaluation. Furthermore, we compare our LoRA layer-based model merging method with LoRA fine-tuning only and other merging methods in CogVLM. The results demonstrate our framework outperforms them in all HPE metrics.
- Abstract(参考訳): 頭部ポーズ推定(HPE)タスクは、3次元空間関係の洗練された理解とヨー、ピッチ、ロールオイラー角の正確な数値出力を必要とする。
従来のHPE研究は主に非大規模言語モデル(Non-LLMs)に基づいており、これは実世界のシナリオにおいて、入力としてフルイメージから抽出されたクローズアップな人間の頭に依存している。
本稿では,CogVLMの視覚的接地機能を活用することで,HPE予測タスクを強化する新しいフレームワークを提案する。
CogVLMは、オブジェクト境界ボックス(BBox)の予測機能を備えた視覚言語モデル(VLM)であり、フルイメージ情報入力を用いたHPEトレーニングと予測を可能にする。
HPEタスクをVLMに統合するために,我々はまず,大言語モデル(LLM)における破滅的な忘れ問題に対処し,データリハーサル法におけるリハーサル比を調査する。
そこで我々は,パラメータの整合性を維持するLoRA層モデルマージ手法を提案し,提案手法の有効性を検証した。
その結果,HPE-CogVLMは,HPE予測における平均絶対誤差を31.5倍に減らし,非LLMに基づく現状を把握した。
さらに,我々のLoRA層モデルマージ法と,CagVLMにおけるLoRAファインチューニング法および他のマージ法との比較を行った。
その結果、我々のフレームワークはすべてのHPEメトリクスでそれらを上回ります。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-01-01T08:32:50Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Source-free Domain Adaptive Human Pose Estimation [12.953589379165024]
HPE(Human Pose Estimation)は、モーション分析、ヘルスケア、バーチャルリアリティーなど、さまざまな分野で広く使われている。
これを解決する1つのアプローチは、合成データセット上でHPEモデルをトレーニングし、実世界のデータに対してドメイン適応を実行することである。
HPEの既存のDAメソッドは、適応プロセスでソースデータとターゲットデータの両方を使用することで、データのプライバシとセキュリティを無視する。
論文 参考訳(メタデータ) (2023-08-06T20:19:06Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Towards Unsupervised HPO for Outlier Detection [23.77292404327994]
我々はメタラーニングに基づくHPODと呼ばれる最初の体系的アプローチを提案する。
HPODは、既存のODベンチマークデータセット上でのHPの大規模なコレクションの以前のパフォーマンスを生かしている。
将来性のあるHPを効率的に特定するために、シーケンシャルなモデルベースの最適化(元々は教師付き)を適用する。
論文 参考訳(メタデータ) (2022-08-24T18:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。