Fugu-MT 論文翻訳(概要): PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for Dynamic Facial Expression Recognition

論文の概要: PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for Dynamic Facial Expression Recognition

arxiv url: http://arxiv.org/abs/2503.16945v1
Date: Fri, 21 Mar 2025 08:45:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-24 15:40:10.342288
Title: PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for Dynamic Facial Expression Recognition
Title（参考訳）: PE-CLIP:動的顔表情認識のための視覚言語モデルのパラメータ効率の良い微調整
Authors: Ibtissam Saadi, Abdenour Hadid, Douglas W. Cunningham, Abdelmalik Taleb-Ahmed, Yassin El Hillali,
Abstract要約: CLIPのような視覚言語モデル(VLM)は、動的表情認識(DFER)のための有望なソリューションを提供するパラメータ効率の良い微調整フレームワークであるPE-CLIPを提案する。効率と精度のバランスをとることで、PE-CLIPはリソース効率のDFERの新しいベンチマークを設定できる。
参考スコア（独自算出の注目度）: 7.966499123076283
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language Models (VLMs) like CLIP offer promising solutions for Dynamic Facial Expression Recognition (DFER) but face challenges such as inefficient full fine-tuning, high complexity, and poor alignment between textual and visual representations. Additionally, existing methods struggle with ineffective temporal modeling. To address these issues, we propose PE-CLIP, a parameter-efficient fine-tuning (PEFT) framework that adapts CLIP for DFER while significantly reducing trainable parameters while maintaining high accuracy. PE-CLIP introduces two specialized adapters: a Temporal Dynamic Adapter (TDA) and a Shared Adapter (ShA). The TDA is a GRU-based module with dynamic scaling that captures sequential dependencies while emphasizing informative temporal features and suppressing irrelevant variations. The ShA is a lightweight adapter that refines representations within both textual and visual encoders, ensuring consistency and efficiency. Additionally, we integrate Multi-modal Prompt Learning (MaPLe), introducing learnable prompts for visual and action unit-based textual inputs, enhancing semantic alignment between modalities and enabling efficient CLIP adaptation for dynamic tasks. We evaluate PE-CLIP on two benchmark datasets, DFEW and FERV39K, achieving competitive performance compared to state-of-the-art methods while requiring fewer trainable parameters. By balancing efficiency and accuracy, PE-CLIP sets a new benchmark in resource-efficient DFER. The source code of the proposed PE-CLIP will be publicly available at https://github.com/Ibtissam-SAADI/PE-CLIP .
Abstract（参考訳）: CLIPのような視覚言語モデル(VLM)は、動的表情認識(DFER)のための有望なソリューションを提供するが、非効率な完全な微調整、高複雑性、テキストと視覚表現の整合性の欠如といった課題に直面している。さらに、既存の手法は非効率的な時間的モデリングに苦しむ。これらの問題に対処するために,パラメータ効率のよい細調整(PEFT)フレームワークPE-CLIPを提案する。 PE-CLIPは、TDA(Temporal Dynamic Adapter)とShA(Shared Adapter)の2つの特別なアダプタを導入している。 TDAは、動的スケーリングを備えたGRUベースのモジュールで、シーケンシャルな依存関係をキャプチャし、情報的時間的特徴を強調し、無関係なバリエーションを抑制する。 ShAは、テキストエンコーダとビジュアルエンコーダの両方で表現を洗練し、一貫性と効率を確保する軽量アダプタである。さらに,マルチモーダル・プロンプト・ラーニング(MaPLe)を統合し,視覚的およびアクション的単位に基づくテキスト入力のための学習可能なプロンプトを導入し,モダリティ間のセマンティックアライメントを強化し,動的タスクに対する効率的なCLIP適応を実現する。 DFEWとFERV39Kの2つのベンチマークデータセット上でPE-CLIPを評価し、トレーニング可能なパラメータを少なくしながら、最先端の手法と比較して競合性能を実現した。効率と精度のバランスをとることで、PE-CLIPはリソース効率のDFERの新しいベンチマークを設定できる。提案されたPE-CLIPのソースコードはhttps://github.com/Ibtissam-SAADI/PE-CLIPで公開されている。

関連論文リスト

AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection [39.72202031440292]
普遍的な視覚異常検出は、新しい視覚領域や見えない視覚領域からの異常を、追加の微調整なしで識別することを目的としている。近年の研究では、CLIPのような事前学習された視覚言語モデルは、ゼロまたは少数の正常な画像で強力な一般化を示すことが示されている。本稿では2つの重要な洞察に基づいて,AdaptCLIPと呼ばれるシンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2025-05-15T03:24:28Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
DiffCLIP: Differential Attention Meets CLIP [57.396578974401734]
本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-09T14:04:09Z)
Efficient and Effective Prompt Tuning via Prompt Decomposition and Compressed Outer Product [8.014705094248589]
低パラメータプロンプトチューニング法は、PT法とLoRA法で性能と効率を向上する。 6つのアーキテクチャと8つのデータセットにわたる実験により、LAMPはパフォーマンスと効率において、最先端のPTベースのメソッドとLoRAベースのメソッドより優れていることが示された。
論文参考訳（メタデータ） (2025-02-16T05:50:12Z)
Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。 Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。 nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-28T14:23:58Z)
FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文参考訳（メタデータ） (2024-07-02T10:55:43Z)
Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation [10.502680141980642]
オープンボキャブラリセマンティックセグメンテーションは、画像中の各ピクセルに任意のテキスト記述をラベル付けしようとする。視覚言語基盤モデル、特にCLIPは、オープン語彙能力を取得するための強力なツールとして登場した。 H-CLIPは、CLIPの総パラメータの約4%を更新するだけで、新しいSOTAオープン語彙セマンティックセマンティックセマンティクス結果を達成する。
論文参考訳（メタデータ） (2024-05-29T07:41:34Z)
Pedestrian Attribute Recognition via CLIP based Prompt Vision-Language Fusion [23.62010759076202]
我々は、PARを視覚言語融合問題として定式化し、歩行者画像と属性ラベルの関係を完全に活用する。提案するPARアルゴリズムは, 微調整手法と比較して0.75%しか学習可能なパラメータを調整できない。
論文参考訳（メタデータ） (2023-12-17T11:59:14Z)
Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。 CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文参考訳（メタデータ） (2023-11-07T07:27:16Z)
MA-FSAR: Multimodal Adaptation of CLIP for Few-Shot Action Recognition [41.78245303513613]
我々は,行動に関連する時間的および意味的表現の観点からCLIP視覚エンコーダを強化するために,Fine-Tuning(PEFT)技術を利用するフレームワークであるMA-FSARを紹介する。これらのトークンレベルの設計に加えて,ビデオプロトタイプの時間的・意味的特性をさらに強化するプロトタイプレベルのテキストガイド構築モジュールを提案する。
論文参考訳（メタデータ） (2023-08-03T04:17:25Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文参考訳（メタデータ） (2022-07-26T05:19:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。