論文の概要: Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning
- arxiv url: http://arxiv.org/abs/2504.07198v1
- Date: Wed, 09 Apr 2025 18:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:22:13.649497
- Title: Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning
- Title(参考訳): Face-LLaVA:インストラクションチューニングによる顔表現と属性理解
- Authors: Ashutosh Chaubey, Xulang Guan, Mohammad Soleymani,
- Abstract要約: 顔認識や属性認識を含む,顔中心のテキスト内学習のための大規模言語モデルFace-LLaVAを提案する。
まず,顔処理のためのMLLMを指導する顔中心データベースFaceInstruct-1Mを開発した。
そこで我々は,Face-Region Guided Cross-Attentionを応用した新しいビジュアルエンコーダを開発した。
- 参考スコア(独自算出の注目度): 5.178801281905521
- License:
- Abstract: The human face plays a central role in social communication, necessitating the use of performant computer vision tools for human-centered applications. We propose Face-LLaVA, a multimodal large language model for face-centered, in-context learning, including facial expression and attribute recognition. Additionally, Face-LLaVA is able to generate natural language descriptions that can be used for reasoning. Leveraging existing visual databases, we first developed FaceInstruct-1M, a face-centered database for instruction tuning MLLMs for face processing. We then developed a novel face-specific visual encoder powered by Face-Region Guided Cross-Attention that integrates face geometry with local visual features. We evaluated the proposed method across nine different datasets and five different face processing tasks, including facial expression recognition, action unit detection, facial attribute detection, age estimation and deepfake detection. Face-LLaVA achieves superior results compared to existing open-source MLLMs and competitive performance compared to commercial solutions. Our model output also receives a higher reasoning rating by GPT under a zero-shot setting across all the tasks. Both our dataset and model wil be released at https://face-llava.github.io to support future advancements in social AI and foundational vision-language research.
- Abstract(参考訳): 人間の顔は社会的コミュニケーションにおいて中心的な役割を担い、人間中心のアプリケーションに高性能コンピュータビジョンツールを使う必要がある。
顔認識や属性認識を含む,顔中心型,コンテキスト内学習のためのマルチモーダルな大規模言語モデルであるFace-LLaVAを提案する。
さらに、Face-LLaVAは推論に使える自然言語記述を生成することができる。
既存のビジュアルデータベースを活用し,顔処理のためのMLLMを指導する顔中心データベースFaceInstruct-1Mを開発した。
そこで我々は,顔形状と局所的な視覚的特徴を融合したフェイスレジオンガイド・クロスアテンションを利用した,顔固有のビジュアルエンコーダを開発した。
提案手法は,表情認識,アクション単位検出,顔属性検出,年齢推定,深度検出など,9つの異なるデータセットと5つの顔処理タスクにまたがって評価した。
Face-LLaVAは、既存のオープンソースMLLMよりも優れた結果と、商用ソリューションに比べて競争性能を達成している。
我々のモデル出力は、全てのタスクに対してゼロショット設定の下で、GPTによる高い推論レーティングレーティングを受ける。
私たちのデータセットとモデルの両方がhttps://face-llava.github.ioでリリースされ、ソーシャルAIの今後の進歩と基礎的なビジョン言語研究をサポートする。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - FaceXFormer: A Unified Transformer for Facial Analysis [59.94066615853198]
FaceXFormerは10の顔分析タスクを実行することができるエンドツーエンドの統一トランスフォーマーモデルである。
タスクには、顔解析、ランドマーク検出、ヘッドポーズ推定、属性予測、年齢、性別、人種推定が含まれる。
私たちは、FaceXFormerを10種類の多様な顔認識データセットでトレーニングし、特殊モデルとマルチタスクモデルの両方に対して評価する。
論文 参考訳(メタデータ) (2024-03-19T17:58:04Z) - Self-Supervised Facial Representation Learning with Facial Region
Awareness [13.06996608324306]
自己教師付き事前学習は、様々な視覚的タスクに役立つ伝達可能な表現を学習するのに有効であることが証明されている。
この目標に向けての最近の取り組みは、各顔画像を全体として扱うことに限定されている。
本研究では,一貫したグローバルおよびローカルな顔表現を学習するための,自己教師型顔表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-04T15:48:56Z) - A Generalist FaceX via Learning Unified Facial Representation [77.74407008931486]
FaceXは、多様な顔タスクを同時に処理できる新しい顔ジェネラリストモデルである。
汎用的なFaceXは、一般的な顔編集タスクの精巧なタスク特化モデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-12-31T17:41:48Z) - Toward High Quality Facial Representation Learning [58.873356953627614]
我々はMask Contrastive Face (MCF)と呼ばれる自己教師型事前学習フレームワークを提案する。
トレーニング済みの視覚バックボーンの特徴マップを監視項目として使用し、マスク画像モデリングに部分的にトレーニング済みのデコーダを使用する。
このモデルはAFLW-19顔アライメントの0.932 NME_diag$とLaPa顔解析の93.96 F1スコアを達成する。
論文 参考訳(メタデータ) (2023-09-07T09:11:49Z) - General Facial Representation Learning in a Visual-Linguistic Manner [45.92447707178299]
本稿では,一般の顔表現学習を視覚言語的に行うためのフレームワークFaRLを紹介する。
従来の事前学習モデルと比較して, FaRL は転送性能がよいことを示す。
本モデルは,顔解析や顔のアライメントといった顔解析タスクにおける最先端の手法を超越したモデルである。
論文 参考訳(メタデータ) (2021-12-06T15:22:05Z) - A Multi-resolution Approach to Expression Recognition in the Wild [9.118706387430883]
顔認識タスクを解決するためのマルチリゾリューション手法を提案する。
私たちは、しばしば異なる解像度で画像が取得されるという観察を直感的に根拠としています。
我々は、Affect-in-the-Wild 2データセットに基づいてトレーニングされたSqueeze-and-Excitationブロックを備えたResNetのようなアーキテクチャを使用する。
論文 参考訳(メタデータ) (2021-03-09T21:21:02Z) - FaceX-Zoo: A PyTorch Toolbox for Face Recognition [62.038018324643325]
顔認識の研究開発コミュニティを指向した新しいオープンソースフレームワーク、FaceX-Zooを紹介します。
facex-zooは、さまざまな監視ヘッドとバックボーンを備えたトレーニングモジュールを提供する。
訓練されたモデルの検証とプライマリアプリケーションのために、シンプルで機能的なFace SDKが提供されます。
論文 参考訳(メタデータ) (2021-01-12T11:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。