論文の概要: Face-MLLM: A Large Face Perception Model
- arxiv url: http://arxiv.org/abs/2410.20717v1
- Date: Mon, 28 Oct 2024 04:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:31.202200
- Title: Face-MLLM: A Large Face Perception Model
- Title(参考訳): Face-MLLM:大きな顔知覚モデル
- Authors: Haomiao Sun, Mingjie He, Tianheng Lian, Hu Han, Shiguang Shan,
- Abstract要約: マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
- 参考スコア(独自算出の注目度): 53.9441375205716
- License:
- Abstract: Although multimodal large language models (MLLMs) have achieved promising results on a wide range of vision-language tasks, their ability to perceive and understand human faces is rarely explored. In this work, we comprehensively evaluate existing MLLMs on face perception tasks. The quantitative results reveal that existing MLLMs struggle to handle these tasks. The primary reason is the lack of image-text datasets that contain fine-grained descriptions of human faces. To tackle this problem, we design a practical pipeline for constructing datasets, upon which we further build a novel multimodal large face perception model, namely Face-MLLM. Specifically, we re-annotate LAION-Face dataset with more detailed face captions and facial attribute labels. Besides, we re-formulate traditional face datasets using the question-answer style, which is fit for MLLMs. Together with these enriched datasets, we develop a novel three-stage MLLM training method. In the first two stages, our model learns visual-text alignment and basic visual question answering capability, respectively. In the third stage, our model learns to handle multiple specialized face perception tasks. Experimental results show that our model surpasses previous MLLMs on five famous face perception tasks. Besides, on our newly introduced zero-shot facial attribute analysis task, our Face-MLLM also presents superior performance.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は様々な視覚言語タスクにおいて有望な成果を上げてきたが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
定量的結果から,既存のMLLMはこれらの課題に対処するのに苦労していることが明らかとなった。
主な理由は、人間の顔のきめ細かい記述を含む画像テキストデータセットの欠如である。
この問題に対処するため、我々はデータセット構築のための実用的なパイプラインを設計し、さらに新しいマルチモーダルな顔認識モデル、すなわちFace-MLLMを構築した。
具体的には、LAION-Faceデータセットに、より詳細な顔キャプションと顔属性ラベルを付加する。
さらに,MLLMに適合する質問応答スタイルを用いて,従来の顔データセットを再構成する。
これらの豊かなデータセットとともに,新しい3段階MLLMトレーニング手法を開発した。
最初の2段階では,視覚的テキストアライメントと基本的視覚的質問応答能力について学習する。
第3段階では,複数の特殊顔認識タスクの処理を学習する。
実験の結果,このモデルは5つの顔認識タスクにおいて,従来のMLLMを超えていることがわかった。
また,新たに導入したゼロショット顔属性解析タスクでは,Face-MLLMの性能も向上した。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - EMO-LLaMA: Enhancing Facial Emotion Understanding with Instruction Tuning [27.790079451103065]
EMO-LLaMAと呼ばれる新しいMLLMを提案する。これは、事前訓練された顔分析ネットワークからの顔の事前情報を組み込んで、人間の顔情報を強化する。
EMO-LLaMAは、静的および動的FERデータセット間でSOTA互換または競合的な結果を達成する。
論文 参考訳(メタデータ) (2024-08-21T08:28:40Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Enhancing Zero-Shot Facial Expression Recognition by LLM Knowledge Transfer [40.47880613758304]
大規模言語モデル(LLM)からタスク知識を伝達することにより、ゼロショットFERを向上させる新しい手法Exp-CLIPを提案する。
具体的には、事前訓練された視覚言語エンコーダに基づいて、初期共同視覚言語空間を顔行動の表現をキャプチャする空間にマッピングするプロジェクションヘッドを組み込む。
衝突しない顔データから、Exp-CLIPは、7つの範囲のFERデータセット上でCLIPモデルや他のいくつかの大きなビジョン言語モデル(LVLM)よりも優れたゼロショット結果を達成する。
論文 参考訳(メタデータ) (2024-05-29T14:06:09Z) - Facial Affective Behavior Analysis with Instruction Tuning [58.332959295770614]
顔の感情行動分析(FABA)は、画像から人間の精神状態を理解するために重要である。
従来のアプローチでは、主に個別の感情カテゴリーを識別するためのモデルをデプロイし、複雑な顔の振る舞いに対する細かい粒度と推論能力が欠如している。
本稿では,2つのFABAタスクに対する指示追従データセット,感情と行動の単位認識,および認識能力と生成能力の両方を考慮したベンチマークFABA-Benchを紹介する。
また,顔構造知識と低ランク適応モジュールを事前学習MLLMに導入した。
論文 参考訳(メタデータ) (2024-04-07T19:23:28Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。