論文の概要: FaceLLM: A Multimodal Large Language Model for Face Understanding
- arxiv url: http://arxiv.org/abs/2507.10300v1
- Date: Mon, 14 Jul 2025 14:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.06773
- Title: FaceLLM: A Multimodal Large Language Model for Face Understanding
- Title(参考訳): FaceLLM: 顔理解のための多モーダル大規模言語モデル
- Authors: Hatef Otroshi Shahreza, Sébastien Marcel,
- Abstract要約: 顔画像理解に特化して訓練された多モーダル大言語モデルFaceLLMを紹介する。
トレーニングデータを構築するために,ChatGPTと属性認識プロンプトを併用して高品質な質問応答ペアを生成する,弱教師付きパイプラインを提案する。
実験により,FaceLLMは様々な顔中心タスクにおけるMLLMの性能を向上し,最先端のパフォーマンスを実現することが示された。
- 参考スコア(独自算出の注目度): 22.8742248559748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have shown remarkable performance in vision-language tasks. However, existing MLLMs are primarily trained on generic datasets, limiting their ability to reason on domain-specific visual cues such as those in facial images. In particular, tasks that require detailed understanding of facial structure, expression, emotion, and demographic features remain underexplored by MLLMs due to the lack of large-scale annotated face image-text datasets. In this work, we introduce FaceLLM, a multimodal large language model trained specifically for facial image understanding. To construct the training data, we propose a novel weakly supervised pipeline that uses ChatGPT with attribute-aware prompts to generate high-quality question-answer pairs based on images from the FairFace dataset. The resulting corpus, called FairFaceGPT, covers a diverse set of attributes including expression, pose, skin texture, and forensic information. Our experiments demonstrate that FaceLLM improves the performance of MLLMs on various face-centric tasks and achieves state-of-the-art performance. This work highlights the potential of synthetic supervision via language models for building domain-specialized MLLMs, and sets a precedent for trustworthy, human-centric multimodal AI systems. FairFaceGPT dataset and pretrained FaceLLM models are publicly available in the project page.
- Abstract(参考訳): マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクにおいて顕著な性能を示した。
しかし、既存のMLLMは主にジェネリックデータセットに基づいて訓練されており、顔画像のようなドメイン固有の視覚的手がかりを推論する能力を制限する。
特に、顔の構造、表情、感情、人口動態の詳細な理解を必要とするタスクは、大規模な注釈付き顔画像テキストデータセットが欠如しているため、MLLMによって探索されていない。
本研究では,顔画像理解に特化して訓練された多モーダル大規模言語モデルであるFaceLLMを紹介する。
トレーニングデータを構築するために,ChatGPTと属性認識プロンプトを用いて,FairFaceデータセットの画像に基づいて高品質な質問応答ペアを生成する,弱教師付きパイプラインを提案する。
FairFaceGPTと呼ばれる結果のコーパスは、表現、ポーズ、肌のテクスチャ、法医学情報など、さまざまな属性のセットをカバーしている。
実験により,FaceLLMは様々な顔中心タスクにおけるMLLMの性能を向上し,最先端のパフォーマンスを実現することが示された。
この研究は、ドメイン特化MLLMを構築するための言語モデルによる合成監視の可能性を強調し、信頼できる人間中心のマルチモーダルAIシステムの先例となる。
FairFaceGPTデータセットと事前トレーニングされたFaceLLMモデルは、プロジェクトページで公開されている。
関連論文リスト
- FaceInsight: A Multimodal Large Language Model for Face Perception [69.06084304620026]
本研究では,顔の詳細な情報を提供する多目的顔認識大言語モデル (MLLM) を提案する。
本手法では, 顔情報間の不確かさと決定論的関係の両方をモデル化するために, 顔知識の視覚的・テキスト的アライメントを導入する。
3つの顔認識タスクに対する総合的な実験と分析により、FaceInsightはMLLMと比較した9つの性能を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-22T06:31:57Z) - Multimodal Representation Learning Techniques for Comprehensive Facial State Analysis [5.795431510723275]
マルチモーダル顔状態解析のための包括的パイプラインを提案する。
本稿では,アクション・ユニット(AU)と感情認識に適した,新しいマルチレベル・マルチモーダル・フェイス・ファンデーション・モデル(MF2)を提案する。
実験は、AUと感情検出タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-14T16:00:57Z) - Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning [5.178801281905521]
顔認識や属性認識を含む,顔中心のテキスト内学習のための大規模言語モデルFace-LLaVAを提案する。
まず,顔処理のためのMLLMを指導する顔中心データベースFaceInstruct-1Mを開発した。
そこで我々は,Face-Region Guided Cross-Attentionを応用した新しいビジュアルエンコーダを開発した。
論文 参考訳(メタデータ) (2025-04-09T18:26:07Z) - Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。