論文の概要: FaceInsight: A Multimodal Large Language Model for Face Perception
- arxiv url: http://arxiv.org/abs/2504.15624v2
- Date: Fri, 25 Apr 2025 18:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.773726
- Title: FaceInsight: A Multimodal Large Language Model for Face Perception
- Title(参考訳): FaceInsight: 顔認識のためのマルチモーダル大規模言語モデル
- Authors: Jingzhi Li, Changjiang Luo, Ruoyu Chen, Hua Zhang, Wenqi Ren, Jianhou Gan, Xiaochun Cao,
- Abstract要約: 本研究では,顔の詳細な情報を提供する多目的顔認識大言語モデル (MLLM) を提案する。
本手法では, 顔情報間の不確かさと決定論的関係の両方をモデル化するために, 顔知識の視覚的・テキスト的アライメントを導入する。
3つの顔認識タスクに対する総合的な実験と分析により、FaceInsightはMLLMと比較した9つの性能を一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 69.06084304620026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have demonstrated strong capabilities in understanding general visual content. However, these general-domain MLLMs perform poorly in face perception tasks, often producing inaccurate or misleading responses to face-specific queries. To address this gap, we propose FaceInsight, the versatile face perception MLLM that provides fine-grained facial information. Our approach introduces visual-textual alignment of facial knowledge to model both uncertain dependencies and deterministic relationships among facial information, mitigating the limitations of language-driven reasoning. Additionally, we incorporate face segmentation maps as an auxiliary perceptual modality, enriching the visual input with localized structural cues to enhance semantic understanding. Comprehensive experiments and analyses across three face perception tasks demonstrate that FaceInsight consistently outperforms nine compared MLLMs under both training-free and fine-tuned settings.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の最近の進歩は、一般的な視覚的内容を理解する上で強力な能力を示している。
しかし、これらの一般ドメインMLLMは、顔認識タスクでは不十分であり、しばしば、顔固有のクエリに対する不正確な、あるいは誤解を招く応答を生成する。
このギャップに対処するために, きめ細かい顔情報を提供する多目的顔認識MLLMのFaceInsightを提案する。
本手法では, 顔情報間の不確かさと決定論的関係の両方をモデル化し, 言語による推論の限界を緩和するために, 顔知識の視覚的・テキスト的アライメントを導入する。
さらに,視覚入力を局所的な構造的手がかりで豊かにすることで,意味理解を高めるために,顔分割マップを補助的な知覚モダリティとして組み込んだ。
3つの顔認識タスクに対する総合的な実験と分析により、FaceInsightはトレーニングなしと微調整された両方の設定下で、9つの比較MLLMを一貫して上回っていることが示された。
関連論文リスト
- Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning [5.178801281905521]
顔認識や属性認識を含む,顔中心のテキスト内学習のための大規模言語モデルFace-LLaVAを提案する。
まず,顔処理のためのMLLMを指導する顔中心データベースFaceInstruct-1Mを開発した。
そこで我々は,Face-Region Guided Cross-Attentionを応用した新しいビジュアルエンコーダを開発した。
論文 参考訳(メタデータ) (2025-04-09T18:26:07Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - Face-MLLM: A Large Face Perception Model [53.9441375205716]
マルチモーダルな大規模言語モデル(MLLM)は、幅広い視覚言語タスクにおいて有望な結果を得たが、人間の顔を知覚し理解する能力はめったに研究されていない。
本研究では,顔認識タスクにおける既存のMLLMを包括的に評価する。
本モデルは,5つの顔認識タスクにおいて,従来のMLLMを超えている。
論文 参考訳(メタデータ) (2024-10-28T04:19:32Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Text-Guided Face Recognition using Multi-Granularity Cross-Modal
Contrastive Learning [0.0]
テキスト誘導顔認識(TGFR)を導入し、自然言語記述の形で顔属性を統合することの影響を解析する。
TGFRは、特に低画質の画像において、既存の顔認識モデルよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-14T22:04:22Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - CLIPER: A Unified Vision-Language Framework for In-the-Wild Facial
Expression Recognition [1.8604727699812171]
本稿では,CLIPに基づく静的および動的表情認識のための統合フレームワークを提案する。
複数式テキスト記述子(METD)を導入し,CLIPERをより解釈しやすい表現の微粒化を学習する。
論文 参考訳(メタデータ) (2023-03-01T02:59:55Z) - General Facial Representation Learning in a Visual-Linguistic Manner [45.92447707178299]
本稿では,一般の顔表現学習を視覚言語的に行うためのフレームワークFaRLを紹介する。
従来の事前学習モデルと比較して, FaRL は転送性能がよいことを示す。
本モデルは,顔解析や顔のアライメントといった顔解析タスクにおける最先端の手法を超越したモデルである。
論文 参考訳(メタデータ) (2021-12-06T15:22:05Z) - I Only Have Eyes for You: The Impact of Masks On Convolutional-Based
Facial Expression Recognition [78.07239208222599]
今回提案したFaceChannelがマスクを持つ人からの表情認識にどのように適応するかを評価します。
また、制約された社会的相互作用シナリオにおける顔の特徴の変化を学習し、組み合わせるためのFaceChannelの本質的な能力を示すために、特定の機能レベルの可視化も行います。
論文 参考訳(メタデータ) (2021-04-16T20:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。