論文の概要: Focal-RegionFace: Generating Fine-Grained Multi-attribute Descriptions for Arbitrarily Selected Face Focal Regions
- arxiv url: http://arxiv.org/abs/2601.00156v1
- Date: Thu, 01 Jan 2026 01:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.287574
- Title: Focal-RegionFace: Generating Fine-Grained Multi-attribute Descriptions for Arbitrarily Selected Face Focal Regions
- Title(参考訳): Focal-RegionFace:任意選択顔焦点領域における細粒多属性記述の生成
- Authors: Kaiwen Zheng, Junchen Fu, Songpei Xu, Yaoqing He, Joemon M. Jose, Han Hu, Xuri Ge,
- Abstract要約: 個々の顔領域にフォーカスするシステムの能力は、理解とコントロールの改善につながると我々は主張する。
我々は任意に選択された顔領域のための新しいマルチ属性記述データセットを構築した。
顔の状態解析のためのQwen2.5-VLに基づく微調整型視覚言語モデルFocal-RegionFaceを提案する。
- 参考スコア(独自算出の注目度): 23.190759056439557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce an underexplored problem in facial analysis: generating and recognizing multi-attribute natural language descriptions, containing facial action units (AUs), emotional states, and age estimation, for arbitrarily selected face regions (termed FaceFocalDesc). We argue that the system's ability to focus on individual facial areas leads to better understanding and control. To achieve this capability, we construct a new multi-attribute description dataset for arbitrarily selected face regions, providing rich region-level annotations and natural language descriptions. Further, we propose a fine-tuned vision-language model based on Qwen2.5-VL, called Focal-RegionFace for facial state analysis, which incrementally refines its focus on localized facial features through multiple progressively fine-tuning stages, resulting in interpretable age estimation, FAU and emotion detection. Experimental results show that Focal-RegionFace achieves the best performance on the new benchmark in terms of traditional and widely used metrics, as well as new proposed metrics. This fully verifies its effectiveness and versatility in fine-grained multi-attribute face region-focal analysis scenarios.
- Abstract(参考訳): 本稿では、顔領域(FaceFocalDesc)に対して、顔行動単位(AU)、感情状態、年齢推定を含む多属性自然言語記述の生成と認識という、顔分析における未探索の問題を紹介する。
個々の顔領域にフォーカスするシステムの能力は、理解とコントロールの改善につながると我々は主張する。
この機能を実現するために、任意に選択された顔領域のための新しいマルチ属性記述データセットを構築し、リッチな地域レベルのアノテーションと自然言語記述を提供する。
さらに、顔の状態解析のためのQwen2.5-VLに基づく微調整視覚言語モデルFocal-RegionFaceを提案する。
実験結果から、Focal-RegionFaceは従来のメトリクスと広く使用されているメトリクスと、提案されたメトリクスの両面で、新しいベンチマークで最高のパフォーマンスを達成することが示された。
このことは、多属性顔領域分析シナリオにおけるその有効性と汎用性を完全に検証する。
関連論文リスト
- FaceInsight: A Multimodal Large Language Model for Face Perception [69.06084304620026]
本研究では,顔の詳細な情報を提供する多目的顔認識大言語モデル (MLLM) を提案する。
本手法では, 顔情報間の不確かさと決定論的関係の両方をモデル化するために, 顔知識の視覚的・テキスト的アライメントを導入する。
3つの顔認識タスクに対する総合的な実験と分析により、FaceInsightはMLLMと比較した9つの性能を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-22T06:31:57Z) - Face-LLaVA: Facial Expression and Attribute Understanding through Instruction Tuning [5.178801281905521]
顔認識や属性認識を含む,顔中心のテキスト内学習のための大規模言語モデルFace-LLaVAを提案する。
まず,顔処理のためのMLLMを指導する顔中心データベースFaceInstruct-1Mを開発した。
そこで我々は,Face-Region Guided Cross-Attentionを応用した新しいビジュアルエンコーダを開発した。
論文 参考訳(メタデータ) (2025-04-09T18:26:07Z) - FaceX: Understanding Face Attribute Classifiers through Summary Model Explanations [19.140362626182856]
FaceXは、要約モデルの説明を通じて、顔属性分類器の包括的理解を提供する最初の方法である。
具体的には、FaceXはすべての顔画像に異なる領域が存在することを利用して、モデルのアクティベーションの領域レベルのアグリゲーションを計算する。
空間的説明以外にも、FaceXは、テストベンチマーク内の各顔領域に対するモデルの判断に最も大きな影響を与えて、特定のイメージパッチを視覚化することで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-12-10T08:50:41Z) - DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution [54.05367433562495]
DynReferは、人間の視覚認知の解像度適応性を模倣することで、高精度な領域レベルの参照を目指している。
トレーニング中、DynReferは、マルチモーダルタスクの言語記述と、参照された領域のランダムなビューのセットをネストすることで構築された複数の解像度の画像とを一致させる。
実験により、DynReferは、領域レベルのキャプション、オープンボキャブラリ領域認識、検出など幅広いタスクにおいて相互改善をもたらすことが示された。
論文 参考訳(メタデータ) (2024-05-25T05:44:55Z) - Self-Supervised Facial Representation Learning with Facial Region
Awareness [13.06996608324306]
自己教師付き事前学習は、様々な視覚的タスクに役立つ伝達可能な表現を学習するのに有効であることが証明されている。
この目標に向けての最近の取り組みは、各顔画像を全体として扱うことに限定されている。
本研究では,一貫したグローバルおよびローカルな顔表現を学習するための,自己教師型顔表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-04T15:48:56Z) - Generalized Face Liveness Detection via De-fake Face Generator [52.23271636362843]
以前の顔アンチスプーフィング(FAS)手法は、目に見えない領域に一般化するという課題に直面している。
本稿では,大規模に付加的な現実面を効果的に活用できるAnomalous cue Guided FAS (AG-FAS)法を提案する。
提案手法は,未知のシナリオと未知のプレゼンテーションアタックを用いたクロスドメイン評価において,最先端の結果を実現する。
論文 参考訳(メタデータ) (2024-01-17T06:59:32Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - MGRR-Net: Multi-level Graph Relational Reasoning Network for Facial Action Units Detection [16.261362598190807]
FACS(Facial Action Coding System)は、顔画像中のアクションユニット(AU)を符号化する。
我々は、AU特徴の符号化は、地域的特徴とグローバルな特徴の間のリッチな文脈情報を捉えないかもしれないと論じる。
顔AU検出のためのマルチレベルグラフ推論ネットワーク(MGRR-Net)を提案する。
論文 参考訳(メタデータ) (2022-04-04T09:47:22Z) - Dual-Attention GAN for Large-Pose Face Frontalization [59.689836951934694]
本稿では,フォトリアリスティック顔フロンダル化のためのDA-GAN(Dual-Attention Generative Adversarial Network)を提案する。
具体的には、ローカル機能と長距離依存関係を統合するために、自己アテンションベースのジェネレータが導入された。
顔領域の局所的特徴を強調するために,新しい顔認識に基づく識別器を適用した。
論文 参考訳(メタデータ) (2020-02-17T20:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。