Fugu-MT 論文翻訳(概要): Employing Vision-Language Models for Face Image Quality Assessment

論文の概要: Employing Vision-Language Models for Face Image Quality Assessment

arxiv url: http://arxiv.org/abs/2605.17489v1
Date: Sun, 17 May 2026 14:57:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:48.118696
Title: Employing Vision-Language Models for Face Image Quality Assessment
Title（参考訳）: 視覚言語モデルを用いた顔画像品質評価
Authors: Erdi Sarıtaş, Eren Onaran, Vitomir Štruc, Hazım Kemal Ekenel,
Abstract要約: 顔画像品質評価(FIQA)はバイオメトリックパイプラインにおいて重要な制御ステップである。最先端のFIQA法は高い実用性を達成するが、通常「ブラックボックス」として機能するゼロショット環境でFIQAを実行することにより,このギャップを埋めるため,市販のビジョンランゲージモデル(VLM)の可能性を検討する。
参考スコア（独自算出の注目度）: 0.023141219541346198
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Face Image Quality Assessment (FIQA) is a crucial control step in biometric pipelines. It ensures only reliable samples are processed to maintain system accuracy. State-of-the-art FIQA methods achieve high utility but typically operate as "black boxes." They produce scalar scores without human-interpretable justifications. This lack of transparency limits their effectiveness in human-in-the-loop scenarios, such as automated border control, where actionable feedback is essential. In this paper, we investigate the potential of off-the-shelf Vision-Language Models (VLMs) to bridge this gap by performing FIQA in a zero-shot setting. We present a comprehensive evaluation framework for assessing VLM performance. This involves benchmarking traditional FIQA methods through error-versus-reject curves. Additionally, using a diverse set of datasets, ranging from surveillance-oriented to synthetically generated, we analyzed their interpretability, consistency, and robustness to prompt changes. Our results show biometric utility performance depends significantly on architecture, not merely on parameter count. Most VLMs' outputs align with those of traditional methods. We also find that VLM ranking performance and the generated scores may vary across prompts. Our synthetic ablation study shows that while increasing the parameter count can improve internal consistency, it yields worse degradation-detection performance than smaller models. These findings suggest that zero-shot FIQA score estimation using VLMs is promising and could effectively complement conventional FIQA pipelines as an interpretability module. The codes are available at https://github.com/ThEnded32/VLM4FIQA.git.
Abstract（参考訳）: 顔画像品質評価(FIQA)はバイオメトリックパイプラインにおいて重要な制御ステップである。システム精度を維持するために、信頼できるサンプルのみが処理されることを保証する。最先端のFIQA法は高い実用性を達成するが、通常「ブラックボックス」として機能する。人間の解釈可能な正当化なしにスカラースコアを生成する。この透明性の欠如は、行動可能なフィードバックが不可欠である自動境界制御など、ループ内シナリオにおける有効性を制限している。本稿では、ゼロショット環境でFIQAを実行することにより、このギャップを埋めるために、市販のVLM(Vision-Language Models)の可能性を検討する。 VLMの性能評価のための総合評価フレームワークを提案する。これは従来のFIQAメソッドを誤差-逆-リジェクト曲線でベンチマークすることを含む。さらに、監視指向から合成生成まで、さまざまなデータセットを使用して、その解釈可能性、一貫性、堅牢性を分析して、変化を促す。以上の結果から,バイオメトリック・ユーティリティのパフォーマンスは,単にパラメータ数に限らず,アーキテクチャに大きく依存することがわかった。ほとんどのVLMの出力は従来の方法と一致している。また、VLMランキング性能と生成したスコアはプロンプトによって異なる可能性がある。本研究は, パラメータ数の増加は内部の整合性を向上させるが, 小型モデルよりも劣化検出性能が劣ることを示す。これらの結果から,VLMを用いたゼロショットFIQAスコア推定は有望であり,従来のFIQAパイプラインを解釈可能性モジュールとして効率的に補完できる可能性が示唆された。コードはhttps://github.com/ThEnded32/VLM4FIQA.gitで公開されている。

関連論文リスト

LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。 CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文参考訳（メタデータ） (2026-05-02T11:31:33Z)
Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。 Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文参考訳（メタデータ） (2026-03-23T14:48:54Z)
Grounding the Score: Explicit Visual Premise Verification for Reliable Vision-Language Process Reward Models [8.630726904040781]
EVPV(Explicit Visual Premise Verification)は,ステップが依存する視覚的前提の信頼性を段階的に評価する,軽量な検証インターフェースである。 EVPVはステップレベルの検証を改善し、強いベースラインよりも常にBest-of-Nの精度を向上する。
論文参考訳（メタデータ） (2026-03-17T08:40:26Z)
Rethinking VLMs for Image Forgery Detection and Localization [55.32700985102152]
本稿では,視覚言語モデル(VLM)をフル活用して画像偽造検出・局所化(IFDL)タスクを支援する方法について検討する。これらの知見に基づいて,IFDL-VLMと呼ばれる新しいIFDLパイプラインを提案する。実験結果から, 検出, 局所化, 解釈可能性において, 常に新しい最先端性能を達成できることが示唆された。
論文参考訳（メタデータ） (2026-03-13T12:21:31Z)
Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文参考訳（メタデータ） (2026-02-06T12:24:26Z)
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文参考訳（メタデータ） (2025-04-07T03:57:41Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Transparent and Coherent Procedural Mistake Detection [30.540514590818265]
手続き的誤り検出(英: Procedural mis detection、PMD)は、人間がタスクをうまく実行したかどうかを分類する難しい問題である(手続き的テキストで特定)。我々は、意思決定に視覚的自己対話的合理性を生成するためにPMDを拡張した。近年のヴィジュアル・アンド・ランゲージモデル(VLM)で観察される印象的かつ成熟した画像理解能力を考えると、個々のフレームに基づいてPMDに適したベンチマークデータセットをキュレートする。
論文参考訳（メタデータ） (2024-12-16T16:13:55Z)
AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance [0.562479170374811]
Per-IMage Overlap(PIMO)は、AUROCとAUPROの欠点に対処する新しいメトリクスである。画像ごとのリコールの測定は、計算を単純化し、ノイズの多いアノテーションに対してより堅牢である。実験の結果,PIMOは実用的優位性があり,性能の見識に乏しいことがわかった。
論文参考訳（メタデータ） (2024-01-03T21:24:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。