論文の概要: FPBench: A Comprehensive Benchmark of Multimodal Large Language Models for Fingerprint Analysis
- arxiv url: http://arxiv.org/abs/2512.18073v1
- Date: Fri, 19 Dec 2025 21:23:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.178154
- Title: FPBench: A Comprehensive Benchmark of Multimodal Large Language Models for Fingerprint Analysis
- Title(参考訳): FPBench: 指紋解析のための多モード大言語モデルの総合ベンチマーク
- Authors: Ekta Balkrishna Gavas, Sudipta Banerjee, Chinmay Hegde, Nasir Memon,
- Abstract要約: 我々は7つの実・合成データセットにわたる20個のMLLMの性能を評価する総合ベンチマークであるtextscFPBenchを設計する。
パフォーマンス、説明可能性、課題と限界に関する洞察を共有して、私たちの発見について議論します。
- 参考スコア(独自算出の注目度): 12.73290027245067
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal LLMs (MLLMs) have gained significant traction in complex data analysis, visual question answering, generation, and reasoning. Recently, they have been used for analyzing the biometric utility of iris and face images. However, their capabilities in fingerprint understanding are yet unexplored. In this work, we design a comprehensive benchmark, \textsc{FPBench} that evaluates the performance of 20 MLLMs (open-source and proprietary) across 7 real and synthetic datasets on 8 biometric and forensic tasks using zero-shot and chain-of-thought prompting strategies. We discuss our findings in terms of performance, explainability and share our insights into the challenges and limitations. We establish \textsc{FPBench} as the first comprehensive benchmark for fingerprint domain understanding with MLLMs paving the path for foundation models for fingerprints.
- Abstract(参考訳): MLLM(Multimodal LLM)は、複雑なデータ分析、視覚的質問応答、生成、推論において大きな注目を集めている。
近年,虹彩や顔画像の生体的有用性の分析に用いられている。
しかし、指紋認証の能力はまだ解明されていない。
そこで本研究では,ゼロショットとチェーン・オブ・ソートによる8つのバイオメトリックおよび法医学的タスクに対して,20のMLLM(オープンソースおよびプロプライエタリ)の性能を評価するための総合的なベンチマークである‘textsc{FPBench} を設計する。
パフォーマンス、説明可能性、課題と限界に関する洞察を共有して、私たちの発見について議論します。
我々は,指紋ドメイン理解のための最初の総合的なベンチマークとして,指紋の基本モデルへの道を開くMLLMを定めている。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - BinMetric: A Comprehensive Binary Analysis Benchmark for Large Language Models [50.17907898478795]
本稿では,バイナリ解析タスクにおける大規模言語モデルの性能評価のためのベンチマークであるBinMetricを紹介する。
BinMetricは6つの実用的なバイナリ分析タスクにわたる20の実際のオープンソースプロジェクトから得られた1000の質問で構成されている。
本ベンチマークの実証実験では, 各種LLMのバイナリ解析能力について検討し, その強度と限界を明らかにした。
論文 参考訳(メタデータ) (2025-05-12T08:54:07Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - MIMDE: Exploring the Use of Synthetic vs Human Data for Evaluating Multi-Insight Multi-Document Extraction Tasks [0.0]
我々は,Multi-Insight Multi-Document extract (MIMDE)タスクのセットを定義する。
この課題は、調査回答の分析から医療記録の処理に至るまで、多くの実践的応用に欠かせないものである。
そこで本研究では, 合成データの可能性を検討するために, 補完的な人間と合成データセットを新たに導入する。
論文 参考訳(メタデータ) (2024-11-29T13:24:10Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。