Fugu-MT 論文翻訳(概要): Towards Billion-scale Multi-modal Biometric Search

論文の概要: Towards Billion-scale Multi-modal Biometric Search

arxiv url: http://arxiv.org/abs/2605.07655v1
Date: Fri, 08 May 2026 12:28:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 19:43:39.039061
Title: Towards Billion-scale Multi-modal Biometric Search
Title（参考訳）: 数十億ドル規模のマルチモーダルバイオメトリックサーチを目指して
Authors: Arka Koner, Chetan S. Naik, Lokesh Kurre, Vivek Raghavan, Barada P. Sabut, Tanusree Deb Barma, Anoop M. Namboodiri, Anil K. Jain,
Abstract要約: この論文はBharat ABISと呼ばれる大規模なバイオメトリック検索システムについて、オープンソースアーキテクチャに基づく洞察を提供する最初の論文である。 Bharat ABISのエンドツーエンドパイプラインは、前処理のモダリティ特異的段階を通じて指紋、顔、虹彩のモダリティを処理する。 1:N探索のための効率的かつ効率的な解を生成するために、モーダル性とその統合方法について詳細に分析する(重複解法)。
参考スコア（独自算出の注目度）: 8.529653579815472
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Searching a multi-biometric database of a billion records for a country-level identity system requires pushing the limits of all aspects of a biometric system, including acquisition, preprocessing, feature extraction, accuracy, matching speed, presentation attack detection, and handling of special cases (e.g., missing finger digits). This is the first paper that gives insights into such a large-scale multimodal biometric search system, called Bharat ABIS, based on open-source architectures. The end-to-end pipeline of Bharat ABIS processes fingerprint, face and iris modalities through modality-specific stages of preprocessing (segmentation), quality assessment, presentation attack detection, and learning an embedding (feature extraction), producing a concatenated template of 13.5KB per person. We present a detailed analysis of the modalities and how they are integrated to create an efficient and effective solution for 1:N search (de-duplication). Evaluations on a demographically stratified gallery of 220 million identities, randomly sampled from 1.55 billion records in India's Aadhaar database, yield an FNIR of 0.3% at an FPIR of 0.5%, for adult probes (over 18 years). We also compare the performance of Bharat ABIS against three state-of-the-art COTS systems on a 20M gallery. Our system achieves a throughput of 100 searches per second on a gallery of 40M on a single server (8xNvidia H100 GPUs, 2TB RAM).
Abstract（参考訳）: 国レベルのアイデンティティシステムのための10億レコードのマルチバイオメトリックデータベースを検索するには、取得、前処理、特徴抽出、精度、マッチング速度、表示攻撃検出、特別なケース(例えば、欠落指の桁)の処理など、バイオメトリックシステムのすべての側面の限界を押し上げる必要がある。オープンソースのアーキテクチャに基づく大規模マルチモーダルバイオメトリックサーチシステムであるBharat ABISについて考察した最初の論文である。 Bharat ABISのエンドツーエンドパイプラインは、前処理(セグメンテーション)、品質評価、プレゼンテーションアタック検出、埋め込み(機能抽出)の学習を通じて指紋、顔、虹彩のモダリティを処理し、1人あたり13.5KBの連結テンプレートを生成する。本稿では, 1:N 探索のための効率的かつ効率的な解を生成するために, モダリティの詳細な解析とそれらの統合方法について述べる。人口統計学的に階層化された2億2000万のアイデンティティーのギャラリーでの評価は、インドのアダハール・データベースにある15億5500億件の記録からランダムにサンプリングされ、FNIRは0.3%、FPIRは0.5%、成人プローブは18年以上である。また,20Mギャラリー上での3つの最先端COTSシステムとBharat ABISの性能を比較した。本システムでは,1台のサーバ (8xNvidia H100 GPU, 2TB RAM) 上で40Mのギャラリー上で,毎秒100検索のスループットを実現している。

関連論文リスト

SpaCeFormer: Fast Proposal-Free Open-Vocabulary 3D Instance Segmentation [82.87586897359367]
SpaCeFormerはプロポーザルフリーのスペースカーブトランスであり、1シーンあたり0.14秒で動作する。 SpaCeFormerは、以前のシングルビューパイプラインよりも21倍高いマスクリコールを実現している。 ScanNet200では、従来のベストプロポーザルフリーメソッドよりも2.8倍改善された11.1ゼロショットのmAPを実現しています。
論文参考訳（メタデータ） (2026-04-22T09:57:57Z)
Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory [76.63021613850093]
我々は、生涯にわたるAIエージェントのための統合マルチモーダルメモリフレームワークであるOmni-SimpleMemを発見するために、自律的な研究パイプラインをデプロイする。システムは2つのベンチマークで最先端を実現し、LoCoMoではF1を+411%改善し、Mem-Galleryでは+214%向上した。本稿では,6種類の発見型を分類し,特に自動検索に適したマルチモーダルメモリを実現する4つの特性を同定する。
論文参考訳（メタデータ） (2026-04-01T15:06:23Z)
IRPAPERS: A Visual Document Benchmark for Scientific Retrieval and Question Answering [1.4427879901952518]
我々は166の科学論文から3,230ページのベンチマークであるIRPAPERSを紹介し、各ページに画像とOCRの書き起こしがある。画像とテキストによる検索と質問応答システムの比較を行った。我々は、一助文と画像表現の限界を分析し、一方のモダリティを必要とする質問タイプを他方で識別する。
論文参考訳（メタデータ） (2026-02-05T21:57:43Z)
MICCAI STS 2024 Challenge: Semi-Supervised Instance-Level Tooth Segmentation in Panoramic X-ray and CBCT Images [33.12982357985314]
本研究は,半教師付き学習(SSL)のベンチマークと進歩を目的とした。第2回半監督歯(STS 2024)チャレンジをMII 2024で開催した。我々は, 2,380 OPG画像と330 CBCTスキャンを含む90,000以上の2次元画像と3次元軸スライスからなる大規模データセットを作成した。勝利したセミ教師付きモデルでは、ラベル付きデータのみに基づいてトレーニングされた完全な教師付きnnU-Netベースラインよりも優れたパフォーマンス向上を示した。
論文参考訳（メタデータ） (2025-11-28T06:33:55Z)
G-MSGINet: A Grouped Multi-Scale Graph-Involution Network for Contactless Fingerprint Recognition [20.458766184257147]
G-MSGINetは、接触レス指紋認識のための統一されたフレームワークである。生の入力画像から直接、微妙な局所化とアイデンティティの埋め込みを共同で行う。 3つのベンチマークデータセットの大規模な実験は、G-MSGINetが97.0%から99.1%の範囲で0.83pm0.02$、ランク1の識別精度で一貫してF1スコアを達成していることを示している。
論文参考訳（メタデータ） (2025-05-13T05:24:24Z)
Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait [70.00430652562012]
FarSightは、顔認識のためのエンドツーエンドシステムで、顔、歩行、体形を横断する生体計測の手がかりを統合する。 FarSightは、4つのコアモジュールにまたがる新しいアルゴリズムを組み込んでいる。
論文参考訳（メタデータ） (2025-05-07T17:58:25Z)
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文参考訳（メタデータ） (2024-09-19T08:41:21Z)
How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文参考訳（メタデータ） (2023-05-19T17:33:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。