論文の概要: An Intelligent Hybrid Model for Identity Document Classification
- arxiv url: http://arxiv.org/abs/2106.04345v1
- Date: Mon, 7 Jun 2021 13:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:05:41.112427
- Title: An Intelligent Hybrid Model for Identity Document Classification
- Title(参考訳): アイデンティティ文書分類のためのインテリジェントハイブリッドモデル
- Authors: Nouna Khandan
- Abstract要約: デジタル化は、生産性の向上、災害復旧、環境に優しいソリューションなどの機会とビジネスへの挑戦を提供する。
主な課題の1つは、顧客によって毎日アップロードされた多数のスキャンされたドキュメントを正確に分類することである。
画像分類の応用としてこの課題に対処する研究はほとんどない。
提案手法はPythonを用いて実装され、合成および実世界のデータセットで実験的に検証されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digitization, i.e., the process of converting information into a digital
format, may provide various opportunities (e.g., increase in productivity,
disaster recovery, and environmentally friendly solutions) and challenges for
businesses. In this context, one of the main challenges would be to accurately
classify numerous scanned documents uploaded every day by customers as usual
business processes. For example, processes in banking (e.g., applying for
loans) or the Government Registry of BDM (Births, Deaths, and Marriages)
applications may involve uploading several documents such as a driver's license
and passport. There are not many studies available to address the challenge as
an application of image classification. Although some studies are available
which used various methods, a more accurate model is still required. The
current study has proposed a robust fusion model to define the type of identity
documents accurately. The proposed approach is based on two different methods
in which images are classified based on their visual features and text
features. A novel model based on statistics and regression has been proposed to
calculate the confidence level for the feature-based classifier. A fuzzy-mean
fusion model has been proposed to combine the classifier results based on their
confidence score. The proposed approach has been implemented using Python and
experimentally validated on synthetic and real-world datasets. The performance
of the proposed model is evaluated using the Receiver Operating Characteristic
(ROC) curve analysis.
- Abstract(参考訳): デジタル化(Digitization)、すなわち、情報をデジタル形式に変換するプロセスは、様々な機会(生産性の向上、災害復旧、環境に優しいソリューションなど)を提供し、ビジネスに挑戦する。
この文脈において、主な課題の1つは、顧客が毎日アップロードする多数のスキャンされたドキュメントを通常のビジネスプロセスとして正確に分類することである。
例えば、銀行(例えばローンの申請)やBDM(Births, Deaths, and Marriages)の政府登録簿(Government Registry of BDM)の申請では、運転免許証やパスポートなどの文書をアップロードすることがある。
画像分類の応用としてこの課題に対処する研究はほとんどない。
様々な手法を用いた研究もあるが、より正確なモデルが必要である。
本研究は,アイデンティティ文書の種類を正確に定義するための,堅牢な融合モデルを提案する。
提案手法は,画像の視覚的特徴とテキスト特徴に基づいて分類する2つの方法に基づいている。
特徴量に基づく分類器の信頼性レベルを計算するため,統計と回帰に基づく新しいモデルが提案されている。
ファジィ平均融合モデルを提案し,その信頼性スコアに基づいて分類結果を組み合わせた。
提案手法はPythonを用いて実装され、合成および実世界のデータセットで実験的に検証されている。
提案モデルの性能を受信者動作特性(ROC)曲線解析を用いて評価する。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,DA手法の評価と,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの公平な評価を行うフレームワークを提案する。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Resources for Brewing BEIR: Reproducible Reference Models and an
Official Leaderboard [47.73060223236792]
BEIRは18種類のドメイン/タスクの組み合わせで情報検索モデルを評価するためのベンチマークデータセットである。
我々の研究は、ベンチマークが完全な潜在能力を達成できない2つの欠点に対処しています。
論文 参考訳(メタデータ) (2023-06-13T00:26:18Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。
セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文 参考訳(メタデータ) (2022-06-17T08:32:43Z) - Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。
アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。
我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文 参考訳(メタデータ) (2021-12-16T23:34:07Z) - Incorporating Vision Bias into Click Models for Image-oriented Search
Engine [51.192784793764176]
本論文では,画像指向検索エンジンに視覚バイアスが存在することを,位置以外の検査確率に影響する重要な要因と仮定する。
候補文書から抽出した視覚特徴から視覚バイアスを予測するために回帰型emアルゴリズムを用いた。
論文 参考訳(メタデータ) (2021-01-07T10:01:31Z) - DGSAC: Density Guided Sampling and Consensus [4.808421423598809]
Kernel Residual Densityは、inlierとoutlierの主な差別化要因である。
本稿では,2つのモデル選択アルゴリズム,最適2次プログラム,および欲求性を提案する。
平面分割, 運動分割, 点推定, 3次元点雲への平面整合, 直線, 円環整合など, 様々なタスクについて評価を行った。
論文 参考訳(メタデータ) (2020-06-03T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。