Fugu-MT 論文翻訳(概要): An Intelligent Hybrid Model for Identity Document Classification

論文の概要: An Intelligent Hybrid Model for Identity Document Classification

arxiv url: http://arxiv.org/abs/2106.04345v1
Date: Mon, 7 Jun 2021 13:08:00 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-09 16:05:41.112427
Title: An Intelligent Hybrid Model for Identity Document Classification
Title（参考訳）: アイデンティティ文書分類のためのインテリジェントハイブリッドモデル
Authors: Nouna Khandan
Abstract要約: デジタル化は、生産性の向上、災害復旧、環境に優しいソリューションなどの機会とビジネスへの挑戦を提供する。主な課題の1つは、顧客によって毎日アップロードされた多数のスキャンされたドキュメントを正確に分類することである。画像分類の応用としてこの課題に対処する研究はほとんどない。提案手法はPythonを用いて実装され、合成および実世界のデータセットで実験的に検証されている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Digitization, i.e., the process of converting information into a digital format, may provide various opportunities (e.g., increase in productivity, disaster recovery, and environmentally friendly solutions) and challenges for businesses. In this context, one of the main challenges would be to accurately classify numerous scanned documents uploaded every day by customers as usual business processes. For example, processes in banking (e.g., applying for loans) or the Government Registry of BDM (Births, Deaths, and Marriages) applications may involve uploading several documents such as a driver's license and passport. There are not many studies available to address the challenge as an application of image classification. Although some studies are available which used various methods, a more accurate model is still required. The current study has proposed a robust fusion model to define the type of identity documents accurately. The proposed approach is based on two different methods in which images are classified based on their visual features and text features. A novel model based on statistics and regression has been proposed to calculate the confidence level for the feature-based classifier. A fuzzy-mean fusion model has been proposed to combine the classifier results based on their confidence score. The proposed approach has been implemented using Python and experimentally validated on synthetic and real-world datasets. The performance of the proposed model is evaluated using the Receiver Operating Characteristic (ROC) curve analysis.
Abstract（参考訳）: デジタル化(Digitization)、すなわち、情報をデジタル形式に変換するプロセスは、様々な機会(生産性の向上、災害復旧、環境に優しいソリューションなど)を提供し、ビジネスに挑戦する。この文脈において、主な課題の1つは、顧客が毎日アップロードする多数のスキャンされたドキュメントを通常のビジネスプロセスとして正確に分類することである。例えば、銀行(例えばローンの申請)やBDM(Births, Deaths, and Marriages)の政府登録簿(Government Registry of BDM)の申請では、運転免許証やパスポートなどの文書をアップロードすることがある。画像分類の応用としてこの課題に対処する研究はほとんどない。様々な手法を用いた研究もあるが、より正確なモデルが必要である。本研究は,アイデンティティ文書の種類を正確に定義するための,堅牢な融合モデルを提案する。提案手法は,画像の視覚的特徴とテキスト特徴に基づいて分類する2つの方法に基づいている。特徴量に基づく分類器の信頼性レベルを計算するため,統計と回帰に基づく新しいモデルが提案されている。ファジィ平均融合モデルを提案し,その信頼性スコアに基づいて分類結果を組み合わせた。提案手法はPythonを用いて実装され、合成および実世界のデータセットで実験的に検証されている。提案モデルの性能を受信者動作特性(ROC)曲線解析を用いて評価する。

関連論文リスト

DocVCE: Diffusion-based Visual Counterfactual Explanations for Document Image Classification [5.247930659596986]
本稿では,行動可能な説明を通じて,モデルの決定に意味のある洞察を与える,生成的文書反事実について紹介する。著者の知識を最大限に活用するために、これは文書画像解析における生成的対実的説明を探求する最初の研究である。
論文参考訳（メタデータ） (2025-08-06T09:15:32Z)
Queries, Representation & Detection: The Next 100 Model Fingerprinting Schemes [4.993542259120313]
本稿では,モデルフィンガープリント方式とその評価ベンチマークを作成するための体系的なアプローチを提案する。以前に探索されていないQuRDの組み合わせを$sim100$で識別し、パフォーマンスに関する洞察を得る。我々のアプローチは、より挑戦的なベンチマークとベースラインとの健全な比較の必要性を明らかにします。
論文参考訳（メタデータ） (2024-12-17T15:41:36Z)
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。 1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文参考訳（メタデータ） (2024-12-10T18:52:39Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。本稿では,DA手法の評価と,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの公平な評価を行うフレームワークを提案する。本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-07-16T12:52:29Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Resources for Brewing BEIR: Reproducible Reference Models and an Official Leaderboard [47.73060223236792]
BEIRは18種類のドメイン/タスクの組み合わせで情報検索モデルを評価するためのベンチマークデータセットである。我々の研究は、ベンチマークが完全な潜在能力を達成できない2つの欠点に対処しています。
論文参考訳（メタデータ） (2023-06-13T00:26:18Z)
GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文参考訳（メタデータ） (2023-05-26T19:23:20Z)
A Graph-Enhanced Click Model for Web Search [67.27218481132185]
ウェブ検索のための新しいグラフ強調クリックモデル(GraphCM)を提案する。セッション内情報とセッション間情報の両方を、スパーシリティ問題とコールドスタート問題に活用する。
論文参考訳（メタデータ） (2022-06-17T08:32:43Z)
Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文参考訳（メタデータ） (2021-12-16T23:34:07Z)
Incorporating Vision Bias into Click Models for Image-oriented Search Engine [51.192784793764176]
本論文では,画像指向検索エンジンに視覚バイアスが存在することを,位置以外の検査確率に影響する重要な要因と仮定する。候補文書から抽出した視覚特徴から視覚バイアスを予測するために回帰型emアルゴリズムを用いた。
論文参考訳（メタデータ） (2021-01-07T10:01:31Z)
DGSAC: Density Guided Sampling and Consensus [4.808421423598809]
Kernel Residual Densityは、inlierとoutlierの主な差別化要因である。本稿では,2つのモデル選択アルゴリズム,最適2次プログラム,および欲求性を提案する。平面分割, 運動分割, 点推定, 3次元点雲への平面整合, 直線, 円環整合など, 様々なタスクについて評価を行った。
論文参考訳（メタデータ） (2020-06-03T17:42:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。