論文の概要: On-Device Document Classification using multimodal features
- arxiv url: http://arxiv.org/abs/2101.01880v1
- Date: Wed, 6 Jan 2021 05:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 00:16:57.200441
- Title: On-Device Document Classification using multimodal features
- Title(参考訳): マルチモーダル特徴を用いたオンデバイス文書分類
- Authors: Sugam Garg, Harichandana and Sumit Kumar
- Abstract要約: 単一のモダリティは分類に不十分であることを示し、デバイス上で文書を分類するための新しいパイプラインを示す。
我々は,光学文字認識(OCR)のためのオープンソースライブラリと,パイプラインに新たなモデルアーキテクチャを統合する。
この分類モデルを標準のマルチモーダルデータセットfood-101でベンチマークし、30%のモデル圧縮で以前の技術と競合する結果を示す。
- 参考スコア(独自算出の注目度): 3.180188886143297
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: From small screenshots to large videos, documents take up a bulk of space in
a modern smartphone. Documents in a phone can accumulate from various sources,
and with the high storage capacity of mobiles, hundreds of documents are
accumulated in a short period. However, searching or managing documents remains
an onerous task, since most search methods depend on meta-information or only
text in a document. In this paper, we showcase that a single modality is
insufficient for classification and present a novel pipeline to classify
documents on-device, thus preventing any private user data transfer to server.
For this task, we integrate an open-source library for Optical Character
Recognition (OCR) and our novel model architecture in the pipeline. We optimise
the model for size, a necessary metric for on-device inference. We benchmark
our classification model with a standard multimodal dataset FOOD-101 and
showcase competitive results with the previous State of the Art with 30% model
compression.
- Abstract(参考訳): 小さなスクリーンショットから大きなビデオまで、文書は現代のスマートフォンのスペースの大部分を占める。
携帯電話の文書は様々な情報源から蓄積でき、携帯のストレージ容量が高いため、数百の文書が短期間に蓄積される。
しかし、ほとんどの検索方法はメタ情報か文書中のテキストのみに依存しているため、文書の検索や管理は厄介な作業である。
本稿では,単一のモダリティで分類が不十分であることを示すとともに,デバイス上で文書を分類する新たなパイプラインを提案することにより,サーバへのプライベートなデータ転送を防止できることを示す。
そこで我々は,OCR(Optical Character Recognition)のためのオープンソースライブラリと,パイプラインに新たなモデルアーキテクチャを統合する。
デバイス上の推論に必要なメトリックであるサイズに対するモデルを最適化する。
この分類モデルを標準のマルチモーダルデータセットfood-101でベンチマークし、30%のモデル圧縮で以前の技術と競合する結果を示す。
関連論文リスト
- On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - IncDSI: Incrementally Updatable Document Retrieval [32.89218578877908]
IncDSIは、データセット全体のモデルをトレーニングすることなく、リアルタイムでドキュメントを追加する方法である。
我々は、制約付き最適化問題として文書の追加を定式化し、ネットワークパラメータの変更を最小限に抑える。
私たちのアプローチは、データセット全体のモデルの再トレーニングと競合しています。
論文 参考訳(メタデータ) (2023-07-19T07:20:30Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Understanding Performance of Long-Document Ranking Models through
Comprehensive Evaluation and Leaderboarding [11.25399488981492]
我々は2つの一般的なコレクション(MS MARCO 文書と Robust04)を用いて、長い文書のランク付けのための13の最新のモデルを評価する。
単純なFirstPベースライン(典型的トランスフォーマーモデルの入力シーケンス制約を満たすために文書をトランケートする)は非常に効果的である。
我々は,ロバスト04とMS MARCOの文書が広く使用されているにもかかわらず,長期文書モデルのベンチマークには特に有用ではないと主張している。
論文 参考訳(メタデータ) (2022-07-04T08:54:43Z) - Multi-Vector Models with Textual Guidance for Fine-Grained Scientific
Document Similarity [11.157086694203201]
本稿では, 微粒な面のマッチングに基づく新しい科学的文書類似性モデルを提案する。
本モデルは,テキスト管理の新たな形態として,関連論文の側面を記述した共引用文脈を用いて学習する。
論文 参考訳(メタデータ) (2021-11-16T11:12:30Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。