論文の概要: Arctic-Extract Technical Report
- arxiv url: http://arxiv.org/abs/2511.16470v1
- Date: Thu, 20 Nov 2025 15:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.699538
- Title: Arctic-Extract Technical Report
- Title(参考訳): 北極抽出技術報告
- Authors: Mateusz Chiliński, Julita Ołtusek, Wojciech Jaśkowski,
- Abstract要約: アークティック・エクストラクション(Artictic-Extract)は、スキャンされたまたはデジタル生まれの文書から構造データを抽出するために設計された最先端のモデルである。
本稿では,Arctic-Extractのトレーニングプロトコルと評価結果を強調し,文書理解におけるその強みを実証する。
- 参考スコア(独自算出の注目度): 0.19116784879310025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arctic-Extract is a state-of-the-art model designed for extracting structural data (question answering, entities and tables) from scanned or digital-born business documents. Despite its SoTA capabilities, the model is deployable on resource-constrained hardware, weighting only 6.6 GiB, making it suitable for deployment on devices with limited resources, such as A10 GPUs with 24 GB of memory. Arctic-Extract can process up to 125 A4 pages on those GPUs, making suitable for long document processing. This paper highlights Arctic-Extract's training protocols and evaluation results, demonstrating its strong performance in document understanding.
- Abstract(参考訳): Arctic-Extractは、スキャンまたはデジタル生まれのビジネス文書から構造データ(質問応答、エンティティ、テーブル)を抽出するために設計された最先端のモデルである。
SoTAの機能にもかかわらず、モデルはリソースに制約のあるハードウェアにデプロイ可能であり、重量は6.6 GiBに過ぎず、24GBのメモリを持つA10 GPUのような限られたリソースを持つデバイスにデプロイするのに適している。
Arctic-Extractは、これらのGPU上で125のA4ページを処理でき、長いドキュメント処理に適している。
本稿では,Arctic-Extractのトレーニングプロトコルと評価結果を強調し,文書理解におけるその強みを実証する。
関連論文リスト
- Advanced Layout Analysis Models for Docling [7.819891138280585]
Doclingの以前のベースラインよりも20.6%から23.9%の改善を実現した5つの新しいドキュメントレイアウトモデルを紹介します。
私たちのベストモデルである"heron-101"は78%のmAPを実現し、1つのNVIDIA A100 GPU上で28ms/image推論時間を実現しています。
すべてのトレーニングされたチェックポイント、コード、ドキュメントは、HuggingFaceのパーミッシブなライセンスの下でリリースされます。
論文 参考訳(メタデータ) (2025-09-15T09:20:11Z) - PyPotteryLens: An Open-Source Deep Learning Framework for Automated Digitisation of Archaeological Pottery Documentation [0.0]
PyPotteryLensは、考古学的考古学的図面のデジタル化と処理を自動化するフレームワークである。
このフレームワークは、陶器検出および分類タスクにおいて97%以上の精度とリコールを達成する。
手作業に比べて処理時間を最大5倍から20倍に短縮する。
論文 参考訳(メタデータ) (2024-12-16T09:01:32Z) - BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - GPU-accelerated Effective Hamiltonian Calculator [70.12254823574538]
本研究では,非摂動解析対角化法(NPAD)とマグナス拡大法に着想を得た数値解析手法を提案する。
私たちの数値技術は、オープンソースPythonパッケージとして、$rm qCH_eff$で利用可能です。
論文 参考訳(メタデータ) (2024-11-15T06:33:40Z) - MinerU: An Open-Source Solution for Precise Document Content Extraction [63.00490552013759]
MinerUは、高精度な文書コンテンツ抽出のためのオープンソースのソリューションである。
我々は、MinerUが、様々なドキュメントタイプで一貫してハイパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-09-27T15:35:15Z) - Arctic-TILT. Business Document Understanding at Sub-Billion Scale [1.2286461468814107]
これらのユースケースで1000$times=そのサイズに匹敵する精度を実現したArctic-TILTを導入する。
単一の24GB GPU上で微調整およびデプロイが可能で、最大400kのトークンでVisually Rich Documentsを処理しながら、運用コストを削減できる。
このモデルは、7つの異なる理解ドキュメントベンチマークの最先端結果を確立し、信頼性の高い信頼性スコアと迅速な推論を提供する。
論文 参考訳(メタデータ) (2024-08-08T17:59:46Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - EAutoDet: Efficient Architecture Search for Object Detection [110.99532343155073]
EAutoDetフレームワークは、1.4GPU日でオブジェクト検出のための実用的なバックボーンとFPNアーキテクチャを検出できる。
本稿では,一方のエッジ上での候補演算の重みを共有し,それらを一つの畳み込みに集約することでカーネル再利用手法を提案する。
特に、発見されたアーキテクチャは最先端のオブジェクト検出NAS法を超越し、120 FPSで40.1 mAP、49.2 mAP、41.3 FPSをCOCOテストデブセットで達成している。
論文 参考訳(メタデータ) (2022-03-21T05:56:12Z) - High-Performance Training by Exploiting Hot-Embeddings in Recommendation
Systems [2.708848417398231]
推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。
これらのモデルは大量の埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数の数値表現を格納する。
これらの競合する計算とメモリの要件のために、推奨モデルのトレーニングプロセスはCPUとGPUに分割されます。
本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。
論文 参考訳(メタデータ) (2021-03-01T01:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。