論文の概要: WeLayout: WeChat Layout Analysis System for the ICDAR 2023 Competition
on Robust Layout Segmentation in Corporate Documents
- arxiv url: http://arxiv.org/abs/2305.06553v1
- Date: Thu, 11 May 2023 04:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 16:08:09.981826
- Title: WeLayout: WeChat Layout Analysis System for the ICDAR 2023 Competition
on Robust Layout Segmentation in Corporate Documents
- Title(参考訳): welayout: 企業文書におけるロバストレイアウトセグメンテーションに関するicdar 2023コンペティションのためのwechatレイアウト分析システム
- Authors: Mingliang Zhang, Zhen Cao, Juntao Liu, Liqiang Niu, Fandong Meng, Jie
Zhou
- Abstract要約: 企業文書のレイアウトを分割する新しいシステムWeimatを紹介する。
本手法はベースラインをはるかに上回り,mAPは70.0。
- 参考スコア(独自算出の注目度): 42.1096906112963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce WeLayout, a novel system for segmenting the
layout of corporate documents, which stands for WeChat Layout Analysis System.
Our approach utilizes a sophisticated ensemble of DINO and YOLO models,
specifically developed for the ICDAR 2023 Competition on Robust Layout
Segmentation. Our method significantly surpasses the baseline, securing a top
position on the leaderboard with a mAP of 70.0. To achieve this performance, we
concentrated on enhancing various aspects of the task, such as dataset
augmentation, model architecture, bounding box refinement, and model ensemble
techniques. Additionally, we trained the data separately for each document
category to ensure a higher mean submission score. We also developed an
algorithm for cell matching to further improve our performance. To identify the
optimal weights and IoU thresholds for our model ensemble, we employed a
Bayesian optimization algorithm called the Tree-Structured Parzen Estimator.
Our approach effectively demonstrates the benefits of combining query-based and
anchor-free models for achieving robust layout segmentation in corporate
documents.
- Abstract(参考訳): 本稿では,WeChat Layout分析システム(WeChat Layout Analysis System)の略で,企業文書のレイアウトを分割する新しいシステムWeLayoutを紹介する。
我々のアプローチは、DINOとYOLOの洗練されたアンサンブルを利用しており、特にロバストレイアウトセグメンテーションに関するICDAR 2023コンペティションのために開発された。
提案手法は,ベースラインを大きく上回り,リーダボード上のトップ位置を70.0のマップで確保する。
この性能を達成するために,我々は,データセット拡張,モデルアーキテクチャ,バウンディングボックスリファインメント,モデルアンサンブル技術など,タスクのさまざまな側面の拡張に集中した。
さらに、各文書カテゴリのデータを個別にトレーニングし、より高い平均入力スコアを確保しました。
また,セルマッチングによる性能向上のためのアルゴリズムも開発した。
モデルアンサンブルの最適重みとiouしきい値を特定するために,木構造パルゼン推定器と呼ばれるベイズ最適化アルゴリズムを用いた。
本手法は,コーポレート文書におけるロバストなレイアウトセグメンテーションを実現するために,クエリベースとアンカーフリーモデルを組み合わせた利点を効果的に実証する。
関連論文リスト
- Freestyle Sketch-in-the-Loop Image Segmentation [116.1810651297801]
そこで我々は,視覚概念を部分的に,完全に,あるいはグループ化することで,視覚概念のセグメンテーションを可能にする,スケッチ・イン・ザ・ループ(sketch-in-the-loop)イメージセグメンテーションフレームワークを提案する。
このフレームワークは、スケッチベースの画像検索モデルと大規模事前学習モデルとの相乗効果を生かしている。
我々の目的による拡張戦略は、スケッチ誘導マスク生成の汎用性を高め、複数のレベルでセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - Ensemble of Anchor-Free Models for Robust Bangla Document Layout
Segmentation [0.0]
本稿では,Bangla文書のレイアウトをセグメント化するための新しい手法を提案する。
我々の手法は、DL Sprint 2.0 - BUET CSE Fest 2023 コンペティションのために訓練されたYOLOv8モデルの洗練されたアンサンブルを利用する。
論文 参考訳(メタデータ) (2023-08-28T08:24:25Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - ICDAR 2023 Competition on Robust Layout Segmentation in Corporate
Documents [3.6700088931938835]
ICDARは、最先端の技術をベンチマークするコンペを主催する長い伝統がある。
以前のコンペティションよりもバーを上げるために、ハードコンペティションデータセットを設計し、トレーニング用の最近のDocLayNetデータセットを提案しました。
我々は,最近のコンピュータビジョンモデル,データ拡張戦略,アンサンブル手法の興味深い組み合わせを認識し,提案したタスクにおいて顕著な精度を実現する。
論文 参考訳(メタデータ) (2023-05-24T09:56:47Z) - Streamlined Framework for Agile Forecasting Model Development towards
Efficient Inventory Management [2.0625936401496237]
本稿では,開発プロセスのコアコンポーネント間の接続を合理化して予測モデルを構築するためのフレームワークを提案する。
提案したフレームワークは、新しいデータセットの迅速かつ堅牢な統合、異なるアルゴリズムの実験、最良のモデルの選択を可能にする。
論文 参考訳(メタデータ) (2023-04-13T08:52:32Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce [8.067201256886733]
本稿では,アンサンブルモデルを文脈的ランクアグリゲータに置き換えた新しいラーニング・トゥ・エンサンブル・フレームワークRAEGOを提案する。
RA-EGOは当社のオンラインシステムにデプロイされ、収益を大幅に改善しました。
論文 参考訳(メタデータ) (2021-07-19T03:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。