論文の概要: 1st Place Solution for ICDAR 2021 Competition on Mathematical Formula
Detection
- arxiv url: http://arxiv.org/abs/2107.05534v1
- Date: Mon, 12 Jul 2021 16:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 17:54:26.243695
- Title: 1st Place Solution for ICDAR 2021 Competition on Mathematical Formula
Detection
- Title(参考訳): 1st Place Solution for ICDAR 2021 Competition on Mathematical Formula Detection
- Authors: Yuxiang Zhong, Xianbiao Qi, Shanjun Li, Dengyi Gu, Yihao Chen, Peiyang
Ning, Rong Xiao
- Abstract要約: 数式検出(MFD)に関するICDAR 2021コンペティションの第一位ソリューションを提示する。
MFDタスクには、大規模スパン、高さと幅の比率の大きなばらつき、リッチな文字集合と数学的表現を含む3つの重要な課題がある。
これらの課題を考慮し, アンカーフリー手法であるGeneralized Focal Loss (GFL) を用いた。
- 参考スコア(独自算出の注目度): 3.600275712225597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this technical report, we present our 1st place solution for the ICDAR
2021 competition on mathematical formula detection (MFD). The MFD task has
three key challenges including a large scale span, large variation of the ratio
between height and width, and rich character set and mathematical expressions.
Considering these challenges, we used Generalized Focal Loss (GFL), an
anchor-free method, instead of the anchor-based method, and prove the Adaptive
Training Sampling Strategy (ATSS) and proper Feature Pyramid Network (FPN) can
well solve the important issue of scale variation. Meanwhile, we also found
some tricks, e.g., Deformable Convolution Network (DCN), SyncBN, and Weighted
Box Fusion (WBF), were effective in MFD task. Our proposed method ranked 1st in
the final 15 teams.
- Abstract(参考訳): 本技術報告では,数式検出(MFD)に関するICDAR 2021コンペティションにおいて,第1位となるソリューションを提示する。
MFDタスクには、大規模スパン、高さと幅の比率の大きなばらつき、リッチな文字集合と数学的表現を含む3つの重要な課題がある。
これらの課題を考慮し,アンカーベースではなくアンカーフリー手法である一般化焦点損失(gfl)を用い,適応訓練サンプリング戦略(atss)と適切な特徴ピラミッドネットワーク(fpn)がスケール変動の重要な課題を効果的に解決できることを証明する。
一方,Deformable Convolution Network (DCN), SyncBN, Weighted Box Fusion (WBF) といったトリックもMFDタスクに有効であることがわかった。
提案手法は最終15チームで1位であった。
関連論文リスト
- Towards Universal Mesh Movement Networks [13.450178050669964]
我々はUniversal Mesh Movement Network (UM2N)を紹介する。
UM2Nは、異なるサイズ分布と構造を持つメッシュを動かすために、非侵入的ゼロショット方式で適用することができる。
本研究では, 実世界の津波シミュレーション事例とともに, 対流法とナビエ・ストークス法に基づく実例について検討した。
論文 参考訳(メタデータ) (2024-06-29T09:35:12Z) - Diffusion for Natural Image Matting [93.86689168212241]
DiffMatteは、画像マッチングの課題を克服するために設計されたソリューションである。
まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。
第2に、均一な時間間隔を持つ自己整合トレーニング戦略を採用し、時間領域全体にわたるトレーニングと推論の間に一貫したノイズサンプリングを確保する。
論文 参考訳(メタデータ) (2023-12-10T15:28:56Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - High Resolution Multi-Scale RAFT (Robust Vision Challenge 2022) [0.6299766708197884]
本稿では,2022年のロバスト・ビジョン・チャレンジで優勝したMS-RAFT+について述べる。
これはMS-RAFT法に基づいており、複数のマルチスケールの概念を単一スケールのRAFTに統合することに成功した。
提案手法は,オンデマンドのコスト計算によって実現可能なフロー推定に,さらに細かなスケールを生かして拡張する。
論文 参考訳(メタデータ) (2022-10-30T17:48:11Z) - Extending nnU-Net is all you need [2.1729722043371016]
私たちはAMOS2022チャレンジに参加するためにnnU-Netを使用します。
このデータセットはこれまでに作成された中で最大規模の15のターゲット構造を持つ。
最終アンサンブルは,タスク1(CT)のDiceスコア90.13とタスク2(CT+MRI)の89.06を5倍のクロスバリデーションで達成した。
論文 参考訳(メタデータ) (2022-08-23T07:54:29Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - ASFD: Automatic and Scalable Face Detector [129.82350993748258]
ASFD(Automatic and Scalable Face Detector)を提案する。
ASFDはニューラルアーキテクチャ検索技術の組み合わせと新たな損失設計に基づいている。
ASFD-D0は120FPS以上で動作し、MobilenetはVGA解像度の画像を撮影しています。
論文 参考訳(メタデータ) (2020-03-25T06:00:47Z) - Alternating the Population and Control Neural Networks to Solve
High-Dimensional Stochastic Mean-Field Games [9.909883019034613]
我々は平均フィールドゲーム(MFG)を解くための交互人口とエージェント制御ニューラルネットワークを提案する。
提案アルゴリズムは,既存の解法に到達できないMFGの高次元例を対象としている。
最大100次元MFG問題に対する本手法の可能性を示す。
論文 参考訳(メタデータ) (2020-02-24T08:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。