Fugu-MT 論文翻訳(概要): UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

論文の概要: UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition

arxiv url: http://arxiv.org/abs/2404.15254v1
Date: Tue, 23 Apr 2024 17:39:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 13:03:00.262914
Title: UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition
Title（参考訳）: UniMERNet: 実世界の数学的表現認識のためのユニバーサルネットワーク
Authors: Bin Wang, Zhuangcheng Gu, Chao Xu, Bo Zhang, Botian Shi, Conghui He,
Abstract要約: UniMERデータセットは、大規模なトレーニングセットUniMER-1MとテストセットUniMER-Testで構成されている。 UniMERNetはLongth-Aware Moduleを組み込んで、様々な長さの式を効率的に処理する。我々の実験は、UniMERNetが既存のMERモデルより優れていることを示した。
参考スコア（独自算出の注目度）: 16.549745467791872
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents the UniMER dataset to provide the first study on Mathematical Expression Recognition (MER) towards complex real-world scenarios. The UniMER dataset consists of a large-scale training set UniMER-1M offering an unprecedented scale and diversity with one million training instances and a meticulously designed test set UniMER-Test that reflects a diverse range of formula distributions prevalent in real-world scenarios. Therefore, the UniMER dataset enables the training of a robust and high-accuracy MER model and comprehensive evaluation of model performance. Moreover, we introduce the Universal Mathematical Expression Recognition Network (UniMERNet), an innovative framework designed to enhance MER in practical scenarios. UniMERNet incorporates a Length-Aware Module to process formulas of varied lengths efficiently, thereby enabling the model to handle complex mathematical expressions with greater accuracy. In addition, UniMERNet employs our UniMER-1M data and image augmentation techniques to improve the model's robustness under different noise conditions. Our extensive experiments demonstrate that UniMERNet outperforms existing MER models, setting a new benchmark in various scenarios and ensuring superior recognition quality in real-world applications. The dataset and model are available at https://github.com/opendatalab/UniMERNet.
Abstract（参考訳）: 本稿では,UniMERデータセットを用いて,複雑な実世界のシナリオに対する数学的表現認識(MER)に関する最初の研究を行う。 UniMERデータセットは、100万のトレーニングインスタンスを持つ前代未聞のスケールと多様性を提供する大規模なトレーニングセットUniMER-1Mと、現実世界のシナリオで広く見られる様々な公式分布を反映した精巧に設計されたテストセットUniMER-Testで構成されている。したがって、UniMERデータセットは、堅牢で高精度なMERモデルのトレーニングと、モデル性能の包括的な評価を可能にする。さらに,実用シナリオにおけるMERの強化を目的とした革新的フレームワークであるUniMERNetを導入する。 UniMERNetはLongth-Aware Moduleを組み込んで、様々な長さの式を効率的に処理することで、複雑な数学的表現をより高精度に処理することができる。さらに、UniMERNetは、我々のUniMER-1Mデータと画像拡張技術を用いて、異なるノイズ条件下でのモデルの堅牢性を改善する。我々の広範な実験は、UniMERNetが既存のMERモデルより優れており、様々なシナリオで新しいベンチマークを設定し、現実世界のアプリケーションにおいて優れた認識品質を確保することを実証している。データセットとモデルはhttps://github.com/opendatalab/UniMERNetで公開されている。

関連論文リスト

Complex Mathematical Expression Recognition: Benchmark, Large-Scale Dataset and Strong Baseline [19.9700783034645]
CMER-Benchは、式を3つの難易度(易度、中度度、複雑度)に分類するベンチマークである。本稿では,MER-17MとCMER-3Mの大規模データセットを提案する。 CMERNetはエンコーダデコーダアーキテクチャ上に構築され、CMER-3Mで訓練された。
論文参考訳（メタデータ） (2025-12-14T06:10:35Z)
UniEM-3M: A Universal Electron Micrograph Dataset for Microstructural Segmentation and Generation [19.67541048907923]
インスタンスレベルの理解のための,最初の大規模かつマルチモーダルなEMデータセットUniEM-3Mを紹介する。 5,091個の高解像度EM、約300万個のインスタンスセグメンテーションラベル、画像レベルの属性不整合テキスト記述で構成されている。コレクション全体に基づいてトレーニングされたテキスト間拡散モデルは、強力なデータ拡張ツールと、完全なデータ分散のためのプロキシの両方として機能する。
論文参考訳（メタデータ） (2025-08-22T09:20:00Z)
Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition [16.68658893305642]
手書き数学的表現認識(HMER)は、光学文字認識(OCR)における永続的な課題であるアーキテクチャを変更することなく,HMERタスクの視覚言語モデルを完全に微調整するUni-MuMERを提案する。構造的空間推論のためのTree-CoT(Tree-CoT)、視覚的に類似した文字間の混乱を減らすためのエラー駆動学習(EDL)、長い表現における認識整合性を改善するためのシンボルカウント(SC)の3つのデータ駆動タスクを統合した。
論文参考訳（メタデータ） (2025-05-29T15:41:00Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Large Language Model as Universal Retriever in Industrial-Scale Recommender System [27.58251380192748]
本稿では,Large Language Models (LLM) が汎用検索として機能し,生成検索フレームワーク内で複数の目的を処理可能であることを示す。また,モデルの学習性,識別性,伝達性を向上させるために行列分解を導入する。我々のUniversal Retrieval Model(URM)は、数千万の候補の計算から適応的に集合を生成することができる。
論文参考訳（メタデータ） (2025-02-05T09:56:52Z)
Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [63.484378941471114]
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの101.3%を達成している。
論文参考訳（メタデータ） (2024-12-09T08:36:10Z)
Enhancing Complex Formula Recognition with Hierarchical Detail-Focused Network [0.3749861135832072]
階層的かつ複雑な数式認識(MER)は、数式を複数解釈できるため困難である。これらの問題に対処するために設計された最初のデータセットである階層的詳細認識データセット(Focused-Focused)を紹介する。本稿では,階層型サブフォーミュラモジュールを組み込んだ新しいフレームワークである階層型Detail Recognition Network (HDNet)を提案する。
論文参考訳（メタデータ） (2024-09-18T03:32:25Z)
MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models [10.242002062961083]
英語,日本語,中国語の21のサブデータセットを含むMultilingual MRE混合データセット(MMM)を提案する。また,Large Language Models (LLM) を用いたデータセット翻訳手法を提案する。オープンドメイン情報抽出大言語モデル(OIELLM)を学習するための統合入力出力フレームワークを開発する。
論文参考訳（メタデータ） (2024-07-15T17:50:43Z)
UniRAG: Universal Retrieval Augmentation for Multi-Modal Large Language Models [76.30799731147589]
そこで,UniRAGというプラグイン・アンド・プレイ技術を紹介した。一般のエンティティを用いたMSCOCOデータセットによる評価結果から,GPT-4oやGemini-Proといったプロプライエタリモデルも,UniIRモデルのようなMMレトリバーが取得した関連情報を用いて入力プロンプトを拡張した場合,生成品質を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-16T17:58:45Z)
Contrastive Multiple Instance Learning for Weakly Supervised Person ReID [50.04900262181093]
本稿では、より効果的に教師付きされたReIDに適した新しいフレームワークであるContrastive Multiple Instance Learning (CMIL)を紹介する。 CMILは、対照的な損失を生かしながら、単一のモデルと擬似ラベルを必要とせず、自分自身を区別する。 PerformancePhoto.coの実際のアプリケーションから自然に発生する弱いラベルを特徴とするMUDDデータセットの拡張であるWL-MUDDデータセットをリリースする。
論文参考訳（メタデータ） (2024-02-12T14:48:31Z)
SMUTF: Schema Matching Using Generative Tags and Hybrid Features [6.471515752693932]
SMUTFは、教師あり学習がオープンドメインタスクのパフォーマンスに影響を与えないと仮定する。人道交換言語に触発された革新的な適応では、各データ列に「生成タグ」を配置します。 SMUTFは幅広い汎用性を示し、既存の事前訓練された埋め込み、分類方法、生成モデルとシームレスに機能する。
論文参考訳（メタデータ） (2024-01-22T08:47:50Z)
Universal Metric Learning with Parameter-Efficient Transfer Learning [40.85295050164728]
メトリック学習における一般的なプラクティスは、データセット毎に埋め込みモデルをトレーニングし、テストすることである。このデータセット固有のアプローチは、複数の異種データの分散を含む実世界のシナリオをシミュレートすることができない。本稿では,複数のデータ分布にまたがる関係を捉えることのできる統一されたメトリックを学習するUniversal Metric Learning(UML)という,新しいメトリック学習パラダイムを導入する。
論文参考訳（メタデータ） (2023-09-16T10:34:01Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。我々は最先端の要約モデルを用いてベースラインを確立する。複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-22T14:53:45Z)
Optimizing Server-side Aggregation For Robust Federated Learning via Subspace Training [80.03567604524268]
クライアント間の非IIDデータ分散と中毒攻撃は、現実世界のフェデレーション学習システムにおける2つの大きな課題である。サーバ側集約プロセスを最適化する汎用的なアプローチであるSmartFLを提案する。本稿では,SmartFLの収束と一般化能力に関する理論的解析を行う。
論文参考訳（メタデータ） (2022-11-10T13:20:56Z)
Improving the Reliability of Network Intrusion Detection Systems through Dataset Integration [0.20646127669654826]
本研究は、機械学習(ML)に基づくネットワーク侵入検知システム(NIDS)の新しい方法論であるReliable-NIDS(R-NIDS)を提示する。 R-NIDSは、MLモデルを統合データセットで動作させ、さまざまなデータセットからさまざまな情報で学習プロセスを強化する。本研究では、NIDS評価のための文献において最も一般的な3つのデータセットの情報に基づいて、2つのよく知られたMLモデルを構築することを提案する。
論文参考訳（メタデータ） (2021-12-02T09:30:18Z)
Data Augmentation for Abstractive Query-Focused Multi-Document Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文参考訳（メタデータ） (2021-03-02T16:57:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。