論文の概要: Multimodal Machine Learning for Extraction of Theorems and Proofs in the
Scientific Literature
- arxiv url: http://arxiv.org/abs/2307.09047v1
- Date: Tue, 18 Jul 2023 07:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 15:54:00.789995
- Title: Multimodal Machine Learning for Extraction of Theorems and Proofs in the
Scientific Literature
- Title(参考訳): 科学文献における定理と証明の抽出のためのマルチモーダル機械学習
- Authors: Shrey Mishra, Antoine Gauquier, Pierre Senellart
- Abstract要約: テキスト,フォント特徴,およびPDFのビットマップ画像レンダリングを異なるモダリティとして用いたマルチモーダル分類問題として,この問題に対処する。
定理のような環境と証明を抽出するためのマルチモーダル機械学習手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scholarly articles in mathematical fields feature mathematical statements
such as theorems, propositions, etc., as well as their proofs. Extracting them
from the PDF representation of the articles requires understanding of
scientific text along with visual and font-based indicators. We pose this
problem as a multimodal classification problem using text, font features, and
bitmap image rendering of the PDF as different modalities. In this paper we
propose a multimodal machine learning approach for extraction of theorem-like
environments and proofs, based on late fusion of features extracted by
individual unimodal classifiers, taking into account the sequential succession
of blocks in the document. For the text modality, we pretrain a new language
model on a 11 GB scientific corpus; experiments shows similar performance for
our task than a model (RoBERTa) pretrained on 160 GB, with faster convergence
while requiring much less fine-tuning data. Font-based information relies on
training a 128-cell LSTM on the sequence of font names and sizes within each
block. Bitmap renderings are dealt with using an EfficientNetv2 deep network
tuned to classify each image block. Finally, a simple CRF-based approach uses
the features of the multimodal model along with information on block sequences.
Experimental results show the benefits of using a multimodal approach vs any
single modality, as well as major performance improvements using the CRF
modeling of block sequences.
- Abstract(参考訳): 数学的分野における学術的な記事には、定理や命題などの数学的ステートメントとその証明が含まれる。
論文のPDF表現からそれらを抽出するには、視覚的およびフォントに基づく指標とともに科学的テキストを理解する必要がある。
テキスト,フォント特徴,およびPDFのビットマップ画像レンダリングを異なるモダリティとして用いたマルチモーダル分類問題として,この問題に対処する。
本稿では,個々の単項分類器によって抽出された特徴の後期融合に基づいて,文書中のブロックの逐次継承を考慮した,定理的環境と証明の抽出のためのマルチモーダル機械学習手法を提案する。
テキストモダリティについては、11gbの科学コーパスで新しい言語モデルを事前トレーニングします。実験では、160gbで事前トレーニングされたモデル(roberta)と同じようなパフォーマンスを示します。
フォントベースの情報は、128セルlstmを各ブロック内のフォント名とサイズのシーケンスでトレーニングすることに依存している。
ビットマップレンダリングは、各画像ブロックを分類するために調整されたEfficientNetv2ディープネットワークを使用して処理される。
最後に、単純なCRFベースのアプローチでは、ブロックシーケンスに関する情報とともに、マルチモーダルモデルの特徴を使用する。
実験結果から,マルチモーダルアプローチと任意の単一モダリティ,およびブロックシーケンスのCRFモデリングによる大きな性能改善の利点が示された。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - PDSum: Prototype-driven Continuous Summarization of Evolving
Multi-document Sets Stream [33.68263291948121]
我々は,新たな要約問題であるマルチドキュメントセットストリーム要約(EMDS)を提案する。
本稿では,プロトタイプ駆動連続要約のアイデアを取り入れた新しい教師なしアルゴリズムPDSumを紹介する。
PDSumは、各マルチドキュメントセットの軽量プロトタイプを構築し、それを利用して、新しいドキュメントに適応する。
論文 参考訳(メタデータ) (2023-02-10T23:43:46Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - TLDW: Extreme Multimodal Summarisation of News Videos [76.50305095899958]
TL;DW - Too Long; Didn't Watch のシナリオに対して,Xtreme Multimodal Summarisation with Multimodal Output (XMSMO)を導入する。
XMSMOは,映像と文書のペアを非常に短い長さの要約にまとめることを目的としており,その内容は1つの表紙フレームを視覚的要約として,1つの文をテキスト要約として構成する。
本手法は, 参照要約を使わずに, 最適輸送計画に基づく意味分布間の距離の観点から, 視覚的およびテキスト的カバレッジを最適化することにより, 訓練を行う。
論文 参考訳(メタデータ) (2022-10-16T08:19:59Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。