論文の概要: Textual Description for Mathematical Equations
- arxiv url: http://arxiv.org/abs/2008.02980v1
- Date: Fri, 7 Aug 2020 03:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 01:30:47.107997
- Title: Textual Description for Mathematical Equations
- Title(参考訳): 数理方程式のテキスト記述
- Authors: Ajoy Mondal and C. V. Jawahar
- Abstract要約: 本稿では、新しいエンドツーエンドトレーニング可能なディープニューラルネットワークアプローチである数学的方程式記述(MED)モデルを提案する。
我々のMEDモデルは、入力された数式画像の特徴を抽出するエンコーダとしての畳み込みニューラルネットワークで構成されている。
本研究は,学生が文章の記述を読んだり聴いたりするだけで方程式を書けるかどうかを実世界の実験で検証する。
- 参考スコア(独自算出の注目度): 36.01828106385858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reading of mathematical expression or equation in the document images is very
challenging due to the large variability of mathematical symbols and
expressions. In this paper, we pose reading of mathematical equation as a task
of generation of the textual description which interprets the internal meaning
of this equation. Inspired by the natural image captioning problem in computer
vision, we present a mathematical equation description (MED) model, a novel
end-to-end trainable deep neural network based approach that learns to generate
a textual description for reading mathematical equation images. Our MED model
consists of a convolution neural network as an encoder that extracts features
of input mathematical equation images and a recurrent neural network with
attention mechanism which generates description related to the input
mathematical equation images. Due to the unavailability of mathematical
equation image data sets with their textual descriptions, we generate two data
sets for experimental purpose. To validate the effectiveness of our MED model,
we conduct a real-world experiment to see whether the students are able to
write equations by only reading or listening their textual descriptions or not.
Experiments conclude that the students are able to write most of the equations
correctly by reading their textual descriptions only.
- Abstract(参考訳): 文書画像中の数学的表現や方程式を読むことは、数学的記号や表現の大きなばらつきのため非常に難しい。
本稿では,この方程式の内部的意味を解釈するテキスト記述の生成タスクとして,数学的方程式の読み上げを行う。
コンピュータビジョンにおける自然な画像キャプション問題に触発されて、数式画像を読むためのテキスト記述を生成することを学ぶ、新しいエンドツーエンドのトレーニング可能なディープニューラルネットワークベースのアプローチである数学的方程式記述(MED)モデルを提案する。
medモデルは,入力数式画像の特徴を抽出するエンコーダとしての畳み込みニューラルネットワークと,入力数式画像に関する記述を生成する注意機構を備えた再帰ニューラルネットワークから構成される。
数式画像データセットのテキスト記述が不適切であるため,実験目的のために2つのデータセットを生成する。
MEDモデルの有効性を検証するために,本研究では,学生が文章の記述を読んだり聴いたりすることで,方程式を書けるかどうかを実世界で検証する。
実験の結果、学生はテキスト記述のみを読めば、ほとんどの方程式を正しく書くことができると結論づけられた。
関連論文リスト
- Diffusion Models for Generative Artificial Intelligence: An Introduction
for Applied Mathematicians [3.069335774032178]
拡散モデルは、画像のための生成AIにおけるアートパフォーマンスの状態を提供する。
応用数学者と統計学者のための拡散モデルについて簡単な紹介を行う。
論文 参考訳(メタデータ) (2023-12-21T20:20:52Z) - Neural Implicit Representations for Physical Parameter Inference from a Single Video [49.766574469284485]
本稿では,外見モデルのためのニューラル暗黙表現と,物理現象をモデル化するためのニューラル常微分方程式(ODE)を組み合わせることを提案する。
提案モデルでは,大規模なトレーニングデータセットを必要とする既存のアプローチとは対照的に,単一のビデオから物理的パラメータを識別することが可能になる。
ニューラル暗示表現を使用することで、高解像度ビデオの処理とフォトリアリスティック画像の合成が可能になる。
論文 参考訳(メタデータ) (2022-04-29T11:55:35Z) - Applications of physics informed neural operators [2.588973722689844]
偏微分方程式を学習するためのエンドツーエンドフレームワークを提案する。
まず,本手法が他のニューラル演算子の精度と性能を再現することを示す。
2次元バーガース方程式を含む新しいタイプの方程式を学習するために、物理インフォームド・ニューラル演算子を適用した。
論文 参考訳(メタデータ) (2022-03-23T18:00:05Z) - Learning from the Tangram to Solve Mini Visual Tasks [74.75187973962069]
この作品は7つの分離された形状から抽象的なパターンを複製する必要があるゲームであるTangramにインスパイアされている。
我々は、Tangramデータセットを示し、Tangram上の事前学習されたニューラルネットワークが、低解像度のビジョンに基づいて、いくつかの小さな視覚的タスクを解くのに役立つことを示す。
論文 参考訳(メタデータ) (2021-12-12T02:02:14Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Automated Mathematical Equation Structure Discovery for Visual Analysis [3.6923632650826472]
人間の介入の少ないスクラッチから方程式を自動的に発見する枠組みを提案する。
本提案は,手作業ではなく,生成ネットワークによる検索空間設計を提案することで,人的バイアスを低減する。
概念実証として,我々のフレームワークで発見された方程式を用いて,動画の背景から移動物体を識別する。
論文 参考訳(メタデータ) (2021-04-17T19:42:06Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z) - Generating Math Word Problems from Equations with Topic Controlling and
Commonsense Enforcement [11.459200644989227]
本稿では,新しいテキスト生成モデルを提案する。
本モデルでは, 方程式を効果的に符号化するフレキシブルなスキームを提案し, 可変オートエンコーダ(VAE)による方程式エンコーダを強化する。
論文 参考訳(メタデータ) (2020-12-14T10:02:11Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。