論文の概要: CLEVR-Math: A Dataset for Compositional Language, Visual and
Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2208.05358v1
- Date: Wed, 10 Aug 2022 14:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:25:42.513546
- Title: CLEVR-Math: A Dataset for Compositional Language, Visual and
Mathematical Reasoning
- Title(参考訳): CLEVR-Math: 合成言語、視覚および数学的推論のためのデータセット
- Authors: Adam Dahlgren Lindstr\"om, Savitha Sam Abraham
- Abstract要約: 我々はCLEVR-Mathを紹介した。CLEVR-Mathは、加算/減算を含む単純な数学語問題からなるマルチモーダルな数学語問題データセットである。
テキストには、画像に描かれたシーンで実行されるアクションが記述されている。
我々はCLEVR-Math上での視覚質問応答に最先端のニューラル・ニューラル・シンボリック・モデルを適用し,その性能を実証的に評価した。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce CLEVR-Math, a multi-modal math word problems dataset consisting
of simple math word problems involving addition/subtraction, represented partly
by a textual description and partly by an image illustrating the scenario. The
text describes actions performed on the scene that is depicted in the image.
Since the question posed may not be about the scene in the image, but about the
state of the scene before or after the actions are applied, the solver envision
or imagine the state changes due to these actions. Solving these word problems
requires a combination of language, visual and mathematical reasoning. We apply
state-of-the-art neural and neuro-symbolic models for visual question answering
on CLEVR-Math and empirically evaluate their performances. Our results show how
neither method generalise to chains of operations. We discuss the limitations
of the two in addressing the task of multi-modal word problem solving.
- Abstract(参考訳): 本稿では,追加/減算を含む単純な算術語問題からなる多変量数学語問題データセットであるclevr-mathについて紹介する。
テキストは、画像に描かれたシーンで実行されるアクションを記述する。
提案された問題は、画像中のシーンではなく、アクションが適用される前後のシーンの状態に関するものであるため、解決者はこれらのアクションによる状態変化を想像または想像する。
これらの単語問題を解決するには、言語、視覚、数学的推論の組み合わせが必要である。
我々はCLEVR-Math上での視覚質問応答に最先端のニューラルシンボリックモデルを適用し,その性能を実証的に評価した。
この結果は,どの手法も操作の連鎖に一般化しないことを示す。
マルチモーダル単語問題解決の課題に対処する際の2つの限界について論じる。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - Solving Math Word Problems with Reexamination [27.80592576792461]
モデルに依存しない擬似双対学習手法を提案する。
擬似双対タスクは、表現中の数字を元の単語問題に記入し、数字をマスクするものとして特に定義される。
提案手法は,複数の代表MWPソルバを実証実験により適用した場合に有効であることが確認された。
論文 参考訳(メタデータ) (2023-10-14T14:23:44Z) - Techniques to Improve Neural Math Word Problem Solvers [0.0]
最近のニューラルベースアプローチは、主に言語モデルを用いて問題テキストをエンコードし、量や演算子を反復的に数学的表現をデコードする。
本稿では,質問文を完全に活用し,段階的可換法則を保存するエンコーダ・デコーダアーキテクチャを提案する。
確立された4つのベンチマーク実験により、我々のフレームワークは最先端のニューラルMWPソルバより優れていることが示された。
論文 参考訳(メタデータ) (2023-02-06T22:41:51Z) - Seeking Patterns, Not just Memorizing Procedures: Contrastive Learning
for Solving Math Word Problems [14.144577791030853]
ニューラルネットワークが意味論からのみパターンを理解する方法について検討する。
本稿では,ニューラルネットワークがパターンの発散を知覚する,対照的な学習手法を提案する。
本手法は単言語および多言語設定における性能を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-16T04:03:47Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z) - Scene Graph Reasoning for Visual Question Answering [23.57543808056452]
本研究では,シーン内に存在するオブジェクトとその意味的・空間的関係に基づいて,コンテキスト駆動型シーケンシャルな推論を行うことにより,タスクにアプローチする手法を提案する。
強化エージェントは、抽出されたシーングラフを自律的にナビゲートして、回答を導出する基礎となるパスを生成する。
論文 参考訳(メタデータ) (2020-07-02T13:02:54Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。