論文の概要: LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts
- arxiv url: http://arxiv.org/abs/2407.04973v1
- Date: Sat, 6 Jul 2024 06:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:37:47.049967
- Title: LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts
- Title(参考訳): LogicVista: ビジュアルコンテキストにおけるマルチモーダルLLM論理推論ベンチマーク
- Authors: Yijia Xiao, Edward Sun, Tianyu Liu, Wei Wang,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)の視覚的文脈における論理的推論能力を評価する評価ベンチマークであるLogicVistaを提案する。
我々は,5つの論理的推論課題における一般的な論理的認知能力について,448質問のサンプルを用いて評価した。
合計8個のMLLMをLogicVistaを用いて総合的に評価する。
- 参考スコア(独自算出の注目度): 9.488279560423688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose LogicVista, an evaluation benchmark that assesses the integrated logical reasoning capabilities of multimodal large language models (MLLMs) in Visual contexts. Recent advancements in MLLMs have demonstrated various fascinating abilities, from crafting poetry based on an image to performing mathematical reasoning. However, there is still a lack of systematic evaluation of MLLMs' proficiency in logical reasoning tasks, which are essential for activities like navigation and puzzle-solving. Thus we evaluate general logical cognition abilities across 5 logical reasoning tasks encompassing 9 different capabilities, using a sample of 448 multiple-choice questions. Each question is annotated with the correct answer and the human-written reasoning behind the selection, enabling both open-ended and multiple-choice evaluation. A total of 8 MLLMs are comprehensively evaluated using LogicVista. Code and Data Available at https://github.com/Yijia-Xiao/LogicVista.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の視覚的文脈における論理的推論能力を評価する評価ベンチマークであるLogicVistaを提案する。
近年のMLLMの進歩は、画像に基づく詩の制作から数学的推論に至るまで、様々な魅力的な能力を示している。
しかし、ナビゲーションやパズル解法といった活動に不可欠な論理的推論タスクにおいて、MLLMの習熟度を体系的に評価する能力は依然として欠如している。
そこで本研究では,5つの論理的推論課題における一般的な論理的認知能力について,448質問のサンプルを用いて評価した。
各質問は、正しい回答と、選択の背後にある人間による推論で注釈付けされ、オープンエンドとマルチチョイスの両方を評価できる。
合計8個のMLLMをLogicVistaを用いて総合的に評価する。
Code and Data available at https://github.com/Yijia-Xiao/LogicVista.com
関連論文リスト
- Multi-LogiEval: Towards Evaluating Multi-Step Logical Reasoning Ability of Large Language Models [46.26140720993383]
Multi-LogiEvalは、様々な推論規則と深さを持つ多段階論理推論を含む総合的な評価データセットである。
GPT-4, ChatGPT, Gemini-Pro, Yi, Orca, Mistralなどの大規模言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-06-24T23:02:56Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。