論文の概要: Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2403.03864v2
- Date: Sun, 10 Mar 2024 00:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:22:32.627238
- Title: Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious
Challenges in Multimodal Reasoning
- Title(参考訳): 言語モデルは天才か?
アルゴリズムパズルがマルチモーダル推論の深刻な課題を発表
- Authors: Deepanway Ghosal, Vernon Toh Yan Han, Chia Yew Ken, Soujanya Poria
- Abstract要約: 本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の新たな課題を紹介する。
本稿では,アルゴリズムパズルの解法におけるマルチモーダル言語モデルの能力に挑戦し,評価するための新しいデータセットAlgoVQAを提案する。
- 参考スコア(独自算出の注目度): 24.386388107656334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces the novel task of multimodal puzzle solving, framed
within the context of visual question-answering. We present a new dataset,
AlgoPuzzleVQA designed to challenge and evaluate the capabilities of multimodal
language models in solving algorithmic puzzles that necessitate both visual
understanding, language understanding, and complex algorithmic reasoning. We
create the puzzles to encompass a diverse array of mathematical and algorithmic
topics such as boolean logic, combinatorics, graph theory, optimization,
search, etc., aiming to evaluate the gap between visual data interpretation and
algorithmic problem-solving skills. The dataset is generated automatically from
code authored by humans. All our puzzles have exact solutions that can be found
from the algorithm without tedious human calculations. It ensures that our
dataset can be scaled up arbitrarily in terms of reasoning complexity and
dataset size. Our investigation reveals that large language models (LLMs) such
as GPT4V and Gemini exhibit limited performance in puzzle-solving tasks. We
find that their performance is near random in a multi-choice question-answering
setup for a significant number of puzzles. The findings emphasize the
challenges of integrating visual, language, and algorithmic knowledge for
solving complex reasoning problems.
- Abstract(参考訳): 本稿では,視覚的質問応答の文脈内での多モーダルパズル解決の課題を紹介する。
視覚理解,言語理解,複雑なアルゴリズム推論を必要とするアルゴリズムパズルの解法において,マルチモーダル言語モデルの能力に挑戦し,評価するために設計された,新たなデータセットalgopuzzlevqaを提案する。
視覚データ解釈とアルゴリズム問題解決スキルのギャップを評価するために,ブール論理,組合せ論,グラフ理論,最適化,探索など,多種多様な数学的およびアルゴリズム的トピックを包含するパズルを作成する。
データセットは、人間が作成したコードから自動的に生成される。
私たちのパズルはすべて、退屈な人間の計算なしにアルゴリズムから得られる正確な解を持っています。
複雑な推論とデータセットサイズの観点から、データセットを任意にスケールアップできるようにします。
GPT4V や Gemini のような大規模言語モデル (LLM) はパズル解法において限られた性能を示した。
多数のパズルに対する複数選択質問回答設定において,その性能はランダムに近いことがわかった。
この発見は、複雑な推論問題を解決するために視覚的、言語的、アルゴリズム的知識を統合することの課題を強調している。
関連論文リスト
- Solving Zebra Puzzles Using Constraint-Guided Multi-Agent Systems [25.0042181817455]
本稿では,大言語モデルとオフ・ザ・シェルフ定理証明器を統合したマルチエージェントシステムZPSを紹介する。
このシステムは、問題をより小さく管理可能な部分に分割することで、複雑なパズル解決作業に取り組む。
また,問題解の正当性を評価するための自動グリッドパズルグレーダを導入し,ユーザスタディで評価することで,自動グレーダが信頼性が高いことを示す。
論文 参考訳(メタデータ) (2024-07-04T14:22:25Z) - Solving Witness-type Triangle Puzzles Faster with an Automatically
Learned Human-Explainable Predicate [0.29005223064604074]
We developed a search-based intelligence puzzle solver for The Witness game。
我々は、ウィットネス型パズルへの部分経路が解経路に合成可能でないかどうかを予測する人間の説明可能な述語を学ぶ。
我々は、学習した述語の重要な性質を証明し、それを検索において後継状態の刈り取りに利用できるようにした。
論文 参考訳(メタデータ) (2023-08-04T18:52:18Z) - The Clock and the Pizza: Two Stories in Mechanistic Explanation of
Neural Networks [59.26515696183751]
ニューラルネットワークにおけるアルゴリズム発見は、時としてより複雑であることを示す。
単純な学習問題でさえ、驚くほど多様なソリューションを許容できることが示されています。
論文 参考訳(メタデータ) (2023-06-30T17:59:13Z) - Solving and Generating NPR Sunday Puzzles with Large Language Models [0.0]
最先端の大規模言語モデルは、多くのPUZZLEQAパズルを解くことができる。
最良のモデルは GPT-3.5 で、50.2% のゆるい精度である。
GPT-3.5は、生成されたルールに従わない答えを持つパズルを生成する。
論文 参考訳(メタデータ) (2023-06-21T13:23:48Z) - Automated Graph Genetic Algorithm based Puzzle Validation for Faster
Game Desig [69.02688684221265]
本稿では,コンピュータゲームにおける論理パズルを効率的に解くための進化的アルゴリズムを提案する。
制約満足度問題に対するハイブリッド遺伝的アプローチの様々なバリエーションについて論じる。
論文 参考訳(メタデータ) (2023-02-17T18:15:33Z) - Are Deep Neural Networks SMARTer than Second Graders? [85.60342335636341]
6~8歳児を対象としたビジュオ言語パズルの解法において,ニューラルネットワークの抽象化,推論,一般化能力の評価を行った。
我々のデータセットは101のユニークなパズルで構成されており、各パズルは絵の質問で構成されており、それらの解には算術、代数学、空間推論を含むいくつかの基本的なスキルが混在している必要がある。
実験により、強力なディープモデルは教師付き設定でパズルに合理的な性能を与えるが、一般化のために解析するとランダムな精度よりは良くないことが明らかになった。
論文 参考訳(メタデータ) (2022-12-20T04:33:32Z) - Video Anomaly Detection by Solving Decoupled Spatio-Temporal Jigsaw
Puzzles [67.39567701983357]
ビデオ異常検出(VAD)はコンピュータビジョンにおいて重要なトピックである。
近年の自己教師型学習の進歩に触発された本論文は,直感的かつ難解なプレテキストタスクを解くことによって,VADに対処する。
提案手法は3つの公開ベンチマークにおいて最先端のベンチマークよりも優れている。
論文 参考訳(メタデータ) (2022-07-20T19:49:32Z) - Using Small MUSes to Explain How to Solve Pen and Paper Puzzles [4.535832029902474]
本稿では,パズルを高レベル制約プログラミング言語で表現できるツールであるdemystifyを提案する。
MUSでパズルを解くための既存の技術にいくつかの改善を加えます。
手作業でペンと紙のパズルを解くための文書化戦略と比較することにより,Demystifyの有効性と汎用性を実証する。
論文 参考訳(メタデータ) (2021-04-30T15:07:51Z) - PuzzLing Machines: A Challenge on Learning From Small Data [64.513459448362]
我々は,高校生を対象としたLinguistic OlympiadsのRosetta StoneパズルからなるPuzzLing Machinesという,小さなデータから学ぶための課題を紹介した。
私たちのチャレンジには、81言語から幅広い言語現象をカバーする約100のパズルが含まれています。
単純な統計アルゴリズムと最先端のディープニューラルモデルの両方が、予想通り、この課題に対して不十分に実行可能であることを示す。
論文 参考訳(メタデータ) (2020-04-27T20:34:26Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。