論文の概要: Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.03877v2
- Date: Wed, 14 Feb 2024 19:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:41:12.395794
- Title: Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large
Language Models
- Title(参考訳): 行と円を超えて:大規模言語モデルにおける幾何学的推論ギャップを明らかにする
- Authors: Spyridon Mouselinos, Henryk Michalewski, Mateusz Malinowski
- Abstract要約: 大規模言語モデル(LLM)は、数学的およびアルゴリズム的なタスクにおいて、絶え間なく増加する能力を示すが、その幾何学的推論スキルは過小評価されている。
構成的幾何学的問題解決におけるLLMの能力について検討する。
我々の研究は、同様の分野での多くの成功にもかかわらず、最先端のLLMがこの分野で直面している顕著な課題を明らかにします。
- 参考スコア(独自算出の注目度): 28.819559978685806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) demonstrate ever-increasing abilities in
mathematical and algorithmic tasks, yet their geometric reasoning skills are
underexplored. We investigate LLMs' abilities in constructive geometric
problem-solving one of the most fundamental steps in the development of human
mathematical reasoning. Our work reveals notable challenges that the
state-of-the-art LLMs face in this domain despite many successes in similar
areas. LLMs exhibit biases in target variable selection and struggle with 2D
spatial relationships, often misrepresenting and hallucinating objects and
their placements. To this end, we introduce a framework that formulates an
LLMs-based multi-agents system that enhances their existing reasoning potential
by conducting an internal dialogue. This work underscores LLMs' current
limitations in geometric reasoning and improves geometric reasoning
capabilities through self-correction, collaboration, and diverse role
specializations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的およびアルゴリズム的なタスクにおいて、絶え間なく増加する能力を示すが、その幾何学的推論スキルは過小評価されている。
構築幾何学的問題解決におけるllmsの能力について,人間の数学的推論の発展における最も基本的なステップの1つについて検討する。
我々の研究は、同様の分野での多くの成功にもかかわらず、最先端のLLMがこの領域で直面する顕著な課題を明らかにします。
LLMは対象の変数選択に偏りを示し、2次元空間的関係に苦慮し、しばしば物体とその配置を誤って表現し幻覚させる。
そこで本研究では,内部対話を行うことで,既存の推論能力を高めるllmsベースのマルチエイジェントシステムを定式化した枠組みを提案する。
この研究は、幾何学的推論におけるLLMの現在の限界を強調し、自己補正、協調、多様な役割専門化を通じて幾何学的推論能力を改善する。
関連論文リスト
- Reasoning in Large Language Models: A Geometric Perspective [4.2909314120969855]
我々は,その幾何学的理解を通して,大規模言語モデル(LLM)の推論能力について検討する。
LLMの表現力と自己認識グラフの密度の関連性を確立する。
論文 参考訳(メタデータ) (2024-07-02T21:39:53Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル (LLM) のための可視化・オブ・ソート (VoT) を提案する。
VoTは、LLMの空間的推論を、それらの推論トレースを可視化することによって引き起こし、その後の推論ステップを導く。
自然言語ナビゲーションや視覚ナビゲーション,2次元グリッドの世界における視覚的タイリングなど,マルチホップ空間推論タスクにVoTを使用している。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - Evaluating Spatial Understanding of Large Language Models [26.436450329727645]
大規模言語モデルは、様々なタスクにまたがる顕著な能力を示している。
近年の研究では、LLM表現は基礎となる基礎概念の側面を暗黙的に捉えていることが示唆されている。
自然言語ナビゲーションタスクを設計し,空間構造を表現・推論するLLMの能力を評価する。
論文 参考訳(メタデータ) (2023-10-23T03:44:40Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。