論文の概要: Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.03877v2
- Date: Wed, 14 Feb 2024 19:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:41:12.395794
- Title: Beyond Lines and Circles: Unveiling the Geometric Reasoning Gap in Large
Language Models
- Title(参考訳): 行と円を超えて:大規模言語モデルにおける幾何学的推論ギャップを明らかにする
- Authors: Spyridon Mouselinos, Henryk Michalewski, Mateusz Malinowski
- Abstract要約: 大規模言語モデル(LLM)は、数学的およびアルゴリズム的なタスクにおいて、絶え間なく増加する能力を示すが、その幾何学的推論スキルは過小評価されている。
構成的幾何学的問題解決におけるLLMの能力について検討する。
我々の研究は、同様の分野での多くの成功にもかかわらず、最先端のLLMがこの分野で直面している顕著な課題を明らかにします。
- 参考スコア(独自算出の注目度): 28.819559978685806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) demonstrate ever-increasing abilities in
mathematical and algorithmic tasks, yet their geometric reasoning skills are
underexplored. We investigate LLMs' abilities in constructive geometric
problem-solving one of the most fundamental steps in the development of human
mathematical reasoning. Our work reveals notable challenges that the
state-of-the-art LLMs face in this domain despite many successes in similar
areas. LLMs exhibit biases in target variable selection and struggle with 2D
spatial relationships, often misrepresenting and hallucinating objects and
their placements. To this end, we introduce a framework that formulates an
LLMs-based multi-agents system that enhances their existing reasoning potential
by conducting an internal dialogue. This work underscores LLMs' current
limitations in geometric reasoning and improves geometric reasoning
capabilities through self-correction, collaboration, and diverse role
specializations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的およびアルゴリズム的なタスクにおいて、絶え間なく増加する能力を示すが、その幾何学的推論スキルは過小評価されている。
構築幾何学的問題解決におけるllmsの能力について,人間の数学的推論の発展における最も基本的なステップの1つについて検討する。
我々の研究は、同様の分野での多くの成功にもかかわらず、最先端のLLMがこの領域で直面する顕著な課題を明らかにします。
LLMは対象の変数選択に偏りを示し、2次元空間的関係に苦慮し、しばしば物体とその配置を誤って表現し幻覚させる。
そこで本研究では,内部対話を行うことで,既存の推論能力を高めるllmsベースのマルチエイジェントシステムを定式化した枠組みを提案する。
この研究は、幾何学的推論におけるLLMの現在の限界を強調し、自己補正、協調、多様な役割専門化を通じて幾何学的推論能力を改善する。
関連論文リスト
- Thought Space Explorer: Navigating and Expanding Thought Space for Large Language Model Reasoning [15.918115880403152]
我々はThought Space Explorer(TSE)を設計し、思考構造を拡張し、最適化し、大きな言語モデル(LLM)を誘導し、思考の盲点を探索する。
TSEは、様々な設計戦略により、元の思考構造に基づいて、新たな推論ステップと分岐を生成することにより、思考空間を広げ、LSM推論における盲点の影響を軽減する。
論文 参考訳(メタデータ) (2024-10-31T17:12:14Z) - Navigate Complex Physical Worlds via Geometrically Constrained LLM [10.89488333922071]
本研究は幾何規則の集合を導入し,多層グラフとマルチエージェントシステムフレームワークに基づくワークフローを開発する。
この研究は、幾何学的制約問題を解くために、大規模なモデル知識にインスパイアされた遺伝的アルゴリズムを用いている。
論文 参考訳(メタデータ) (2024-10-23T03:14:07Z) - Reasoning in Large Language Models: A Geometric Perspective [4.2909314120969855]
我々は,その幾何学的理解を通して,大規模言語モデル(LLM)の推論能力について検討する。
LLMの表現力と自己認識グラフの密度の関連性を確立する。
論文 参考訳(メタデータ) (2024-07-02T21:39:53Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - Evaluating Spatial Understanding of Large Language Models [26.436450329727645]
大規模言語モデルは、様々なタスクにまたがる顕著な能力を示している。
近年の研究では、LLM表現は基礎となる基礎概念の側面を暗黙的に捉えていることが示唆されている。
自然言語ナビゲーションタスクを設計し,空間構造を表現・推論するLLMの能力を評価する。
論文 参考訳(メタデータ) (2023-10-23T03:44:40Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。