論文の概要: Evaluating the Systematic Reasoning Abilities of Large Language Models through Graph Coloring
- arxiv url: http://arxiv.org/abs/2502.07087v1
- Date: Mon, 10 Feb 2025 22:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:07:06.129710
- Title: Evaluating the Systematic Reasoning Abilities of Large Language Models through Graph Coloring
- Title(参考訳): グラフカラー化による大規模言語モデルの体系的推論能力の評価
- Authors: Alex Heyman, Joel Zylberberg,
- Abstract要約: 本研究では,LLMの計算能力を評価するためのグラフカラー化手法について検討する。
我々は、$k$-coloringのデータセット上で、Claude 3.5 Sonnet、Llama 3.1 405B、Gemini 1.5 Pro、GPT-4o、o1-mini、DeepSeek-R1をテストする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Contemporary large language models are powerful problem-solving tools, but they exhibit weaknesses in their reasoning abilities which ongoing research seeks to mitigate. We investigate graph coloring as a means of evaluating an LLM's capacities for systematic step-by-step reasoning and possibility space exploration, as well as effects of semantic problem framing. We test Claude 3.5 Sonnet, Llama 3.1 405B, Gemini 1.5 Pro, GPT-4o, o1-mini, and DeepSeek-R1 on a dataset of $k$-coloring problems with $2 \leq k \leq 4$ and vertex count $4 \leq n \leq 8$, using partial algorithmic solvers to further categorize problems by difficulty. In addition to substantial but varying framing effects, we find that all models except o1-mini and R1 exhibit $>60\%$ error rates on difficult problem types in all frames ($>15\%$ for o1-mini and $>10\%$ for R1), and no model achieves perfect accuracy even in the simple domain of 2-coloring 4-vertex graphs. Our results highlight both the considerable recent progress in LLM systematic reasoning and the limits of its reliability, especially in relation to increasing computational costs. We expect that more complex graph coloring problems, and procedural generation of arbitrary-complexity reasoning problems more broadly, offer further untapped potential for LLM benchmarking.
- Abstract(参考訳): 現代の大規模言語モデルは強力な問題解決ツールであるが、現在進行中の研究が求めている推論能力に弱点がある。
我々は,LLMの能力を評価するためのグラフカラー化について,系統的なステップバイステップの推論と空間探索,意味的問題フレーミングの効果について検討する。
Claude 3.5 Sonnet, Llama 3.1 405B, Gemini 1.5 Pro, GPT-4o, o1-mini, DeepSeek-R1 を$k$-coloring problem with $2 \leq k \leq 4$ and vertex count 4, \leq n \leq 8$でテストし、部分的アルゴリズム解法を用いて問題をさらに分類する。
実際のフレーミング効果に加えて、o1-mini と R1 を除く全てのモデルが、すべてのフレームにおいて難解な問題型に対して $>60\%$ の誤差率を示す(o1-mini は $>15\% 、R1 は $>10\% の誤差率)。
この結果から,LLMの体系的推論の進歩と信頼性の限界,特に計算コストの増大が注目されている。
より複雑なグラフ彩色問題や、より広い範囲で任意の複雑な推論問題の手続き的生成が、LLMベンチマークのさらなる未解決可能性をもたらすことを期待する。
関連論文リスト
- GCoder: Improving Large Language Model for Generalized Graph Problem Solving [38.9131866084555]
大規模言語モデル(LLM)は強力な推論能力を示しており、グラフ計算のような複雑なタスクに適している。
本稿では,一般化グラフ問題における問題解決の強化を目的とした,コードベースのLLMであるGCoderを紹介する。
本手法では,多種多様なグラフ形式とアルゴリズムを特徴とする広範囲なトレーニングデータセットであるGraphWildを構築する。
論文 参考訳(メタデータ) (2024-10-24T18:40:36Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。
これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。
様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文 参考訳(メタデータ) (2024-09-27T03:49:56Z) - GraphArena: Benchmarking Large Language Models on Graph Computational Problems [25.72820021030033]
LLM(Large Language Models)の"アームレース(arms race)"は、その進捗を調べるために、新しい、挑戦的な、多様なベンチマークを必要とする。
百万規模の実世界のグラフを用いて,グラフ計算問題のモデルを評価するベンチマークツールであるGraphArenaを紹介する。
論文 参考訳(メタデータ) (2024-06-29T09:19:23Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - Evaluating Large Language Models on Graphs: Performance Insights and
Comparative Analysis [7.099257763803159]
グラフデータを用いた解析問題に対処する4つの大規模言語モデル(LLM)の性能評価を行った。
私たちは、正確性、忠実性、そして正当性という、4つの異なる評価指標を採用しています。
GPTモデルは論理的およびコヒーレントな結果を生成し、正確性において代替よりも優れる。
論文 参考訳(メタデータ) (2023-08-22T06:32:07Z) - Can Language Models Solve Graph Problems in Natural Language? [51.28850846990929]
大型言語モデル (LLM) は暗黙的なグラフィカル構造を持つ様々なタスクに採用されている。
自然言語をシミュレーションするグラフベース問題解決のベンチマークであるNLGraphを提案する。
論文 参考訳(メタデータ) (2023-05-17T08:29:21Z) - Simultaneously Learning Stochastic and Adversarial Bandits with General
Graph Feedback [15.429356827868514]
一般フィードバックグラフの探索と活用のための新たなトレードオフ機構を導入する。
提案アルゴリズムは,対数設定において,$mathrmpoly-designed log T$ regretを同時に達成する。
これは、一般のフィードバックグラフに対する世界で初めての最良の結果である。
論文 参考訳(メタデータ) (2022-06-16T04:21:27Z) - The Performance of the MLE in the Bradley-Terry-Luce Model in
$\ell_{\infty}$-Loss and under General Graph Topologies [76.61051540383494]
我々はBradley-Terry-Luceモデルの$ell_infty$推定誤差に関する新しい一般上限を導出する。
導出された境界は良好に機能し、場合によっては既知の結果よりもシャープであることを示す。
論文 参考訳(メタデータ) (2021-10-20T23:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。