論文の概要: TopoBench: Benchmarking LLMs on Hard Topological Reasoning
- arxiv url: http://arxiv.org/abs/2603.12133v1
- Date: Thu, 12 Mar 2026 16:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.221021
- Title: TopoBench: Benchmarking LLMs on Hard Topological Reasoning
- Title(参考訳): TopoBench: ハードトポロジカル推論に関するLLMのベンチマーク
- Authors: Mayug Maniparambil, Nils Hoehing, Janak Kapuriya, Arjun Karuvally, Ellen Rushe, Anthony Ventresque, Noel O'Connor, Fergal Reid,
- Abstract要約: トポロジカルグリッドパズルを解くには、接続性、ループ閉包、領域対称性といった大域的空間不変量に対する推論が必要である。
TopoBenchは3つの難易度にまたがる6つのパズルファミリーのベンチマークである。
私たちは、フロンティアモデルでさえハードインスタンスの4分の1以下を解決し、2つの家族がほとんど解決していないことに気付きました。
- 参考スコア(独自算出の注目度): 4.263228829408108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving topological grid puzzles requires reasoning over global spatial invariants such as connectivity, loop closure, and region symmetry and remains challenging for even the most powerful large language models (LLMs). To study these abilities under controlled settings, we introduce TopoBench, a benchmark of six puzzle families across three difficulty levels. We evaluate strong reasoning LLMs on TopoBench and find that even frontier models solve fewer than one quarter of hard instances, with two families nearly unsolved. To investigate whether these failures stem from reasoning limitations or from difficulty extracting and maintaining spatial constraints, we annotate 750 chain of thought traces with an error taxonomy that surfaces four candidate causal failure modes, then test them with targeted interventions simulating each error type. These interventions show that certain error patterns like premature commitment and constraint forgetting have a direct impact on the ability to solve the puzzle, while repeated reasoning is a benign effect of search. Finally we study mitigation strategies including prompt guidance, cell-aligned grid representations and tool-based constraint checking, finding that the bottleneck lies in extracting constraints from spatial representations and not in reasoning over them. Code and data are available at github.com/mayug/topobench-benchmark.
- Abstract(参考訳): トポロジカルグリッドパズルを解くには、接続性、ループ閉鎖、領域対称性といった大域的空間不変量に対する推論が必要であり、最も強力な大言語モデル(LLM)でさえも困難である。
制御された設定下でこれらの能力を研究するために,3つの難易度にまたがる6つのパズルファミリーのベンチマークであるTopoBenchを紹介した。
TopoBench 上での強い推論 LLM の評価を行い、フロンティアモデルでさえハードインスタンスの 4 分の1 未満を解き、2 つのファミリーがほとんど解決されていないことを発見した。
これらの障害が推論の限界や空間的制約の抽出・維持に起因しているかどうかを調べるために,4つの因果的障害モードを表わす誤り分類法を用いて750の思考痕跡を注釈し,それぞれのエラータイプをシミュレートする目的の介入で検証する。
これらの介入は、未熟なコミットメントや制約を忘れるといったある種のエラーパターンがパズルを解く能力に直接的な影響を与えていることを示し、繰り返し推論は探索の良質な効果である。
最後に,迅速な誘導,セルアライングリッド表現,ツールベースの制約チェックなどの緩和戦略について検討し,そのボトルネックは空間的表現から制約を抽出することであって,それらに対する推論ではないことを明らかにする。
コードとデータはgithub.com/mayug/topobench-benchmarkで入手できる。
関連論文リスト
- Programming over Thinking: Efficient and Robust Multi-Constraint Planning [54.77940831026738]
SCOPEは、クエリ固有の推論をジェネリックコード実行から切り離すフレームワークである。
SCOPEは、コストとレイテンシを下げながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-14T02:58:07Z) - Stuck in the Matrix: Probing Spatial Reasoning in Large Language Models [0.0]
本稿では,大言語モデル(LLM)のテキスト入力に対する空間的推論能力について検討する。
これらのモデルは, グリッド型環境下での空間的推論と多段階問題の解法の両方で検証された。
論文 参考訳(メタデータ) (2025-10-23T04:32:46Z) - seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - A Fragile Number Sense: Probing the Elemental Limits of Numerical Reasoning in LLMs [1.0923877073891444]
大規模言語モデル(LLM)は目覚ましい創発的な能力を示しているが、その数値的推論の頑健さは未解決の問題である。
我々は,(1)基本演算,(2)高度な演算,(3)予備性チェック,(4)ゲーム・オブ・24数パズルの4つのカテゴリからなる100の課題に対して,最先端のLLMエージェントを試験する。
その結果, 決定論的アルゴリズムの実行を必要とする第1のカテゴリにおいて, エージェントは高い精度を達成できたが, 数値パズルでは一貫して失敗していた。
論文 参考訳(メタデータ) (2025-09-08T04:31:12Z) - Symbolic Planning and Multi-Agent Path Finding in Extremely Dense Environments with Movable Obstacles [4.632969733634998]
ブロック再配置問題(BRaP)は、ターゲット状態を達成するために、高密度グリッド内のストレージブロックを並べ替えることである。
共同構成空間探索,古典計画,マルチエージェントパスフィンディング,エキスパート再構成の5つの解法を提案する。
論文 参考訳(メタデータ) (2025-08-31T23:27:27Z) - PuzzleWorld: A Benchmark for Multimodal, Open-Ended Reasoning in Puzzlehunts [47.92619068073141]
我々は、ステップバイステップ、オープンエンド、クリエイティブマルチモーダル推論を評価するために設計された667のパズルハントスタイルの大規模ベンチマークであるPuzzleWorldを紹介した。
ほとんどの最先端モデルでは最終解の精度は1-2%に過ぎず、最高のモデルではパズルの14%しか解けず、ステップワイズ精度は40%に達する。
誤り解析により,現在のモデルは筋力的推論を示し,言語に基づく推論の限界に悩まされ,視覚的および空間的推論に不可欠なスケッチ能力が欠如していることが判明した。
論文 参考訳(メタデータ) (2025-06-06T16:17:09Z) - CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation [53.452699232071495]
そこで我々は,大言語モデル(LLM)とLVLM(Large Vision-Language Model)の推論能力を評価するためのベンチマークであるCrossWordBenchを紹介する。
評価の結果,LLMの推論は,クロスレター制約を効果的に活用することにより,非推論モデルよりも大幅に優れていることがわかった。
本研究は,現在のLLMとLVLMの推論能力の限界を強調し,今後の評価のために,マルチモーダル制約タスクを作成するための効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-03-30T20:03:36Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Learning to Explore with Lagrangians for Bandits under Unknown Linear Constraints [8.784438985280094]
線形制約が未知の多腕バンディットにおける純粋探索として問題を研究する。
まず、制約下での純粋な探索のために、サンプルの複雑さを低く抑えたラグランジアン緩和を提案する。
第二に、ラグランジアンの下界と凸の性質を利用して、トラック・アンド・ストップとガミファイド・エクスプローラー(LATSとLAGEX)の2つの計算効率の良い拡張を提案する。
論文 参考訳(メタデータ) (2024-10-24T15:26:14Z) - Navigating the Labyrinth: Evaluating LLMs' Ability to Reason About Search Problems [62.76627483915117]
大規模言語モデル(LLM)は、最近、数学と推論ベンチマークで印象的なパフォーマンスを達成した。
直感的なパズルにインスパイアされた11のユニークな検索問題を含む新しいベンチマークであるSearchBenchを紹介した。
ステップバイステップで言語のみの推論を用いることで、最も先進的なLLMでさえ、SearchBenchの解決に失敗することを示します。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - An Integer Linear Programming Framework for Mining Constraints from Data [81.60135973848125]
データから制約をマイニングするための一般的なフレームワークを提案する。
特に、構造化された出力予測の推論を整数線形プログラミング(ILP)問題とみなす。
提案手法は,9×9のスドクパズルの解法を学習し,基礎となるルールを提供することなく,例からツリー問題を最小限に分散させることが可能であることを示す。
論文 参考訳(メタデータ) (2020-06-18T20:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。