論文の概要: LLM-WikiRace: Benchmarking Long-term Planning and Reasoning over Real-World Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2602.16902v1
- Date: Wed, 18 Feb 2026 21:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.417749
- Title: LLM-WikiRace: Benchmarking Long-term Planning and Reasoning over Real-World Knowledge Graphs
- Title(参考訳): LLM-WikiRace: リアルタイム知識グラフによる長期計画と推論のベンチマーク
- Authors: Juliusz Ziomek, William Bankes, Lorenz Wolf, Shyam Sundhar Ramesh, Xiaohang Tang, Ilija Bogunovic,
- Abstract要約: LLM-Wikiraceは、大規模言語モデル(LLM)における計画、推論、世界知識を評価するためのベンチマークである。
我々は,Gemini-3, GPT-5, Claude Opus 4.5など,オープンソースおよびクローズドソースの幅広いモデルを評価する。
我々の分析は、世界知識が成功に必要な要素であることを示しているが、計画と長期の推論能力が支配的な要素となるのは、一点だけである。
- 参考スコア(独自算出の注目度): 15.465732997309182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LLM-Wikirace, a benchmark for evaluating planning, reasoning, and world knowledge in large language models (LLMs). In LLM-Wikirace, models must efficiently navigate Wikipedia hyperlinks step by step to reach a target page from a given source, requiring look-ahead planning and the ability to reason about how concepts are connected in the real world. We evaluate a broad set of open- and closed-source models, including Gemini-3, GPT-5, and Claude Opus 4.5, which achieve the strongest results on the easy level of the task and demonstrate superhuman performance. Despite this, performance drops sharply on hard difficulty: the best-performing model, Gemini-3, succeeds in only 23\% of hard games, highlighting substantial remaining challenges for frontier models. Our analysis shows that world knowledge is a necessary ingredient for success, but only up to a point, beyond this threshold, planning and long-horizon reasoning capabilities become the dominant factors. Trajectory-level analysis further reveals that even the strongest models struggle to replan after failure, frequently entering loops rather than recovering. LLM-Wikirace is a simple benchmark that reveals clear limitations in current reasoning systems, offering an open arena where planning-capable LLMs still have much to prove. Our code and leaderboard available at https:/llmwikirace.github.io.
- Abstract(参考訳): LLM-Wikiraceは,大規模言語モデル(LLM)における計画,推論,世界知識を評価するためのベンチマークである。
LLM-Wikiraceでは、モデルはウィキペディアのハイパーリンクをステップごとに効率的にナビゲートし、特定のソースからターゲットページに到達する必要がある。
我々は,Gemini-3,GPT-5,Claude Opus 4.5などのオープンソースモデルとクローズドソースモデルについて評価し,タスクの容易なレベルにおいて最強の結果が得られ,超人的性能を示す。
最高のパフォーマンスのモデルであるGemini-3は、わずか236%のハードゲームで成功し、フロンティアモデルに残る課題を浮き彫りにした。
我々の分析は、世界知識が成功に欠かせない要素であることを示しているが、このしきい値を超えると、計画と長期的推論能力が支配的な要因となる。
軌道レベルの分析により、最強のモデルでさえ失敗後に計画を立て直すのに苦労し、回復するよりも頻繁にループに入ることが分かる。
LLM-Wikiraceは、現在の推論システムにおける明確な制限を明らかにする単純なベンチマークであり、プランニング可能なLCMがまだ証明すべきことがたくさんあるオープンアリーナを提供する。
私たちのコードとリーダーボードはhttps:/llmwikirace.github.ioで公開されています。
関連論文リスト
- Mixing Expert Knowledge: Bring Human Thoughts Back To the Game of Go [74.28228642327726]
大規模言語モデル (LLM) は数学やコーディングなどの推論タスクにおいて例外的な性能を示した。
LoGosは、優れた一般的な推論能力を維持するだけでなく、自然言語でGoのゲームプレイも行う強力なLLMである。
LoGosは人間のプロプレイヤーに匹敵するパフォーマンスを達成し、既存のLLMをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-23T05:00:49Z) - LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - GAMEBoT: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Graph-enhanced Large Language Models in Asynchronous Plan Reasoning [18.402877904882107]
大規模な言語モデル(LLM)は、ベンチマークAsyncHowのタスク解決プロセスに関するイラストが提供されないと、動作が悪くなります。
そこで我々は,グラフと自然言語のプロンプトを組み合わせ,最先端の結果を得るPlan Like a Graph (PLaG) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T08:26:33Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。