論文の概要: LLM-Cave: A benchmark and light environment for large language models reasoning and decision-making system
- arxiv url: http://arxiv.org/abs/2511.22598v1
- Date: Thu, 27 Nov 2025 16:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.64542
- Title: LLM-Cave: A benchmark and light environment for large language models reasoning and decision-making system
- Title(参考訳): LLM-Cave:大規模言語モデル推論と意思決定システムのためのベンチマークと軽量環境
- Authors: Huanyu Li, Zongyuan Li, Wei Huang, Xian Guo,
- Abstract要約: LLM推論および意思決定システムのためのベンチマークおよび光環境であるLLM-Caveを紹介する。
実験では,主要な大言語モデルの逐次的推論能力,意思決定性能,計算効率を評価した。
- 参考スコア(独自算出の注目度): 5.875252014518446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) such as ChatGPT o1, ChatGPT o3, and DeepSeek R1 have shown great potential in solving difficult problems. However, current LLM evaluation benchmarks are limited to one-step interactions. Some of the existing sequence decision-making environments, such as TextStarCraftII and LLM-PySC2, are too complicated and require hours of interaction to complete a game. In this paper, we introduce LLM-Cave, a benchmark and light environment for LLM reasoning and decision-making systems. This environment is a classic instance in the era of Symbolism. Artificial intelligence enables the agent to explore the environment and avoid potential losses by reasoning about nearby dangers using partial observable state information. In the experiment, we evaluated the sequential reasoning ability, decision-making performance and computational efficiency of mainstream large language models (LLMs) such as GPT-4o-mini, o1-mini, and DeepSeek-R1. Experiments show that while Deepseek-R1 achieved the highest success rate on complex reasoning tasks, smaller models like 4o-mini significantly narrowed the performance gap on challenges by employing Chain of Speculation and Planner-Critic strategies, at the expense of reduced computational efficiency. This indicates that structured, multi-step reasoning combined with an LLM-based feedback mechanism can substantially enhance an LLM's decision-making capabilities, providing a promising direction for improving reasoning in weaker models and suggesting a new reasoning-centered benchmark for LLM assessment. Our code is open-sourced in https://github.com/puleya1277/CaveEnv.
- Abstract(参考訳): ChatGPT o1、ChatGPT o3、DeepSeek R1のような大きな言語モデル(LLM)は、難しい問題を解決する大きな可能性を示している。
しかし、現在のLLM評価ベンチマークは1段階の相互作用に限られている。
TextStarCraftII や LLM-PySC2 のような既存のシーケンス決定環境は複雑すぎるため、ゲームを完成させるには数時間のインタラクションが必要になる。
本稿では,LLM推論と意思決定システムのためのベンチマークと光環境であるLLM-Caveを紹介する。
この環境は象徴主義の時代における古典的な例である。
人工知能により、エージェントは、部分的に観測可能な状態情報を使用して、近くの危険について推論することで、環境を探索し、潜在的な損失を避けることができる。
実験では, GPT-4o-mini, o1-mini, DeepSeek-R1などの主要言語モデルの逐次推論能力, 意思決定性能, 計算効率を評価した。
実験の結果、Deepseek-R1は複雑な推論タスクで最高の成功率を達成したが、4o-miniのような小さなモデルでは計算効率の低下を犠牲にして、仮説とプランナー・クリティカルの戦略を採用することで、課題におけるパフォーマンスギャップを著しく狭めた。
このことは、LLMに基づくフィードバック機構と組み合わされた構造化多段階推論が、LLMの意思決定能力を大幅に向上させ、弱いモデルの推論を改善するための有望な方向を与え、LLM評価のための新たな推論中心ベンチマークを提案することを示唆している。
私たちのコードはhttps://github.com/puleya1277/CaveEnv.comでオープンソース化されています。
関連論文リスト
- Can Reasoning Models Reason about Hardware? An Agentic HLS Perspective [18.791753740931185]
OpenAI o3-mini と DeepSeek-R1 は Chain-of-Thought (CoT) を通じて推論を強化している
本稿では, LLM の推論が高レベル合成(HLS)設計空間探索と最適化の課題に対処できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-17T01:21:39Z) - From System 1 to System 2: A Survey of Reasoning Large Language Models [72.87412996793957]
基礎的な大規模言語モデルは、迅速な意思決定では優れているが、複雑な推論には深みがない。
OpenAIのo1/o3とDeepSeekのR1は、数学やコーディングといった分野のエキスパートレベルのパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-02-24T18:50:52Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Large Language Models Think Too Fast To Explore Effectively [0.0]
LLM(Large Language Models)は、多くの知的能力を持つ言語である。
本研究では,オープンエンドタスクにおいて,LLMが人間を超えることができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-01-29T21:51:17Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。