論文の概要: LogiPlan: A Structured Benchmark for Logical Planning and Relational Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2506.10527v1
- Date: Thu, 12 Jun 2025 09:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.675821
- Title: LogiPlan: A Structured Benchmark for Logical Planning and Relational Reasoning in LLMs
- Title(参考訳): LogiPlan: LLMにおける論理計画と関係推論のための構造化ベンチマーク
- Authors: Yanan Cai, Ahmed Salem, Besmira Nushi, Mark Russinovich,
- Abstract要約: LogiPlanは、大規模言語モデル(LLM)の論理的計画と複雑なリレーショナル構造に対する推論能力を評価するために設計されたベンチマークである。
我々はDeepSeek R1, Gemini 2.0 Pro, Gemini 2 Flash Thinking, GPT-4.5, GPT-4o, Llama 3.1 405B, O3-mini, O1, Claude 3.7 Sonnetを3つのタスクで評価した。
- 参考スコア(独自算出の注目度): 7.012555483275226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce LogiPlan, a novel benchmark designed to evaluate the capabilities of large language models (LLMs) in logical planning and reasoning over complex relational structures. Logical relational reasoning is important for applications that may rely on LLMs to generate and query structured graphs of relations such as network infrastructure, knowledge bases, or business process schema. Our framework allows for dynamic variation of task complexity by controlling the number of objects, relations, and the minimum depth of relational chains, providing a fine-grained assessment of model performance across difficulty levels. LogiPlan encompasses three complementary tasks: (1) Plan Generation, where models must construct valid directed relational graphs meeting specified structural constraints; (2) Consistency Detection, testing models' ability to identify inconsistencies in relational structures; and (3) Comparison Question, evaluating models' capacity to determine the validity of queried relationships within a given graph. Additionally, we assess models' self-correction capabilities by prompting them to verify and refine their initial solutions. We evaluate state-of-the-art models including DeepSeek R1, Gemini 2.0 Pro, Gemini 2 Flash Thinking, GPT-4.5, GPT-4o, Llama 3.1 405B, O3-mini, O1, and Claude 3.7 Sonnet across these tasks, revealing significant performance gaps that correlate with model scale and architecture. Our analysis demonstrates that while recent reasoning-enhanced models show promising results on simpler instances, they struggle with more complex configurations requiring deeper logical planning.
- Abstract(参考訳): 複雑な関係構造に対する論理的計画と推論において,大規模言語モデル(LLM)の機能を評価するために設計された新しいベンチマークであるLogiPlanを紹介する。
論理リレーショナル推論は、ネットワークインフラストラクチャやナレッジベース、ビジネスプロセススキーマといった関係の構造化グラフの生成とクエリにLLMに依存するアプリケーションにとって重要である。
我々のフレームワークは、オブジェクトの数、関係性、および関係鎖の最小深さを制御し、課題の複雑さの動的変動を可能にし、難易度をまたいだモデル性能のきめ細かい評価を提供する。
ロジプランは,(1)特定の構造制約を満たす有意な有向関係グラフをモデルが構築しなければならない計画生成,(2)整合性検出,(2)関係構造の不整合を識別するモデルの能力,(3)所定のグラフ内の問い合わせ関係の妥当性を判断するモデルの能力を評価するための比較質問を含む,3つの補完的なタスクを包含する。
さらに、モデルの自己補正能力を評価し、初期解の検証と改善を促す。
我々は,DeepSeek R1, Gemini 2.0 Pro, Gemini 2 Flash Thinking, GPT-4.5, GPT-4o, Llama 3.1 405B, O3-mini, O1, Claude 3.7 Sonnetといった最先端モデルを評価し,モデルスケールとアーキテクチャに相関する大幅な性能差を明らかにした。
我々の分析は、最近の推論強化モデルはより単純なインスタンスに対して有望な結果を示すが、より複雑な構成ではより深い論理的計画を必要とすることを示している。
関連論文リスト
- Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。
エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。
実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文 参考訳(メタデータ) (2025-06-03T04:19:47Z) - DSR-Bench: Evaluating the Structural Reasoning Abilities of LLMs via Data Structures [20.596558700597644]
大規模言語モデル(LLM)は、データ操作を基本とする現実世界のタスクに対して、ますます多くデプロイされている。
中心となる要件は、構造的推論(つまり、データ関係を理解し、推論する)を実行する能力である。
データ構造を通してLLMの構造的推論能力を評価する新しいベンチマークであるDSR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - KG-QAGen: A Knowledge-Graph-Based Framework for Systematic Question Generation and Long-Context LLM Evaluation [3.618621510356872]
KG-QAGenは、複数の複雑性レベルでQAペアを抽出するフレームワークである。
20,139のQAペアのデータセットを構築し、その一部をオープンソース化する。
我々は、13のプロプライエタリかつオープンソースのLCMを評価し、最高の性能のモデルでさえ、セットベース比較に苦戦していることを観察する。
論文 参考訳(メタデータ) (2025-05-18T16:46:39Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [57.66267515456075]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキスト表現を通して推論される。
自己生成概念図の複数の連鎖を通してLMMを推論できるゼロショット完全自動フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。