論文の概要: LogiPlan: A Structured Benchmark for Logical Planning and Relational Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2506.10527v1
- Date: Thu, 12 Jun 2025 09:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.675821
- Title: LogiPlan: A Structured Benchmark for Logical Planning and Relational Reasoning in LLMs
- Title(参考訳): LogiPlan: LLMにおける論理計画と関係推論のための構造化ベンチマーク
- Authors: Yanan Cai, Ahmed Salem, Besmira Nushi, Mark Russinovich,
- Abstract要約: LogiPlanは、大規模言語モデル(LLM)の論理的計画と複雑なリレーショナル構造に対する推論能力を評価するために設計されたベンチマークである。
我々はDeepSeek R1, Gemini 2.0 Pro, Gemini 2 Flash Thinking, GPT-4.5, GPT-4o, Llama 3.1 405B, O3-mini, O1, Claude 3.7 Sonnetを3つのタスクで評価した。
- 参考スコア(独自算出の注目度): 7.012555483275226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce LogiPlan, a novel benchmark designed to evaluate the capabilities of large language models (LLMs) in logical planning and reasoning over complex relational structures. Logical relational reasoning is important for applications that may rely on LLMs to generate and query structured graphs of relations such as network infrastructure, knowledge bases, or business process schema. Our framework allows for dynamic variation of task complexity by controlling the number of objects, relations, and the minimum depth of relational chains, providing a fine-grained assessment of model performance across difficulty levels. LogiPlan encompasses three complementary tasks: (1) Plan Generation, where models must construct valid directed relational graphs meeting specified structural constraints; (2) Consistency Detection, testing models' ability to identify inconsistencies in relational structures; and (3) Comparison Question, evaluating models' capacity to determine the validity of queried relationships within a given graph. Additionally, we assess models' self-correction capabilities by prompting them to verify and refine their initial solutions. We evaluate state-of-the-art models including DeepSeek R1, Gemini 2.0 Pro, Gemini 2 Flash Thinking, GPT-4.5, GPT-4o, Llama 3.1 405B, O3-mini, O1, and Claude 3.7 Sonnet across these tasks, revealing significant performance gaps that correlate with model scale and architecture. Our analysis demonstrates that while recent reasoning-enhanced models show promising results on simpler instances, they struggle with more complex configurations requiring deeper logical planning.
- Abstract(参考訳): 複雑な関係構造に対する論理的計画と推論において,大規模言語モデル(LLM)の機能を評価するために設計された新しいベンチマークであるLogiPlanを紹介する。
論理リレーショナル推論は、ネットワークインフラストラクチャやナレッジベース、ビジネスプロセススキーマといった関係の構造化グラフの生成とクエリにLLMに依存するアプリケーションにとって重要である。
我々のフレームワークは、オブジェクトの数、関係性、および関係鎖の最小深さを制御し、課題の複雑さの動的変動を可能にし、難易度をまたいだモデル性能のきめ細かい評価を提供する。
ロジプランは,(1)特定の構造制約を満たす有意な有向関係グラフをモデルが構築しなければならない計画生成,(2)整合性検出,(2)関係構造の不整合を識別するモデルの能力,(3)所定のグラフ内の問い合わせ関係の妥当性を判断するモデルの能力を評価するための比較質問を含む,3つの補完的なタスクを包含する。
さらに、モデルの自己補正能力を評価し、初期解の検証と改善を促す。
我々は,DeepSeek R1, Gemini 2.0 Pro, Gemini 2 Flash Thinking, GPT-4.5, GPT-4o, Llama 3.1 405B, O3-mini, O1, Claude 3.7 Sonnetといった最先端モデルを評価し,モデルスケールとアーキテクチャに相関する大幅な性能差を明らかにした。
我々の分析は、最近の推論強化モデルはより単純なインスタンスに対して有望な結果を示すが、より複雑な構成ではより深い論理的計画を必要とすることを示している。
関連論文リスト
- Beyond Natural Language Plans: Structure-Aware Planning for Query-Focused Table Summarization [21.1381898110636]
本稿では,従来のマルチエージェントシステムにおけるフォーマリズムにインスパイアされた新しい構造化プランTaSoFと,3段階の推論プロセスを形式化するフレームワークSPaGeを紹介する。
3つの公開ベンチマークの実験では、SPaGeはシングルテーブルとマルチテーブルの両方で、従来モデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-30T16:42:19Z) - Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation [72.44384066166147]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、多様な領域にわたる複雑な問題を扱うための強力なソリューションとして登場した。
既存のアプローチは、事前に定義されたエージェントセットとハードコードされた相互作用構造を持つテンプレートグラフ修正パラダイムに依存しているため、基本的に制限されている。
協調グラフをスクラッチから構築することで、このパラダイムを運用する新しい自己回帰モデルであるARG-Designerを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:17:41Z) - Beyond Model Base Selection: Weaving Knowledge to Master Fine-grained Neural Network Design [20.31388126105889]
M-DESIGN(M-DESIGN)は、ニューラルネットワークの洗練を習得するためのモデル知識ベース(MKB)パイプラインである。
まず,タスクメタデータに対する適応的なクエリ問題としてモデル修正を再構成する知識織りエンジンを提案する。
ユーザのタスククエリが与えられた場合、M-DESIGNは、グラフ関係の知識スキーマを利用して、候補モデルをすばやくマッチングし、反復的に洗練する。
論文 参考訳(メタデータ) (2025-07-21T07:49:19Z) - A Pre-training Framework for Relational Data with Information-theoretic Principles [57.93973948947743]
本稿では,リレーショナルグラフ上の集合に基づくアグリゲーションを通じて,監視信号を構成する新しい事前学習フレームワークであるTask Vector Estimation (TVE)を紹介する。
TVEは従来のトレーニング前のベースラインを一貫して上回っている。
本研究は,関係データベース上での予測モデルの設計原則として,タスクの不均一性と時間構造を符号化する事前学習目的を提唱する。
論文 参考訳(メタデータ) (2025-07-14T00:17:21Z) - PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - Relational Deep Learning: Challenges, Foundations and Next-Generation Architectures [50.46688111973999]
グラフ機械学習は、任意のグラフ構造化データで学習するモデルの能力を大幅に向上させた。
従来の工学的特徴を伴わない'関係エンティティグラフ'のエンドツーエンド表現を可能にする新しい青写真を提案する。
本稿では、大規模マルチテーブル統合や、時間力学と異種データのモデリングの複雑さなど、重要な課題について論じる。
論文 参考訳(メタデータ) (2025-06-19T23:51:38Z) - Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。
エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。
実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文 参考訳(メタデータ) (2025-06-03T04:19:47Z) - DSR-Bench: Evaluating the Structural Reasoning Abilities of LLMs via Data Structures [20.596558700597644]
大規模言語モデル(LLM)は、データ操作を基本とする現実世界のタスクに対して、ますます多くデプロイされている。
中心となる要件は、構造的推論(つまり、データ関係を理解し、推論する)を実行する能力である。
データ構造を通してLLMの構造的推論能力を評価する新しいベンチマークであるDSR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T23:24:53Z) - KG-QAGen: A Knowledge-Graph-Based Framework for Systematic Question Generation and Long-Context LLM Evaluation [3.618621510356872]
KG-QAGenは、複数の複雑性レベルでQAペアを抽出するフレームワークである。
20,139のQAペアのデータセットを構築し、その一部をオープンソース化する。
我々は、13のプロプライエタリかつオープンソースのLCMを評価し、最高の性能のモデルでさえ、セットベース比較に苦戦していることを観察する。
論文 参考訳(メタデータ) (2025-05-18T16:46:39Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [57.66267515456075]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキスト表現を通して推論される。
自己生成概念図の複数の連鎖を通してLMMを推論できるゼロショット完全自動フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。