論文の概要: Can LLMs Reason Structurally? An Evaluation via the Lens of Data Structures
- arxiv url: http://arxiv.org/abs/2505.24069v2
- Date: Tue, 14 Oct 2025 01:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 14:23:56.761608
- Title: Can LLMs Reason Structurally? An Evaluation via the Lens of Data Structures
- Title(参考訳): LLMの構造的推論は可能か? : データ構造レンズによる評価
- Authors: Yu He, Yingxi Li, Colin White, Ellen Vitercik,
- Abstract要約: DSR-Benchは,大規模言語モデルの構造的推論を体系的に評価する最初のベンチマークである。
ベンチマークは、20のデータ構造、35の操作、および、最小限の汚染で合成生成された4,140の問題インスタンスにまたがる。
- 参考スコア(独自算出の注目度): 21.390740746718947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) take on increasingly complex tasks, understanding their algorithmic reasoning abilities has become essential. However, existing evaluations focus on distinct and isolated tasks. We propose a unified diagnostic lens: structural reasoning--understanding and manipulating relationships like order, hierarchy, and connectivity. We introduce DSR-Bench, the first benchmark to systematically evaluate LLM structural reasoning through canonical data structures, which serve as interpretable, algorithmically meaningful abstractions. DSR-Bench spans 20 data structures, 35 operations, and 4,140 synthetically generated problem instances with minimal contamination. The benchmark's hierarchical design pinpoints specific failure modes, while its fully automated evaluation ensures objective and consistent assessment. Benchmarking ten state-of-the-art LLMs reveals critical limitations: the top-performing model scores only 0.498 out of 1 on challenging instances. Three additional evaluation suites reveal further weaknesses: models perform poorly on spatial data and natural language scenarios, and fail to reason over their own generated code. DSR-Bench offers a principled diagnostic tool for structural reasoning, helping expose reasoning bottlenecks and guide the development of more capable and reliable LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます複雑なタスクをこなすにつれ、アルゴリズムによる推論能力の理解が不可欠になっている。
しかし、既存の評価は独立したタスクに重点を置いている。
本稿では,構造的推論と,順序,階層,接続性といった関係の理解と操作を行う統合診断レンズを提案する。
DSR-Benchは、標準データ構造を通してLLMの構造的推論を体系的に評価する最初のベンチマークであり、解釈可能でアルゴリズム的に意味のある抽象化として機能する。
DSR-Benchは、20のデータ構造、35の操作、および、最小限の汚染を伴う4140の合成生成問題インスタンスにまたがる。
ベンチマークの階層的な設計は、特定の障害モードをピンポイントし、完全に自動化された評価は、客観的かつ一貫した評価を保証する。
最先端の10のLCMのベンチマークでは、致命的な制限が明らかになっている。
モデルでは空間データや自然言語のシナリオではパフォーマンスが悪く、独自の生成されたコードに対する推論に失敗する。
DSR-Benchは、構造的推論のための原則化された診断ツールを提供し、推論ボトルネックを明らかにし、より有能で信頼性の高いLCMの開発を支援する。
関連論文リスト
- Unmasking Reasoning Processes: A Process-aware Benchmark for Evaluating Structural Mathematical Reasoning in LLMs [20.82580343824728]
最近の大規模言語モデル (LLM) は、多くの確立された数学的推論ベンチマークにおいて、ほぼ飽和の精度を達成している。
この飽和はテンプレートベースの計算と浅い算術分解の優位性に起因している。
本稿ではReasoningMath-Plusについて紹介する。
論文 参考訳(メタデータ) (2026-01-31T07:09:17Z) - Pushing LLMs to Their Logical Reasoning Bound: The Role of Data Reasoning Intensity [59.27594125465172]
データ推論強度 (Data Reasoning Intensity, DRI) は, サンプルの潜在論理的推論複雑性を定量化する新しい指標である。
次に、学習データの論理的推論強度を体系的に強化する再認識最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-09-29T14:20:04Z) - CoRe: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks [14.408364047538578]
大規模言語モデル(LLM)は、ソフトウェア工学の様々な領域で広く採用されている。
この研究は、基本的な静的解析タスク上でのLCMを評価するために設計されたベンチマークであるCOREを提示する。
論文 参考訳(メタデータ) (2025-07-03T01:35:58Z) - StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。
既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。
インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-16T10:54:31Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Structured Prompting and Feedback-Guided Reasoning with LLMs for Data Interpretation [0.0]
大規模言語モデル(LLM)は、自然言語の理解とタスクの一般化において顕著な能力を示した。
本稿では、構造化されたプロンプトおよびフィードバック駆動型変換ロジック生成手法であるSTROT Frameworkを紹介する。
論文 参考訳(メタデータ) (2025-05-03T00:05:01Z) - HiBench: Benchmarking LLMs Capability on Hierarchical Structure Reasoning [25.088407009353162]
構造推論のための既存のベンチマークは主に水平構造と座標構造に焦点を当てている。
HiBenchは、最初の構造生成から最終的な熟練度評価まで、最初のフレームワークである。
30のタスクで構成され、総クエリ数は39,519である。
論文 参考訳(メタデータ) (2025-03-02T14:25:37Z) - FRIDA to the Rescue! Analyzing Synthetic Data Effectiveness in Object-Based Common Sense Reasoning for Disaster Response [19.744969357182665]
フィールド推論および命令復号化エージェント(FRIDA)モデルを作成するためのデータセットとパイプラインを導入する。
私たちのパイプラインでは、ドメインの専門家と言語学者が知識を組み合わせて、高品質な数発のプロンプトを作ります。
我々は、いくつかの小さな命令チューニングモデルを微調整し、改善されたFRIDAモデルは、オブジェクトの物理的状態と関数データに基づいてのみ訓練されていることを発見した。
論文 参考訳(メタデータ) (2025-02-25T18:51:06Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data [9.390415313514762]
TARGAは、手動のアノテーションなしで高関連性合成データを生成するフレームワークである。
これは、クローズソースモデルを使用する既存の非微調整手法よりも大幅に優れている。
非I.I.D.設定下では、優れたサンプル効率、堅牢性、一般化能力を示す。
論文 参考訳(メタデータ) (2024-12-27T09:16:39Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。
複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。
大規模な実験により,提案システムの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-18T05:30:33Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。