論文の概要: DecompSR: A dataset for decomposed analyses of compositional multihop spatial reasoning
- arxiv url: http://arxiv.org/abs/2511.02627v1
- Date: Tue, 04 Nov 2025 14:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.084117
- Title: DecompSR: A dataset for decomposed analyses of compositional multihop spatial reasoning
- Title(参考訳): DecompSR: 合成多重ホップ空間推論の分解解析のためのデータセット
- Authors: Lachlan McPheat, Navdeep Kaur, Robert Blackwell, Alessandra Russo, Anthony G. Cohn, Pranava Madhyastha,
- Abstract要約: 合成空間推論能力を解析するためのフレームワークであるDecompSRを紹介する。
DecompSRの生成により、ユーザーは独立して構成性のいくつかの側面、すなわち生産性(推論深度)、置換性(エンタリティと言語的可変性)、過一般化(インプットオーダー、イントラクタ)、体系性(ノーベル言語要素)を変更できる。
DecompSRは、データセットの正確性を保証するために、シンボリック・ソルバを用いて独立に検証された、構築によって正しいように手続き的に構築される。
- 参考スコア(独自算出の注目度): 47.25974222129337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DecompSR, decomposed spatial reasoning, a large benchmark dataset (over 5m datapoints) and generation framework designed to analyse compositional spatial reasoning ability. The generation of DecompSR allows users to independently vary several aspects of compositionality, namely: productivity (reasoning depth), substitutivity (entity and linguistic variability), overgeneralisation (input order, distractors) and systematicity (novel linguistic elements). DecompSR is built procedurally in a manner which makes it is correct by construction, which is independently verified using a symbolic solver to guarantee the correctness of the dataset. DecompSR is comprehensively benchmarked across a host of Large Language Models (LLMs) where we show that LLMs struggle with productive and systematic generalisation in spatial reasoning tasks whereas they are more robust to linguistic variation. DecompSR provides a provably correct and rigorous benchmarking dataset with a novel ability to independently vary the degrees of several key aspects of compositionality, allowing for robust and fine-grained probing of the compositional reasoning abilities of LLMs.
- Abstract(参考訳): 本稿では,DecompSR,分解空間推論,大規模ベンチマークデータセット(500万以上のデータポイント),合成空間推論能力の解析を目的とした生成フレームワークを紹介する。
DecompSRの生成により、ユーザーは独立して構成性のいくつかの側面、すなわち生産性(推論深度)、置換性(エンタリティと言語的可変性)、過一般化(インプットオーダー、イントラクタ)、体系性(ノーベル言語要素)を変更できる。
DecompSRは、データセットの正確性を保証するために、シンボリック・ソルバを用いて独立に検証された、構築によって正しいように手続き的に構築される。
DecompSRは大規模言語モデル(LLM)のホスト間で総合的にベンチマークされており、LLMは空間推論タスクにおいて生産的で体系的な一般化に苦しむ一方で、言語的変動に対してより堅牢であることを示す。
DecompSRは、独創的な構成性のいくつかの重要な側面の度合いを独立に変化させ、LLMの構成的推論能力の堅牢できめ細かな探索を可能にする、証明可能な正確で厳密なベンチマークデータセットを提供する。
関連論文リスト
- CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - Structured Prompting and Feedback-Guided Reasoning with LLMs for Data Interpretation [0.0]
大規模言語モデル(LLM)は、自然言語の理解とタスクの一般化において顕著な能力を示した。
本稿では、構造化されたプロンプトおよびフィードバック駆動型変換ロジック生成手法であるSTROT Frameworkを紹介する。
論文 参考訳(メタデータ) (2025-05-03T00:05:01Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - RAGGED: Towards Informed Design of Scalable and Stable RAG Systems [51.171355532527365]
Retrieval-augmented Generation (RAG)は、外部知識を統合することで言語モデルを強化する。
RAGGEDは、RAGシステムを体系的に評価するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。