論文の概要: DW-Bench: Benchmarking LLMs on Data Warehouse Graph Topology Reasoning
- arxiv url: http://arxiv.org/abs/2604.18964v1
- Date: Tue, 21 Apr 2026 01:28:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.564569
- Title: DW-Bench: Benchmarking LLMs on Data Warehouse Graph Topology Reasoning
- Title(参考訳): DW-Bench: データウェアハウスグラフトポロジ推論におけるLLMのベンチマーク
- Authors: Ahmed G. A. H Ahmed, C. Okan Sakar,
- Abstract要約: 本稿では,データウェアハウススキーマに対するグラフトポロジー推論において,大規模言語モデル(LLM)を評価する新しいベンチマークであるDW-Benchを紹介する。
ベンチマークは、自動的に生成され、5つのスキーマで確実に正しい質問を含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces DW-Bench, a new benchmark that evaluates large language models (LLMs) on graph-topology reasoning over data warehouse schemas, explicitly integrating both foreign-key (FK) and data-lineage edges. The benchmark comprises 1,046 automatically generated, verifiably correct questions across five schemas. Experiments show that tool-augmented methods substantially outperform static approaches but plateau on hard compositional subtypes.
- Abstract(参考訳): 本稿では,データウェアハウススキーマ上のグラフトポロジ推論における大規模言語モデル(LLM)の評価を行うベンチマークであるDW-Benchを紹介し,外部キー(FK)とデータリニアジエッジの両方を明示的に統合する。
ベンチマークは、自動的に生成され、5つのスキーマで確実に正しい質問を含む。
実験により, ツール拡張法は静的アプローチよりもかなり優れているが, ハードコンポジションサブタイプではプラトーが優れていることがわかった。
関連論文リスト
- SO-Bench: A Structural Output Evaluation of Multimodal LLMs [43.74273224757814]
マルチモーダルな大規模言語モデル (MLLM) は、現実のエージェント的な設定でますます多くデプロイされている。
テキスト領域における構造化生成の最近の進歩にもかかわらず、スキーマ基底情報抽出と視覚的入力に対する推論を体系的に評価するベンチマークはいまだ存在しない。
我々は、慎重に設計されたSO-Benchベンチマークを用いて、MLLMの視覚構造出力能力を総合的に研究する。
論文 参考訳(メタデータ) (2025-11-23T16:53:16Z) - DAG-Math: Graph-Guided Mathematical Reasoning in LLMs [54.231935013127206]
大型言語モデル (LLM) は, CoT (Chain-of-Thought) による数学的問題に対して高い性能を示す
我々は、有向非巡回グラフ(DAG)上の一定の規則に基づくプロセスとしてCoTをモデル化することを提案する。
ここでは,モデルのCoT軌道がDAG構造にどの程度よく依存するかを定量化する計量である論理的近接性を導入する。
論文 参考訳(メタデータ) (2025-10-19T21:05:17Z) - Limited Reference, Reliable Generation: A Two-Component Framework for Tabular Data Generation in Low-Data Regimes [7.036974567001374]
ReFineは、ドメイン固有の機能の配布に向けて生成をガイドするフレームワークである。
様々な回帰と分類のベンチマークの実験では、ReFineは最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-12T04:34:46Z) - Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks [3.3705400036304205]
セマンティックドリフト(Semantic drift)は、データとガバナンスを妥協し、テキストからRAGまでのサービスの有用性を損なう。
本稿では,多言語エンタープライズパイプラインスクリプトから細粒度スキーマを自動抽出するフレームワークを提案する。
結果:単一推論トレースを使用した32Bオープンソースモデルは、標準プロンプトの下でGPTシリーズに匹敵するパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-08-10T05:04:32Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - RDB2G-Bench: A Comprehensive Benchmark for Automatic Graph Modeling of Relational Databases [34.357399264742526]
グラフモデリング手法を評価するための最初のベンチマークフレームワークであるRDB2G-Benchを紹介する。
本研究では,12タスクにおけるRDB-to-graph自動モデリング手法を,オンザフライ評価より約380倍高速にベンチマークする。
データセットとベンチマークの結果から,グラフモデルの有効性に影響を及ぼす重要な構造パターンが明らかになった。
論文 参考訳(メタデータ) (2025-06-02T06:34:10Z) - REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文 参考訳(メタデータ) (2025-02-17T22:10:47Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - 4DBInfer: A 4D Benchmarking Toolbox for Graph-Centric Predictive Modeling on Relational DBs [67.47600679176963]
RDBは、相互接続されたテーブルにまたがる膨大な量のリッチで情報的なデータを格納する。
予測機械学習モデルの進歩は、コンピュータビジョンや自然言語処理といった他の領域の進歩に遅れをとっている。
マルチテーブルデータセットをグラフに変換することを前提としたベースラインモデルのクラスを探索する。
大規模RDBデータセットと (ii) 同時予測タスクの多様なコレクションを組み立てる。
論文 参考訳(メタデータ) (2024-04-28T15:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。