論文の概要: CSQL: Mapping Documents into Causal Databases
- arxiv url: http://arxiv.org/abs/2601.08109v1
- Date: Tue, 13 Jan 2026 01:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.99899
- Title: CSQL: Mapping Documents into Causal Databases
- Title(参考訳): CSQL: ドキュメントを因果データベースにマッピングする
- Authors: Sridhar Mahadevan,
- Abstract要約: 構造化されていない文書の集合を因果データベース(CDB)に自動的に変換する新しいシステムCについて述べる。
CDBは従来のDBと異なり、因果的介入や構造化因果的クエリを通じて「なぜ」質問に答えるように設計されています。
これは、文書を因果談話から派生した何千もの局所因果関係モデルに変換するシステムです。
- 参考スコア(独自算出の注目度): 1.3295383263113112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe a novel system, CSQL, which automatically converts a collection of unstructured text documents into an SQL-queryable causal database (CDB). A CDB differs from a traditional DB: it is designed to answer "why'' questions via causal interventions and structured causal queries. CSQL builds on our earlier system, DEMOCRITUS, which converts documents into thousands of local causal models derived from causal discourse. Unlike RAG-based systems or knowledge-graph based approaches, CSQL supports causal analysis over document collections rather than purely associative retrieval. For example, given an article on the origins of human bipedal walking, CSQL enables queries such as: "What are the strongest causal influences on bipedalism?'' or "Which variables act as causal hubs with the largest downstream influence?'' Beyond single-document case studies, we show that CSQL can also ingest RAG/IE-compiled causal corpora at scale by compiling the Testing Causal Claims (TCC) dataset of economics papers into a causal database containing 265,656 claim instances spanning 45,319 papers, 44 years, and 1,575 reported method strings, thereby enabling corpus-level causal queries and longitudinal analyses in CSQL. Viewed abstractly, CSQL functions as a compiler from unstructured documents into a causal database equipped with a principled algebra of queries, and can be applied broadly across many domains ranging from business, humanities, and science.
- Abstract(参考訳): 構造化されていない文書の集合をSQLクエリー可能な因果データベース(CDB)に自動的に変換する新しいシステムであるCSQLについて述べる。
CDBは従来のDBとは違っている。因果的介入や構造化因果的クエリを通じて「なぜ」質問に答えられるように設計されている。CSQLは、私たちの以前のシステムであるDEMOCRITUSを基盤として、文書を因果的談話から派生した何千もの局所因果的モデルに変換する。RAGベースのシステムや知識グラフベースのアプローチとは異なり、CSQLは純粋に連想的検索ではなく、文書コレクションに対する因果的解析をサポートする。例えば、人間の二足歩行の起源についての記事では、CSQLは「二足歩行に最も強い因果的影響があるか?」や「ホワイト変数は、下流の最も大きな影響のある因果的ハブとして機能するのか?」といったクエリを可能とし、CSQLが1,456(Chech variables)のケースを1,455(Check variable)のケースで分析し、CSQLが1,65(Chech variables)のケースを1,65(Chech variables)のケースにまとめる。
抽象的に見れば、CSQLは、構造化されていないドキュメントからクエリの原理的な代数を備えた因果データベースへのコンパイラとして機能し、ビジネス、人文、科学など、多くの領域で広く適用することができる。
関連論文リスト
- LogicCat: A Chain-of-Thought Text-to-SQL Benchmark for Complex Reasoning [12.249447967086828]
LogicCatは、複雑な推論とチェーン・オブ・ソート解析のために特別に設計された最初のText-to-senseベンチマークデータセットである。
LogicCatは現在の最先端モデルのタスク難易度を33.20%に向上させる。
論文 参考訳(メタデータ) (2025-05-24T15:23:43Z) - Datrics Text2SQL: A Framework for Natural Language to SQL Query Generation [0.0]
本稿では,構造化ドキュメンテーション,サンプルベース学習,ドメイン固有のルールを活用することで,正確なsqlクエリを生成するためのRAG(Retrieval-Augmented Generation)ベースのフレームワークを提案する。
アーキテクチャ、トレーニング方法論、検索ロジックについて詳述し、システムがどのようにユーザ意図とデータベース構造の間のギャップを、専門知識を必要とせずに埋めるかを強調した。
論文 参考訳(メタデータ) (2025-04-03T21:09:59Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - dIR -- Discrete Information Retrieval: Conversational Search over
Unstructured (and Structured) Data with Large Language Models [0.16060477887377675]
本稿では,自由テキストと構造化知識の両方を問う統一インターフェースとして,dIR,disrete Information Retrievalを提案する。
我々は、独自の質問/回答データセットを用いて、我々のアプローチを検証し、dIRがフリーテキスト上で全く新しいクエリーのクラスを作成できると結論付けた。
論文 参考訳(メタデータ) (2023-12-20T18:41:44Z) - DocuT5: Seq2seq SQL Generation with Table Documentation [5.586191108738563]
我々は、新しいテキスト・ツー・タコノミーの失敗分類を開発し、19.6%のエラーが外国の重大な誤りによるものであることを発見した。
本研究では,(1)外部キーの表構造コンテキストから知識を抽出するDocuT5を提案する。
どちらのタイプの知識も、スパイダー上の制約付き復号化によって最先端のT5よりも改善され、ドメイン知識はスパイダーDKやスパイダーSYNのデータセットで最先端に匹敵する効果を生み出す。
論文 参考訳(メタデータ) (2022-11-11T13:31:55Z) - Uni-Parser: Unified Semantic Parser for Question Answering on Knowledge
Base and Database [86.03294330305097]
知識ベース(KB)とデータベース(DB)の両方で質問応答(QA)を統一した意味的要素を提案する。
フレームワークに不可欠な要素としてプリミティブ(KBのリレーションとエンティティ、テーブル名、列名、DBのセル値)を導入します。
生成元を利用して、異なる操作でトップランクプリミティブを変更・構成することで、最終的な論理形式を予測する。
論文 参考訳(メタデータ) (2022-11-09T19:33:27Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - DoWhy-GCM: An extension of DoWhy for causal inference in graphical causal models [12.20295988020833]
我々は、DoWhy Pythonライブラリの拡張であるDoWhy-GCMを紹介する。
DoWhy-GCMは、外れ値の根本原因を特定するなど、さまざまな因果クエリに対処する。
ユーザは典型的に因果関係を因果グラフで指定し、因果関係を適合させ、因果関係を判断する。
論文 参考訳(メタデータ) (2022-06-14T13:13:19Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。