論文の概要: Format-Constraint Coupling in Knowledge Graph Construction from Statistical Tables
- arxiv url: http://arxiv.org/abs/2605.21974v1
- Date: Thu, 21 May 2026 04:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.086568
- Title: Format-Constraint Coupling in Knowledge Graph Construction from Statistical Tables
- Title(参考訳): 統計表を用いた知識グラフ構築におけるフォーマット制約結合
- Authors: Jingxuan Qi, Zhiqiang Ye, Yuxiang Feng,
- Abstract要約: オープンデータポータルの共通レイアウトである,国ごとの時系列行列について検討する。
それらの結合効果は、最大+1.180 (2x2因子、6つのデータセット)の独立効果の和を超える。
ブートストラップ95%CIは4/6データセットに対して厳格に陽性であり、幅広いType-II行列に強い証拠がある。
- 参考スコア(独自算出の注目度): 2.1795865731681903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An extraction schema should not reduce knowledge graph fidelity. On statistical CSV, however, it can. We study country-by-year time-series matrices, a common layout on open-data portals. In this setting, serialization format and schema constraints interact super-additively. Their joint effect exceeds the sum of independent effects by up to +1.180 (2x2 factorial, 6 datasets). Bootstrap 95% CIs are strictly positive on 4/6 datasets, with strongest evidence on wide Type-II matrices. More critically, a schema applied to a mismatched format can trigger catastrophic mismatch. Fact coverage falls below the unconstrained baseline on 4/6 datasets through entity inflation or extraction refusal. We call this observed pattern format-constraint coupling. Probing and token ablation support a surface-form anchoring explanation centred on column-name references. Controlled variants across format-schema pairings, GraphRAG hosts, and LLM families show the same direction within the measured scope; one LLM family shows only partial activation. The observation also has a diagnostic consequence. Three standard retrieval modes largely mask construction quality (delta <= 1pp), whereas direct graph access exposes gaps up to +47.6pp (p < 0.0001). To support fidelity-aware evaluation, we release CSVFidelity-Bench. It contains 15 datasets, 11 Type-II matrices, 4 Type-III tables, and 1,892 Gold Standard facts across 6 domains.
- Abstract(参考訳): 抽出スキーマは知識グラフの忠実度を低下させてはいけない。
しかし、統計的なCSVでは可能である。
オープンデータポータルの共通レイアウトである,国ごとの時系列行列について検討する。
この設定では、シリアライズフォーマットとスキーマ制約がスーパーアダプティブに相互作用する。
それらの結合効果は、最大+1.180 (2x2因子、6つのデータセット)の独立効果の和を超える。
Bootstrap 95% CIsは4/6データセットに対して厳格に陽性であり、Type-IIの広い行列に強い証拠がある。
さらに重要なことに、ミスマッチしたフォーマットに適用されたスキーマは、破滅的なミスマッチを引き起こす可能性がある。
ファクトカバレッジは、エンティティインフレーションや抽出拒否を通じて、4/6データセットの制約のないベースラインを下回る。
これを観測されたパターン形式-制約結合と呼ぶ。
プローブとトークンのアブレーションは、カラム名参照を中心にした表面形状のアンカーの説明をサポートする。
フォーマットスキーマペアリング、GraphRAGホスト、LLMファミリー間で制御された変異は、測定範囲内で同じ方向を示す。
観察結果も診断に有用である。
3つの標準検索モードは構成品質(デルタ <= 1pp)をマスクするが、直接グラフアクセスは+47.6pp(p < 0.0001)までギャップを露呈する。
CSVFidelity-Bench の評価を支援するために,CSVFidelity-Bench をリリースする。
15のデータセット、11のType-II行列、4のType-IIIテーブル、および6つのドメインにわたる1,892のゴールドスタンダード事実を含んでいる。
関連論文リスト
- Lying Is Just a Phase: The Hidden Alignment Transition in Language Model Scaling [0.0]
16家系の63塩基モデルにおける推論と真理の結合度を測定した。
我々は、家族依存の臨界スケール(N_c$)以下の損失曲線を目に見えない体制変化を発見し、その上、彼らは協力する。
論文 参考訳(メタデータ) (2026-05-13T03:14:09Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - Covariate-assisted graph matching [1.4466802614938332]
そこで我々は,シードと呼ばれるノードの集合の部分的アライメントが知られている2つの新しいグラフマッチング法を提案する。
本手法の有効性は,数値実験および統計学系譜と協調ネットワークのマッチングへの応用を通じて実証された。
論文 参考訳(メタデータ) (2025-12-12T18:12:56Z) - IVGAE: Handling Incomplete Heterogeneous Data with a Variational Graph Autoencoder [4.935498694293104]
非完全不均一データの堅牢な計算のための変分グラフオートエンコーダである textbfIVGAE を提案する。
IVGAEは、サンプル-機能関係を表す二部グラフを構築し、グラフ表現学習を構造的依存関係のモデル化に適用する。
16の実世界のデータセットの実験によると、IVGAEは、MCAR、MAR、MNARの欠落シナリオに対して、RMSEと下流F1の一貫性のある改善を実現している。
論文 参考訳(メタデータ) (2025-11-27T05:14:50Z) - Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization [69.29207684569695]
CoT推論は多モーダル大言語モデル(MLLM)の解釈可能性と問題解決能力を大幅に向上させる
既存のアプローチはテキストCoTに重点を置いており、視覚的手がかりを活用する能力を制限する。
本稿では、優先最適化による画像レベルのCoT推論のための新しいフレームワークであるUnsupervised Visual CoT (UV-CoT)を紹介する。
論文 参考訳(メタデータ) (2025-04-25T14:48:18Z) - DeCaFlow: A deconfounding causal generative model [48.86777554649186]
本稿では,分解因果生成モデルであるDeCaFlowを紹介する。
DeCaFlowの単一インスタンスがdo-calculusで識別可能なすべての因果クエリに対して正しい推定値を提供することを示す。
多様な設定に関する実証的な結果は、DeCaFlowが既存のアプローチよりも優れており、任意の因果グラフに適用可能であることを示している。
論文 参考訳(メタデータ) (2025-03-19T11:14:16Z) - Scalable Incomplete Multi-View Clustering with Structure Alignment [71.62781659121092]
本稿では,新しいアンカーグラフ学習フレームワークを提案する。
ビュー固有のアンカーグラフを構築し、異なるビューから補完情報をキャプチャする。
提案したSIMVC-SAの時間と空間の複雑さはサンプル数と線形に相関していることが証明された。
論文 参考訳(メタデータ) (2023-08-31T08:30:26Z) - Data-Driven Subgroup Identification for Linear Regression [15.709279037284054]
本稿では,データ内のサブグループを特徴量とラベルの均一な線形関係で識別するDDGroupを提案する。
DDGroupは低分散の1つの線形モデルを適切に特定した領域を復元する。
実験の結果、DDGroupはデータセット全体にパラメトリックなアプローチを適用するだけで見逃される定性的に異なる関係を持つサブグループを発見できることがわかった。
論文 参考訳(メタデータ) (2023-04-29T08:32:09Z) - Variational Estimators of the Degree-corrected Latent Block Model for Bipartite Networks [1.0923877073891446]
列および列クラスタの様々な度合いを考慮に入れた次数補正潜在ブロックモデル(DC-LBM)を提案する。
我々は,Mステップにおけるパラメータ推定のための閉形式解を作成することにより,効率的な変動予測-最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-16T22:04:53Z) - Align then Fusion: Generalized Large-scale Multi-view Clustering with
Anchor Matching Correspondences [53.09276639185084]
マルチビューアンカーグラフクラスタリングは、完全なペアワイド類似性を避けるために代表アンカーを選択する。
既存のアプローチでは、ビューをまたいだアンカーセット間の正しい対応を確立するのに十分な注意を払わない。
論文 参考訳(メタデータ) (2022-05-30T13:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。