論文の概要: Oh That Looks Familiar: A Novel Similarity Measure for Spreadsheet Template Discovery
- arxiv url: http://arxiv.org/abs/2511.06973v1
- Date: Mon, 10 Nov 2025 11:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.213903
- Title: Oh That Looks Familiar: A Novel Similarity Measure for Spreadsheet Template Discovery
- Title(参考訳): 親しみやすい、スプレッドシートのテンプレート発見のための新しい類似度尺度
- Authors: Ananad Krishnakumar, Vengadesh Ravikumaran,
- Abstract要約: 本稿では,セマンティックな埋め込み,データ型情報,空間的位置決めを組み合わせたハイブリッド距離測定手法を提案する。
本手法では, スプレッドシートをセルレベルの埋め込みに変換し, チャムファーやハウスドルフ距離などの集約手法を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional methods for identifying structurally similar spreadsheets fail to capture the spatial layouts and type patterns defining templates. To quantify spreadsheet similarity, we introduce a hybrid distance metric that combines semantic embeddings, data type information, and spatial positioning. In order to calculate spreadsheet similarity, our method converts spreadsheets into cell-level embeddings and then uses aggregation techniques like Chamfer and Hausdorff distances. Experiments across template families demonstrate superior unsupervised clustering performance compared to the graph-based Mondrian baseline, achieving perfect template reconstruction (Adjusted Rand Index of 1.00 versus 0.90) on the FUSTE dataset. Our approach facilitates large-scale automated template discovery, which in turn enables downstream applications such as retrieval-augmented generation over tabular collections, model training, and bulk data cleaning.
- Abstract(参考訳): 構造的に類似したスプレッドシートを識別する従来の方法は、空間レイアウトやテンプレートを定義する型パターンをキャプチャできない。
本研究では,スプレッドシートの類似性を定量化するために,セマンティック埋め込み,データ型情報,空間的位置決めを組み合わせたハイブリッド距離測定手法を提案する。
本手法では,スプレッドシートの類似性を計算するために,スプレッドシートをセルレベルの埋め込みに変換し,シャンファーやハウスドルフ距離などの集約手法を用いる。
テンプレートファミリ間での実験は、グラフベースのMondrianベースラインよりも優れた教師なしクラスタリング性能を示し、FUSTEデータセット上で完全なテンプレート再構成(Adjusted Rand Index:1.00 vs 0.90)を達成する。
提案手法は大規模自動テンプレート発見を容易にするため,グラフコレクション上の検索拡張生成やモデルトレーニング,バルクデータクリーニングなどの下流アプリケーションを実現する。
関連論文リスト
- SheetDesigner: MLLM-Powered Spreadsheet Layout Generation with Rule-Based and Vision-Based Reflection [26.315814679351988]
SheetDesignerは、コンポーネント配置とコンテンツ人口に対するルールとビジョンの反映を組み合わせたゼロショットフレームワークである。
視覚のモダリティによって、MLLMは重なり合いとバランスをうまく扱うが、アライメントに苦しむ。
論文 参考訳(メタデータ) (2025-09-09T07:51:38Z) - Spatial Information Integration in Small Language Models for Document Layout Generation and Classification [0.0]
文書レイアウト理解は、文書内の情報の空間的配置を分析して、その構造とレイアウトを理解する研究分野である。
半構造化データは日常的な生活(バランスシート、購入注文、レシート)では一般的だが、この種のドキュメントのために機械学習モデルをトレーニングするための公開データセットが不足している。
本稿では,このデータ不足を克服する上で有効な,新しい,合成されたレイアウト情報を生成する手法を提案する。
論文 参考訳(メタデータ) (2025-01-09T17:20:00Z) - TabDiff: a Mixed-type Diffusion Model for Tabular Data Generation [91.50296404732902]
グラフデータの混合型分布を1つのモデルでモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - ClusterTabNet: Supervised clustering method for table detection and table structure recognition [0.0]
文書中の単語をクラスタリングする深層学習に基づく新しい手法を提案する。
表構造ボトムアップを一対の単語間の関係グラフとして解釈し、変圧器エンコーダモデルを用いてその隣接行列を予測する。
DETRやFaster R-CNNのような現在の最先端検出手法と比較して,本手法は比較的小さなモデルを必要とするが,類似性や精度が向上する。
論文 参考訳(メタデータ) (2024-02-12T09:10:24Z) - A Use Case-Engineering Resources Taxonomy for Analytical Spreadsheet
Models [0.0]
本稿では,解析的スプレッドシートモデルのための分類法を提案する。
スプレッドシートが機能することを意図したユースケースと、その開発に費やされるエンジニアリングリソースの両方を考慮する。
論文 参考訳(メタデータ) (2023-08-31T19:49:30Z) - SpreadsheetCoder: Formula Prediction from Semi-structured Context [70.41579328458116]
行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
論文 参考訳(メタデータ) (2021-06-26T11:26:27Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。