論文の概要: ModelTables: A Corpus of Tables about Models
- arxiv url: http://arxiv.org/abs/2512.16106v1
- Date: Thu, 18 Dec 2025 02:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.889455
- Title: ModelTables: A Corpus of Tables about Models
- Title(参考訳): ModelTables: モデルに関するテーブルのコーパス
- Authors: Zhengyuan Dong, Victor Zhong, Renée J. Miller,
- Abstract要約: 本稿では、Model LakesにおけるテーブルのベンチマークであるModelTablesを紹介し、パフォーマンスと構成の構造化セマンティクスをキャプチャする。
オープンデータレイクテーブルと比較して、モデルテーブルは小さく、テーブル間の関係を示す。
本稿では,テーブル検索であるベンチマークの広範なユースケースについて述べる。
- 参考スコア(独自算出の注目度): 7.843042548609869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ModelTables, a benchmark of tables in Model Lakes that captures the structured semantics of performance and configuration tables often overlooked by text only retrieval. The corpus is built from Hugging Face model cards, GitHub READMEs, and referenced papers, linking each table to its surrounding model and publication context. Compared with open data lake tables, model tables are smaller yet exhibit denser inter table relationships, reflecting tightly coupled model and benchmark evolution. The current release covers over 60K models and 90K tables. To evaluate model and table relatedness, we construct a multi source ground truth using three complementary signals: (1) paper citation links, (2) explicit model card links and inheritance, and (3) shared training datasets. We present one extensive empirical use case for the benchmark which is table search. We compare canonical Data Lake search operators (unionable, joinable, keyword) and Information Retrieval baselines (dense, sparse, hybrid retrieval) on this benchmark. Union based semantic table retrieval attains 54.8 % P@1 overall (54.6 % on citation, 31.3 % on inheritance, 30.6 % on shared dataset signals); table based dense retrieval reaches 66.5 % P@1, and metadata hybrid retrieval achieves 54.1 %. This evaluation indicates clear room for developing better table search methods. By releasing ModelTables and its creation protocol, we provide the first large scale benchmark of structured data describing AI model. Our use case of table discovery in Model Lakes, provides intuition and evidence for developing more accurate semantic retrieval, structured comparison, and principled organization of structured model knowledge. Source code, data, and other artifacts have been made available at https://github.com/RJMillerLab/ModelTables.
- Abstract(参考訳): 提案するModelTablesは,テキストのみの検索によってしばしば見過ごされるパフォーマンスと構成テーブルの構造的セマンティクスをキャプチャする,Model Lakesのテーブルのベンチマークである。
コーパスはHugging Faceモデルカード、GitHub READMEs、および参照論文から構築され、各テーブルをその周辺モデルとパブリッシュコンテキストにリンクする。
オープンなデータレイクテーブルと比較して、モデルテーブルはより小さく、テーブル間の関係がより密に表現され、密結合したモデルとベンチマークの進化を反映している。
現在のリリースは60Kモデルと90Kテーブルをカバーしている。
モデルと表の関係性を評価するために,(1)論文引用リンク,(2)明示的なモデルカードリンクと継承,(3)共有学習データセットの3つの相補的な信号を用いて,多元的真実を構築する。
本稿では,テーブル検索であるベンチマークの広範なユースケースについて述べる。
本ベンチマークでは,標準データレイク探索演算子 (unionable, joinable, keyword) と Information Retrieval ベースライン (dense, sparse, hybrid search) を比較した。
ユニオンベースのセマンティックテーブル検索は、全体54.8 % P@1(引用では54.6 %、継承では31.3 %、共有データセット信号では30.6 %)、テーブルベースの高密度検索は66.5 % P@1、メタデータハイブリッド検索は54.1 %に達する。
この評価は、より良いテーブル探索法を開発するための明確な余地を示す。
ModelTablesとその生成プロトコルをリリースすることにより、AIモデルを記述する構造化データの最初の大規模ベンチマークを提供する。
モデルレイクスにおける表発見のユースケースは、より正確な意味検索、構造化比較、構造化モデル知識の体系化のための直観と証拠を提供する。
ソースコード、データ、その他のアーティファクトはhttps://github.com/RJMillerLab/ModelTables.comで公開されている。
関連論文リスト
- LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes [30.760442756183505]
データレイク上のデータ発見のためのニューラルネットワークタブモデルであるTabFMを提案する。
我々は、結合可能、結合可能、およびサブセットテーブルペアを特定するための事前訓練されたモデルを微調整する。
その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-28T17:28:53Z) - LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Model Joins: Enabling Analytics Over Joins of Absent Big Tables [9.797488793708624]
この作業では、これらの課題に対処するフレームワーク、Model Joinが紹介されている。
フレームワークは、欠席したテーブルのテーブルごとのモデルを統合して結合する。
近似はモデルに由来するが、Model Joinフレームワークに由来するものではない。
論文 参考訳(メタデータ) (2022-06-21T14:28:24Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - GitTables: A Large-Scale Corpus of Relational Tables [3.1218214157681277]
GitHubから抽出された100万のリレーショナルテーブルのコーパスであるGitTablesを紹介します。
GitTablesの分析によると、その構造、コンテンツ、トピックのカバレッジは既存のテーブルコーパスと大きく異なる。
我々はGitTablesの3つのアプリケーションを紹介し、学習したセマンティック型検出モデル、補完方法、テーブル-ツー-KGマッチング、データ検索、準備のためのベンチマークについてその価値を示す。
論文 参考訳(メタデータ) (2021-06-14T09:22:09Z) - AutoRC: Improving BERT Based Relation Classification Models via
Architecture Search [50.349407334562045]
BERTに基づく関係分類(RC)モデルは、従来のディープラーニングモデルよりも大幅に改善されている。
最適なアーキテクチャとは何かという合意は得られない。
BERTをベースとしたRCモデルのための包括的検索空間を設計し、設計選択を自動的に検出するためにNAS(Neural Architecture Search)手法を用いる。
論文 参考訳(メタデータ) (2020-09-22T16:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。