論文の概要: Something's Fishy In The Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks
- arxiv url: http://arxiv.org/abs/2505.21329v2
- Date: Wed, 28 May 2025 11:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:28.123559
- Title: Something's Fishy In The Data Lake: A Critical Re-evaluation of Table Union Search Benchmarks
- Title(参考訳): データレイクにおける何かの釣り:テーブルユニオン検索ベンチマークの批判的再評価
- Authors: Allaa Boutaleb, Bernd Amann, Hubert Naacke, Rafael Angarita,
- Abstract要約: 近年の表表現学習とデータ発見手法は,データレイク内の表結合探索(TUS)に取り組みつつある。
これらの手法は、実世界のTUSタスクにおける意味的理解を評価するためのベンチマークを用いて、一般的に評価される。
本稿では,セマンティックテーブル統合検索における進捗のより現実的で信頼性の高い評価を可能にするために,将来のベンチマークに不可欠な基準を提案する。
- 参考スコア(独自算出の注目度): 0.9374652839580181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent table representation learning and data discovery methods tackle table union search (TUS) within data lakes, which involves identifying tables that can be unioned with a given query table to enrich its content. These methods are commonly evaluated using benchmarks that aim to assess semantic understanding in real-world TUS tasks. However, our analysis of prominent TUS benchmarks reveals several limitations that allow simple baselines to perform surprisingly well, often outperforming more sophisticated approaches. This suggests that current benchmark scores are heavily influenced by dataset-specific characteristics and fail to effectively isolate the gains from semantic understanding. To address this, we propose essential criteria for future benchmarks to enable a more realistic and reliable evaluation of progress in semantic table union search.
- Abstract(参考訳): 近年のテーブル表現学習とデータ発見手法は,データレイク内のテーブルユニオン検索(TUS)に対処している。
これらの手法は、実世界のTUSタスクにおける意味的理解を評価するためのベンチマークを用いて、一般的に評価される。
しかし、著名なTUSベンチマークの分析では、単純なベースラインが驚くほどよく機能し、しばしばより洗練されたアプローチよりも優れているいくつかの制限が明らかにされている。
これは、現在のベンチマークスコアがデータセット固有の特徴に大きく影響され、セマンティック理解から利益を効果的に分離できないことを示唆している。
そこで本研究では,より現実的で信頼性の高いセマンティックテーブル・ユニオン・サーチの進捗評価を可能にするために,将来のベンチマークに不可欠な基準を提案する。
関連論文リスト
- TARGET: Benchmarking Table Retrieval for Generative Tasks [7.379012456053551]
TARGETは、GEnerative TasksのTAble Retrievalを評価するためのベンチマークである。
我々は、異なる検索者の検索性能と、下流タスクへの影響を分離して分析する。
密着型埋込型検索器はBM25ベースラインよりもはるかに優れており,非構造化テキストの検索よりも効率が低い。
論文 参考訳(メタデータ) (2025-05-14T19:39:46Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Evaluating LLMs on Entity Disambiguation in Tables [0.9786690381850356]
本研究は,Alligator(旧s-elbat),Dagobah,TURL,TableLlamaの4つのSTI SOTAアプローチを広範囲に評価することを提案する。
また, GPT-4o と GPT-4o-mini は, 様々な公開ベンチマークにおいて優れており, 評価に含めている。
論文 参考訳(メタデータ) (2024-08-12T18:01:50Z) - A Closer Look at Deep Learning Methods on Tabular Datasets [52.50778536274327]
タブラルデータは、機械学習のさまざまな領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は最近、有望なパフォーマンスを実証した。
我々は,32種類の最先端の深部・木質の手法を比較し,その平均性能を複数の基準で評価した。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - TabReD: Analyzing Pitfalls and Filling the Gaps in Tabular Deep Learning Benchmarks [30.922069185335246]
典型的産業応用における表型データの2つの共通特性は、通常文献で評価に使用されるデータセットに不足している。
運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。
これは、学術的なデータセットと比較して、予測的、非形式的、相関的な特徴の絶対的および相対的な数に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-06-27T17:55:31Z) - Generative Benchmark Creation for Table Union Search [4.970364068620607]
本稿では、生成モデルを用いて特定の特性を持つテーブルを作成する新しい方法を提案する。
新しいベンチマークは、手作業によるベンチマークよりも、すべてのメソッドで難しいことが示されています。
論文 参考訳(メタデータ) (2023-08-07T19:26:09Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。