論文の概要: RADAR: Benchmarking Language Models on Imperfect Tabular Data
- arxiv url: http://arxiv.org/abs/2506.08249v1
- Date: Mon, 09 Jun 2025 21:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.771067
- Title: RADAR: Benchmarking Language Models on Imperfect Tabular Data
- Title(参考訳): RADAR:不完全な語彙データに基づく言語モデルのベンチマーク
- Authors: Ken Gu, Zhihan Zhang, Kate Lin, Yuwei Zhang, Akshay Paruchuri, Hong Yu, Mehran Kazemi, Kumar Ayush, A. Ali Heydari, Maxwell A. Xu, Girish Narayanswamy, Yun Liu, Ming-Zher Poh, Yuzhe Yang, Mark Malhotra, Shwetak Patel, Hamid Palangi, Xuhai Xu, Daniel McDuff, Tim Althoff, Xin Liu,
- Abstract要約: 言語モデル(LM)は、自律的なデータ分析を行うために、ますますデプロイされている。
しかし、データ認識 -- データのアーティファクトを認識し、推論し、適切に処理する能力 -- は、まだ調査されていない。
表型データに基づくデータ認識推論を体系的に評価するベンチマークであるRADARを提案する。
- 参考スコア(独自算出の注目度): 45.30463441701716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are increasingly being deployed to perform autonomous data analyses. However, their data awareness -- the ability to recognize, reason over, and appropriately handle data artifacts such as missing values, outliers, and logical inconsistencies -- remains underexplored. These artifacts are especially common in real-world tabular data and, if mishandled, can significantly compromise the validity of analytical conclusions. To address this gap, we present RADAR, a benchmark for systematically evaluating data-aware reasoning on tabular data. We develop a framework to simulate data artifacts via programmatic perturbations to enable targeted evaluation of model behavior. RADAR comprises 2980 table query pairs, grounded in real-world data spanning 9 domains and 5 data artifact types. In addition to evaluating artifact handling, RADAR systematically varies table size to study how reasoning performance holds when increasing table size. Our evaluation reveals that, despite decent performance on tables without data artifacts, frontier models degrade significantly when data artifacts are introduced, exposing critical gaps in their capacity for robust, data-aware analysis. Designed to be flexible and extensible, RADAR supports diverse perturbation types and controllable table sizes, offering a valuable resource for advancing tabular reasoning.
- Abstract(参考訳): 言語モデル(LM)は、自律的なデータ分析を行うために、ますますデプロイされている。
しかし、それらのデータ認識 -- 値の欠如、外れ値、論理的不整合などのデータアーティファクトを認識し、推論し、適切に処理する能力 -- は、まだ未解決のままである。
これらのアーティファクトは、現実世界の表計算データで特に一般的であり、誤った扱いをすれば、分析的な結論の有効性を著しく損なう可能性がある。
このギャップに対処するために、表データに基づくデータ認識推論を体系的に評価するベンチマークであるRADARを提案する。
本研究では,データアーチファクトをプログラム的摂動によりシミュレートし,モデル動作のターゲット評価を可能にするフレームワークを開発する。
RADARは2980のテーブルクエリペアで構成され、9つのドメインと5つのデータアーティファクトタイプにまたがる現実世界のデータに基盤を置いている。
アーティファクトハンドリングの評価に加えて、RADARはテーブルサイズを体系的に変更し、テーブルサイズを増加させる際の推論性能の保持方法を研究する。
データアーチファクトのないテーブル上での優れたパフォーマンスにもかかわらず、データアーティファクトを導入するとフロンティアモデルは大きく劣化し、堅牢でデータ認識分析の能力に重大なギャップが明らかになる。
柔軟性と拡張性を持つように設計されたRADARは、様々な摂動タイプと制御可能なテーブルサイズをサポートし、表の推論を前進させるための貴重なリソースを提供する。
関連論文リスト
- The Mighty ToRR: A Benchmark for Table Reasoning and Robustness [45.420943398134845]
ToRRはテーブル推論とロバストネスのベンチマークであり、テーブル関連のタスクにおけるモデル性能とロバストネスを測定している。
本稿では,ToRR上での先行モデルの結果を総合的に分析するとともに,リーダーボードを提案する。
論文 参考訳(メタデータ) (2025-02-26T18:56:38Z) - DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。
本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文 参考訳(メタデータ) (2024-12-09T08:47:05Z) - Extracting Training Data from Unconditional Diffusion Models [32.18993348942877]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
本研究では,非条件のDPMからトレーニングデータを抽出するために,生成したデータに対する時間依存型トレーニングデータ抽出(SIDE)を代理条件として活用する新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Investigating Imperceptibility of Adversarial Attacks on Tabular Data: An Empirical Analysis [1.6693963355435217]
敵対的攻撃は、機械学習モデルに対する潜在的な脅威である。
これらの攻撃は入力データに対する知覚不能な摂動を通じて誤った予測を引き起こす。
本研究は、敵攻撃の非受容性を評価するための重要な特徴とそれに対応する指標のセットを提案する。
論文 参考訳(メタデータ) (2024-07-16T07:55:25Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。