Fugu-MT 論文翻訳(概要): RADAR: Benchmarking Language Models on Imperfect Tabular Data

論文の概要: RADAR: Benchmarking Language Models on Imperfect Tabular Data

arxiv url: http://arxiv.org/abs/2506.08249v1
Date: Mon, 09 Jun 2025 21:32:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:40.771067
Title: RADAR: Benchmarking Language Models on Imperfect Tabular Data
Title（参考訳）: RADAR:不完全な語彙データに基づく言語モデルのベンチマーク
Authors: Ken Gu, Zhihan Zhang, Kate Lin, Yuwei Zhang, Akshay Paruchuri, Hong Yu, Mehran Kazemi, Kumar Ayush, A. Ali Heydari, Maxwell A. Xu, Girish Narayanswamy, Yun Liu, Ming-Zher Poh, Yuzhe Yang, Mark Malhotra, Shwetak Patel, Hamid Palangi, Xuhai Xu, Daniel McDuff, Tim Althoff, Xin Liu,
Abstract要約: 言語モデル(LM)は、自律的なデータ分析を行うために、ますますデプロイされている。しかし、データ認識 -- データのアーティファクトを認識し、推論し、適切に処理する能力 -- は、まだ調査されていない。表型データに基づくデータ認識推論を体系的に評価するベンチマークであるRADARを提案する。
参考スコア（独自算出の注目度）: 45.30463441701716
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models (LMs) are increasingly being deployed to perform autonomous data analyses. However, their data awareness -- the ability to recognize, reason over, and appropriately handle data artifacts such as missing values, outliers, and logical inconsistencies -- remains underexplored. These artifacts are especially common in real-world tabular data and, if mishandled, can significantly compromise the validity of analytical conclusions. To address this gap, we present RADAR, a benchmark for systematically evaluating data-aware reasoning on tabular data. We develop a framework to simulate data artifacts via programmatic perturbations to enable targeted evaluation of model behavior. RADAR comprises 2980 table query pairs, grounded in real-world data spanning 9 domains and 5 data artifact types. In addition to evaluating artifact handling, RADAR systematically varies table size to study how reasoning performance holds when increasing table size. Our evaluation reveals that, despite decent performance on tables without data artifacts, frontier models degrade significantly when data artifacts are introduced, exposing critical gaps in their capacity for robust, data-aware analysis. Designed to be flexible and extensible, RADAR supports diverse perturbation types and controllable table sizes, offering a valuable resource for advancing tabular reasoning.
Abstract（参考訳）: 言語モデル(LM)は、自律的なデータ分析を行うために、ますますデプロイされている。しかし、それらのデータ認識 -- 値の欠如、外れ値、論理的不整合などのデータアーティファクトを認識し、推論し、適切に処理する能力 -- は、まだ未解決のままである。これらのアーティファクトは、現実世界の表計算データで特に一般的であり、誤った扱いをすれば、分析的な結論の有効性を著しく損なう可能性がある。このギャップに対処するために、表データに基づくデータ認識推論を体系的に評価するベンチマークであるRADARを提案する。本研究では,データアーチファクトをプログラム的摂動によりシミュレートし,モデル動作のターゲット評価を可能にするフレームワークを開発する。 RADARは2980のテーブルクエリペアで構成され、9つのドメインと5つのデータアーティファクトタイプにまたがる現実世界のデータに基盤を置いている。アーティファクトハンドリングの評価に加えて、RADARはテーブルサイズを体系的に変更し、テーブルサイズを増加させる際の推論性能の保持方法を研究する。データアーチファクトのないテーブル上での優れたパフォーマンスにもかかわらず、データアーティファクトを導入するとフロンティアモデルは大きく劣化し、堅牢でデータ認識分析の能力に重大なギャップが明らかになる。柔軟性と拡張性を持つように設計されたRADARは、様々な摂動タイプと制御可能なテーブルサイズをサポートし、表の推論を前進させるための貴重なリソースを提供する。

関連論文リスト

Dynamic Evaluation for Oversensitivity in LLMs [68.27609301865174]
過敏性は、言語モデルが実際に良性であるプロンプトを防衛的に拒否するときに起こる。この振る舞いはユーザインタラクションを妨害するだけでなく、有害なコンテンツと無害なコンテンツの境界を曖昧にする。既存のベンチマークは、モデルの発展に伴ってオーバータイムを低下させる静的データセットに依存している。
論文参考訳（メタデータ） (2025-10-21T18:33:47Z)
TabINR: An Implicit Neural Representation Framework for Tabular Data Imputation [0.6407815281667869]
本稿では,テーブルをニューラルネットワークとしてモデル化する自動デコーダベースのImplicit Neural RepresentationフレームワークであるTabINRを紹介する。我々は、現実世界の12のデータセットと複数の欠落メカニズムにまたがって、我々のフレームワークを評価した。
論文参考訳（メタデータ） (2025-10-01T17:24:35Z)
SPATA: Systematic Pattern Analysis for Detailed and Transparent Data Cards [4.332839547082766]
本稿では,より詳細かつ透明なデータカードを提供するために,SPATA(Systematic Pattern Analysis)を提案する。 SPATAは各データインスタンスのプロジェクションを離散空間に計算し、データ漏洩のリスクを冒さずに分析し、比較することができる。
論文参考訳（メタデータ） (2025-09-30T17:59:45Z)
The Mighty ToRR: A Benchmark for Table Reasoning and Robustness [45.420943398134845]
ToRRはテーブル推論とロバストネスのベンチマークであり、テーブル関連のタスクにおけるモデル性能とロバストネスを測定している。本稿では,ToRR上での先行モデルの結果を総合的に分析するとともに,リーダーボードを提案する。
論文参考訳（メタデータ） (2025-02-26T18:56:38Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文参考訳（メタデータ） (2024-12-09T08:47:05Z)
Extracting Training Data from Unconditional Diffusion Models [32.18993348942877]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。本研究では,非条件のDPMからトレーニングデータを抽出するために,生成したデータに対する時間依存型トレーニングデータ抽出(SIDE)を代理条件として活用する新しいデータ抽出手法を提案する。
論文参考訳（メタデータ） (2024-10-03T13:17:06Z)
Investigating Imperceptibility of Adversarial Attacks on Tabular Data: An Empirical Analysis [1.6693963355435217]
敵対的攻撃は、機械学習モデルに対する潜在的な脅威である。これらの攻撃は入力データに対する知覚不能な摂動を通じて誤った予測を引き起こす。本研究は、敵攻撃の非受容性を評価するための重要な特徴とそれに対応する指標のセットを提案する。
論文参考訳（メタデータ） (2024-07-16T07:55:25Z)
Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文参考訳（メタデータ） (2024-06-18T16:20:12Z)
SEGAN: semi-supervised learning approach for missing data imputation [12.552699799009037]
本稿では,セミ教師付き学習に基づくデータ補完モデルSEGANを提案する。 SEGANモデルでは、ジェネレータは、欠落したデータ値を予測する際に、既知のデータとそのラベル情報をよりフルに利用することができる。本稿では,SEGANモデルがナッシュ平衡に達すると,実データ分布特性を学習できることを理論的に証明する。
論文参考訳（メタデータ） (2024-05-21T11:42:20Z)
DAGnosis: Localized Identification of Data Inconsistencies using Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文参考訳（メタデータ） (2024-02-26T11:29:16Z)
DeRDaVa: Deletion-Robust Data Valuation for Machine Learning [33.824419874670625]
データアセスメントフレームワークであるDeRDaVaを前もって使用して、予測データ削除後のロバストなモデルパフォーマンスの保存に対する各データソースの貢献を評価することを提案する。 DeRDaVaは効率よく近似でき、削除される可能性の低いデータに高い値を割り当てる。
論文参考訳（メタデータ） (2023-12-18T18:17:51Z)
MissDiff: Training Diffusion Models on Tabular Data with Missing Values [29.894691645801597]
この研究は、欠落した値を持つデータから学習するための統一的で原則化された拡散ベースのフレームワークを示す。まず、広く採用されている「インプット・ザ・ジェネレーション」パイプラインが、バイアスのある学習目標に繋がる可能性があることを観察する。提案手法は,データ分布のスコアの学習に一貫性があることを証明し,提案手法は特定の場合において負の確率の上限として機能する。
論文参考訳（メタデータ） (2023-07-02T03:49:47Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文参考訳（メタデータ） (2020-09-01T15:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。