論文の概要: Evaluating Latent Knowledge of Public Tabular Datasets in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.20351v1
- Date: Thu, 23 Oct 2025 08:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.635961
- Title: Evaluating Latent Knowledge of Public Tabular Datasets in Large Language Models
- Title(参考訳): 大規模言語モデルにおける公用語データセットの潜在知識の評価
- Authors: Matteo Silvestri, Flavio Giorgi, Fabrizio Silvestri, Gabriele Tolomei,
- Abstract要約: 大規模言語モデル(LLM)は、構造化データに対する推論能力について、ますます評価されている。
本研究では,強い意味的手がかりを含むデータセットにのみ,汚染効果が現れることを示す。
LLMの明らかな能力は、部分的には真の一般化ではなく、一般に利用可能なデータセットの記憶を反映している可能性がある。
- 参考スコア(独自算出の注目度): 11.991760171708796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly evaluated on their ability to reason over structured data, yet such assessments often overlook a crucial confound: dataset contamination. In this work, we investigate whether LLMs exhibit prior knowledge of widely used tabular benchmarks such as Adult Income, Titanic, and others. Through a series of controlled probing experiments, we reveal that contamination effects emerge exclusively for datasets containing strong semantic cues-for instance, meaningful column names or interpretable value categories. In contrast, when such cues are removed or randomized, performance sharply declines to near-random levels. These findings suggest that LLMs' apparent competence on tabular reasoning tasks may, in part, reflect memorization of publicly available datasets rather than genuine generalization. We discuss implications for evaluation protocols and propose strategies to disentangle semantic leakage from authentic reasoning ability in future LLM assessments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、構造化されたデータを推論する能力について、ますます評価されている。
本研究では, LLMがアダルト所得, タイタニックなど, 広く利用されている表型ベンチマークの事前知識を示すかどうかを検討する。
一連の制御された探索実験を通して、強い意味的手がかり、意味的列名、解釈可能な値カテゴリを含むデータセットに対して、汚染効果が出現することを明らかにする。
対照的に、そのようなキューを除去またはランダム化した場合、パフォーマンスは、ほぼランダムなレベルに急激に低下する。
これらの結果から,LLMが表型推論タスクに明らかに有能であることは,真の一般化ではなく,一般に公開されているデータセットの記憶を反映していることが示唆された。
評価プロトコルの意義について議論し,今後のLCM評価において,真の推論能力から意味漏洩を解消するための戦略を提案する。
関連論文リスト
- Mitigating Hidden Confounding by Progressive Confounder Imputation via Large Language Models [46.92706900119399]
大規模言語モデル (LLMs) を用いた隠れコンファウンディングの軽減に向けた最初の試みを行う。
本稿では,LLMのセマンティック知識と世界知識を利用して,隠れた共同創設者を反復的に生成し,指示し,検証するフレームワークであるProCIを提案する。
大規模な実験により、ProCIは有意義な共同設立者を明らかにし、治療効果の推定を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-06-26T03:49:13Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Does Data Contamination Detection Work (Well) for LLMs? A Survey and Evaluation on Detection Assumptions [20.51842378080194]
大規模言語モデル(LLM)は、様々なベンチマークで優れた性能を示し、汎用的なタスクソルバとしての可能性を示している。
LLMは典型的には大量のデータに基づいて訓練されるため、その評価において重要な関心事はデータ汚染である。
データ汚染検出に関する50の論文を体系的にレビューし、基礎となる仮定を分類し、厳格に検証されたかどうかを評価する。
論文 参考訳(メタデータ) (2024-10-24T17:58:22Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning [20.066249913943405]
大きな言語モデル(LLM)は驚くべき推論機能を示しているが、エラーの影響を受けやすい。
種々のシナリオにおいて,LLMの時間的推論能力を評価するために特別に設計された新しい合成データセットを提案する。
本研究は, 時間的推論作業におけるLLMの強度と弱点について, 貴重な知見を提供するものである。
論文 参考訳(メタデータ) (2024-06-13T14:31:19Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.282770819829913]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Discovering and Reasoning of Causality in the Hidden World with Large Language Models [109.62442253177376]
我々はCausal representatiOn AssistanT(COAT)と呼ばれる新しいフレームワークを開発し、因果発見に有用な測定変数を提案する。
大規模言語モデル (LLM) と因果関係を直接推論する代わりに、COAT は中間因果発見結果から LLM へのフィードバックを構築し、提案した変数を洗練させる。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Memorization vs. Generalization: Quantifying Data Leakage in NLP
Performance Evaluation [4.98030422694461]
自然言語処理(NLP)における多くのタスクに対する最先端手法の有効性と一般化性を評価するために、パブリックデータセットがしばしば使用される。
列車とテストデータセットの重複の存在は、インフレーションされた結果をもたらし、モデルを記憶し、それを一般化する能力として解釈するモデルの能力を不注意に評価する。
我々は、NLPタスクの評価に使用される複数の公開データセットの試験データにトレーニングデータの漏洩を識別し、その漏洩がモデルを記憶または一般化する能力に与える影響を評価する。
論文 参考訳(メタデータ) (2021-02-03T00:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。