論文の概要: Evaluating Latent Knowledge of Public Tabular Datasets in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.20351v1
- Date: Thu, 23 Oct 2025 08:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.635961
- Title: Evaluating Latent Knowledge of Public Tabular Datasets in Large Language Models
- Title(参考訳): 大規模言語モデルにおける公用語データセットの潜在知識の評価
- Authors: Matteo Silvestri, Flavio Giorgi, Fabrizio Silvestri, Gabriele Tolomei,
- Abstract要約: 大規模言語モデル(LLM)は、構造化データに対する推論能力について、ますます評価されている。
本研究では,強い意味的手がかりを含むデータセットにのみ,汚染効果が現れることを示す。
LLMの明らかな能力は、部分的には真の一般化ではなく、一般に利用可能なデータセットの記憶を反映している可能性がある。
- 参考スコア(独自算出の注目度): 11.991760171708796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly evaluated on their ability to reason over structured data, yet such assessments often overlook a crucial confound: dataset contamination. In this work, we investigate whether LLMs exhibit prior knowledge of widely used tabular benchmarks such as Adult Income, Titanic, and others. Through a series of controlled probing experiments, we reveal that contamination effects emerge exclusively for datasets containing strong semantic cues-for instance, meaningful column names or interpretable value categories. In contrast, when such cues are removed or randomized, performance sharply declines to near-random levels. These findings suggest that LLMs' apparent competence on tabular reasoning tasks may, in part, reflect memorization of publicly available datasets rather than genuine generalization. We discuss implications for evaluation protocols and propose strategies to disentangle semantic leakage from authentic reasoning ability in future LLM assessments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、構造化されたデータを推論する能力について、ますます評価されている。
本研究では, LLMがアダルト所得, タイタニックなど, 広く利用されている表型ベンチマークの事前知識を示すかどうかを検討する。
一連の制御された探索実験を通して、強い意味的手がかり、意味的列名、解釈可能な値カテゴリを含むデータセットに対して、汚染効果が出現することを明らかにする。
対照的に、そのようなキューを除去またはランダム化した場合、パフォーマンスは、ほぼランダムなレベルに急激に低下する。
これらの結果から,LLMが表型推論タスクに明らかに有能であることは,真の一般化ではなく,一般に公開されているデータセットの記憶を反映していることが示唆された。
評価プロトコルの意義について議論し,今後のLCM評価において,真の推論能力から意味漏洩を解消するための戦略を提案する。
関連論文リスト
- Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.282770819829913]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Discovering and Reasoning of Causality in the Hidden World with Large Language Models [109.62442253177376]
我々はCausal representatiOn AssistanT(COAT)と呼ばれる新しいフレームワークを開発し、因果発見に有用な測定変数を提案する。
大規模言語モデル (LLM) と因果関係を直接推論する代わりに、COAT は中間因果発見結果から LLM へのフィードバックを構築し、提案した変数を洗練させる。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。