論文の概要: Tab-MIA: A Benchmark Dataset for Membership Inference Attacks on Tabular Data in LLMs
- arxiv url: http://arxiv.org/abs/2507.17259v1
- Date: Wed, 23 Jul 2025 06:56:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.89039
- Title: Tab-MIA: A Benchmark Dataset for Membership Inference Attacks on Tabular Data in LLMs
- Title(参考訳): Tab-MIA: LLMにおける語彙データに対するメンバーシップ推論攻撃のベンチマークデータセット
- Authors: Eyal German, Sagiv Antebi, Daniel Samira, Asaf Shabtai, Yuval Elovici,
- Abstract要約: 大規模言語モデルにおける構造化データ上でMIAを評価するためのベンチマークデータセットであるTab-MIAを提案する。
ウィキペディア表から抽出した構造化データに基づいて,事前学習したLLMの記憶挙動を解析した。
- 参考スコア(独自算出の注目度): 24.312198733476063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly trained on tabular data, which, unlike unstructured text, often contains personally identifiable information (PII) in a highly structured and explicit format. As a result, privacy risks arise, since sensitive records can be inadvertently retained by the model and exposed through data extraction or membership inference attacks (MIAs). While existing MIA methods primarily target textual content, their efficacy and threat implications may differ when applied to structured data, due to its limited content, diverse data types, unique value distributions, and column-level semantics. In this paper, we present Tab-MIA, a benchmark dataset for evaluating MIAs on tabular data in LLMs and demonstrate how it can be used. Tab-MIA comprises five data collections, each represented in six different encoding formats. Using our Tab-MIA benchmark, we conduct the first evaluation of state-of-the-art MIA methods on LLMs finetuned with tabular data across multiple encoding formats. In the evaluation, we analyze the memorization behavior of pretrained LLMs on structured data derived from Wikipedia tables. Our findings show that LLMs memorize tabular data in ways that vary across encoding formats, making them susceptible to extraction via MIAs. Even when fine-tuned for as few as three epochs, models exhibit high vulnerability, with AUROC scores approaching 90% in most cases. Tab-MIA enables systematic evaluation of these risks and provides a foundation for developing privacy-preserving methods for tabular data in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、構造化されていないテキストとは異なり、高度に構造化され明示的なフォーマットで個人識別可能な情報(PII)を含む、表形式のデータでますます訓練されている。
その結果、機密レコードはモデルによって不注意に保持され、データ抽出またはメンバーシップ推論攻撃(MIA)によって露出されるため、プライバシのリスクが発生する。
既存のMIAメソッドは主にテキストコンテンツを対象としているが、制限された内容、多様なデータ型、ユニークな値分布、列レベルのセマンティクスにより、構造化データに適用された場合、その有効性と脅威含意は異なる可能性がある。
本稿では,LLMにおける表データ上でMIAを評価するためのベンチマークデータセットであるTab-MIAについて述べる。
Tab-MIAは5つのデータコレクションで構成され、それぞれが6つの異なるエンコーディングフォーマットで表現される。
われわれはTab-MIAベンチマークを用いて,複数のエンコーディングフォーマットにまたがる表形式のデータを微調整したLLM上で,最先端MIA法の最初の評価を行う。
本評価では,ウィキペディア表から抽出した構造化データに基づいて,事前学習したLLMの記憶挙動を解析した。
以上の結果から,LLMはエンコーディング形式によって異なる方法で表形式のデータを記憶し,MIAによる抽出に感受性があることが示唆された。
3つのエポックを微調整しても、モデルは高い脆弱性を示し、ほとんどの場合、AUROCスコアは90%に近づいた。
Tab-MIAはこれらのリスクを体系的に評価し、LCMにおける表データのプライバシー保護手法を開発する基盤を提供する。
関連論文リスト
- Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models [15.603556124006479]
拡張性のあるTabICLのための検索拡張言語モデルを提案する。
提案手法では,LLMのための検索誘導型命令チューニングと合わせて,検索モジュールをカスタマイズする。
これにより、LLMはより大きなデータセットを効果的に活用することができ、69の広く認識されているデータセット間での大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-02-05T13:16:41Z) - Tag&Tab: Pretraining Data Detection in Large Language Models Using Keyword-Based Membership Inference Attack [26.083244046813512]
大規模言語モデル(LLM)はデジタルタスク支援ツールとして欠かせないものとなっている。
LLMにおける事前学習データの検出に関する最近の研究は、主に文レベルまたは段落レベルのメンバシップ推論攻撃に焦点を当てている。
LLMプレトレーニングの一部として使用されているデータを検出する新しい手法であるTag&Tabを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:55:37Z) - Self-Comparison for Dataset-Level Membership Inference in Large (Vision-)Language Models [73.94175015918059]
本稿では,自己比較に基づくデータセットレベルのメンバシップ推定手法を提案する。
本手法では, 同一分布における地中構造データや非構造データへのアクセスは不要である。
論文 参考訳(メタデータ) (2024-10-16T23:05:59Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - HARMONIC: Harnessing LLMs for Tabular Data Synthesis and Privacy Protection [44.225151701532454]
本稿では,表データ生成と評価のための新しいフレームワークHARMONICを提案する。
本フレームワークは, 既存の手法と同等の性能を向上し, また, 合成データの有効性とプライバシーリスクを評価するための評価枠組みを実証する。
論文 参考訳(メタデータ) (2024-08-06T03:21:13Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Elephants Never Forget: Testing Language Models for Memorization of
Tabular Data [21.912611415307644]
大規模言語モデル (LLM) は様々なタスクに適用できるが、データ汚染と記憶の重大な問題はしばしば誇張される。
本稿では, 条件分布モデリングの統計的テストや, 暗記を識別する4つのテストなど, 汚染度を評価するための様々な手法を紹介する。
論文 参考訳(メタデータ) (2024-03-11T12:07:13Z) - Rethinking Pre-Training in Tabular Data: A Neighborhood Embedding Perspective [71.45945607871715]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
中心となる考え方は、データインスタンスを共有機能空間に埋め込むことで、各インスタンスは、近隣の固定数とそのラベルまでの距離で表現される。
101データセットの大規模な実験は、微調整の有無にかかわらず、分類タスクと回帰タスクの両方においてTabPTMの有効性を確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。